Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Inteligencia artificial In te lig en ci a A rt ifi ci al Minería de datos In te lig en ci a A rt ifi ci al Contenido Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de datos In te lig en ci a A rt ifi ci al Generación de datos In te lig en ci a A rt ifi ci al Negocios Compañía telefónica Tarjetas Débito/Crédito Préstamos (Banco) Correo Educación Compras-Ventas Producción Generación de datos In te lig en ci a A rt ifi ci al El caos de datos Muchas empresas tienen un gran volumen de datos acumulado históricamente. Se estima que el volumen de datos se duplica cada año. La rapidez y el volumen en la generación de datos se incrementa exponencialmente haciendo difícil su uso racional. Existen diversas aplicaciones con modelos de datos propios, pero falta un modelo de datos integrado. In te lig en ci a A rt ifi ci al El caos de datos Causas: Las personas no entienden los datos que poseen. Alta redundancia de datos. Desarrollo de sistemas de información independientes para resolver necesidades urgentes. Datos heterogéneos (SMBD, SO, plataformas HW). Falta de METADATOS en las empresas. Ausencia de un modelo de datos común. In te lig en ci a A rt ifi ci al El caos de datos Adicional a esto se tiene: Incremento en capacidad de almacenamiento ⇒ registro histórico en línea (de años o meses). Incremento en capacidad de procesamiento de computadores ⇒ posibilidad de procesamiento del registro histórico. Detener la generación de datos heterogéneos y crear un recurso de datos integrado que cumpla los requerimientos actuales y futuros de información de la empresa. In te lig en ci a A rt ifi ci al El gran reto Este recurso de datos integrado es denominado BODEGA DE DATOS o Datawarehouse. Un Data Warehouse (DW) es un almacén de información integrada, proveniente de sistemas de información transaccionales, con el objetivo de proveer datos para el análisis y la toma de decisiones. Un DW provee los datos para los Data Marts que corresponden a divisiones de una empresa. In te lig en ci a A rt ifi ci al El gran reto In te lig en ci a A rt ifi ci al Crecimiento exponencial Libros en bibliotecas (red): 17 millones Espacio por libro: 1 Mega Espacio requerido: 17 terabytes Tamaño de la base de datos de UPS para registro de envíos: 17 terabytes In te lig en ci a A rt ifi ci al Crecimiento exponencial Elemento 1950 2000 % crecim. Población 16 millones 42 millones 2.8 Velocidad terrerste 100 millas/hr 400 millas/hr 4 Distancia 25000 millas 475000 millas 1,500 Velocidad aérea 200 millas/hr 25,000 millas/hr 12,500 Datos 10s Mega bytes 10s Tera bytes 100,000 In te lig en ci a A rt ifi ci al Contenido Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos In te lig en ci a A rt ifi ci al Habilitador tecnológico Costo por megabyte en disco 1995: ≈ $50.00 USD Costo por megabyte en disco 2005: ≈ $0.07 USD Costo de un terabyte: $4,000 USD In te lig en ci a A rt ifi ci al Habilitador tecnológico Velocidad de procesamiento Computador Alaska a 1.35 Gigaherts a $1,200 USD Memoria RAM PC con memoria RAM de 128M a 1 Giga PC con memoria 10 Giga In te lig en ci a A rt ifi ci al Paradoja Ahogados en datos. No se genera conocimiento. Sufriendo por falta de información. In te lig en ci a A rt ifi ci al Contenido Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos In te lig en ci a A rt ifi ci al Proceso Herramientas Mineros Resultados Metas ¿Qué es minería de datos? Proceso para la extracción de patrones significativos en grandes volumenes de datos. In te lig en ci a A rt ifi ci al Minería de datos (MD) Analogía entre búsqueda de una pepita de oro en una mina y búsqueda de un dato relevante en una "mina de datos". MD es la búsqueda de información valiosa y oculta en grandes volúmenes de datos. In te lig en ci a A rt ifi ci al Minería de datos -Data Mining- Minería de datos (Data Mining), la extracción de información oculta y predecible de grandes bases de datos. Es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus bases de datos (Data Warehouse). La llegada del Data Mining se considera como la última etapa de la introducción de métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. In te lig en ci a A rt ifi ci al Minería de datos (MD) La minería de datos está muy ligada a las bodegas de datos que proporcionan la información histórica para poder operar. In te lig en ci a A rt ifi ci al La MD puede ser dividida en: – Minería de Datos Predictiva (MDP) y Minería de Datos para Descubrimiento de Conocimiento (MDDC) MDP usa primordialmente técnicas estadísticas. MDDC usa principalmente técnicas de IA. Minería de datos (MD) In te lig en ci a A rt ifi ci al Estadística y Data Mining conducen al mismo objetivo, el de efectuar "modelos" compactos y comprensibles que rindan cuenta de las relaciones establecidas entre la descripción de una situación y un resultado (o un juicio) relacionado con dicha descripción. Data Mining y Estadística Los no estadísticos -es decir el 99,5% de nosotros- pueden construir modelos exactos de algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas. In te lig en ci a A rt ifi ci al La diferencia reside en que las técnicas de Data Mining construyen el modelo de manera automática mientras que las técnicas estadísticas "clásicas" necesitan ser manejadas y orientadas por un profesional. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. In te lig en ci a A rt ifi ci al Análisis prospectivos Las herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. In te lig en ci a A rt ifi ci al Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. In te lig en ci a A rt ifi ci al Alcance de Minería de datos Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados. Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversión en futuros mailing. In te lig en ci a A rt ifi ci al ¿Para qué se usa la minería de datos? tarea síntesis análisis especifcar diseñar assemble planear configurar modificar predecir identificar controlar clasificar diagnosticar monitorear In te lig en ci a A rt ifi ci al Tipos de tareas Predicción y Clasificación • Identificar (categoría) • Estimar (variables numéricas) • Pronosticar (series de tiempo) • Agrupar (clustering) • Asociar (reglas de afinidad) • Visualizar Inte lig en ci a A rt ifi ci al Origen de la minería de datos Data mining and Knowledge Discovery Data: KDD Inteligencia Artificial: Machine Learning Estadística Arboles de decisión Inducción de reglas Redes neuronales Redes bayesianas Algoritmos genéticos Lógica difusa Análisis de Regresión Cluster Analysis Análisis discriminante Muestreo In te lig en ci a A rt ifi ci al Supuestos de KDD • El pasado es un buen predictor del futuro. • Hay datos disponibles. • Los datos contienen lo que queremos predecir. In te lig en ci a A rt ifi ci al Tipos de KDD Directa o supervisada Indirecta ó no-supervisada In te lig en ci a A rt ifi ci al Soportada por: – Recurso de datos integrado – Sistemas de información – Mecanismos de explotación de los datos. Ingeniería de información In te lig en ci a A rt ifi ci al Contenido Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos In te lig en ci a A rt ifi ci al Crisis informática Estrategias de negocio Tecnologías de información In te lig en ci a A rt ifi ci al DSS y Tecnologías del conocimiento DSS y KT Estrategias de negocio Tecnologías de información In te lig en ci a A rt ifi ci al Jerarquía de información Símbolos Datos Información Conocimiento Expertise Competencia In te lig en ci a A rt ifi ci al Elementos de competitividad Negocios Inteligencia de Negocios Aprendizaje organizacional Minería de datos RDB, DWH, DM OLTP Sentidos OLAP Memoria Razonamiento Aprendizaje In te lig en ci a A rt ifi ci al Edos financ BD Anunciantes Demográficos Perfiles genéricos Cola de anuncios Anuncios Blackboard Perfil de anunciantes Tiendas Minería De datos Agentes Personales Clien tes An un cia n te s Experto en M erca d otecn i a Gen era d ores d e con ten id o Uso de la Minería de datos In te lig en ci a A rt ifi ci al Metodología de Minería de datos Definición del problema y establecimiento de metas Obtención y preparación de datos Construir modelo Herramientas y técnicas Resultados Usar modelo Evaluar resultados In te lig en ci a A rt ifi ci al Metas de negocio concretas Incrementar en un 5% el volumen de ventas del producto A en la región 5 en los siguientes 3 meses. Identificación de problemas In te lig en ci a A rt ifi ci al Metas de negocio concretas Reducir en un 10% el desperdicio de materia prima en la producción del producto Y en la línea de ensamble 3 durante el mes de Octubre. Identificación de problemas In te lig en ci a A rt ifi ci al Metas de negocio concretas Encontrar las características demográficas de la población que comprará el producto Z en la zona norte durante el próximo año. Identificación de problemas In te lig en ci a A rt ifi ci al Preparar los datos Data marts Archivo RDBMS Data warehouse Hoja Excel Preparar datos Tabla de datamining Diversas fuentes de datos Acces In te lig en ci a A rt ifi ci al Entender datos Se debe entender no solo el contenido sino el significado (SEMÁNTICA) de los datos. Desarrollo de metadatos para soportar el entendimiento completo de los datos. Creación de modelo de datos común. In te lig en ci a A rt ifi ci al Integración de datos Transformación de todos los datos importantes y críticos en un recurso de datos integrado. Agregar datos Almacenamiento de los datos operacionales para permitir el análisis de tendencias, patrones y proyecciones que permitan aprovechar las alternativas de negocio actuales y futuras. In te lig en ci a A rt ifi ci al Desplegar datos Desplegado del recurso de datos, en contenido y semántica en toda la empresa. El recurso global = Datawarehouse. El recurso local = Datamart. Metadatos Global = Clearing House Principio Guía: ECOLÓGICO: PIENSA GLOBALMENTE ACTUA LOCALMENTE. In te lig en ci a A rt ifi ci al Ingeniería de información El recurso de datos común puede ser construido usando la Ingeniería de Información: Disciplina para identificar necesidades de información en las organizaciones y ofrecer mecanismos de explotación racional de información que permitan tomar decisiones oportunas y eficientes. In te lig en ci a A rt ifi ci al – Los datos sean correctos – Los reciban las personas correctas – En el lugar correcto – En el tiempo correcto – En la forma correcta – Al costo correcto Para tomar las decisiones correctas y las acciones correctas. Ingeniería de información In te lig en ci a A rt ifi ci al Modelación Conjunto de prueba Modelo probado Construir modelo Modelo depurado Conjunto de depuración Datos reales PrediccionesUsar modelo Conjunto de entrenamiento Modelo inicial In te lig en ci a A rt ifi ci al Modelado de datos Modelado de procesos (DFD’s, BP’s) Modelado conceptual (E-R) Modelado lógico (Normalización, distribución de datos) Modelado físico Modelado multidimensional In te lig en ci a A rt ifi ci al Modelado multidimensional En el modelado dimensional se necesita la identificación de tablas de dimensiones y de tablas de hechos. Las tablas de dimensiones permiten la ubicación (temporal, espacial, etc.) de los eventos que son definidos en las tablas de hechos. Consideremos una cadena de tiendas de comodidad. Con tres dimensiones: Geográfica, Temporal y de Productos, y la tabla de hechos sería la compra de un producto. In te lig en ci a A rt ifi ci al La dimensión geográfica permite localizar una tienda en particular. Los niveles de la geografía son: Calle, colonia, municipio, estado, país (5 niveles de detalle). La dimensión temporal permite ubicar un evento de venta en los niveles: Hora, día, semana, quincena, mes, año (6 niveles de detalle) Modelado multidimensional In te lig en ci a A rt ifi ci al La dimensión Producto, permite identificar el producto que es vendido, los niveles de producto son: Producto, subfamilia, familia (3 niveles de detalle). En este sentido se tiene un mapa tridimensional, que ubica una venta de un producto, a una hora particular y en una tienda específica. Modelado multidimensional In te lig en ci a A rt ifi ci al Este modelo multidimensional permite la definición de niveles de detalle en cada dimensión. Se tiene la posibilidad de definir: 5 x 6 x 3= 90 Combinaciones de Niveles de Detalle. Adicionalmente es posible dejar FIJO una o las tres dimensiones (dando un total de 8 combinaciones). Se tiene entonces 8 x 90= 720 diferentes reportes. Modelado multidimensional In te lig en ci a A rt ifi ci al Esto da una idea de que el número posible de reportes a obtener podría ser gigantesco, por lo que surge el concepto de REPORTES BAJO DEMANDA. Es decir, que el usuario configure dinámicamente el reporte que necesita. Modelado multidimensional In te lig en ci a A rt ifi ci al Mecanismos de explotación Lenguajes de consulta (SQL, QBE, etc.) DSS OLAP(Bases de datos multidimensionales) MINERÍA DE DATOS (Agrupamiento, Análisis estadístico, Redes neuronales, Algoritmos genéticos, etc.) In te lig en ci a A rt ifi ci al Clementine SPSS Enterprise Miner SAS Mine Set SGI Intelligent Miner IBM CART Salford Systems See5 Bonsái Prospect Arboles de decisión Entropía Gini Redes Bayesianas Clasificador Bayesiano Redes neuronales Retropropagación Mapas autoorganizados Técnicas y herramientas In te lig en ci a A rt ifi ci al Técnicas MD Algoritmos genéticos – Inspirados en el principio de la supervivencia de los más aptos. – La recombinación de soluciones buenas en promedio produce mejores soluciones. – Analogía con la evolución natural. Sistemas clasificadores. In te lig en ci a A rt ifi ci al Programación genética. Se basan en la evolución de programas de computo que permitan explicar o predecir con mínimo error un determinado fenómeno. Redes bayesianas. Buscan determinarrelaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos. Se han usado principalmente para realizar predicción. Técnicas MD In te lig en ci a A rt ifi ci al Arboles de decisión In te lig en ci a A rt ifi ci al Reg Color Resid EdoCiv Ing Edad Equipo R1 amar Iba sol $$ jov Tol R2 rojo Cali cas $ adu Ame R3 amar Cali sol $$ nin Cali R4 amar Med cas $$$ adu Env R5 amar Med sol $$ jov Nac R6 rojo Nei sol $$ jov Hui R7 rojo Med cas $$ jov Med R8 amar Bar sol $ adu Jun R9 rojo Pas cas $$ jov Pas R10 rojo Cuc sol $$$ adu Cuc R11 amar Buc sol $ jov Buc R12 rojo Per cas $ adu Per R13 rojo Arm sol $$ jov Qui Arboles de decisión In te lig en ci a A rt ifi ci al Casos de estudio Empresas comerciales Bancos Televisoras Estaciones de radio Industrias (del papel, plástico, …) Otros casos In te lig en ci a A rt ifi ci al Aplicaciones MD Afinidad de productos. Segmentación de mercado (Clustering) Fidelidad de clientes Determinar montos de crédito Probabilidad de respuesta satisfactoria a tratamiento médico Detección de fraudes en tarjetas de crédito In te lig en ci a A rt ifi ci al Detección de evasión fiscal Determinación de niveles de audiencia de programas televisivos. Normalización automática de BD Determinación de bonos por desempeño Determinación de la Estrategia de juego. Aplicaciones MD In te lig en ci a A rt ifi ci al TV Telereport BD Pronósticos Presentación de resultados Ratings por programa por canal Aplicación de Minería de datos Preparación de datos Tabla de DM Programación Uso del Modelo Construcción Modelo KB In te lig en ci a A rt ifi ci al Share por Canal y Encendidos Totales Share Otros Canales Pronósticos de Ratings Aplicación de Minería de datos Calcula Encendidos y Calcula ratings por canal y In te lig en ci a A rt ifi ci al Aplicación de Minería de datos Si se dota el cajero con pocos fondos, se quedará sin dinero y dará un mal servicio al cliente. Si se dota el cajero con mucho dinero, habrá un costo financiero asociado con el dinero improductivo. Definición del problema Pronóstico de efectivo en cajeros automáticos In te lig en ci a A rt ifi ci al Aplicación de Minería de datos Meta de negocio: Actualmente: 3 pesos por cada peso entregado, y 5% de cajeros sin dinero Meta: 2 pesos por cada peso entregado y 2.5% de cajeros sin dinero. In te lig en ci a A rt ifi ci al Presentación de resultados Pronóstico por Cajero y por día Pronósticos Sistema cajeros Aplicación de Minería de datos Tabla de DM Preparación de datosBD Programación Uso de la RN Construcción RN de Kohonen KB In te lig en ci a A rt ifi ci al Contenido Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos In te lig en ci a A rt ifi ci al Múltiples áreas de oportunidad Necesidad de recursos humanos capacitados en el uso tecnologías inteligentes In te lig en ci a A rt ifi ci al Matemática Minería de Datos Robótica Ingeniería del Conocimiento Logística y DSS Cibernética y Teoría de Información Ciencias de lo artificial: Inteligencia Artificial Lógica HCI Diseño Computabilidad Ingeniero en Sistemas Inteligentes In te lig en ci a A rt ifi ci al Conclusiones Es fundamental la construcción de un recurso de datos integrado que soporte las necesidades de información. Las bodegas de datos proporcionan el recurso de datos integrado con el cuál los algoritmos de minería de datos proporcionan información necesaria para la toma de decisiones. In te lig en ci a A rt ifi ci al Se deben construir herramientas y estrategias para gestionar conocimiento a partir de los datos existentes. Hay que eliminar la creación de sistemas de información particulares en organizaciones. Crear un modelo global: Metadatos Deben definirse nuevas herramientas para procesar los datos en busca de información. In te lig en ci a A rt ifi ci al Bibliografía Building the Data Warehouse. W.H. Inmon, John Wiley and Sons, 1996, 2o. Edición. Data Warehouses Performance. W.H. Inmon, John Wiley and Sons, 1997. The Data Model Resource Book. Len Silverson, W.H. Inmon, Kent Graziano, John Wiley and Sons. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. Ralph Kimball, John Wiley and Sons, 1996. In te lig en ci a A rt ifi ci al The Data Warehouse Lifecycle. Ralph Kimball, John Wiley and Sons, 1997. OLAP Solutions: Building Multidimentional Information Sysmens. Eric Thompsen, John Wiley and Sons, 1997. Data Warehousing, Data Mining and OLAP. Alex Berson, Stephen J. Smith, McGraw Hill, 1997. Data Warehousing for Dummies. Alan Simon, IDG Books, 1997. 90 Days to the Data Marts. Alan Simon, John Wiley and Sons, 1997. Bibliografía In te lig en ci a A rt ifi ci al Inteligencia artificial Contenido Generación de datos Crecimiento exponencial Crecimiento exponencial Contenido Habilitador tecnológico Paradoja Contenido ¿Qué es minería de datos? Minería de datos (MD) Minería de datos (MD) Minería de datos (MD) ¿Para qué se usa la minería de datos? Tipos de tareas Origen de la minería de datos Supuestos de KDD Tipos de KDD Ingeniería de información Contenido Crisis informática DSS y Tecnologías del conocimiento Elementos de competitividad Uso de la Minería de datos Metodología de Minería de datos Identificación de problemas Preparar los datos Entender datos Integración de datos Desplegar datos Ingeniería de información Ingeniería de información Modelación Modelado de datos Modelado multidimensional Modelado multidimensional Modelado multidimensional Modelado multidimensional Modelado multidimensional Mecanismos de explotación Técnicas y herramientas Técnicas MD Técnicas MD Arboles de decisión Arboles de decisión Casos de estudio Aplicaciones MD Aplicaciones MD Aplicación de Minería de datos Aplicación de Minería de datos Aplicación de Minería de datos Aplicación de Minería de datos Aplicación de Minería de datos Conclusiones Bibliografía
Compartir