Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACTULTAD DE ESTUDIOS SUPERIORES ACATLÁN MINERIA DE DATOS CON APLICACIONES TESIS QUE PARA OBTENER EL TITULO DE LICENCIADA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN PRESENTA LILIANA CRUZ ARRRELA ASESOR: DRA. MARICARMEN GONZÁLEZ VIDEGARAY MARZO 2010 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. AGRADECIMIENTOS Gracias a Dios por su infinito amor y apoyo. A mi madre por su confianza y entrega. A mi padre por su apoyo. A mis hermanos por la confianza y amor. A mi esposo Raúl que me ha impulsado a lograr lo inimaginable. A mi Universidad y profesores. Gracias por lo que hemos logrado. “Mas la senda de los justos es como la luz de la aurora, que va en aumento hasta que el día es perfecto” Proverbios 4:18 INTRODUCCIÓN .......................................................................................................... 1 CAPÍTULO 1. MINERÍA DE DATOS ........................................................................ 3 1.1. INTRODUCCIÓN ....................................................................................................................... 3 1.2. ¿QUÉ ES LA MINERÍA DE DATOS? ............................................................................................. 4 1.3. LIMITACIONES DE LA MINERÍA DE DATOS .................................................................................... 7 1.4. DIFERENCIAS ENTRE MINERÍA DE DATOS Y ESTADÍSTICA ............................................................. 8 1.5. MINERÍA DE DATOS Y KDD .................................................................................................... 11 1.6. METODOLOGÍAS DE MINERÍA DE DATOS ................................................................................... 13 1.6.1. Metodologías SEMMA ........................................................................................................................................ 14 1.6.2. Metodología CRISP-DM ..................................................................................................................................... 17 1.7. FASES DE UN PROYECTO DE MINERÍA DE DATOS ..................................................................... 23 1.8. APLICACIONES DE LA MINERÍA DE DATOS ................................................................................. 24 CAPÍTULO 2. TÉCNICAS DE MINERÍA DE DATOS. ............................................ 32 2.1. INTRODUCCIÓN ..................................................................................................................... 32 2.2. TÉCNICA DE DETECCIÓN DE ANOMALÍAS (OUTLIER) .................................................................. 33 2.3. AGRUPAMIENTO (CLUSTERING) ............................................................................................. 38 2.4. ÁRBOLES DE DECISIÓN ......................................................................................................... 51 2.5. REDES BAYESIANAS ............................................................................................................. 65 2.6. REDES NEURONALES ............................................................................................................ 69 2.7. SERIES DE TIEMPO ............................................................................................................... 74 CAPÍTULO 3. SOFTWARE PARA MINERÍA DE DATOS ...................................... 84 3.1. INTRODUCCIÓN ..................................................................................................................... 84 3.2. INTELLIGENT MINER / DB2 DATA WAREHOUSE EDITION (IBM) ................................................. 85 3.3. PASW MODELER (CLEMENTINE) ........................................................................................... 89 3.4. DATAENGINE .................................................................................................................... 95 3.5. ORACLE DATAMINING............................................................................................................ 97 3.6. WEKA (SOFTWARE EN JAVA DE MINERÍA DE DATOS) ............................................................... 102 3.7. ENTERPRISE MINER (SAS) ................................................................................................. 104 CAPÍTULO 4. MANUAL DE MD CON HERRAMIENTAS DE APOYO. ............... 106 4.1. SELECCIÓN Y PREPROCESADO DE DATOS. ............................................................................ 107 4.2. SELECCIÓN DE VARIABLES ................................................................................................... 114 4.3. EXTRACCIÓN DE CONOCIMIENTO. ......................................................................................... 119 4.4. INTERPRETACIÓN Y EVALUACIÓN .......................................................................................... 122 4.5. APLICACIÓN DE UN ESTUDIO DE MINERÍA DE DATOS ................................................................ 128 CONCLUSIÓN ......................................................................................................... 134 REFERENCIAS ........................................................................................................ 136 - 1 - INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capítulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 2 - Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo prácticoque ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación. - 1 - INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capitulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 2 - Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo práctico que ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación. - 3 - Capítulo 1. Minería de Datos 1.1. Introducción La minería de datos (Data Mining) surge a principios de los 80’s cuando la Administración de Hacienda Estadounidense desarrolló un programa de investigación para detectar fraudes en la declaración y evasión de impuestos, mediante lógica difusa, redes neuronales y técnicas de reconocimiento de patrones. Sin embargo, su expansión se produce hasta los 90’s originada principalmente por tres factores. Incremento en la potencia de procesamiento de las computadoras, así como en la capacidad de almacenamiento. El crecimiento de la cantidad de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos y sistemas de almacenamiento masivo, sino también por la automatización de muchos trabajos y técnicas de recogida de datos (observación con nuevas tecnologías, entrevistas más prácticas, encuestas por Internet, etcétera) Aparición de nuevos métodos de técnicas de aprendizaje y almacenamiento de datos, como las redes neuronales, la Inteligencia artificial, el surgimiento del almacén de datos (Data Ware House)[1] La minería de datos surge por la necesidad de obtener estrategias de negocio, conocer a los clientes, obtener información de productos, interpretar información valiosa para la toma de decisiones, etcétera. La idea de minería de datos no es nueva, ya desde los años sesenta los estadísticos manejaban términos como data fishing, minería de datos o data - 4 - archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de minería de datos y descubrimiento de conocimiento en base de datos. A finales de los años ochenta sólo existían un par de empresas dedicadas a ésta tecnología; en 2002 existían más de 100 empresas en el mundo que ofrecían alrededor de 300 soluciones, ahora se ven áreas dedicadas a la minería de datos dentro de cada empresa, ya que, es una herramienta ideal para obtener información valiosa e importante de manera rápida y eficaz, a través de procesos especializados y sistemáticos. Una serie de avances en la tecnología y los procesos de negocio han contribuido al creciente interés de ésta en los sectores público (detectar fraudes, residuos, medición y mejora de programas) y privado (banca, seguros, ventas, etcétera.) Algunos de estos cambios incluyen el crecimiento de las redes de computadoras, que se utilizan para conectar bases de datos; el desarrollo de una mayor búsqueda de relaciones con técnicas como las redes neuronales y algoritmos avanzados, la propagación de las aplicaciones cliente/servidor, lo que permite a los usuarios acceder a los recursos centralizados de datos desde el escritorio y una mayor capacidad para combinar datos de diferentes fuentes en una sola búsqueda.[2] y[3] 1.2. ¿Qué es la minería de Datos? Existen varias definiciones de minería de datos, a continuación se mencionaran algunas: - 5 - Definición 1. Minería de datos es el proceso por el cual generamos un modelo, que sirva para la predicción, este modelo se genera con base en los datos que se encuentran en una base de datos aplicándoles algún algoritmo que construya el modelo. [4] Definición 2. La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos. [5] Definición 3. Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión. [6] Definición 4. Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. [7] En la definición 1 y 2, se dice que la minería de datos es un proceso; en la definición 3 se describe como una integración de áreas y en la definición 4 como un mecanismo de explotación. Las cuatro definiciones se complementan una con otra así como los propósitos que se citan en cada una de ellas. Entonces concluimos que la minería de datos es un proceso que integra diferentes áreas sirviendo como mecanismo de explotación para identificación de información valiosa, novedosa y útil; así como para predicción de comportamientos. Por tanto el objetivo fundamental de ésta es aprovechar el valor de la información localizada y usar patrones preestablecidos para que los directivos tenganun mejor conocimiento de su negocio y se tomen decisiones - 6 - más confiables. El resultado de la minería será un modelo que se tendrá que evaluar para ver qué tan certero será con respecto a sus predicciones y posteriormente se utilizará para predecir el patrón de comportamiento de cualquier dato nuevo (esto se hace calificando los nuevos datos basándose en el modelo generado) que llegue a la base de datos. Las aplicaciones de minería de datos utilizan una gran variedad de parámetros para examinar los datos: La asociación (los patrones de un evento que está conectado a otro evento, como la compra de una pluma y la compra de papel) La secuencia (patrones donde un evento lleva a otro, como el nacimiento de un hijo y la compra de pañales) La clasificación (identificación de nuevos patrones, como coincidencias entre la compra de cinta adhesiva para conductos y la compra de láminas de plástico) Las agrupaciones (encontrar y documentar visualmente grupos de hechos anteriormente desconocidos, como ubicación geográfica y las preferencias de marca) Los pronósticos (el descubrimiento de patrones a partir de los cuales se hacen predicciones en relación con las actividades futuras, tales como, la predicción de que las personas que pertenecen a un club de atletismo tome clases de ejercicio)[8] En la minería de datos casi nunca se menciona el tiempo que se invierte en la limpieza y la verificación de los datos, así como la definición de las variables, pero este proceso es muy importante ya que por lo regular las bases de datos de los sistemas operacionales contienen datos duplicados, a veces erróneos, superfluos o incompletos. A esto se le suman los errores por la operación de los sistemas. Las principales características y objetivos de la minería de datos son: - 7 - Explorar los datos para encontrar información valiosa que está oculta dentro de las grandes bases de datos. El entorno de la minería de datos suele tener una arquitectura cliente servidor, es decir la información se encuentra en un servidor con accesos restringidos y las consultas se hacen por medio de otra aplicación independiente. Las herramientas de minería de datos ayudan a explotar los datos con los que se cuenta, para encontrar patrones, crear predicciones, etcétera. La información obtenida a través de la minería de datos ayuda a los usuarios a elegir cursos de acción y a definir estrategias competitivas, porque conocen información qué sólo ellos emplean. Explorar, a menudo implica el descubrimiento de resultados valiosos e inesperados. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos es un proceso que invierte la dinámica del método científico, el cual consiste en formular una hipótesis y luego se diseña el experimento para confirmarla o refutarla; y en minería de datos primero se diseña y realiza el experimento y finalmente se obtiene el nuevo conocimiento. [10] 1.3. Limitaciones de la minería de datos Las limitaciones de la minería de datos son los primeros datos o datos puros, y no tanto la tecnología o herramientas para el análisis, es decir depende mucho de la limpieza de los datos y de la definición de las variables, si los datos no están correctos el modelo creado no servirá. Del mismo modo la validez de los patrones descubiertos depende de cómo se apliquen al mundo real o a las circunstancias. - 8 - Por ejemplo, para una empresa de telefonía móvil, donde se hace un análisis de cancelación de líneas, se muestra que en algunos estados de la República Mexicana el patrón de compra de equipo y cancelación de la línea en 3 meses, se presenta con más frecuencia durante los meses de diciembre y enero, mientras que en otros estados la cancelación de líneas nunca se da por cambio de equipo, es por problemas con el teléfono y en el mes de septiembre; por tanto, es difícil especificar que cuando se cambia de equipo inmediatamente se da la cancelación de la línea, el usuario que realice las minería está encargada de conocer el negocio para deducir la razón de las cancelaciones de las líneas. Otra limitación es que si bien ésta identifica las conexiones entre los comportamientos y/o variables, no necesariamente se sabe la causa de la relación. [8] 1.4. Diferencias entre minería de datos y estadística La minería de datos como enfoque para el análisis y descubrimiento de la información o conocimiento a realizar en grandes bases de datos combina técnicas como: Estadística (análisis factorial, discriminante, regresivo, de correlaciones), redes neuronales, sistemas expertos o basados en el conocimiento, sistemas de reglas de inducción, lógica difusa, algoritmos genéticos, algoritmos matemáticos (teoría de fractales y del caos, simulación) El uso de metodologías estadísticas y de minería de datos a veces suelen confundirse entre ellas. La minería de datos se presenta como una disciplina nueva, ligada a la Inteligencia Artificial y diferenciada de la Estadística. Por otro lado, en el mundo estadístico más académico, la minería de datos ha sido considerada en su inicio como una moda más, aparecida después de los sistemas expertos, conocida desde hacía tiempo bajo el nombre de data fishing. Ésta conlleva la promesa de exploración y el encuentro de relaciones subyacentes en los datos, por tanto se dice que la esencia de la minería de datos se encuentra en la posibilidad del - 9 - descubrimiento de información insospechada, pero sumamente valiosa, esto significa que la minería de datos es exploratoria y las áreas de la estadística son confirmatorias (confirmar hipótesis) La estadística sobre todo descriptiva se desarrolló en épocas donde no se contaba con las computadoras, de ésta manera un conjunto de datos de 1,000 registros era considerado como "grande", pero no se compara con los 50 millones de transacciones con tarjeta de crédito que se realizan en México anualmente y que conforman bases de datos sumamente interesantes para el mundo financiero. Con la estadística se hacen manipulaciones de datos de manera directa; en minería de datos no es así, se necesita una serie de algoritmos numéricos. Otra diferencia entre estadística y minería de datos es que a la minería no le concierne la selección de la información y en la estadística es cuestión fundamental el cómo seleccionar la muestra de la mejor manera, de tal forma que sea representativa de la población, la minería de datos supone que los datos ya han sido recolectados y se aboca al descubrimiento de información o patrones. En la tabla 1 se muestran las características de la estadística y la minería de forma comparativa para visualizar las diferencias entre ambas. - 10 - Tabla 1. Diferencia minería de datos vs. Estadística En conclusión en la estadística se desarrolla una hipótesis y, a continuación se usan los datos para probar o refutar la hipótesis. Por ejemplo, un usuario podría tener la hipótesis de que un cliente que compra un martillo, también compra una caja de clavos. La eficacia de este enfoque se ve limitado por la creatividad del usuario a desarrollar diversas hipótesis, así como la estructura del software que sea utilizado. En contraste, la minería de datos utiliza un enfoque de descubrimiento, en los algoritmos que son usados para examinar varias relaciones en bases de datos multidimensionales de manera simultánea, identificar a aquellos que se presentan con frecuencia. Por ejemplo, los tipos de compras en una tienda, los horarios, los tipos de clientes, la comparación de clientes por su vivienda, tipo de automóvil, edad, ocupación, ingresos y / o la distancia entre su casa y la tienda, etcétera.[11] - 11 - 1.5. Minería de Datos y KDD Laminería de datos revela patrones o asociaciones que son desconocidos para el usuario, por ésta razón, entra o se asocia con el contexto de Knowledge Discovery in Database (KDD) o descubrimiento de conocimientos en las bases de datos. Éste término es originado de la Inteligencia Artificial (AI). ¿Qué es conocimiento? Desde el punto de vista de las organizaciones, se define el conocimiento como aquella información que permite generar acciones asociadas a satisfacer las demandas del mercado, y apoyar las nuevas oportunidades a través de la explotación de las competencias centrales de la organización. El conocimiento es una combinación de valores, información contextualizada y experiencias que proporcionan un marco para evaluar e incorporar nuevas experiencias e información. El conocimiento se origina y aplica en la mente de las personas. En las organizaciones, el conocimiento reside en documentos y bases de datos y también en los procesos, prácticas y normas corporativas (Ver figura 1 de las etapas del descubrimiento)Figura 1. Etapas del descubrimiento de conocimientos.[5]) Figura 1. Etapas del descubrimiento de conocimientos.[5] - 12 - El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: a. Selección de datos. Es la primera etapa para extraer conocimiento, se define la fuente de datos a analizar y esto depende del objetivo del estudio, se parte de una pregunta o hipótesis, o bien se encuentre y sugiera algún modelo a partir del análisis de la información. Los atributos o campos seleccionados son significativos para el conocimiento que se desea obtener, en cuanto al número de registros, a veces es suficiente realizar el análisis sobre un subconjunto o muestra. b. Pre-procesar la información. Ésta etapa tiene por objetivo preparar los datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las técnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo erróneo; integración de datos, para generar un único almacén de datos coherente en aquellos casos donde los datos provienen de diferentes fuentes; transformaciones de datos, para normalizarlos; y reducción de datos, a fin de reducir el tamaño de los datos, por ejemplo, eliminando características redundantes. La importancia del pre-procesamiento de los datos es por la calidad de los datos sobre los que se aplican técnicas de descubrimiento de conocimiento ya que esto impacta de manera directa en la calidad del conocimiento que se descubre a partir de ellos. c. Transformación de la información. Ésta es la que insume mayor tiempo, aproximadamente el 60% del esfuerzo total; ya que es necesario tener el conocimiento del negocio, así como el objetivo del proyecto o hacia donde se quiere llegar. d. Patrones. Antes de comenzar con ésta etapa, se define el tipo de conocimiento que se desea obtener, a partir de éste se elige la técnica y finalmente el algoritmo. La minería tiene diferentes objetivos como predictivo - 13 - (estimación de valores futuros o desconocidos de variables de interés a partir de otras variables independientes) o descriptivo (identificación de patrones en los datos que los explican o resumen). e. Conocimiento. Una vez que se tenga el modelo de minería de datos, se da un informe de los resultados obtenidos por medio de presentaciones, reportes, cuadros comparativos, graficas, etcétera. Para evaluar si los resultados son los esperados. Los objetivos del descubrimiento de conocimiento y la minería de datos son: Procesar automáticamente grandes cantidades de datos. Identificar los patrones más significativos y relevantes. Descubrir conocimiento apropiado para satisfacer las metas de un usuario. Formular una estrategia de alcance organizacional para el desarrollo, adquisición y aplicación del conocimiento. Implantar estrategias orientadas al conocimiento. Promover la mejora continua de los procesos de negocio, enfatizando la generación y utilización del conocimiento. Monitorizar y evaluar los logros obtenidos mediante la aplicación del conocimiento. Reducir los tiempos de ciclo en el desarrollo de nuevos producto y mejorar los existentes. Reducir los costos por repetición de errores.[5] 1.6. Metodologías de minería de datos Ante la necesidad existente en el mercado de una aproximación sistemática para la realización de los proyectos de minería de datos, diversas empresas y consultorías han especificado un proceso de modelado diseñado para guiar al usuario a través de una sucesión de pasos que le dirijan a obtener buenos - 14 - resultados. Dentro de las principales metodologías utilizadas por los analistas en los proyectos de minería de datos se tiene la metodología SEMMA (Sample, Explore, Modify, Model, Assess que significa: Muestreo, exploración, manipulación, modelado y valoración) propuesta por SAS y la metodología de libre distribución CRISPDM (Cross- Industry Standard Process for Data Mining) creada por un consorcio de empresas europeas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda) Existen otras metodologías menos usuales como la metodología KM-IRIS creada por un grupo de de Integración y Re-Ingeniería de Sistemas (IRIS) de la Universidad Jaume.[14] 1.6.1. Metodologías SEMMA SAS Institute desarrollador de ésta metodología, la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de ésta metodología corresponde a sus letras iníciales en inglés: Sample (Muestreo), Explore (Exploración), Modify (Manipulación), Model (Modelado) y Asses (Valoración). Figura 2. Fases de la metodología SEMMA.[15] - 15 - El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de ésta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra se define como la capacidad de reproducir a pequeña escala las características de la población. Ésta es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada muestra considerada para el análisis del proceso asocia el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología SEMMA indica que se procede a una exploración de la información disponible con el fin de simplificar el problema y optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización ó de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo. La tercera fase de la metodología consiste en la manipulación de los datos, con los resultados de la exploración realizada, de forma que se definan y tengan el formato adecuado de los datos que serán introducidos en el modelo. Una vez que se han definido las entradas del modelo, con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de ésta fase consiste en establecer una relación entre - 16 - las variables explicativas y las variables objetivo, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado.Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión, reglas de asociación y computación evolutiva. Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos, contrastado con otros métodos estadísticos o con nuevas poblaciones muéstrales. En la figura 3 se observa un esquema de la dinámica general de la metodología. - 17 - Figura 3. Metodología SEMMA.[14] En conclusión, la metodología consiste en los siguientes pasos: tomar los datos o una muestra en caso de que la cantidad de datos sea muy grande, se exploran, modifican, modelan y se evalúan en el modelo o los modelos resultantes para elegir el más adecuado. [14] y [15] 1.6.2. Metodología CRISP-DM CRISP-DM es una organización europea creada por tres grandes jugadores en proyectos de minería de datos que son SPSS, NCR y Daimler Chrysler. Lo que trata ésta metodología es desarrollar los proyectos de minería de datos bajo un proceso estandarizado de definición y validación de tal forma que se desarrollen - 18 - proyectos minimizando los costos que impliquen y con un alto impacto en el negocio. La metodología CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de minería de datos: el modelo de referencia y la guía del usuario. El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas de un proyecto de minería en general. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia a proyectos de minería de datos específicos, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase. La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto. - 19 - Figura 4. Fases del proceso de modelado metodología CRISP-DM. [14] En la figura 4, las flechas indican relaciones más habituales entre las fases, aunque podamos establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza cíclica del proceso de modelado. La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación. La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que se establezca un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis. Una vez realizado el análisis de datos, la metodología establece que se proceda la preparación de los datos, de tal forma que sean tratados por las técnicas de - 20 - modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se va a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado. Independientemente de la técnica de modelado, los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática. En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos específico. En la fase de evaluación se evalúa el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase y de la precisión del mismo, se procede al despliegue de éste en caso de requerirse. La fase de explotación es en la cual se muestra el resumen de evaluación de los resultados, las relaciones y patrones encontrados para que éstos sean utilizados en la traza de estrategias y toma de decisiones. [14] y [16] 1.6.3. Comparación de metodologías Las metodologías SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de minería de datos en fases que se encuentran interrelacionadas entre sí, convirtiendo el proceso en iterativo e interactivo. La metodología SEMMA se centra más en las características técnicas del desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una - 21 - perspectiva más amplia respecto a los objetivos empresariales del proyecto. Ésta diferencia se establece ya desde la primera fase del proyecto de minería de datos donde la metodología SEMMA comienza realizando un muestreo de datos, mientras que la metodología CRISP-DM comienza realizando un análisis del problema empresarial para su transformación en un problema. Entonces la metodología CRISP-DM está más cercana al concepto real de proyecto, integrada con una Metodología de Gestión de Proyectos específica que completaría las tareas administrativas y técnicas.[14] Otra diferencia significativa entre la metodología SEMMA y la metodología CRISP-DM radica en su relación con herramientas comerciales. La metodología SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los productos SAS donde se encuentra implementada. Por su parte la metodología CRISP-DM ha sido diseñada como una metodología neutra respecto a la herramienta que se utilice para el desarrollo de minería de datos siendo su distribución libre y gratuita.[14] En la figura 5 se muestran la comparativa entre las dos metodologías. - 22 - Figura 5. Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y CRISPDM. [14] - 23 - 1.7. Fases de un Proyecto de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. Figura 6. Fases del Proyecto de Minería de Datos. [10] La figura 6 muestra las fases de la minería de datos, las cuales se describen a continuación: a. Selección y preprocesado de datos. La selección de la información dependerá del objetivo del proyecto, por ejemplo si se requiere hacer un análisis de las altas de líneas Telcel en el mes de noviembre y diciembre de la ciudad de México y zona metropolitana, entonces se está hablando que se acota la información de la base de datos de todos los clientes, incluso, se trabaja con solo una muestra de la información requerida. Con el preprocesado se refiere a la eliminación de información errónea y la corrección algunos datos nulos o con valores irreales. b. Selección de variables. Aún después de haber sido preprocesados los datos o la información, en la mayoría de los casos se tiene una cantidad enorme de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son aquellos basados en la elección de los mejores - 24 - atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad,algoritmos de distancia. c. Extracción de conocimiento. El conocimiento se obtiene aplicando alguna técnica de minería de datos (árboles de decisión, cluster, etcétera) a la información dependiendo del objetivo del estudio (véase el capitulo 2 de Técnicas de minería de datos); con la finalidad de obtener un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También se usan varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. d. Interpretación y evaluación. Una vez obtenido el modelo, se procede a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se comparan los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se altera alguno de los pasos anteriores para generar nuevos modelos. 1.8. Aplicaciones de la minería de datos La minería de datos se utiliza para varios pronósticos tanto en el sector público como privado, industrias como la banca, los seguros, la medicina, para la reducción de costos, mejorar la investigación, y aumentar las ventas. Por ejemplo, las industrias de seguros y banca, usan aplicaciones de minería de datos para detectar el fraude y ayuda a la evaluación del riesgo (credit scoring) Utilizando los datos de clientes recabados a lo largo de varios años, las empresas desarrollan modelos que predicen si un cliente tienen alto riesgo - 25 - crediticio (por ejemplo hoy en día se cuenta con el buró de crédito), o si un crédito es fraudulento y tiene que ser investigado más a fondo. La comunidad médica a veces utiliza a la minería de datos para ayudar a predecir la eficacia de un procedimiento o medicamento. Las empresas farmacéuticas usan la minería de datos de compuestos químicos y material genético para ayudar a guiar la investigación en nuevos tratamientos para las enfermedades. Empresas como el servicio telefónico, los proveedores de música, clubes utilizan la minería de datos para crear un análisis de churn (probabilidad de que un cliente cancele algún servicio), para evaluar los que son probables a que permanezcan como suscriptores y cuáles son susceptibles de pasar a la competencia. En Estados Unidos, la minería de datos se utilizó inicialmente como un medio para detectar el fraude y el derroche, hoy en día también se utiliza para fines tales como medir y mejorar el rendimiento del programa. Se ha informado que ésta ha ayudado al gobierno federal de EU. a la recuperación de millones de dólares por fraude. El Departamento de Justicia de EU. ha sido capaz de utilizar la minería de datos para evaluar modelos de delincuencia y ajustar las asignaciones de recursos en consecuencia. Otro ejemplo es la Administración Federal de Aviación (EU.), que utiliza la minería de datos para revisión de accidentes comunes de avión para reconocer los defectos y recomendar precaución. Recientemente, la minería de datos ha sido cada vez más citada como una herramienta importante para la seguridad de los ciudadanos. [10] - 26 - 1.8.1. En el Gobierno Ejemplo: El FBI analizará las bases de datos comerciales para detectar terroristas. En julio del 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con ésta información, el FBI unirá todas las bases de datos mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros.[10] 1.8.2. En la Empresa Ejemplo 1. Predecir qué personas que solicitan un crédito no lo devuelven. Se cuenta con los datos correspondientes a los créditos concedidos con anterioridad, y otros datos personales como el salario del cliente, si posee casa propia, etcétera. Ver tabla 2. - 27 - Tabla 2.Información de créditos personales.[10] Aplicando minería de datos, se tiene como resultado la siguiente Regla: SI cuentas-morosas>0 ENTONCES devuelve-crédito = No SI cuentas-morosas=0 Y (salario>2500 Ó Dcrédito > 10) ENTONCES Devuelve-crédito=Sí Ejemplo 2. Determinar las características socio económicas de los turistas en un determinado destino o paquete turístico, identificar patrones de reservas y sugerir destinos. Tabla 3. Información de destinos por cliente. - 28 - En la tabla 3 se tiene la información del cliente y características del viaje. Ana: profesional que viaja por motivos de negocios a grandes ciudades como México y Monterrey. Pedro: profesional que viaja por motivos de negocios generalmente a Monterrey. Luis: turista que viaja a destinos turísticos dentro de México. Esta información en conjunto con la minería de datos es útil también para sugerir destinos en sitios Web ó envió de publicidad a domicilio, obtener la puntuación de un usuario X de una muestra de paquetes turísticos, buscar otros usuarios Y’s que tengan un patrón de gustos similar a X, recomendar los paquetes preferidos de los Y’s, entre otros. Ejemplo 3. En el oeste se venden más camisas de manga corta que en el este. Una forma de probar ésta hipótesis es la presentada por la minería de datos, donde se sigue todo un proceso de búsqueda de patrones y criterios definidos por el usuario hasta llegar a la información relevante que apoye o niegue su hipótesis. Otra manera es obtener los resultados de ventas de ambos lugares, pero con esto solo se obtendría un Cierto o Falso, es decir no se sabría la razón del porque el resultado, si esto ha sido siempre o por periodos de tiempos, que tipos de clientes son los más usuales, etcétera. Ejemplo 4. Análisis de datos del carro de compras. Se tiene la siguiente información en la tabla 4. - 29 - Tabla 4. Información de compras por cliente (carrito)[10] Con dicha información y un algoritmo de minería de datos se determinaría que: 100% de las veces que se compran pañales también se compra leche. 50% de las veces que se compran huevos también se compra aceite. 33% de las veces que se compra vino y salmón también se compra lechuga.[10] 1.8.3. En la Universidad Ejemplo: Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México (Rodas, 2001) Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño - 30 -académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar soluciones, debido a que tres de las cuatro variables no dependían de la universidad.[10] 1.8.4. En Investigaciones Espaciales Ejemplo: Proyecto SKYCAT. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (agrupamiento) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etcétera. Con la información obtenida, los astrónomos han descubierto dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.[5] y [10] - 31 - 1.8.5. En los Clubes Deportivos Ejemplo: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de minería de datos y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA) El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador generalmente da la oportunidad a otro de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. El cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. En el 2000 IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes. [10] - 32 - Capítulo 2. Técnicas de Minería de datos. 2.1. Introducción Hoy en día, la cantidad de datos que se recaba es inimaginable, exceden nuestra habilidad de reducir y analizar la información, pero se cuenta con varias técnicas para apoyo al análisis, así como la tecnología para procesar grandes bases de datos. Las tareas de la minería de datos se clasifican en: a. Predictivas: Estimación de valores futuros o desconocidos de variables de interés (variables objetivo) a partir de otras variables independientes (predictivas) Por ejemplo el análisis de ventas cruzadas, que descubre qué objetos tienden a ser comprados juntos para crear recomendaciones y determinar cómo el posicionamiento del producto contribuye directamente a su línea inferior. En éstas tareas se resuelven con técnicas como: agrupamiento o clustering, regresión, series de tiempo, análisis de secuencias, entre otras. b. Descriptivas: Identificación de patrones en los datos que lo explican o resumen. Por ejemplo, la previsión de ventas que optimiza el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. Así la organización dispone de información sobre las ventas de cada producto en cada mes del último año. En este tipo de análisis se usa técnicas como: análisis de asociaciones, árboles de decisión, redes neuronales, análisis de grupos, etcétera. - 33 - Tabla 1.Técnicas y tareas a realizar. [24] En la tabla 5 se muestra un cuadro comparativo de las diferentes técnicas, así como las tareas (clasificación, regresión, agrupamiento, reglas de asociación, correlaciónales) y algunas técnicas y algoritmos que las abordan. [9],[17] y [24] Nota: La selección de la técnica a utilizar en el análisis depende de los datos con los que se cuente y el objetivo del estudio. 2.2. Técnica de detección de anomalías (Outlier) La meta principal en la detección de anomalías, es encontrar objetos que sean diferentes de los demás. Frecuentemente estos objetos son conocidos como anomalías (outlier) La detección de anomalías también es conocida como detección de desviaciones, porque objetos anómalos tienen valores de atributos con una desviación significativa respecto a los valores típicos esperados. Aunque las anomalías son frecuentemente tratados como ruido o error en muchas operaciones, tales como agrupamiento, para propósitos de - 34 - detección de fraude son una herramienta valiosa para encontrar comportamientos atípicos en las operaciones que un cliente realiza en una entidad financiera. En términos de salida, las técnicas actuales de detección de anomalías se clasifican en: a. Técnicas basadas en Modelos. Se basan en el campo de estadísticas, dada la premisa de conocer la distribución de los datos. Entre estas técnicas se resalta: el método de convex hull el cual consiste en encontrar el polígono convexo más pequeño que incluye a todos los datos, dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez que tomamos dos puntos en ella, el segmento que los une pertenece también a dicha figura, se muestra un ejemplo de en la figura 7. Figura 1. Ejemplo del método Convexo Hull b. Técnicas basadas en proximidad. Ésta técnica se basa fundamentalmente en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los demás, éste es considerado como una anomalía. Entre los principales métodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. El método de Mahalanobis es una forma diferente de clasificar los datos en los dos grupos y esto se hace mediante la distancia de Mahalanobis en lugar de la distancia euclídea. Está representa la distancia entre el valor promedio del grupo que tiene una covarianza constante, de modo que en dos - 35 - dimensiones, se da esta distancia por un elipsoide. En la figura 8 se representa una curva de Mahalanobis, donde el proceso de clasificación consiste en calcular la distancia de Mahalanobis de un punto de prueba a la media de los dos grupos y luego decidir qué medio es el más cercano. Supongamos que las x’s son el grupo masculino y las o el femenino, entonceses posible ver la forma elíptica que rodea el grupo masculino. Figura 2. Ejemplo del Algoritmo de Mahalonobis - 36 - El método Euclidiano se basa en calcular la distancia entre dos puntos ),...,(0 21 npppP y ),...,( 2 nqqqQ = mediante la formula: 2 1 22 22 2 11 )()(....)()( i n i inn qpqpqpqp ∑ = −=−++−+− Quedando de la siguiente manera: 212 2 12 )()( yyxxd −+−= Esté método calcula la distancia como la longitud de la recta que une dos puntos en el espacio. En la figura 9 se observa gráficamente las dos distancias. Figura 3. Distancia Mahalanobis y Euclidiana. c. Técnicas basadas en densidad. Ésta técnica se basa en la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad y que son relativamente distantes de sus vecinos se consideran anómalos. Entre los principales métodos se encuentra: LOF (Local Outlier Factor), está técnica de minera de datos generalmente es de aprendizaje no supervisado, ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna - 37 - una calificación a cada instancia que refleja el grado con el cual la instancia es anómala. Por lo general ésta técnica es considerada para identificar errores en los datos ó bien para análisis muy en particular, por ejemplo, para el descubrimiento de fraudes. [18], [19] y [20] 2.3. Agrupamiento (Clustering) El análisis de grupos (cluster) es un proceso que divide un grupo de objetos de tal forma que los miembros de cada grupo son similares de acuerdo a alguna métrica. El agrupamiento de acuerdo a la similitud es una técnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa. El objetivo es agrupar elementos en grupos de manera que los elementos dentro de un mismo grupo sean lo más parecidos, mientras que elementos de distintos grupos sean lo más diferentes. Figura 4. Ejemplo de grupos o clúster. - 38 - En la figura 10 se representa un ejemplo de grupos donde la entrada de patrones se muestra en (a), y los grupos se muestran en (b). La obtención de dichos grupos depende del criterio o distancia considerados. Por ejemplo, una baraja de cartas españolas se podría dividir de distintos modos: En cuatro grupos (los cuatro palos) En ocho grupos (los cuatro palos y según sean figuras o números) En dos grupos (figuras y números) Es decir, todo depende de lo que se considere como similar. [21] y [22] 2.3.1. Etapas del análisis grupo Elección de las variables: Los tipos de variables dependerán del planteamiento del problema, éstas son: variables cualitativas, ordinales (grado de estudio), nominales (grupo), variables cuantitativas, variables discretas (número de alumnos), variables continuas (estaturas) [5] Elección de la medida de asociación o similitud: En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que depende de las escalas de medida. Las observaciones se agrupan según la similitud expresada en términos de una distancia. Algunas formulas de distancia más usadas son: Distancia euclidiana es llamada también distancia clásica, como la longitud de la recta que une dos puntos en el espacio. ∑ = −= d i ii yxyxEucl 1 2)(),( - 39 - Distancia de Manhattan: es llamada también distancia por cuadras (city block), está hace referencia a recorrer un camino no en diagonal (por el camino más corto) si no zigzagueando, como se haría en Manhattan. ∑ = −= d i ii yxyxManh 1 ||),( Distancia de Mahalanobis: es una distancia más robusta que utiliza la matriz de covarianzas S. )()()(),( 1 yxDCovyxyxsMahalanobi −−= − Visualmente las distancias se observan en la figura 11. Di sta nc ia Eu clí de a Distancia Mahalanobis Di sta nc ia Ma nh att an Di sta nc ia Eu clí de a Distancia Mahalanobis Di sta nc ia Ma nh att an Figura 5. Comparación de cálculo de distancias. - 40 - Elección de las técnicas de grupos: Existen diferentes técnicas de grupo, la selección dependerá del resultado que se espera. (Ver 2.3.2 Técnicas de agrupamiento) Validación de los resultados: Evaluar que tan bueno es el ajuste, es decir si el número de agrupaciones es el adecuado así como la contribución de las variables al agrupamiento. 2.3.2. Técnicas de agrupamiento. Mapas autoorganizativos (Kohonen): la característica más importante del modelo es el concepto de aprendizaje en un vecindario o agrupación próximo a la neurona ganadora. Figura 6. Visualización de un Mapa de Kohonen. - 41 - En la figura 12 se muestra un ejemplo de Mapa de Kohonen de dos capas donde cada neurona de competición es una categoría y cada neurona de entrada está conectada con cada una de las células de la capa de competición (células que se distribuyen inicialmente de forma aleatoria). Paso1: Se recibe el ejemplo de entrada (n-dimensional) Los ejemplos son representables como puntos en un espacio n-dimensional Figura 7. Entradas en un mapa de Kohonen Paso2: Se propaga por las conexiones hasta llegar a la capa de competición (competición que se realiza de acuerdo a un modelo de interacción lateral) Los prototipos (objetos diseñados para una demostración) también se representan en el espacio y sus coordenadas quedan determinadas por los pesos de las neuronas de la capa de competición Figura 8. Se propagan las conexiones hasta llegar a la capa de competición. - 42 - Paso3: Cada célula de esta capa de competición produce una salida al comparar el ejemplo con sus pesos. Paso4: Se selecciona el prototipo cuya distancia al ejemplo sea menor (célula ganadora) Figura 9. Se selecciona el prototipo. Paso 5: Los pesos de la célula ganadora se modifican para acercarse ligeramente al ejemplo modificando así el mapa de prototipos inicial Figura 10. Mapa de prototipo inicial. - 43 - Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa la distancia del ejemplo a los distintos prototipos existentes sino también la clase a la que pertenecen los ejemplos cercanos. K-Medias (K-Means): es un método de agrupación de casos que se basa en las distancias existentes entre ellos en un conjunto de variables (este método no permite agrupar variables). El objetivo de este algoritmo es intentar situar los prototipos de forma tal que aquellos patrones cercanos (distancia euclídea) sean similares entre sí. Ejemplo. Se cuenta con la siguiente información: Tabla 2. Datos para el ejemplo de K-medias. Paso 1. Graficando se tiene que: 0 1 2 3 4 5 0 2 4 6 Atributo1 índice ponderado pH Figura 11. Gráfica inicial de la información. Paso 2. Seleccionar k elementos aleatoriamente, los cuales representa el centro o media de cada cluster. Para este caso de estudio tomamos medicina A y medicina B como los primeros centroides (centros - 44 - multivariantes de los conglomerados) definiéndolos como 1c y 2c respectivamente; entonces se tiene )1,1(1 =c y )1,2(2 =c 0 1 2 3 4 5 0 2 4 6 Atributo1 índice ponderado pH Figura 12. Primeros centroides. Paso 3. A cada objeto restante se le asigna el grupo con el cual más se parece, basándose en una distancia entre el objeto y la media del grupo. Para esto se calcula la distancia entre los centros de los cluster de cada objeto que en este caso es 1c y 2c . La distancia de medicina )3,4(=c ) con el primer centroide o media del cluster se calcula con la fórmula de la distancia: )1,1(1 =c 61.3)13()14( 22 =−+− , y con respecto al segundo centroide es )1,2(2 =c 83.2)13()24( 22 =−+− , etc. Para agrupación de cada objeto se basa en la mínima distancia, por ejemplo para medicina C la distancia es menor hacia el grupo 2, por tanto esasignada a este. La distancia de medicina D = (5,4) con respecto a los centroides es: - 45 - )1,1(1 =c 5)14()15( 22 =−+− )1,2(2 =c 24.4)14()25( 22 =−+− Entonces de acuerdo al resultado de las distancias se tiene que medicina C y D están asignadas al grupo 2. Entonces la matriz de grupo quedaría definida de la siguiente manera: Paso 4. Se itera nuevamente. En el grupo uno solo existe un centroide )1,1(1 =c , en el grupo 2 hay 3 por tanto se calcula el promedio de estos para obtener el segundo. ) 3 8 , 3 11 () 3 431 , 3 542 (2 = ++++=c . Ver figura 19. 0 1 2 3 4 5 0 2 4 6 Atributo1 índice ponderado pH Figura 13. Gráfica de los segundos centroides. Ahora se calculan las distancias de los objetos con el nuevo centroide: - 46 - Medicina )1,2(B )1,1(1 =c 1)11()12( 22 =−+− ) 3 8 , 3 11 (2 =c 36.2)3/81()3/112( 22 =−+− Medicina )3,4(C )1,1(1 =c 61.3)13()14( 22 =−+− ) 3 8 , 3 11 (2 =c 47.0)3/83()3/114( 22 =−+− Medicina )4,5(D )1,1(1 =c 5)14()15( 22 =−+− ) 3 8 , 3 11 (2 =c 89.1)3/84()3/115( 22 =−+− Medicina B se mueve al Grupo 1, medicina C y D siguen quedando en el grupo B, la matriz queda: Paso 5. Como la matriz 0G es diferente a 1G , se vuelve a iterar. Para obtener los nuevos centroides se calcula el promedio de A y B para el primer grupo, de C y D para el grupo 2. )1, 2 1 1() 2 11 , 2 21 (1 = ++=c y ) 2 1 3, 2 1 4() 2 43 , 2 54 (2 = ++=c - 47 - Figura 14. Gráfica con nuevos centroides. Nuevamente calculamos la distancia de los objetos con los nuevos centroides. El resultado de las distancias mínimas dan como resultado Medicina A y B en primer grupo y medicina C y D en el segundo, Paso 6. Como el resultado es el mismo que el anterior 12 GG = se termina de iterar; ya que los grupos no se han movido por tanto no es necesario más iteraciones. Quedando la agrupación final: - 48 - Tabla 3. Tabla final del ejemplo. 2.3.3. Ventajas de la técnica Rendimiento en la información, es decir, se analiza en grandes bases de datos sin problema alguno. Entre las clases internas la similitud es muy alta. Entre las clases externas la similitud es muy baja. La calidad del resultado de los grupos depende de la medida de similitud usada por el método y su implementación. La calidad del método de agrupamiento también depende de la capacidad de descubrir algunos o todos los patrones ocultos. La calidad de la agrupación también depende de la definición y representación del grupo elegido. 2.3.4. Usos y/o aplicaciones Biología: Crear la taxonomía de todas las cosas vivas, como reino, clases, categorías, familia, género y especies. Con el apoyo de ésta técnica, encontramos la clasificación parecida. Recuperación de información: por ejemplo, buscar algo en Internet entre las millones de páginas Web. El agrupamiento usa grupos de ésta búsqueda, dando como resultados grupos de agrupamiento más pequeños. Clima: para entender el clima, se requiere encontrar patrones en la atmósfera y el océano. Medicina: Los grupos se usan para identificar diferentes subcategorías, por ejemplo, para identificar tipos de depresión. - 49 - Negocios: se usa para agrupar clientes y así realizar actividades de marketing. 2.3.5. Limitaciones Necesidad de validar la solución. Técnica exploratoria, sin solución única. Perdida de alguna información valiosa más minuciosa. La dificultad de etiquetar los grupos. Gran numero de dimensiones. [26] y [27] 2.4. Árboles de Decisión Un árbol de decisión es un modelo de predicción y se define como un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se determina siguiendo las condiciones que se cumplen desde la raíz del árbol hasta sus hojas. Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la construcción de modelos predictivos. Por está razón es la técnica mas usada. Un árbol de decisión tiene unas entradas las cuales son un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores toman las entradas y las salidas son valores discretos o continuos De forma más concreta, refiriéndonos al ámbito empresarial, los árboles de decisión son diagramas de decisiones secuenciales y muestran sus posibles resultados. Éstos ayudan a las empresas a determinar cuales son sus opciones al mostrarles las distintas decisiones y sus resultados. La opción que evita una pérdida o produce un beneficio extra tiene un valor. La - 50 - habilidad de crear una opción, por lo tanto, tiene un valor que es comprado o vendido. Inicio Edad Antigüedad Rechazar Aceptar Rechazar >= 25 años < 18 meses >= 18 meses < 25 años Inicio Edad Antigüedad Rechazar Aceptar Rechazar >= 25 años < 18 meses >= 18 meses < 25 años Figura 15. Árbol de decisión. En la figura 21 se observa un ejemplo de árbol el cual contiene dos variables: edad y antigüedad. Se interpreta de la siguiente manera: Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es igual o mayor a 18 meses entonces el cliente es aceptado. Existen ciertos conceptos de la metodología: Entropía: es la medida de la incertidumbre que hay en un sistema. Es decir, ante una determinada situación, la probabilidad de que ocurra cada uno de los posibles resultados. La función de entropía más usada es la denominada binaria descrita por la fórmula: - 51 - ) 1 1 (log)1() 1 (log)1,( 222 p p p pppH − −+=− Su gráfica es: Figura 16. Gráfica de la entropía. Un ejemplo de la entropía binaria podría ser sacar una bola de color blanco negro de una bolsa. Si en la bolsa hay 3 bolas blancas y 3 negras el resultado es completamente desconocido, es decir la incertidumbre es máxima, es decir la entropía es 1. Si, al otro extremo, en la bolsa hay 6 bolas negras el resultado es conocido de antemano, luego la incertidumbre no existe, y la entropía es 0. Ganancia de información: es la diferencia entre la entropía de un nodo y la de uno de sus descendientes. En el fondo no es más que una heurística (resolución de problemas mediante la creatividad y el pensamiento), que servirá para la elección del mejor atributo en cada nodo. Es decir, para el nodo con el conjunto de entrenamiento S y el atributo A, la ),( ASGanancia es: )(),()( AEntropíanpIAGanancia −= Siendo Sv el subconjunto de S formado por aquellas instancias que en el atributo A toman el valor v. - 52 - Ejemplo: Supongamos que hay un conjunto de entrenamiento S con 14 ejemplos, de los que 9 son positivos y 5 son negativos. Su entropía es por tanto (aplicando la fórmula de la entropía binaria) 0.940. Dividiendo el conjunto según un atributo A, se obtiene un subconjunto Sa con 6 ejemplos positivos y 2 negativos (entropía 0.811) y otro subconjunto Sb con 3 ejemplos positivos y 3 negativos (entropía 1.00). La ganancia de información que se obtiene si clasificamos el conjunto S según el atributo A es: Ganancia(S,A)= 0.940 - (8/14)0.811 - (6/14)1.00= 0.048 Nota: Se elige el atributo que proporcione una mayor ganancia de información. 2.4.1. Algoritmos o técnicas de árboles de decisión. Entre los algoritmos de aprendizaje más usuales se encuentra: CART[Breiman,1984]. Se basa en el lema “divide y vencerás”, son métodos que construyen árboles binarios basados en el criterio de partición GINI y que sirven para clasificación como para regresión. La poda se basa en unaestimación de la complejidad del error. El proceso general es: Paso 1. El nodo raíz es dividido en subgrupos (dos o más) determinados por la partición de una variable predictora elegida, generando nodos hijos. Paso 2. Los nodos hijos son divididos usando la partición de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condición de parada. Paso 3. Algunos de los nodos resultantes son terminales, mientras que otros nodos continúan dividiéndose hasta llegar a un nodo terminal. Paso 4. En cada árbol se cumple la propiedad de tener un camino único entre el nodo raíz y cada uno de los demás nodos del árbol. Ejemplo: en 215 pacientes que sufrieron un ataque al corazón se evaluaron variables sociodemográficas, historia médica y exámenes de laboratorio. - 53 - A los 30 días 37 pacientes murieron. Se presenta el Árbol de Clasificación desarrollado con el fin de estimar “El riesgo de un segundo ataque”. Ver figura 23 Figura 17. Ejemplo de árbol resuelto con el algoritmo CART. ID3.Propuesto por Quinlan en 1986, el ID3 es considerado el árbol de decisión más simple, usa la ganancia de información como criterio de separación. El árbol crece hasta encontrar un nodo final. No emplea procedimientos de poda ni manejo de valores perdidos. El objetivo es construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible, según los criterios de coste y bondad. En cada momento elige el mejor atributo - 54 - El algoritmo general se define mediante un ejemplo: Se toma la decisión de asistir a un juego o no, considerando los factores climatológicos definidos en la siguiente tabla: NSiAltaTempladaLluvioso14 PNoNormalCalienteNublado13 PSiAltaTempladaNublado12 PSiNormalTempladaSoleado11 PNoNormalTempladaLluvioso10 PNoNormalFríaSoleado9 NNoAltaTempladaSoleado8 PSiNormalFríaNublado7 NSiNormalFríaLluvioso6 PNoNormalFríaLluvioso5 PNoAltaTempladaLluvioso4 PNoAltaCalienteNublado3 NSiAltaCalienteSoleado2 NNoAltaCalienteSoleado1 Tipo_claseVientoHumedadTemperaturaClima_general#_Caso NSiAltaTempladaLluvioso14 PNoNormalCalienteNublado13 PSiAltaTempladaNublado12 PSiNormalTempladaSoleado11 PNoNormalTempladaLluvioso10 PNoNormalFríaSoleado9 NNoAltaTempladaSoleado8 PSiNormalFríaNublado7 NSiNormalFríaLluvioso6 PNoNormalFríaLluvioso5 PNoAltaTempladaLluvioso4 PNoAltaCalienteNublado3 NSiAltaCalienteSoleado2 NNoAltaCalienteSoleado1 Tipo_claseVientoHumedadTemperaturaClima_general#_Caso Tabla 4. Información de climas para ejemplo. Analizando la información se ve que se tiene 9 con clase P y 5 con clase N. Paso 1. Se calcula la información requerida para la clasificación general con la ecuación: )()()()(),( 22 np n Log np n np p Log np p npI ++ − ++ −= I (p, n) = - (9/14)*log 2 (9/14) - (5/14)*log 2 (5/14) = 0.940 bits Paso 2. Se calcula para cada atributo, se comienza con clima general, se observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de los cuales 2 son de clase p y 3 N, entonces: Soleado 21 =p , 21 =n 971.0)5/3(log*)5/3()5/2(log*)5/2(),( 2211 =−−=npI - 55 - Para el valor de Nublado 42 =p , 02 =n 0)4/0(log*)4/0()4/4(log*)4/4(),( 2222 =−−=npI Y para el valor de Lluvioso 33 =p , 13 =n 971.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI Paso 3. Se calcula a entropía total de los atributos: np npInpnpInpnpInp AE vvvv + +++++++++ = )(*)(...)(*)()((*)( (( 22221111 694.0 14 )5)(*4)((*5 )_lim( 332211 = +++++ = npnpInpI GeneralaCE Paso 4. Se obtienen la ganancia que es la diferencia entre la entropía de un nodo y la de uno de sus descendientes y sirve para la elección del mejor atributo en cada nodo que es que gana la mayor información. )(),()( AEntropíanpIAGanancia −= Ganancia (Clima_General)= 0.940 - E (Clima_General)= 0.940 -0.694 = 0.246 Clima General Soleado Nublado Lluvioso [2+,3-] E= 0.971 [3+,1-] E= 0.971 [3+,0-] E= 0 Clima General Soleado Nublado Lluvioso [2+,3-] E= 0.971 [3+,1-] E= 0.971 [3+,0-] E= 0 Figura 18. Árbol de ejemplo con valores de ramificación Clima General. Paso 5. El mismo procedimiento es aplicado a los otros tres atributos, por tanto se continúa con temperatura. - 56 - Caliente 21 =p , 21 =n 1)4/2(log*)4/2()4/2(log*)4/2(),( 2211 =−−=npI Templada 42 =p p1 = 4, 22 =n 918.0)6/2(log*)6/2()6/4(log*)6/4(),( 2222 =−−=npI Fria 33 =p , 13 =n 811.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI Se calcula ahora la entropía del atributo temperatura. 14 ),(*4),(*6),(*4 )( 332211 npInpInpI aTemperaturE ++ = 911.014/))811.0(*4)918.0(*6)1(*4()( =++=aTemperaturE Paso 6. Se calcula la ganancia. Ganancia (Temperatura) = 0.940 - E(Temperatura) = 0.029 Ganancia (Temperatura) = 0.940 -.911=.029 Temperatura Caliente Fría Templada [2+,2-] E= 1 [4+,2-] E= 0.918 [3+,1-] E= 0.811 Temperatura Caliente Fría Templada [2+,2-] E= 1 [4+,2-] E= 0.918 [3+,1-] E= 0.811 Figura 19. Árbol con rama "Temperatura". Paso 7. Ahora se continua con el atributo de humedad: Alta 31 =p , 41 =n 985.0)7/4(log*)7/4()7/3(log*)7/3(),( 2211 =−−=npI Normal 62 =p , 12 =n 591.0)7/1(log*)7/1()7/6(log*)7/6(),( 22212 =−−=npI - 57 - Paso 8. Se calcula su entropía. 14 ),(*7),(*7 )( 2211 npInpI HumedadE + = 788.0 14 )591(.*7)985(.*7 )( =+=HumedadE Paso 9. Y finalmente su ganancia. Ganancia (Humedad) = 0.940 - E(Humedad) = 0.151 Ganancia (Humedad)= .940-.788=.151 Humedad Alta Normal [3+,4-] E= 0.985 [6+,1-] E= 0.591 Humedad Alta Normal [3+,4-] E= 0.985 [6+,1-] E= 0.591 Figura 20.Árbol con rama "Humedad". Paso 10. Se hacen los cálculos correspondientes para viento. Si 31 =p , 31 =n 1.0)6/3(log*)6/3()6/3(log*)6/3(),( 2211 =−−=npI No 62 =p , 22 =n 811.0)8/2(log*)8/2()8/6(log*)8/6(),( 2222 =−−=npI Paso 11. Se calcula la entropía y su ganancia. - 58 - 14 ),(*8),(*6 )( 2211 npInpI VientoE + = 892.0 14 )811.0(*8)1(.*6 )( =+=VientoE Ganancia (Viento) = 0.940 - E(viento) = .048 Ganancia (viento)= .940-.892=.048 Paso 12. Una vez realizado los cálculos para todos los atributos, se identifica la tupla con mayor ganancia que en este caso es Clima_General para que sea tomada como nodo inicial, el árbol queda de la siguiente manera: Figura 21. árbol de ramificación "Clima General". Paso 13. Esté proceso se hace para cada nodo del árbol. Obteniendo un árbol final: - 59 - Clima General Humedad P Viento N Soleado Nublado Lluvioso P Alta Normal N No P Si Clima General Humedad P Viento N Soleado Nublado Lluvioso P Alta Normal N No P Si Figura 22. Árbol final. C4.5. Es la evolución del ID3, presentado por Quinlan en 1993. Usa como criterio de separación el radio de ganancia (gain ratio) o proporción de ganancia. Esta es la medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas. 2.4.2. Las ventajas de la técnica de Árboles de decisión Resume los ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que sirvieron para su construcción. Facilita la interpretación de la decisión adoptada. Proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones. Explica el comportamiento respecto a una determinada tarea de decisión. - 60 - Reduce el número de variables independientes. Es una magnifica herramienta para el control de la gestión empresarial. Minimizan el pre-tratamiento, trabajan con un cierto nivel de ruido y datos faltantes. Se definen los ejemplos en términos de pares atributo-valor (representados como un conjunto fijo de atributos, por
Compartir