Logo Studenta

Mineria-de-datos-con-aplicaciones

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL 
AUTÓNOMA DE MÉXICO 
FACTULTAD DE ESTUDIOS SUPERIORES 
ACATLÁN 
MINERIA DE DATOS CON APLICACIONES 
TESIS 
QUE PARA OBTENER EL TITULO DE 
LICENCIADA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN 
PRESENTA 
LILIANA CRUZ ARRRELA 
ASESOR: DRA. MARICARMEN GONZÁLEZ VIDEGARAY 
 
 
MARZO 2010 
 
 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
AGRADECIMIENTOS 
 
Gracias a 
Dios por su infinito amor y apoyo. 
A mi madre por su confianza y entrega. 
A mi padre por su apoyo. 
A mis hermanos por la confianza y amor. 
A mi esposo Raúl que me ha impulsado a lograr lo inimaginable. 
A mi Universidad y profesores. 
Gracias por lo que hemos logrado. 
 
 
 “Mas la senda de los justos es como la luz de la aurora, que va en 
aumento hasta que el día es perfecto” Proverbios 4:18 
 
 
INTRODUCCIÓN .......................................................................................................... 1 
CAPÍTULO 1. MINERÍA DE DATOS ........................................................................ 3 
1.1. INTRODUCCIÓN ....................................................................................................................... 3 
1.2. ¿QUÉ ES LA MINERÍA DE DATOS? ............................................................................................. 4 
1.3. LIMITACIONES DE LA MINERÍA DE DATOS .................................................................................... 7 
1.4. DIFERENCIAS ENTRE MINERÍA DE DATOS Y ESTADÍSTICA ............................................................. 8 
1.5. MINERÍA DE DATOS Y KDD .................................................................................................... 11 
1.6. METODOLOGÍAS DE MINERÍA DE DATOS ................................................................................... 13 
1.6.1. Metodologías SEMMA ........................................................................................................................................ 14 
1.6.2. Metodología CRISP-DM ..................................................................................................................................... 17 
1.7. FASES DE UN PROYECTO DE MINERÍA DE DATOS ..................................................................... 23 
1.8. APLICACIONES DE LA MINERÍA DE DATOS ................................................................................. 24 
CAPÍTULO 2. TÉCNICAS DE MINERÍA DE DATOS. ............................................ 32 
2.1. INTRODUCCIÓN ..................................................................................................................... 32 
2.2. TÉCNICA DE DETECCIÓN DE ANOMALÍAS (OUTLIER) .................................................................. 33 
2.3. AGRUPAMIENTO (CLUSTERING) ............................................................................................. 38 
2.4. ÁRBOLES DE DECISIÓN ......................................................................................................... 51 
2.5. REDES BAYESIANAS ............................................................................................................. 65 
2.6. REDES NEURONALES ............................................................................................................ 69 
2.7. SERIES DE TIEMPO ............................................................................................................... 74 
CAPÍTULO 3. SOFTWARE PARA MINERÍA DE DATOS ...................................... 84 
3.1. INTRODUCCIÓN ..................................................................................................................... 84 
3.2. INTELLIGENT MINER / DB2 DATA WAREHOUSE EDITION (IBM) ................................................. 85 
3.3. PASW MODELER (CLEMENTINE) ........................................................................................... 89 
3.4. DATAENGINE .................................................................................................................... 95 
3.5. ORACLE DATAMINING............................................................................................................ 97 
3.6. WEKA (SOFTWARE EN JAVA DE MINERÍA DE DATOS) ............................................................... 102 
3.7. ENTERPRISE MINER (SAS) ................................................................................................. 104 
CAPÍTULO 4. MANUAL DE MD CON HERRAMIENTAS DE APOYO. ............... 106 
4.1. SELECCIÓN Y PREPROCESADO DE DATOS. ............................................................................ 107 
4.2. SELECCIÓN DE VARIABLES ................................................................................................... 114 
4.3. EXTRACCIÓN DE CONOCIMIENTO. ......................................................................................... 119 
4.4. INTERPRETACIÓN Y EVALUACIÓN .......................................................................................... 122 
4.5. APLICACIÓN DE UN ESTUDIO DE MINERÍA DE DATOS ................................................................ 128 
CONCLUSIÓN ......................................................................................................... 134 
REFERENCIAS ........................................................................................................ 136 
 - 1 - 
INTRODUCCIÓN 
 
La minería de datos es una herramienta útil y con creciente demanda en el 
mercado y consiste esencialmente el proceso de extracción, transformación y 
análisis de datos, con el fin de obtener conocimiento de los mismos. 
 
En sus inicios la minería de datos solo era utilizada en empresas dedicadas al 
análisis de los datos con un campo de estudio muy especifico, sin embargo hoy 
en día la penetración en todos los ámbitos comerciales es muy significativa. Día 
con día mas empresas utilizan este proceso con el fin de conocer más a sus 
clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin 
de ser más competentes en el mercado. 
 
El presente documento tiene como objetivo introducir y guiar al lector al estudio 
de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las 
técnicas más conocidas y las diferentes soluciones respecto a software que 
ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno 
de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el 
estudio del tema. 
 
El primer capítulo se refiere a la historia de la minería de datos, se citan 
diferentes definiciones de la minería de datos. Se menciona la diferencia entre la 
minería de datos y la estadística, las etapas y proceso para el descubrimiento de 
conocimiento a partir de un conjunto de datos, se citan las metodologías más 
usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se 
ejemplifican estos temas a través de aplicaciones de la minería de datos. 
 
En el capítulo dos se mencionan algunas técnicas más usuales de la minería de 
datos: 
 - 2 - 
 Árboles de decisión. 
 Redes neuronales. 
 Clustering o agrupamiento. 
 Series temporales. 
 Redes bayesianas. 
 
Para cada técnica se menciona su definición, ventajas y desventajas así como un 
ejemplo prácticoque ayude a ilustrar la teoría. 
 
En el capítulo 3 se citan algunos IDES o software que contienen utilidades para 
preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos 
de estos de uso libre. Se detalla en los más usuales como Data Engine, 
Enterprise Miner, Clementine y Weka. 
 
En el capítulo 4 se da una demostración general del software de SAS que es el 
Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la 
explotación de información y se cita un ejemplo general con la herramienta para 
mejor apreciación. 
 
 
 
 
 
 
 
 
 
 
 - 1 - 
INTRODUCCIÓN 
 
La minería de datos es una herramienta útil y con creciente demanda en el 
mercado y consiste esencialmente el proceso de extracción, transformación y 
análisis de datos, con el fin de obtener conocimiento de los mismos. 
 
En sus inicios la minería de datos solo era utilizada en empresas dedicadas 
al análisis de los datos con un campo de estudio muy especifico, sin embargo 
hoy en día la penetración en todos los ámbitos comerciales es muy 
significativa. Día con día mas empresas utilizan este proceso con el fin de 
conocer más a sus clientes, dar un mejor servicio, identificar las áreas de 
oportunidad, todo con el fin de ser más competentes en el mercado. 
 
El presente documento tiene como objetivo introducir y guiar al lector al 
estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. 
Utilizando las técnicas más conocidas y las diferentes soluciones respecto a 
software que ofrecen las empresas líderes en este ramo. Un lector deseado 
sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, 
que se inicia en el estudio del tema. 
 
El primer capitulo se refiere a la historia de la minería de datos, se citan 
diferentes definiciones de la minería de datos. Se menciona la diferencia 
entre la minería de datos y la estadística, las etapas y proceso para el 
descubrimiento de conocimiento a partir de un conjunto de datos, se citan las 
metodologías más usuales de la minería de datos: la metodología SEMMA y 
CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la 
minería de datos. 
 
En el capítulo dos se mencionan algunas técnicas más usuales de la minería 
de datos: 
 
 
 - 2 - 
 Árboles de decisión. 
 Redes neuronales. 
 Clustering o agrupamiento. 
 Series temporales. 
 Redes bayesianas. 
 
Para cada técnica se menciona su definición, ventajas y desventajas así 
como un ejemplo práctico que ayude a ilustrar la teoría. 
 
En el capítulo 3 se citan algunos IDES o software que contienen utilidades 
para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; 
algunos de estos de uso libre. Se detalla en los más usuales como Data 
Engine, Enterprise Miner, Clementine y Weka. 
 
En el capítulo 4 se da una demostración general del software de SAS que es 
el Enterprise Miner, se menciona los diferentes nodos con los que cuenta 
para la explotación de información y se cita un ejemplo general con la 
herramienta para mejor apreciación. 
 
 - 3 - 
Capítulo 1. Minería de Datos 
1.1. Introducción 
 
La minería de datos (Data Mining) surge a principios de los 80’s cuando la 
Administración de Hacienda Estadounidense desarrolló un programa de 
investigación para detectar fraudes en la declaración y evasión de impuestos, 
mediante lógica difusa, redes neuronales y técnicas de reconocimiento de 
patrones. Sin embargo, su expansión se produce hasta los 90’s originada 
principalmente por tres factores. 
 
 Incremento en la potencia de procesamiento de las computadoras, así 
como en la capacidad de almacenamiento. 
 El crecimiento de la cantidad de datos almacenados se ve favorecido no 
sólo por el abaratamiento de los discos y sistemas de almacenamiento 
masivo, sino también por la automatización de muchos trabajos y 
técnicas de recogida de datos (observación con nuevas tecnologías, 
entrevistas más prácticas, encuestas por Internet, etcétera) 
 Aparición de nuevos métodos de técnicas de aprendizaje y 
almacenamiento de datos, como las redes neuronales, la Inteligencia 
artificial, el surgimiento del almacén de datos (Data Ware House)[1] 
 
La minería de datos surge por la necesidad de obtener estrategias de negocio, 
conocer a los clientes, obtener información de productos, interpretar información 
valiosa para la toma de decisiones, etcétera. 
 
La idea de minería de datos no es nueva, ya desde los años sesenta los 
estadísticos manejaban términos como data fishing, minería de datos o data 
 - 4 - 
archaeology con la idea de encontrar correlaciones sin una hipótesis previa en 
bases de datos. 
 
A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum 
y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de 
minería de datos y descubrimiento de conocimiento en base de datos. 
 
A finales de los años ochenta sólo existían un par de empresas dedicadas a ésta 
tecnología; en 2002 existían más de 100 empresas en el mundo que ofrecían 
alrededor de 300 soluciones, ahora se ven áreas dedicadas a la minería de datos 
dentro de cada empresa, ya que, es una herramienta ideal para obtener 
información valiosa e importante de manera rápida y eficaz, a través de procesos 
especializados y sistemáticos. 
 
Una serie de avances en la tecnología y los procesos de negocio han contribuido 
al creciente interés de ésta en los sectores público (detectar fraudes, residuos, 
medición y mejora de programas) y privado (banca, seguros, ventas, etcétera.) 
 
Algunos de estos cambios incluyen el crecimiento de las redes de computadoras, 
que se utilizan para conectar bases de datos; el desarrollo de una mayor 
búsqueda de relaciones con técnicas como las redes neuronales y algoritmos 
avanzados, la propagación de las aplicaciones cliente/servidor, lo que permite a 
los usuarios acceder a los recursos centralizados de datos desde el escritorio y 
una mayor capacidad para combinar datos de diferentes fuentes en una sola 
búsqueda.[2] y[3] 
 
1.2. ¿Qué es la minería de Datos? 
 
Existen varias definiciones de minería de datos, a continuación se mencionaran 
algunas: 
 - 5 - 
 
Definición 1. Minería de datos es el proceso por el cual generamos un modelo, 
que sirva para la predicción, este modelo se genera con base en los datos que se 
encuentran en una base de datos aplicándoles algún algoritmo que construya el 
modelo. [4] 
 
Definición 2. La minería de datos es un proceso no trivial de identificación válida, 
novedosa, potencialmente útil y entendible de patrones comprensibles que se 
encuentran ocultos en los datos. [5] 
 
Definición 3. Es la integración de un conjunto de áreas que tienen como 
propósito la identificación de un conocimiento obtenido a partir de las bases de 
datos que aporten un sesgo hacia la toma de decisión. [6] 
 
Definición 4. Es un mecanismo de explotación, consistente en la búsqueda de 
información valiosa en grandes volúmenes de datos. Está muy ligada a las 
bodegas de datos que proporcionan la información histórica con la cual los 
algoritmos de minería de datos tienen la información necesaria para la toma de 
decisiones. [7] 
 
En la definición 1 y 2, se dice que la minería de datos es un proceso; en la 
definición 3 se describe como una integración de áreas y en la definición 4 como 
un mecanismo de explotación. Las cuatro definiciones se complementan una con 
otra así como los propósitos que se citan en cada una de ellas. 
 
Entonces concluimos que la minería de datos es un proceso que integra 
diferentes áreas sirviendo como mecanismo de explotación para identificación de 
información valiosa, novedosa y útil; así como para predicción de 
comportamientos. Por tanto el objetivo fundamental de ésta es aprovechar el 
valor de la información localizada y usar patrones preestablecidos para que los 
directivos tenganun mejor conocimiento de su negocio y se tomen decisiones 
 - 6 - 
más confiables. El resultado de la minería será un modelo que se tendrá que 
evaluar para ver qué tan certero será con respecto a sus predicciones y 
posteriormente se utilizará para predecir el patrón de comportamiento de 
cualquier dato nuevo (esto se hace calificando los nuevos datos basándose en el 
modelo generado) que llegue a la base de datos. 
 
Las aplicaciones de minería de datos utilizan una gran variedad de parámetros 
para examinar los datos: 
 La asociación (los patrones de un evento que está conectado a otro 
evento, como la compra de una pluma y la compra de papel) 
 La secuencia (patrones donde un evento lleva a otro, como el 
nacimiento de un hijo y la compra de pañales) 
 La clasificación (identificación de nuevos patrones, como coincidencias 
entre la compra de cinta adhesiva para conductos y la compra de 
láminas de plástico) Las agrupaciones (encontrar y documentar 
visualmente grupos de hechos anteriormente desconocidos, como 
ubicación geográfica y las preferencias de marca) 
 Los pronósticos (el descubrimiento de patrones a partir de los cuales se 
hacen predicciones en relación con las actividades futuras, tales como, la 
predicción de que las personas que pertenecen a un club de atletismo 
tome clases de ejercicio)[8] 
 
En la minería de datos casi nunca se menciona el tiempo que se invierte en la 
limpieza y la verificación de los datos, así como la definición de las variables, 
pero este proceso es muy importante ya que por lo regular las bases de datos de 
los sistemas operacionales contienen datos duplicados, a veces erróneos, 
superfluos o incompletos. A esto se le suman los errores por la operación de los 
sistemas. 
 
Las principales características y objetivos de la minería de datos son: 
 
 - 7 - 
 Explorar los datos para encontrar información valiosa que está oculta 
dentro de las grandes bases de datos. 
 El entorno de la minería de datos suele tener una arquitectura cliente 
servidor, es decir la información se encuentra en un servidor con 
accesos restringidos y las consultas se hacen por medio de otra 
aplicación independiente. 
 Las herramientas de minería de datos ayudan a explotar los datos con 
los que se cuenta, para encontrar patrones, crear predicciones, etcétera. 
 La información obtenida a través de la minería de datos ayuda a los 
usuarios a elegir cursos de acción y a definir estrategias competitivas, 
porque conocen información qué sólo ellos emplean. 
 Explorar, a menudo implica el descubrimiento de resultados valiosos e 
inesperados. 
 Debido a la gran cantidad de datos, algunas veces resulta necesario usar 
procesamiento en paralelo para la minería de datos. 
 
La minería de datos es un proceso que invierte la dinámica del método científico, 
el cual consiste en formular una hipótesis y luego se diseña el experimento para 
confirmarla o refutarla; y en minería de datos primero se diseña y realiza el 
experimento y finalmente se obtiene el nuevo conocimiento. [10] 
 
1.3. Limitaciones de la minería de datos 
 
Las limitaciones de la minería de datos son los primeros datos o datos puros, y 
no tanto la tecnología o herramientas para el análisis, es decir depende mucho 
de la limpieza de los datos y de la definición de las variables, si los datos no 
están correctos el modelo creado no servirá. Del mismo modo la validez de los 
patrones descubiertos depende de cómo se apliquen al mundo real o a las 
circunstancias. 
 
 - 8 - 
Por ejemplo, para una empresa de telefonía móvil, donde se hace un análisis de 
cancelación de líneas, se muestra que en algunos estados de la República 
Mexicana el patrón de compra de equipo y cancelación de la línea en 3 meses, 
se presenta con más frecuencia durante los meses de diciembre y enero, 
mientras que en otros estados la cancelación de líneas nunca se da por cambio 
de equipo, es por problemas con el teléfono y en el mes de septiembre; por tanto, 
es difícil especificar que cuando se cambia de equipo inmediatamente se da la 
cancelación de la línea, el usuario que realice las minería está encargada de 
conocer el negocio para deducir la razón de las cancelaciones de las líneas. Otra 
limitación es que si bien ésta identifica las conexiones entre los comportamientos 
y/o variables, no necesariamente se sabe la causa de la relación. [8] 
 
1.4. Diferencias entre minería de datos y estadística 
 
La minería de datos como enfoque para el análisis y descubrimiento de la 
información o conocimiento a realizar en grandes bases de datos combina 
técnicas como: Estadística (análisis factorial, discriminante, regresivo, de 
correlaciones), redes neuronales, sistemas expertos o basados en el 
conocimiento, sistemas de reglas de inducción, lógica difusa, algoritmos 
genéticos, algoritmos matemáticos (teoría de fractales y del caos, simulación) 
El uso de metodologías estadísticas y de minería de datos a veces suelen 
confundirse entre ellas. 
 
La minería de datos se presenta como una disciplina nueva, ligada a la 
Inteligencia Artificial y diferenciada de la Estadística. Por otro lado, en el mundo 
estadístico más académico, la minería de datos ha sido considerada en su inicio 
como una moda más, aparecida después de los sistemas expertos, conocida 
desde hacía tiempo bajo el nombre de data fishing. Ésta conlleva la promesa de 
exploración y el encuentro de relaciones subyacentes en los datos, por tanto se 
dice que la esencia de la minería de datos se encuentra en la posibilidad del 
 - 9 - 
descubrimiento de información insospechada, pero sumamente valiosa, esto 
significa que la minería de datos es exploratoria y las áreas de la estadística son 
confirmatorias (confirmar hipótesis) 
 
La estadística sobre todo descriptiva se desarrolló en épocas donde no se 
contaba con las computadoras, de ésta manera un conjunto de datos de 1,000 
registros era considerado como "grande", pero no se compara con los 50 
millones de transacciones con tarjeta de crédito que se realizan en México 
anualmente y que conforman bases de datos sumamente interesantes para el 
mundo financiero. 
Con la estadística se hacen manipulaciones de datos de manera directa; en 
minería de datos no es así, se necesita una serie de algoritmos numéricos. Otra 
diferencia entre estadística y minería de datos es que a la minería no le 
concierne la selección de la información y en la estadística es cuestión 
fundamental el cómo seleccionar la muestra de la mejor manera, de tal forma que 
sea representativa de la población, la minería de datos supone que los datos ya 
han sido recolectados y se aboca al descubrimiento de información o patrones. 
 
En la tabla 1 se muestran las características de la estadística y la minería de 
forma comparativa para visualizar las diferencias entre ambas. 
 
 
 
 - 10 - 
 
Tabla 1. Diferencia minería de datos vs. Estadística 
 
 En conclusión en la estadística se desarrolla una hipótesis y, a continuación se 
usan los datos para probar o refutar la hipótesis. Por ejemplo, un usuario podría 
tener la hipótesis de que un cliente que compra un martillo, también compra una 
caja de clavos. La eficacia de este enfoque se ve limitado por la creatividad del 
usuario a desarrollar diversas hipótesis, así como la estructura del software que 
sea utilizado. 
 
En contraste, la minería de datos utiliza un enfoque de descubrimiento, en los 
algoritmos que son usados para examinar varias relaciones en bases de datos 
multidimensionales de manera simultánea, identificar a aquellos que se 
presentan con frecuencia. Por ejemplo, los tipos de compras en una tienda, los 
horarios, los tipos de clientes, la comparación de clientes por su vivienda, tipo de 
automóvil, edad, ocupación, ingresos y / o la distancia entre su casa y la tienda, 
etcétera.[11] 
 - 11 - 
1.5. Minería de Datos y KDD 
 
 Laminería de datos revela patrones o asociaciones que son desconocidos 
para el usuario, por ésta razón, entra o se asocia con el contexto de Knowledge 
Discovery in Database (KDD) o descubrimiento de conocimientos en las 
bases de datos. Éste término es originado de la Inteligencia Artificial (AI). 
 
¿Qué es conocimiento? Desde el punto de vista de las organizaciones, se 
define el conocimiento como aquella información que permite generar acciones 
asociadas a satisfacer las demandas del mercado, y apoyar las nuevas 
oportunidades a través de la explotación de las competencias centrales de la 
organización. El conocimiento es una combinación de valores, información 
contextualizada y experiencias que proporcionan un marco para evaluar e 
incorporar nuevas experiencias e información. El conocimiento se origina y aplica 
en la mente de las personas. En las organizaciones, el conocimiento reside en 
documentos y bases de datos y también en los procesos, prácticas y normas 
corporativas (Ver figura 1 de las etapas del descubrimiento)Figura 1. Etapas del 
descubrimiento de conocimientos.[5]) 
 
 
Figura 1. Etapas del descubrimiento de conocimientos.[5] 
 
 - 12 - 
 
El proceso de descubrimiento de conocimiento en bases de datos involucra 
varios pasos: 
 
a. Selección de datos. Es la primera etapa para extraer conocimiento, se 
define la fuente de datos a analizar y esto depende del objetivo del estudio, se 
parte de una pregunta o hipótesis, o bien se encuentre y sugiera algún modelo a 
partir del análisis de la información. Los atributos o campos seleccionados son 
significativos para el conocimiento que se desea obtener, en cuanto al número de 
registros, a veces es suficiente realizar el análisis sobre un subconjunto o 
muestra. 
 
b. Pre-procesar la información. Ésta etapa tiene por objetivo preparar los 
datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las 
técnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a 
fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo 
erróneo; integración de datos, para generar un único almacén de datos 
coherente en aquellos casos donde los datos provienen de diferentes fuentes; 
transformaciones de datos, para normalizarlos; y reducción de datos, a fin de 
reducir el tamaño de los datos, por ejemplo, eliminando características 
redundantes. La importancia del pre-procesamiento de los datos es por la calidad 
de los datos sobre los que se aplican técnicas de descubrimiento de 
conocimiento ya que esto impacta de manera directa en la calidad del 
conocimiento que se descubre a partir de ellos. 
c. Transformación de la información. Ésta es la que insume mayor tiempo, 
aproximadamente el 60% del esfuerzo total; ya que es necesario tener el 
conocimiento del negocio, así como el objetivo del proyecto o hacia donde se 
quiere llegar. 
d. Patrones. Antes de comenzar con ésta etapa, se define el tipo de 
conocimiento que se desea obtener, a partir de éste se elige la técnica y 
finalmente el algoritmo. La minería tiene diferentes objetivos como predictivo 
 - 13 - 
(estimación de valores futuros o desconocidos de variables de interés a partir de 
otras variables independientes) o descriptivo (identificación de patrones en los 
datos que los explican o resumen). 
e. Conocimiento. Una vez que se tenga el modelo de minería de datos, se 
da un informe de los resultados obtenidos por medio de presentaciones, reportes, 
cuadros comparativos, graficas, etcétera. Para evaluar si los resultados son los 
esperados. 
 
Los objetivos del descubrimiento de conocimiento y la minería de datos son: 
 Procesar automáticamente grandes cantidades de datos. 
 Identificar los patrones más significativos y relevantes. 
 Descubrir conocimiento apropiado para satisfacer las metas de un 
usuario. 
 Formular una estrategia de alcance organizacional para el desarrollo, 
adquisición y aplicación del conocimiento. 
 Implantar estrategias orientadas al conocimiento. 
 Promover la mejora continua de los procesos de negocio, enfatizando la 
generación y utilización del conocimiento. 
 Monitorizar y evaluar los logros obtenidos mediante la aplicación del 
conocimiento. 
 Reducir los tiempos de ciclo en el desarrollo de nuevos producto y 
mejorar los existentes. 
 Reducir los costos por repetición de errores.[5] 
 
1.6. Metodologías de minería de datos 
 
Ante la necesidad existente en el mercado de una aproximación sistemática para 
la realización de los proyectos de minería de datos, diversas empresas y 
consultorías han especificado un proceso de modelado diseñado para guiar al 
usuario a través de una sucesión de pasos que le dirijan a obtener buenos 
 - 14 - 
resultados. Dentro de las principales metodologías utilizadas por los analistas en 
los proyectos de minería de datos se tiene la metodología SEMMA (Sample, 
Explore, Modify, Model, Assess que significa: Muestreo, exploración, 
manipulación, modelado y valoración) propuesta por SAS y la metodología de 
libre distribución CRISPDM (Cross- Industry Standard Process for Data Mining) 
creada por un consorcio de empresas europeas, NCR (Dinamarca), AG 
(Alemania), SPSS (Inglaterra) y OHRA (Holanda) 
Existen otras metodologías menos usuales como la metodología KM-IRIS creada 
por un grupo de de Integración y Re-Ingeniería de Sistemas (IRIS) de la 
Universidad Jaume.[14] 
 
1.6.1. Metodologías SEMMA 
SAS Institute desarrollador de ésta metodología, la define como el proceso de 
selección, exploración y modelado de grandes cantidades de datos para 
descubrir patrones de negocio desconocidos. 
 
El nombre de ésta metodología corresponde a sus letras iníciales en inglés: 
Sample (Muestreo), Explore (Exploración), Modify (Manipulación), Model 
(Modelado) y Asses (Valoración). 
 
 
Figura 2. Fases de la metodología SEMMA.[15] 
 - 15 - 
 
El proceso se inicia con la extracción de la población muestral sobre la que se 
va a aplicar el análisis. El objetivo de ésta fase consiste en seleccionar una 
muestra representativa del problema en estudio. 
 
 La representatividad de la muestra se define como la capacidad de reproducir 
a pequeña escala las características de la población. Ésta es indispensable ya 
que de no cumplirse invalida todo el modelo y los resultados dejan de ser 
admisibles. La forma más común de obtener una muestra es la selección al azar, 
es decir, cada uno de los individuos de una población tiene la misma posibilidad 
de ser elegido. Este método de muestreo se denomina muestreo aleatorio 
simple. 
 
La metodología SEMMA establece que para cada muestra considerada para el 
análisis del proceso asocia el nivel de confianza de la muestra. Una vez 
determinada una muestra o conjunto de muestras representativas de la población 
en estudio, la metodología SEMMA indica que se procede a una exploración de 
la información disponible con el fin de simplificar el problema y optimizar la 
eficiencia del modelo. Para lograr este objetivo se propone la utilización de 
herramientas de visualización ó de técnicas estadísticas que ayuden a poner de 
manifiesto relaciones entre variables. De esta forma se pretende determinar 
cuáles son las variables explicativas que van a servir como entradas al modelo. 
 
La tercera fase de la metodología consiste en la manipulación de los datos, 
con los resultados de la exploración realizada, de forma que se definan y tengan 
el formato adecuado de los datos que serán introducidos en el modelo. 
 
Una vez que se han definido las entradas del modelo, con el formato adecuado 
para la aplicación de la técnica de modelado, se procede al análisis y modelado 
de los datos. El objetivo de ésta fase consiste en establecer una relación entre 
 - 16 - 
las variables explicativas y las variables objetivo, que posibiliten inferir el valor de 
las mismas con un nivel de confianza determinado.Las técnicas utilizadas para el modelado de los datos incluyen métodos 
estadísticos tradicionales (tales como análisis discriminante, métodos de 
agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales 
como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión, 
reglas de asociación y computación evolutiva. 
 
Finalmente, la última fase del proceso consiste en la valoración de los 
resultados mediante el análisis de bondad del modelo o modelos, contrastado 
con otros métodos estadísticos o con nuevas poblaciones muéstrales. En la 
figura 3 se observa un esquema de la dinámica general de la metodología. 
 
 - 17 - 
 
 
Figura 3. Metodología SEMMA.[14] 
 
En conclusión, la metodología consiste en los siguientes pasos: tomar los datos o 
una muestra en caso de que la cantidad de datos sea muy grande, se exploran, 
modifican, modelan y se evalúan en el modelo o los modelos resultantes para 
elegir el más adecuado. [14] y [15] 
1.6.2. Metodología CRISP-DM 
CRISP-DM es una organización europea creada por tres grandes jugadores en 
proyectos de minería de datos que son SPSS, NCR y Daimler Chrysler. Lo que 
trata ésta metodología es desarrollar los proyectos de minería de datos bajo un 
proceso estandarizado de definición y validación de tal forma que se desarrollen 
 - 18 - 
proyectos minimizando los costos que impliquen y con un alto impacto en el 
negocio. 
 
La metodología CRISP-DM proporciona dos documentos distintos como 
herramienta de ayuda en el desarrollo del proyecto de minería de datos: el 
modelo de referencia y la guía del usuario. 
 
El documento del modelo de referencia describe de forma general las fases, 
tareas generales y salidas de un proyecto de minería en general. 
 
La guía del usuario proporciona información más detallada sobre la aplicación 
práctica del modelo de referencia a proyectos de minería de datos específicos, 
proporcionando consejos y listas de comprobación sobre las tareas 
correspondientes a cada fase. 
 
La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería 
de datos en seis fases, que interactúan entre ellas de forma iterativa durante el 
desarrollo del proyecto. 
 
 
 - 19 - 
 
 
Figura 4. Fases del proceso de modelado metodología CRISP-DM. [14] 
 
En la figura 4, las flechas indican relaciones más habituales entre las fases, 
aunque podamos establecer relaciones entre cualquier fase. El círculo exterior 
simboliza la naturaleza cíclica del proceso de modelado. 
 
La primera fase análisis del problema, incluye la comprensión de los objetivos y 
requerimientos del proyecto desde una perspectiva empresarial, con el fin de 
convertirlos en objetivos técnicos y en una planificación. 
 
La segunda fase de análisis de datos comprende la recolección inicial de datos, 
en orden a que se establezca un primer contacto con el problema, identificando 
la calidad de los datos y estableciendo las relaciones más evidentes que 
permitan establecer las primeras hipótesis. 
 
Una vez realizado el análisis de datos, la metodología establece que se proceda 
la preparación de los datos, de tal forma que sean tratados por las técnicas de 
 - 20 - 
modelado. La preparación de datos incluye las tareas generales de selección de 
datos a los que se va a aplicar la técnica de modelado (variables y muestras), 
limpieza de los datos, generación de variables adicionales, integración de 
diferentes orígenes de datos y cambios de formato. 
 
La fase de preparación de los datos, se encuentra muy relacionada con la fase 
de modelado. Independientemente de la técnica de modelado, los datos 
necesitan ser procesados en diferentes formas. Por lo tanto las fases de 
preparación y modelado interactúan de forma sistemática. 
 
En la fase de modelado se seleccionan las técnicas de modelado más 
apropiadas para el proyecto de minería de datos específico. 
 
En la fase de evaluación se evalúa el modelo escogido, no desde el punto de 
vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el 
proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en 
caso que se hayan cometido errores. Si el modelo generado es válido en función 
de los criterios de éxito establecidos en la primera fase y de la precisión del 
mismo, se procede al despliegue de éste en caso de requerirse. 
 
La fase de explotación es en la cual se muestra el resumen de evaluación de los 
resultados, las relaciones y patrones encontrados para que éstos sean utilizados 
en la traza de estrategias y toma de decisiones. [14] y [16] 
 
1.6.3. Comparación de metodologías 
Las metodologías SEMMA y CRISP-DM comparten la misma esencia, 
estructurando el proyecto de minería de datos en fases que se encuentran 
interrelacionadas entre sí, convirtiendo el proceso en iterativo e interactivo. 
La metodología SEMMA se centra más en las características técnicas del 
desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una 
 - 21 - 
perspectiva más amplia respecto a los objetivos empresariales del proyecto. Ésta 
diferencia se establece ya desde la primera fase del proyecto de minería de 
datos donde la metodología SEMMA comienza realizando un muestreo de datos, 
mientras que la metodología CRISP-DM comienza realizando un análisis del 
problema empresarial para su transformación en un problema. Entonces la 
metodología CRISP-DM está más cercana al concepto real de proyecto, 
integrada con una Metodología de Gestión de Proyectos específica que 
completaría las tareas administrativas y técnicas.[14] 
 
Otra diferencia significativa entre la metodología SEMMA y la metodología 
CRISP-DM radica en su relación con herramientas comerciales. La metodología 
SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los 
productos SAS donde se encuentra implementada. Por su parte la metodología 
CRISP-DM ha sido diseñada como una metodología neutra respecto a la 
herramienta que se utilice para el desarrollo de minería de datos siendo su 
distribución libre y gratuita.[14] 
 
En la figura 5 se muestran la comparativa entre las dos metodologías. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 - 22 - 
 
 
Figura 5. Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y 
CRISPDM. [14] 
 - 23 - 
 
1.7. Fases de un Proyecto de Minería de Datos 
 
Los pasos a seguir para la realización de un proyecto de minería de datos son 
siempre los mismos, independientemente de la técnica específica de extracción 
de conocimiento usada. 
 
Figura 6. Fases del Proyecto de Minería de Datos. [10] 
La figura 6 muestra las fases de la minería de datos, las cuales se describen a 
continuación: 
 
a. Selección y preprocesado de datos. La selección de la información 
dependerá del objetivo del proyecto, por ejemplo si se requiere hacer un análisis 
de las altas de líneas Telcel en el mes de noviembre y diciembre de la ciudad de 
México y zona metropolitana, entonces se está hablando que se acota la 
información de la base de datos de todos los clientes, incluso, se trabaja con solo 
una muestra de la información requerida. Con el preprocesado se refiere a la 
eliminación de información errónea y la corrección algunos datos nulos o con 
valores irreales. 
 
b. Selección de variables. Aún después de haber sido preprocesados los 
datos o la información, en la mayoría de los casos se tiene una cantidad enorme 
de datos. La selección de características reduce el tamaño de los datos eligiendo 
las variables más influyentes en el problema, sin apenas sacrificar la calidad del 
modelo de conocimiento obtenido del proceso de minería. Los métodos para la 
selección de características son aquellos basados en la elección de los mejores 
 - 24 - 
atributos del problema y aquellos que buscan variables independientes mediante 
tests de sensibilidad,algoritmos de distancia. 
 
c. Extracción de conocimiento. El conocimiento se obtiene aplicando 
alguna técnica de minería de datos (árboles de decisión, cluster, etcétera) a la 
información dependiendo del objetivo del estudio (véase el capitulo 2 de Técnicas 
de minería de datos); con la finalidad de obtener un modelo de conocimiento, que 
representa patrones de comportamiento observados en los valores de las 
variables del problema o relaciones de asociación entre dichas variables. 
También se usan varias técnicas a la vez para generar distintos modelos, aunque 
generalmente cada técnica obliga a un preprocesado diferente de los datos. 
 
d. Interpretación y evaluación. Una vez obtenido el modelo, se procede a 
su validación comprobando que las conclusiones que arroja son válidas y 
suficientemente satisfactorias. En el caso de haber obtenido varios modelos 
mediante el uso de distintas técnicas, se comparan los modelos en busca de 
aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los 
resultados esperados, se altera alguno de los pasos anteriores para generar 
nuevos modelos. 
 
1.8. Aplicaciones de la minería de datos 
 
La minería de datos se utiliza para varios pronósticos tanto en el sector público 
como privado, industrias como la banca, los seguros, la medicina, para la 
reducción de costos, mejorar la investigación, y aumentar las ventas. Por 
ejemplo, las industrias de seguros y banca, usan aplicaciones de minería de 
datos para detectar el fraude y ayuda a la evaluación del riesgo (credit scoring) 
Utilizando los datos de clientes recabados a lo largo de varios años, las 
empresas desarrollan modelos que predicen si un cliente tienen alto riesgo 
 - 25 - 
crediticio (por ejemplo hoy en día se cuenta con el buró de crédito), o si un 
crédito es fraudulento y tiene que ser investigado más a fondo. 
 
La comunidad médica a veces utiliza a la minería de datos para ayudar a 
predecir la eficacia de un procedimiento o medicamento. Las empresas 
farmacéuticas usan la minería de datos de compuestos químicos y material 
genético para ayudar a guiar la investigación en nuevos tratamientos para las 
enfermedades. 
 
Empresas como el servicio telefónico, los proveedores de música, clubes utilizan 
la minería de datos para crear un análisis de churn (probabilidad de que un 
cliente cancele algún servicio), para evaluar los que son probables a que 
permanezcan como suscriptores y cuáles son susceptibles de pasar a la 
competencia. 
 
En Estados Unidos, la minería de datos se utilizó inicialmente como un medio 
para detectar el fraude y el derroche, hoy en día también se utiliza para fines 
tales como medir y mejorar el rendimiento del programa. Se ha informado que 
ésta ha ayudado al gobierno federal de EU. a la recuperación de millones de 
dólares por fraude. 
 
El Departamento de Justicia de EU. ha sido capaz de utilizar la minería de datos 
para evaluar modelos de delincuencia y ajustar las asignaciones de recursos en 
consecuencia. 
 
Otro ejemplo es la Administración Federal de Aviación (EU.), que utiliza la 
minería de datos para revisión de accidentes comunes de avión para reconocer 
los defectos y recomendar precaución. Recientemente, la minería de datos ha 
sido cada vez más citada como una herramienta importante para la seguridad de 
los ciudadanos. [10] 
 
 - 26 - 
1.8.1. En el Gobierno 
Ejemplo: El FBI analizará las bases de datos comerciales para detectar 
terroristas. 
 
 En julio del 2002, el director del Federal Bureau of Investigation (FBI), John 
Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en 
la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de 
compra de los consumidores, con el fin de descubrir potenciales terroristas antes 
de que ejecuten una acción. Algunos expertos aseguran que, con ésta 
información, el FBI unirá todas las bases de datos mediante el número de la 
Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa 
usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su 
altura y peso, sus contribuciones a la iglesia, grupos políticos u organizaciones 
no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los 
libros que lee, los productos de supermercado que compra, si tomó clases de 
vuelo o si tiene cuentas de banco abiertas, entre otros.[10] 
 
1.8.2. En la Empresa 
Ejemplo 1. Predecir qué personas que solicitan un crédito no lo devuelven. 
 
Se cuenta con los datos correspondientes a los créditos concedidos con 
anterioridad, y otros datos personales como el salario del cliente, si posee casa 
propia, etcétera. Ver tabla 2. 
 
 - 27 - 
 
Tabla 2.Información de créditos personales.[10] 
 
Aplicando minería de datos, se tiene como resultado la siguiente Regla: 
 
 SI cuentas-morosas>0 ENTONCES devuelve-crédito = No 
 SI cuentas-morosas=0 Y (salario>2500 Ó Dcrédito > 10) ENTONCES 
Devuelve-crédito=Sí 
 
Ejemplo 2. Determinar las características socio económicas de los turistas en un 
determinado destino o paquete turístico, identificar patrones de reservas y sugerir 
destinos. 
 
 
Tabla 3. Información de destinos por cliente. 
 - 28 - 
En la tabla 3 se tiene la información del cliente y características del viaje. 
Ana: profesional que viaja por motivos de negocios a grandes ciudades como 
México y Monterrey. 
Pedro: profesional que viaja por motivos de negocios generalmente a Monterrey. 
Luis: turista que viaja a destinos turísticos dentro de México. 
 
Esta información en conjunto con la minería de datos es útil también para sugerir 
destinos en sitios Web ó envió de publicidad a domicilio, obtener la puntuación de 
un usuario X de una muestra de paquetes turísticos, buscar otros usuarios Y’s 
que tengan un patrón de gustos similar a X, recomendar los paquetes preferidos 
de los Y’s, entre otros. 
 
Ejemplo 3. En el oeste se venden más camisas de manga corta que en el este. 
Una forma de probar ésta hipótesis es la presentada por la minería de datos, 
donde se sigue todo un proceso de búsqueda de patrones y criterios definidos 
por el usuario hasta llegar a la información relevante que apoye o niegue su 
hipótesis. 
 
Otra manera es obtener los resultados de ventas de ambos lugares, pero con 
esto solo se obtendría un Cierto o Falso, es decir no se sabría la razón del 
porque el resultado, si esto ha sido siempre o por periodos de tiempos, que tipos 
de clientes son los más usuales, etcétera. 
 
Ejemplo 4. Análisis de datos del carro de compras. 
Se tiene la siguiente información en la tabla 4. 
 - 29 - 
 
Tabla 4. Información de compras por cliente (carrito)[10] 
Con dicha información y un algoritmo de minería de datos se determinaría que: 
 100% de las veces que se compran pañales también se compra leche. 
 50% de las veces que se compran huevos también se compra aceite. 
 33% de las veces que se compra vino y salmón también se compra 
lechuga.[10] 
 
1.8.3. En la Universidad 
Ejemplo: Conociendo si los recién titulados de una universidad llevan a cabo 
actividades profesionales relacionadas con sus estudios. 
 
Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en 
Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México 
(Rodas, 2001) Se quería observar si sus recién titulados se insertaban en 
actividades profesionales relacionadas con sus estudios y, en caso negativo, se 
buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la 
universidad. 
 
El objetivo era saber si con los planes de estudio de la universidad y el 
aprovechamiento del alumno se hacía una buena inserción laboral o si existían 
otras variables que participaban en el proceso. Dentro de la información 
considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño 
 - 30 -académico, la zona económica donde tenía su vivienda y la actividad profesional, 
entre otras variables. Mediante la aplicación de conjuntos aproximados se 
descubrió que existían cuatro variables que determinaban la adecuada inserción 
laboral, que son citadas de acuerdo con su importancia: zona económica donde 
habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio 
final al salir de la carrera. 
A partir de estos resultados, la universidad tendrá que hacer un estudio 
socioeconómico sobre grupos de alumnos que pertenecían a las clases 
económicas bajas para dar soluciones, debido a que tres de las cuatro variables 
no dependían de la universidad.[10] 
 
1.8.4. En Investigaciones Espaciales 
Ejemplo: Proyecto SKYCAT. 
 
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) 
coleccionó tres terabytes de imágenes que contenían aproximadamente dos 
millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una 
resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. 
 
El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image 
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación 
(agrupamiento) y árboles de decisión para poder clasificar los objetos en 
estrellas, planetas, sistemas, galaxias, etcétera. 
Con la información obtenida, los astrónomos han descubierto dieciséis nuevos 
quásars con corrimiento hacia el rojo que los incluye entre los objetos más 
lejanos del universo y, por consiguiente, más antiguos. Estos quásars son 
difíciles de encontrar y permiten saber más acerca de los orígenes del 
universo.[5] y [10] 
 
 - 31 - 
1.8.5. En los Clubes Deportivos 
Ejemplo: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a 
su cuerpo de entrenadores. 
 
El Advanced Scout es un software que emplea técnicas de minería de datos y 
que han desarrollado investigadores de IBM para detectar patrones estadísticos y 
eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo 
muy específico: analizar el juego de los equipos de la National Basketball 
Association (NBA) 
El software utiliza todos los registros guardados de cada evento en cada juego: 
pases, encestes, rebotes y doble marcaje (double team) a un jugador por el 
equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar 
eventos que no detectan cuando observan el juego en vivo o en película. 
 
Un resultado interesante fue uno hasta entonces no observado por los 
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador 
generalmente da la oportunidad a otro de encestar más fácilmente. Sin embargo, 
cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el 
porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le 
hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no 
reaccionaban correctamente a los dobles marcajes. 
El cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos 
contra Chicago. Observaron que los jugadores de Chicago rompían su doble 
marcaje muy rápido de tal forma que podían tapar al encestador libre de los 
Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los 
entrenadores crearon estrategias alternativas para tratar con el doble marcaje. 
 
En el 2000 IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un 
patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de 
aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo 
descubrimientos interesantes. [10] 
 - 32 - 
Capítulo 2. Técnicas de Minería 
de datos. 
2.1. Introducción 
 
Hoy en día, la cantidad de datos que se recaba es inimaginable, exceden 
nuestra habilidad de reducir y analizar la información, pero se cuenta con 
varias técnicas para apoyo al análisis, así como la tecnología para procesar 
grandes bases de datos. 
 
Las tareas de la minería de datos se clasifican en: 
a. Predictivas: Estimación de valores futuros o desconocidos de 
variables de interés (variables objetivo) a partir de otras variables 
independientes (predictivas) Por ejemplo el análisis de ventas cruzadas, que 
descubre qué objetos tienden a ser comprados juntos para crear 
recomendaciones y determinar cómo el posicionamiento del producto 
contribuye directamente a su línea inferior. 
En éstas tareas se resuelven con técnicas como: agrupamiento o clustering, 
regresión, series de tiempo, análisis de secuencias, entre otras. 
 
b. Descriptivas: Identificación de patrones en los datos que lo explican o 
resumen. Por ejemplo, la previsión de ventas que optimiza el funcionamiento 
de su almacén, manteniendo un stock de cada producto que sea suficiente 
para poder servir rápidamente los pedidos de sus clientes. Así la 
organización dispone de información sobre las ventas de cada producto en 
cada mes del último año. 
En este tipo de análisis se usa técnicas como: análisis de asociaciones, 
árboles de decisión, redes neuronales, análisis de grupos, etcétera. 
 
 - 33 - 
 
Tabla 1.Técnicas y tareas a realizar. [24] 
 
En la tabla 5 se muestra un cuadro comparativo de las diferentes técnicas, 
así como las tareas (clasificación, regresión, agrupamiento, reglas de 
asociación, correlaciónales) y algunas técnicas y algoritmos que las abordan. 
[9],[17] y [24] 
Nota: La selección de la técnica a utilizar en el análisis depende de los datos 
con los que se cuente y el objetivo del estudio. 
 
2.2. Técnica de detección de anomalías (Outlier) 
 
La meta principal en la detección de anomalías, es encontrar objetos que 
sean diferentes de los demás. Frecuentemente estos objetos son conocidos 
como anomalías (outlier) La detección de anomalías también es conocida 
como detección de desviaciones, porque objetos anómalos tienen valores de 
atributos con una desviación significativa respecto a los valores típicos 
esperados. Aunque las anomalías son frecuentemente tratados como ruido o 
error en muchas operaciones, tales como agrupamiento, para propósitos de 
 - 34 - 
detección de fraude son una herramienta valiosa para encontrar 
comportamientos atípicos en las operaciones que un cliente realiza en una 
entidad financiera. En términos de salida, las técnicas actuales de detección 
de anomalías se clasifican en: 
a. Técnicas basadas en Modelos. Se basan en el campo de 
estadísticas, dada la premisa de conocer la distribución de los datos. Entre 
estas técnicas se resalta: el método de convex hull el cual consiste en 
encontrar el polígono convexo más pequeño que incluye a todos los datos, 
dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez 
que tomamos dos puntos en ella, el segmento que los une pertenece también 
a dicha figura, se muestra un ejemplo de en la figura 7. 
 
Figura 1. Ejemplo del método Convexo Hull 
 
b. Técnicas basadas en proximidad. Ésta técnica se basa 
fundamentalmente en el manejo de distancias entre objetos, entre mayor sea 
la distancia del objeto respecto a los demás, éste es considerado como una 
anomalía. Entre los principales métodos se encuentra: la distancia de 
Mahalanobis y la distancia Euclidiana. 
 
El método de Mahalanobis es una forma diferente de clasificar los datos en 
los dos grupos y esto se hace mediante la distancia de Mahalanobis en lugar 
de la distancia euclídea. Está representa la distancia entre el valor promedio 
del grupo que tiene una covarianza constante, de modo que en dos 
 - 35 - 
dimensiones, se da esta distancia por un elipsoide. En la figura 8 se 
representa una curva de Mahalanobis, donde el proceso de clasificación 
consiste en calcular la distancia de Mahalanobis de un punto de prueba a la 
media de los dos grupos y luego decidir qué medio es el más cercano. 
Supongamos que las x’s son el grupo masculino y las o el femenino, 
entonceses posible ver la forma elíptica que rodea el grupo masculino. 
 
 
Figura 2. Ejemplo del Algoritmo de Mahalonobis 
 - 36 - 
 
 
 
El método Euclidiano se basa en calcular la distancia entre dos puntos 
),...,(0 21 npppP y ),...,( 2 nqqqQ = mediante la formula: 
2
1
22
22
2
11 )()(....)()( i
n
i
inn qpqpqpqp ∑
=
−=−++−+− 
 
Quedando de la siguiente manera: 212
2
12 )()( yyxxd −+−= 
 
Esté método calcula la distancia como la longitud de la recta que une dos 
puntos en el espacio. 
 
En la figura 9 se observa gráficamente las dos distancias. 
 
Figura 3. Distancia Mahalanobis y Euclidiana. 
 
c. Técnicas basadas en densidad. Ésta técnica se basa en la 
estimación de densidad de los objetos, para ello, los objetos localizados en 
regiones de baja densidad y que son relativamente distantes de sus vecinos 
se consideran anómalos. 
Entre los principales métodos se encuentra: LOF (Local Outlier Factor), está 
técnica de minera de datos generalmente es de aprendizaje no supervisado, 
ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna 
 - 37 - 
una calificación a cada instancia que refleja el grado con el cual la instancia 
es anómala. 
 
Por lo general ésta técnica es considerada para identificar errores en los 
datos ó bien para análisis muy en particular, por ejemplo, para el 
descubrimiento de fraudes. [18], [19] y [20] 
 
2.3. Agrupamiento (Clustering) 
 
El análisis de grupos (cluster) es un proceso que divide un grupo de objetos 
de tal forma que los miembros de cada grupo son similares de acuerdo a 
alguna métrica. 
El agrupamiento de acuerdo a la similitud es una técnica muy poderosa, la 
clave para esto es trasladar alguna medida intuitiva de similitud dentro de una 
medida cuantitativa. 
 
El objetivo es agrupar elementos en grupos de manera que los elementos 
dentro de un mismo grupo sean lo más parecidos, mientras que elementos 
de distintos grupos sean lo más diferentes. 
 
Figura 4. Ejemplo de grupos o clúster. 
 - 38 - 
 
En la figura 10 se representa un ejemplo de grupos donde la entrada de 
patrones se muestra en (a), y los grupos se muestran en (b). 
La obtención de dichos grupos depende del criterio o distancia considerados. 
Por ejemplo, una baraja de cartas españolas se podría dividir de distintos 
modos: 
 
 En cuatro grupos (los cuatro palos) 
 En ocho grupos (los cuatro palos y según sean figuras o números) 
 En dos grupos (figuras y números) 
 
Es decir, todo depende de lo que se considere como similar. [21] y [22] 
2.3.1. Etapas del análisis grupo 
Elección de las variables: Los tipos de variables dependerán del 
planteamiento del problema, éstas son: variables cualitativas, ordinales 
(grado de estudio), nominales (grupo), variables cuantitativas, variables 
discretas (número de alumnos), variables continuas (estaturas) [5] 
 
Elección de la medida de asociación o similitud: En realidad, es bastante 
subjetivo el hecho de elegir una medida de similitud ya que depende de las 
escalas de medida. Las observaciones se agrupan según la similitud 
expresada en términos de una distancia. 
 
Algunas formulas de distancia más usadas son: 
 Distancia euclidiana es llamada también distancia clásica, como la 
longitud de la recta que une dos puntos en el espacio. 
∑ = −=
d
i ii
yxyxEucl
1
2)(),( 
 - 39 - 
 
 Distancia de Manhattan: es llamada también distancia por cuadras 
(city block), está hace referencia a recorrer un camino no en diagonal 
(por el camino más corto) si no zigzagueando, como se haría en 
Manhattan. ∑ = −=
d
i ii
yxyxManh
1
||),( 
 
 Distancia de Mahalanobis: es una distancia más robusta que utiliza 
la matriz de covarianzas S. 
 )()()(),( 1 yxDCovyxyxsMahalanobi −−= − 
 
 
Visualmente las distancias se observan en la figura 11. 
 
Di
sta
nc
ia 
Eu
clí
de
a
Distancia Mahalanobis
Di
sta
nc
ia 
Ma
nh
att
an
Di
sta
nc
ia 
Eu
clí
de
a
Distancia Mahalanobis
Di
sta
nc
ia 
Ma
nh
att
an
 
Figura 5. Comparación de cálculo de distancias. 
 - 40 - 
 
Elección de las técnicas de grupos: Existen diferentes técnicas de grupo, 
la selección dependerá del resultado que se espera. (Ver 2.3.2 Técnicas de 
agrupamiento) 
Validación de los resultados: Evaluar que tan bueno es el ajuste, es decir si 
el número de agrupaciones es el adecuado así como la contribución de las 
variables al agrupamiento. 
 
2.3.2. Técnicas de agrupamiento. 
Mapas autoorganizativos (Kohonen): la característica más importante del 
modelo es el concepto de aprendizaje en un vecindario o agrupación próximo a la 
neurona ganadora. 
 
 
Figura 6. Visualización de un Mapa de Kohonen. 
 - 41 - 
En la figura 12 se muestra un ejemplo de Mapa de Kohonen de dos capas 
donde cada neurona de competición es una categoría y cada neurona de 
entrada está conectada con cada una de las células de la capa de 
competición (células que se distribuyen inicialmente de forma aleatoria). 
 
Paso1: Se recibe el ejemplo de entrada (n-dimensional) 
Los ejemplos son representables como puntos en un espacio n-dimensional 
 
Figura 7. Entradas en un mapa de Kohonen 
Paso2: Se propaga por las conexiones hasta llegar a la capa de competición 
(competición que se realiza de acuerdo a un modelo de interacción lateral) 
Los prototipos (objetos diseñados para una demostración) también se 
representan en el espacio y sus coordenadas quedan determinadas por los 
pesos de las neuronas de la capa de competición 
 
 
Figura 8. Se propagan las conexiones hasta llegar a la capa de competición. 
 - 42 - 
Paso3: Cada célula de esta capa de competición produce una salida al 
comparar el ejemplo con sus pesos. 
 
Paso4: Se selecciona el prototipo cuya distancia al ejemplo sea menor 
(célula ganadora) 
 
 
Figura 9. Se selecciona el prototipo. 
Paso 5: Los pesos de la célula ganadora se modifican para acercarse 
ligeramente al ejemplo modificando así el mapa de prototipos inicial 
 
 
Figura 10. Mapa de prototipo inicial. 
 - 43 - 
Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa 
la distancia del ejemplo a los distintos prototipos existentes sino también la 
clase a la que pertenecen los ejemplos cercanos. 
 
 K-Medias (K-Means): es un método de agrupación de casos que se basa en 
las distancias existentes entre ellos en un conjunto de variables (este método 
no permite agrupar variables). El objetivo de este algoritmo es intentar situar 
los prototipos de forma tal que aquellos patrones cercanos (distancia 
euclídea) sean similares entre sí. 
 
Ejemplo. Se cuenta con la siguiente información: 
 
Tabla 2. Datos para el ejemplo de K-medias. 
 
Paso 1. Graficando se tiene que: 
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH
 
Figura 11. Gráfica inicial de la información. 
Paso 2. Seleccionar k elementos aleatoriamente, los cuales 
representa el centro o media de cada cluster. Para este caso de estudio 
tomamos medicina A y medicina B como los primeros centroides (centros 
 - 44 - 
multivariantes de los conglomerados) definiéndolos como 1c y 2c 
respectivamente; entonces se tiene )1,1(1 =c y )1,2(2 =c 
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH
 
Figura 12. Primeros centroides. 
Paso 3. A cada objeto restante se le asigna el grupo con el cual más se 
parece, basándose en una distancia entre el objeto y la media del grupo. 
Para esto se calcula la distancia entre los centros de los cluster de cada 
objeto que en este caso es 1c y 2c . 
 
 
La distancia de medicina )3,4(=c ) con el primer centroide o media del 
cluster se calcula con la fórmula de la distancia: 
)1,1(1 =c 61.3)13()14(
22 =−+− , y con respecto al segundo 
centroide es )1,2(2 =c 83.2)13()24(
22 =−+− , etc. 
Para agrupación de cada objeto se basa en la mínima distancia, por ejemplo 
para medicina C la distancia es menor hacia el grupo 2, por tanto esasignada a este. 
La distancia de medicina D = (5,4) con respecto a los centroides es: 
 - 45 - 
)1,1(1 =c 5)14()15(
22 =−+− 
)1,2(2 =c 24.4)14()25(
22 =−+− 
Entonces de acuerdo al resultado de las distancias se tiene que medicina C y 
D están asignadas al grupo 2. Entonces la matriz de grupo quedaría definida 
de la siguiente manera: 
 
Paso 4. Se itera nuevamente. 
 En el grupo uno solo existe un centroide )1,1(1 =c , en el grupo 2 hay 3 por 
tanto se calcula el promedio de estos para obtener el segundo. 
)
3
8
,
3
11
()
3
431
,
3
542
(2 =
++++=c . Ver figura 19. 
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH
 
Figura 13. Gráfica de los segundos centroides. 
Ahora se calculan las distancias de los objetos con el nuevo centroide: 
 
 - 46 - 
Medicina )1,2(B )1,1(1 =c 1)11()12(
22 =−+− 
)
3
8
,
3
11
(2 =c 36.2)3/81()3/112(
22 =−+− 
Medicina )3,4(C 
)1,1(1 =c
61.3)13()14( 22 =−+− 
)
3
8
,
3
11
(2 =c
47.0)3/83()3/114( 22 =−+− 
Medicina )4,5(D 
)1,1(1 =c
5)14()15( 22 =−+− 
)
3
8
,
3
11
(2 =c
89.1)3/84()3/115( 22 =−+− 
Medicina B se mueve al Grupo 1, medicina C y D siguen quedando en el 
grupo B, la matriz queda: 
Paso 5. Como la matriz 0G es diferente a 1G , se vuelve a iterar. 
Para obtener los nuevos centroides se calcula el promedio de A y B para el 
primer grupo, de C y D para el grupo 2. 
)1,
2
1
1()
2
11
,
2
21
(1 =
++=c y )
2
1
3,
2
1
4()
2
43
,
2
54
(2 =
++=c 
 - 47 - 
 
Figura 14. Gráfica con nuevos centroides. 
Nuevamente calculamos la distancia de los objetos con los nuevos 
centroides. 
 
El resultado de las distancias mínimas dan como resultado Medicina A y B en 
primer grupo y medicina C y D en el segundo, 
 
Paso 6. Como el resultado es el mismo que el anterior 12 GG = se 
termina de iterar; ya que los grupos no se han movido por tanto no es 
necesario más iteraciones. Quedando la agrupación final: 
 
 - 48 - 
 
Tabla 3. Tabla final del ejemplo. 
2.3.3. Ventajas de la técnica 
 Rendimiento en la información, es decir, se analiza en grandes bases 
de datos sin problema alguno. 
 Entre las clases internas la similitud es muy alta. 
 Entre las clases externas la similitud es muy baja. 
 La calidad del resultado de los grupos depende de la medida de 
similitud usada por el método y su implementación. 
 La calidad del método de agrupamiento también depende de la 
capacidad de descubrir algunos o todos los patrones ocultos. 
 La calidad de la agrupación también depende de la definición y 
representación del grupo elegido. 
2.3.4. Usos y/o aplicaciones 
 Biología: Crear la taxonomía de todas las cosas vivas, como reino, 
clases, categorías, familia, género y especies. Con el apoyo de ésta 
técnica, encontramos la clasificación parecida. 
 Recuperación de información: por ejemplo, buscar algo en Internet 
entre las millones de páginas Web. El agrupamiento usa grupos de 
ésta búsqueda, dando como resultados grupos de agrupamiento más 
pequeños. 
 Clima: para entender el clima, se requiere encontrar patrones en la 
atmósfera y el océano. 
 Medicina: Los grupos se usan para identificar diferentes 
subcategorías, por ejemplo, para identificar tipos de depresión. 
 - 49 - 
 Negocios: se usa para agrupar clientes y así realizar actividades de 
marketing. 
2.3.5. Limitaciones 
 Necesidad de validar la solución. 
 Técnica exploratoria, sin solución única. 
 Perdida de alguna información valiosa más minuciosa. 
 La dificultad de etiquetar los grupos. 
 Gran numero de dimensiones. [26] y [27] 
 
2.4. Árboles de Decisión 
Un árbol de decisión es un modelo de predicción y se define como un 
conjunto de condiciones organizadas en una estructura jerárquica, de tal 
manera que la decisión final a tomar se determina siguiendo las condiciones 
que se cumplen desde la raíz del árbol hasta sus hojas. 
Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que 
puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la 
construcción de modelos predictivos. Por está razón es la técnica mas usada. 
Un árbol de decisión tiene unas entradas las cuales son un objeto o una 
situación descrita por medio de un conjunto de atributos y a partir de esto 
devuelve una respuesta la cual en últimas es una decisión que es tomada a 
partir de las entradas. Los valores toman las entradas y las salidas son 
valores discretos o continuos 
De forma más concreta, refiriéndonos al ámbito empresarial, los árboles de 
decisión son diagramas de decisiones secuenciales y muestran sus posibles 
resultados. Éstos ayudan a las empresas a determinar cuales son sus 
opciones al mostrarles las distintas decisiones y sus resultados. La opción 
que evita una pérdida o produce un beneficio extra tiene un valor. La 
 - 50 - 
habilidad de crear una opción, por lo tanto, tiene un valor que es comprado o 
vendido. 
 
Inicio
Edad
Antigüedad
Rechazar Aceptar
Rechazar
>= 25 años
< 18 meses >= 18 meses
< 25 años
Inicio
Edad
Antigüedad
Rechazar Aceptar
Rechazar
>= 25 años
< 18 meses >= 18 meses
< 25 años
 
Figura 15. Árbol de decisión. 
 
En la figura 21 se observa un ejemplo de árbol el cual contiene dos variables: 
edad y antigüedad. Se interpreta de la siguiente manera: 
Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. 
Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si 
es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad 
es igual o mayor a 18 meses entonces el cliente es aceptado. 
Existen ciertos conceptos de la metodología: 
Entropía: es la medida de la incertidumbre que hay en un sistema. Es decir, 
ante una determinada situación, la probabilidad de que ocurra cada uno de 
los posibles resultados. 
La función de entropía más usada es la denominada binaria descrita por la 
fórmula: 
 - 51 - 
)
1
1
(log)1()
1
(log)1,( 222 p
p
p
pppH
−
−+=− 
Su gráfica es: 
 
Figura 16. Gráfica de la entropía. 
Un ejemplo de la entropía binaria podría ser sacar una bola de color blanco 
negro de una bolsa. Si en la bolsa hay 3 bolas blancas y 3 negras el 
resultado es completamente desconocido, es decir la incertidumbre es 
máxima, es decir la entropía es 1. Si, al otro extremo, en la bolsa hay 6 bolas 
negras el resultado es conocido de antemano, luego la incertidumbre no 
existe, y la entropía es 0. 
Ganancia de información: es la diferencia entre la entropía de un nodo y la 
de uno de sus descendientes. En el fondo no es más que una heurística 
(resolución de problemas mediante la creatividad y el pensamiento), que 
servirá para la elección del mejor atributo en cada nodo. 
Es decir, para el nodo con el conjunto de entrenamiento S y el atributo A, la 
),( ASGanancia es: 
)(),()( AEntropíanpIAGanancia −= 
 
Siendo Sv el subconjunto de S formado por aquellas instancias que en el 
atributo A toman el valor v. 
 - 52 - 
Ejemplo: Supongamos que hay un conjunto de entrenamiento S con 14 
ejemplos, de los que 9 son positivos y 5 son negativos. Su entropía es por 
tanto (aplicando la fórmula de la entropía binaria) 0.940. Dividiendo el 
conjunto según un atributo A, se obtiene un subconjunto Sa con 6 ejemplos 
positivos y 2 negativos (entropía 0.811) y otro subconjunto Sb con 3 ejemplos 
positivos y 3 negativos (entropía 1.00). La ganancia de información que se 
obtiene si clasificamos el conjunto S según el atributo A es: 
Ganancia(S,A)= 0.940 - (8/14)0.811 - (6/14)1.00= 0.048 
Nota: Se elige el atributo que proporcione una mayor ganancia de 
información. 
2.4.1. Algoritmos o técnicas de árboles de decisión. 
Entre los algoritmos de aprendizaje más usuales se encuentra: 
CART[Breiman,1984]. Se basa en el lema “divide y vencerás”, son métodos 
que construyen árboles binarios basados en el criterio de partición GINI y que 
sirven para clasificación como para regresión. La poda se basa en unaestimación de la complejidad del error. 
El proceso general es: 
Paso 1. El nodo raíz es dividido en subgrupos (dos o más) 
determinados por la partición de una variable predictora elegida, generando 
nodos hijos. 
Paso 2. Los nodos hijos son divididos usando la partición de una nueva 
variable. El proceso recursivo se repite para los nuevos nodos hijos 
sucesivamente hasta que se cumpla alguna condición de parada. 
Paso 3. Algunos de los nodos resultantes son terminales, mientras que 
otros nodos continúan dividiéndose hasta llegar a un nodo terminal. 
Paso 4. En cada árbol se cumple la propiedad de tener un camino 
único entre el nodo raíz y cada uno de los demás nodos del árbol. 
 
Ejemplo: en 215 pacientes que sufrieron un ataque al corazón se evaluaron 
variables sociodemográficas, historia médica y exámenes de laboratorio. 
 - 53 - 
A los 30 días 37 pacientes murieron. Se presenta el Árbol de Clasificación 
desarrollado con el fin de estimar “El riesgo de un segundo ataque”. Ver 
figura 23 
 
 
Figura 17. Ejemplo de árbol resuelto con el algoritmo CART. 
ID3.Propuesto por Quinlan en 1986, el ID3 es considerado el árbol de 
decisión más simple, usa la ganancia de información como criterio de 
separación. El árbol crece hasta encontrar un nodo final. No emplea 
procedimientos de poda ni manejo de valores perdidos. 
El objetivo es construir un árbol de decisión que explique cada instancia de la 
secuencia de entrada de la manera más compacta posible, según los criterios 
de coste y bondad. En cada momento elige el mejor atributo 
 - 54 - 
El algoritmo general se define mediante un ejemplo: 
Se toma la decisión de asistir a un juego o no, considerando los factores 
climatológicos definidos en la siguiente tabla: 
NSiAltaTempladaLluvioso14
PNoNormalCalienteNublado13
PSiAltaTempladaNublado12
PSiNormalTempladaSoleado11
PNoNormalTempladaLluvioso10
PNoNormalFríaSoleado9
NNoAltaTempladaSoleado8
PSiNormalFríaNublado7
NSiNormalFríaLluvioso6
PNoNormalFríaLluvioso5
PNoAltaTempladaLluvioso4
PNoAltaCalienteNublado3
NSiAltaCalienteSoleado2
NNoAltaCalienteSoleado1
Tipo_claseVientoHumedadTemperaturaClima_general#_Caso
NSiAltaTempladaLluvioso14
PNoNormalCalienteNublado13
PSiAltaTempladaNublado12
PSiNormalTempladaSoleado11
PNoNormalTempladaLluvioso10
PNoNormalFríaSoleado9
NNoAltaTempladaSoleado8
PSiNormalFríaNublado7
NSiNormalFríaLluvioso6
PNoNormalFríaLluvioso5
PNoAltaTempladaLluvioso4
PNoAltaCalienteNublado3
NSiAltaCalienteSoleado2
NNoAltaCalienteSoleado1
Tipo_claseVientoHumedadTemperaturaClima_general#_Caso
 
Tabla 4. Información de climas para ejemplo. 
Analizando la información se ve que se tiene 9 con clase P y 5 con clase N. 
Paso 1. Se calcula la información requerida para la clasificación 
general con la ecuación: 
)()()()(),( 22 np
n
Log
np
n
np
p
Log
np
p
npI
++
−
++
−= 
I (p, n) = - (9/14)*log
2
(9/14) - (5/14)*log
2
(5/14) = 0.940 bits 
Paso 2. Se calcula para cada atributo, se comienza con clima general, se 
observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de 
los cuales 2 son de clase p y 3 N, entonces: 
Soleado 
21 =p , 21 =n
971.0)5/3(log*)5/3()5/2(log*)5/2(),( 2211 =−−=npI 
 - 55 - 
Para el valor de Nublado 42 =p , 02 =n 
0)4/0(log*)4/0()4/4(log*)4/4(),( 2222 =−−=npI 
Y para el valor de Lluvioso 33 =p , 13 =n 
971.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI 
Paso 3. Se calcula a entropía total de los atributos: 
np
npInpnpInpnpInp
AE vvvv
+
+++++++++
=
)(*)(...)(*)()((*)(
(( 22221111
 
694.0
14
)5)(*4)((*5
)_lim( 332211 =
+++++
=
npnpInpI
GeneralaCE
 
Paso 4. Se obtienen la ganancia que es la diferencia entre la entropía 
de un nodo y la de uno de sus descendientes y sirve para la elección del 
mejor atributo en cada nodo que es que gana la mayor información. 
 )(),()( AEntropíanpIAGanancia −= 
Ganancia (Clima_General)= 0.940 - E (Clima_General)= 0.940 -0.694 = 
0.246 
 
Clima General
Soleado Nublado
Lluvioso
[2+,3-]
E= 0.971 [3+,1-]
E= 0.971
[3+,0-]
E= 0
Clima General
Soleado Nublado
Lluvioso
[2+,3-]
E= 0.971 [3+,1-]
E= 0.971
[3+,0-]
E= 0
 
Figura 18. Árbol de ejemplo con valores de ramificación Clima General. 
Paso 5. El mismo procedimiento es aplicado a los otros tres atributos, 
por tanto se continúa con temperatura. 
 - 56 - 
Caliente 21 =p , 21 =n 
1)4/2(log*)4/2()4/2(log*)4/2(),( 2211 =−−=npI 
Templada 42 =p p1 = 4, 22 =n 
918.0)6/2(log*)6/2()6/4(log*)6/4(),( 2222 =−−=npI 
Fria 33 =p , 13 =n 
811.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI 
 Se calcula ahora la entropía del atributo temperatura. 
14
),(*4),(*6),(*4
)( 332211
npInpInpI
aTemperaturE
++
= 
911.014/))811.0(*4)918.0(*6)1(*4()( =++=aTemperaturE 
Paso 6. Se calcula la ganancia. 
Ganancia (Temperatura) = 0.940 - E(Temperatura) = 0.029 
Ganancia (Temperatura) = 0.940 -.911=.029 
Temperatura
Caliente Fría
Templada
[2+,2-]
E= 1 [4+,2-]
E= 0.918
[3+,1-]
E= 0.811
Temperatura
Caliente Fría
Templada
[2+,2-]
E= 1 [4+,2-]
E= 0.918
[3+,1-]
E= 0.811
 
Figura 19. Árbol con rama "Temperatura". 
Paso 7. Ahora se continua con el atributo de humedad: 
Alta 31 =p , 41 =n 
985.0)7/4(log*)7/4()7/3(log*)7/3(),( 2211 =−−=npI 
Normal 62 =p , 12 =n 
591.0)7/1(log*)7/1()7/6(log*)7/6(),( 22212 =−−=npI 
 - 57 - 
Paso 8. Se calcula su entropía. 
14
),(*7),(*7
)( 2211
npInpI
HumedadE
+
= 
788.0
14
)591(.*7)985(.*7
)( =+=HumedadE 
Paso 9. Y finalmente su ganancia. 
Ganancia (Humedad) = 0.940 - E(Humedad) = 0.151 
Ganancia (Humedad)= .940-.788=.151 
 
Humedad
Alta Normal
[3+,4-]
E= 0.985
[6+,1-]
E= 0.591
Humedad
Alta Normal
[3+,4-]
E= 0.985
[6+,1-]
E= 0.591
 
Figura 20.Árbol con rama "Humedad". 
Paso 10. Se hacen los cálculos correspondientes para viento. 
Si 31 =p , 31 =n 
1.0)6/3(log*)6/3()6/3(log*)6/3(),( 2211 =−−=npI 
No 62 =p , 22 =n 
811.0)8/2(log*)8/2()8/6(log*)8/6(),( 2222 =−−=npI 
 
Paso 11. Se calcula la entropía y su ganancia. 
 - 58 - 
14
),(*8),(*6
)( 2211
npInpI
VientoE
+
= 
892.0
14
)811.0(*8)1(.*6
)( =+=VientoE 
Ganancia (Viento) = 0.940 - E(viento) = .048 
Ganancia (viento)= .940-.892=.048 
Paso 12. Una vez realizado los cálculos para todos los atributos, se 
identifica la tupla con mayor ganancia que en este caso es Clima_General 
para que sea tomada como nodo inicial, el árbol queda de la siguiente 
manera: 
 
Figura 21. árbol de ramificación "Clima General". 
Paso 13. Esté proceso se hace para cada nodo del árbol. Obteniendo 
un árbol final: 
 - 59 - 
Clima General
Humedad P Viento
N
Soleado
Nublado Lluvioso
P
Alta Normal
N
No
P
Si
Clima General
Humedad P Viento
N
Soleado
Nublado Lluvioso
P
Alta Normal
N
No
P
Si
 
Figura 22. Árbol final. 
 
 
C4.5. Es la evolución del ID3, presentado por Quinlan en 1993. 
Usa como criterio de separación el radio de ganancia (gain ratio) o proporción 
de ganancia. Esta es la medida basada en información que considera 
diferentes números (y diferentes probabilidades) de los resultados de las 
pruebas. 
2.4.2. Las ventajas de la técnica de Árboles de decisión 
 Resume los ejemplos de partida, permitiendo la clasificación de 
nuevos casos siempre y cuando no existan modificaciones 
sustanciales en las condiciones bajo las cuales se generaron los 
ejemplos que sirvieron para su construcción. 
 Facilita la interpretación de la decisión adoptada. 
 Proporciona un alto grado de comprensión del conocimiento utilizado 
en la toma de decisiones. 
 Explica el comportamiento respecto a una determinada tarea de 
decisión. 
 - 60 - 
 Reduce el número de variables independientes. 
 Es una magnifica herramienta para el control de la gestión 
empresarial. 
 Minimizan el pre-tratamiento, trabajan con un cierto nivel de ruido y 
datos faltantes. 
 Se definen los ejemplos en términos de pares atributo-valor 
(representados como un conjunto fijo de atributos, por

Otros materiales