Mineria-de-datos-con-aplicaciones

•

Exatas

Aprendiendo Matemáticas y Fisica

26/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Matemáticas

630.877 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD NACIONAL
AUTÓNOMA DE MÉXICO
FACTULTAD DE ESTUDIOS SUPERIORES
ACATLÁN
MINERIA DE DATOS CON APLICACIONES
TESIS
QUE PARA OBTENER EL TITULO DE
LICENCIADA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN
PRESENTA
LILIANA CRUZ ARRRELA
ASESOR: DRA. MARICARMEN GONZÁLEZ VIDEGARAY

MARZO 2010

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

AGRADECIMIENTOS

Gracias a
Dios por su infinito amor y apoyo.
A mi madre por su confianza y entrega.
A mi padre por su apoyo.
A mis hermanos por la confianza y amor.
A mi esposo Raúl que me ha impulsado a lograr lo inimaginable.
A mi Universidad y profesores.
Gracias por lo que hemos logrado.

“Mas la senda de los justos es como la luz de la aurora, que va en
aumento hasta que el día es perfecto” Proverbios 4:18

INTRODUCCIÓN .......................................................................................................... 1
CAPÍTULO 1. MINERÍA DE DATOS ........................................................................ 3
1.1. INTRODUCCIÓN ....................................................................................................................... 3
1.2. ¿QUÉ ES LA MINERÍA DE DATOS? ............................................................................................. 4
1.3. LIMITACIONES DE LA MINERÍA DE DATOS .................................................................................... 7
1.4. DIFERENCIAS ENTRE MINERÍA DE DATOS Y ESTADÍSTICA ............................................................. 8
1.5. MINERÍA DE DATOS Y KDD .................................................................................................... 11
1.6. METODOLOGÍAS DE MINERÍA DE DATOS ................................................................................... 13
1.6.1. Metodologías SEMMA ........................................................................................................................................ 14
1.6.2. Metodología CRISP-DM ..................................................................................................................................... 17
1.7. FASES DE UN PROYECTO DE MINERÍA DE DATOS ..................................................................... 23
1.8. APLICACIONES DE LA MINERÍA DE DATOS ................................................................................. 24
CAPÍTULO 2. TÉCNICAS DE MINERÍA DE DATOS. ............................................ 32
2.1. INTRODUCCIÓN ..................................................................................................................... 32
2.2. TÉCNICA DE DETECCIÓN DE ANOMALÍAS (OUTLIER) .................................................................. 33
2.3. AGRUPAMIENTO (CLUSTERING) ............................................................................................. 38
2.4. ÁRBOLES DE DECISIÓN ......................................................................................................... 51
2.5. REDES BAYESIANAS ............................................................................................................. 65
2.6. REDES NEURONALES ............................................................................................................ 69
2.7. SERIES DE TIEMPO ............................................................................................................... 74
CAPÍTULO 3. SOFTWARE PARA MINERÍA DE DATOS ...................................... 84
3.1. INTRODUCCIÓN ..................................................................................................................... 84
3.2. INTELLIGENT MINER / DB2 DATA WAREHOUSE EDITION (IBM) ................................................. 85
3.3. PASW MODELER (CLEMENTINE) ........................................................................................... 89
3.4. DATAENGINE .................................................................................................................... 95
3.5. ORACLE DATAMINING............................................................................................................ 97
3.6. WEKA (SOFTWARE EN JAVA DE MINERÍA DE DATOS) ............................................................... 102
3.7. ENTERPRISE MINER (SAS) ................................................................................................. 104
CAPÍTULO 4. MANUAL DE MD CON HERRAMIENTAS DE APOYO. ............... 106
4.1. SELECCIÓN Y PREPROCESADO DE DATOS. ............................................................................ 107
4.2. SELECCIÓN DE VARIABLES ................................................................................................... 114
4.3. EXTRACCIÓN DE CONOCIMIENTO. ......................................................................................... 119
4.4. INTERPRETACIÓN Y EVALUACIÓN .......................................................................................... 122
4.5. APLICACIÓN DE UN ESTUDIO DE MINERÍA DE DATOS ................................................................ 128
CONCLUSIÓN ......................................................................................................... 134
REFERENCIAS ........................................................................................................ 136
- 1 -
INTRODUCCIÓN

La minería de datos es una herramienta útil y con creciente demanda en el
mercado y consiste esencialmente el proceso de extracción, transformación y
análisis de datos, con el fin de obtener conocimiento de los mismos.

En sus inicios la minería de datos solo era utilizada en empresas dedicadas al
análisis de los datos con un campo de estudio muy especifico, sin embargo hoy
en día la penetración en todos los ámbitos comerciales es muy significativa. Día
con día mas empresas utilizan este proceso con el fin de conocer más a sus
clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin
de ser más competentes en el mercado.

El presente documento tiene como objetivo introducir y guiar al lector al estudio
de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las
técnicas más conocidas y las diferentes soluciones respecto a software que
ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno
de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el
estudio del tema.

El primer capítulo se refiere a la historia de la minería de datos, se citan
diferentes definiciones de la minería de datos. Se menciona la diferencia entre la
minería de datos y la estadística, las etapas y proceso para el descubrimiento de
conocimiento a partir de un conjunto de datos, se citan las metodologías más
usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se
ejemplifican estos temas a través de aplicaciones de la minería de datos.

En el capítulo dos se mencionan algunas técnicas más usuales de la minería de
datos:
- 2 -
Árboles de decisión.
Redes neuronales.
Clustering o agrupamiento.
Series temporales.
Redes bayesianas.

Para cada técnica se menciona su definición, ventajas y desventajas así como un
ejemplo prácticoque ayude a ilustrar la teoría.

En el capítulo 3 se citan algunos IDES o software que contienen utilidades para
preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos
de estos de uso libre. Se detalla en los más usuales como Data Engine,
Enterprise Miner, Clementine y Weka.

En el capítulo 4 se da una demostración general del software de SAS que es el
Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la
explotación de información y se cita un ejemplo general con la herramienta para
mejor apreciación.

- 1 -
INTRODUCCIÓN

En sus inicios la minería de datos solo era utilizada en empresas dedicadas
al análisis de los datos con un campo de estudio muy especifico, sin embargo
hoy en día la penetración en todos los ámbitos comerciales es muy
significativa. Día con día mas empresas utilizan este proceso con el fin de
conocer más a sus clientes, dar un mejor servicio, identificar las áreas de
oportunidad, todo con el fin de ser más competentes en el mercado.

El presente documento tiene como objetivo introducir y guiar al lector al
estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos.
Utilizando las técnicas más conocidas y las diferentes soluciones respecto a
software que ofrecen las empresas líderes en este ramo. Un lector deseado
sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación,
que se inicia en el estudio del tema.

El primer capitulo se refiere a la historia de la minería de datos, se citan
diferentes definiciones de la minería de datos. Se menciona la diferencia
entre la minería de datos y la estadística, las etapas y proceso para el
descubrimiento de conocimiento a partir de un conjunto de datos, se citan las
metodologías más usuales de la minería de datos: la metodología SEMMA y
CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la
minería de datos.

En el capítulo dos se mencionan algunas técnicas más usuales de la minería
de datos:

- 2 -
Árboles de decisión.
Redes neuronales.
Clustering o agrupamiento.
Series temporales.
Redes bayesianas.

Para cada técnica se menciona su definición, ventajas y desventajas así
como un ejemplo práctico que ayude a ilustrar la teoría.

En el capítulo 3 se citan algunos IDES o software que contienen utilidades
para preprocesamiento, clasificación, agrupamiento, visualización, etcétera;
algunos de estos de uso libre. Se detalla en los más usuales como Data
Engine, Enterprise Miner, Clementine y Weka.

En el capítulo 4 se da una demostración general del software de SAS que es
el Enterprise Miner, se menciona los diferentes nodos con los que cuenta
para la explotación de información y se cita un ejemplo general con la
herramienta para mejor apreciación.

- 3 -
Capítulo 1. Minería de Datos
1.1. Introducción

La minería de datos (Data Mining) surge a principios de los 80’s cuando la
Administración de Hacienda Estadounidense desarrolló un programa de
investigación para detectar fraudes en la declaración y evasión de impuestos,
mediante lógica difusa, redes neuronales y técnicas de reconocimiento de
patrones. Sin embargo, su expansión se produce hasta los 90’s originada
principalmente por tres factores.

Incremento en la potencia de procesamiento de las computadoras, así
como en la capacidad de almacenamiento.
El crecimiento de la cantidad de datos almacenados se ve favorecido no
sólo por el abaratamiento de los discos y sistemas de almacenamiento
masivo, sino también por la automatización de muchos trabajos y
técnicas de recogida de datos (observación con nuevas tecnologías,
entrevistas más prácticas, encuestas por Internet, etcétera)
Aparición de nuevos métodos de técnicas de aprendizaje y
almacenamiento de datos, como las redes neuronales, la Inteligencia
artificial, el surgimiento del almacén de datos (Data Ware House)[1]

La minería de datos surge por la necesidad de obtener estrategias de negocio,
conocer a los clientes, obtener información de productos, interpretar información
valiosa para la toma de decisiones, etcétera.

La idea de minería de datos no es nueva, ya desde los años sesenta los
estadísticos manejaban términos como data fishing, minería de datos o data
- 4 -
archaeology con la idea de encontrar correlaciones sin una hipótesis previa en
bases de datos.

A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum
y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de
minería de datos y descubrimiento de conocimiento en base de datos.

A finales de los años ochenta sólo existían un par de empresas dedicadas a ésta
tecnología; en 2002 existían más de 100 empresas en el mundo que ofrecían
alrededor de 300 soluciones, ahora se ven áreas dedicadas a la minería de datos
dentro de cada empresa, ya que, es una herramienta ideal para obtener
información valiosa e importante de manera rápida y eficaz, a través de procesos
especializados y sistemáticos.

Una serie de avances en la tecnología y los procesos de negocio han contribuido
al creciente interés de ésta en los sectores público (detectar fraudes, residuos,
medición y mejora de programas) y privado (banca, seguros, ventas, etcétera.)

Algunos de estos cambios incluyen el crecimiento de las redes de computadoras,
que se utilizan para conectar bases de datos; el desarrollo de una mayor
búsqueda de relaciones con técnicas como las redes neuronales y algoritmos
avanzados, la propagación de las aplicaciones cliente/servidor, lo que permite a
los usuarios acceder a los recursos centralizados de datos desde el escritorio y
una mayor capacidad para combinar datos de diferentes fuentes en una sola
búsqueda.[2] y[3]

1.2. ¿Qué es la minería de Datos?

Existen varias definiciones de minería de datos, a continuación se mencionaran
algunas:
- 5 -

Definición 1. Minería de datos es el proceso por el cual generamos un modelo,
que sirva para la predicción, este modelo se genera con base en los datos que se
encuentran en una base de datos aplicándoles algún algoritmo que construya el
modelo. [4]

Definición 2. La minería de datos es un proceso no trivial de identificación válida,
novedosa, potencialmente útil y entendible de patrones comprensibles que se
encuentran ocultos en los datos. [5]

Definición 3. Es la integración de un conjunto de áreas que tienen como
propósito la identificación de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisión. [6]

Definición 4. Es un mecanismo de explotación, consistente en la búsqueda de
información valiosa en grandes volúmenes de datos. Está muy ligada a las
bodegas de datos que proporcionan la información histórica con la cual los
algoritmos de minería de datos tienen la información necesaria para la toma de
decisiones. [7]

En la definición 1 y 2, se dice que la minería de datos es un proceso; en la
definición 3 se describe como una integración de áreas y en la definición 4 como
un mecanismo de explotación. Las cuatro definiciones se complementan una con
otra así como los propósitos que se citan en cada una de ellas.

Entonces concluimos que la minería de datos es un proceso que integra
diferentes áreas sirviendo como mecanismo de explotación para identificación de
información valiosa, novedosa y útil; así como para predicción de
comportamientos. Por tanto el objetivo fundamental de ésta es aprovechar el
valor de la información localizada y usar patrones preestablecidos para que los
directivos tenganun mejor conocimiento de su negocio y se tomen decisiones
- 6 -
más confiables. El resultado de la minería será un modelo que se tendrá que
evaluar para ver qué tan certero será con respecto a sus predicciones y
posteriormente se utilizará para predecir el patrón de comportamiento de
cualquier dato nuevo (esto se hace calificando los nuevos datos basándose en el
modelo generado) que llegue a la base de datos.

Las aplicaciones de minería de datos utilizan una gran variedad de parámetros
para examinar los datos:
La asociación (los patrones de un evento que está conectado a otro
evento, como la compra de una pluma y la compra de papel)
La secuencia (patrones donde un evento lleva a otro, como el
nacimiento de un hijo y la compra de pañales)
La clasificación (identificación de nuevos patrones, como coincidencias
entre la compra de cinta adhesiva para conductos y la compra de
láminas de plástico) Las agrupaciones (encontrar y documentar
visualmente grupos de hechos anteriormente desconocidos, como
ubicación geográfica y las preferencias de marca)
Los pronósticos (el descubrimiento de patrones a partir de los cuales se
hacen predicciones en relación con las actividades futuras, tales como, la
predicción de que las personas que pertenecen a un club de atletismo
tome clases de ejercicio)[8]

En la minería de datos casi nunca se menciona el tiempo que se invierte en la
limpieza y la verificación de los datos, así como la definición de las variables,
pero este proceso es muy importante ya que por lo regular las bases de datos de
los sistemas operacionales contienen datos duplicados, a veces erróneos,
superfluos o incompletos. A esto se le suman los errores por la operación de los
sistemas.

Las principales características y objetivos de la minería de datos son:

- 7 -
Explorar los datos para encontrar información valiosa que está oculta
dentro de las grandes bases de datos.
El entorno de la minería de datos suele tener una arquitectura cliente
servidor, es decir la información se encuentra en un servidor con
accesos restringidos y las consultas se hacen por medio de otra
aplicación independiente.
Las herramientas de minería de datos ayudan a explotar los datos con
los que se cuenta, para encontrar patrones, crear predicciones, etcétera.
La información obtenida a través de la minería de datos ayuda a los
usuarios a elegir cursos de acción y a definir estrategias competitivas,
porque conocen información qué sólo ellos emplean.
Explorar, a menudo implica el descubrimiento de resultados valiosos e
inesperados.
Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minería de datos.

La minería de datos es un proceso que invierte la dinámica del método científico,
el cual consiste en formular una hipótesis y luego se diseña el experimento para
confirmarla o refutarla; y en minería de datos primero se diseña y realiza el
experimento y finalmente se obtiene el nuevo conocimiento. [10]

1.3. Limitaciones de la minería de datos

Las limitaciones de la minería de datos son los primeros datos o datos puros, y
no tanto la tecnología o herramientas para el análisis, es decir depende mucho
de la limpieza de los datos y de la definición de las variables, si los datos no
están correctos el modelo creado no servirá. Del mismo modo la validez de los
patrones descubiertos depende de cómo se apliquen al mundo real o a las
circunstancias.

- 8 -
Por ejemplo, para una empresa de telefonía móvil, donde se hace un análisis de
cancelación de líneas, se muestra que en algunos estados de la República
Mexicana el patrón de compra de equipo y cancelación de la línea en 3 meses,
se presenta con más frecuencia durante los meses de diciembre y enero,
mientras que en otros estados la cancelación de líneas nunca se da por cambio
de equipo, es por problemas con el teléfono y en el mes de septiembre; por tanto,
es difícil especificar que cuando se cambia de equipo inmediatamente se da la
cancelación de la línea, el usuario que realice las minería está encargada de
conocer el negocio para deducir la razón de las cancelaciones de las líneas. Otra
limitación es que si bien ésta identifica las conexiones entre los comportamientos
y/o variables, no necesariamente se sabe la causa de la relación. [8]

1.4. Diferencias entre minería de datos y estadística

La minería de datos como enfoque para el análisis y descubrimiento de la
información o conocimiento a realizar en grandes bases de datos combina
técnicas como: Estadística (análisis factorial, discriminante, regresivo, de
correlaciones), redes neuronales, sistemas expertos o basados en el
conocimiento, sistemas de reglas de inducción, lógica difusa, algoritmos
genéticos, algoritmos matemáticos (teoría de fractales y del caos, simulación)
El uso de metodologías estadísticas y de minería de datos a veces suelen
confundirse entre ellas.

La minería de datos se presenta como una disciplina nueva, ligada a la
Inteligencia Artificial y diferenciada de la Estadística. Por otro lado, en el mundo
estadístico más académico, la minería de datos ha sido considerada en su inicio
como una moda más, aparecida después de los sistemas expertos, conocida
desde hacía tiempo bajo el nombre de data fishing. Ésta conlleva la promesa de
exploración y el encuentro de relaciones subyacentes en los datos, por tanto se
dice que la esencia de la minería de datos se encuentra en la posibilidad del
- 9 -
descubrimiento de información insospechada, pero sumamente valiosa, esto
significa que la minería de datos es exploratoria y las áreas de la estadística son
confirmatorias (confirmar hipótesis)

La estadística sobre todo descriptiva se desarrolló en épocas donde no se
contaba con las computadoras, de ésta manera un conjunto de datos de 1,000
registros era considerado como "grande", pero no se compara con los 50
millones de transacciones con tarjeta de crédito que se realizan en México
anualmente y que conforman bases de datos sumamente interesantes para el
mundo financiero.
Con la estadística se hacen manipulaciones de datos de manera directa; en
minería de datos no es así, se necesita una serie de algoritmos numéricos. Otra
diferencia entre estadística y minería de datos es que a la minería no le
concierne la selección de la información y en la estadística es cuestión
fundamental el cómo seleccionar la muestra de la mejor manera, de tal forma que
sea representativa de la población, la minería de datos supone que los datos ya
han sido recolectados y se aboca al descubrimiento de información o patrones.

En la tabla 1 se muestran las características de la estadística y la minería de
forma comparativa para visualizar las diferencias entre ambas.

- 10 -

Tabla 1. Diferencia minería de datos vs. Estadística

En conclusión en la estadística se desarrolla una hipótesis y, a continuación se
usan los datos para probar o refutar la hipótesis. Por ejemplo, un usuario podría
tener la hipótesis de que un cliente que compra un martillo, también compra una
caja de clavos. La eficacia de este enfoque se ve limitado por la creatividad del
usuario a desarrollar diversas hipótesis, así como la estructura del software que
sea utilizado.

En contraste, la minería de datos utiliza un enfoque de descubrimiento, en los
algoritmos que son usados para examinar varias relaciones en bases de datos
multidimensionales de manera simultánea, identificar a aquellos que se
presentan con frecuencia. Por ejemplo, los tipos de compras en una tienda, los
horarios, los tipos de clientes, la comparación de clientes por su vivienda, tipo de
automóvil, edad, ocupación, ingresos y / o la distancia entre su casa y la tienda,
etcétera.[11]
- 11 -
1.5. Minería de Datos y KDD

Laminería de datos revela patrones o asociaciones que son desconocidos
para el usuario, por ésta razón, entra o se asocia con el contexto de Knowledge
Discovery in Database (KDD) o descubrimiento de conocimientos en las
bases de datos. Éste término es originado de la Inteligencia Artificial (AI).

¿Qué es conocimiento? Desde el punto de vista de las organizaciones, se
define el conocimiento como aquella información que permite generar acciones
asociadas a satisfacer las demandas del mercado, y apoyar las nuevas
oportunidades a través de la explotación de las competencias centrales de la
organización. El conocimiento es una combinación de valores, información
contextualizada y experiencias que proporcionan un marco para evaluar e
incorporar nuevas experiencias e información. El conocimiento se origina y aplica
en la mente de las personas. En las organizaciones, el conocimiento reside en
documentos y bases de datos y también en los procesos, prácticas y normas
corporativas (Ver figura 1 de las etapas del descubrimiento)Figura 1. Etapas del
descubrimiento de conocimientos.[5])

Figura 1. Etapas del descubrimiento de conocimientos.[5]

- 12 -

El proceso de descubrimiento de conocimiento en bases de datos involucra
varios pasos:

a. Selección de datos. Es la primera etapa para extraer conocimiento, se
define la fuente de datos a analizar y esto depende del objetivo del estudio, se
parte de una pregunta o hipótesis, o bien se encuentre y sugiera algún modelo a
partir del análisis de la información. Los atributos o campos seleccionados son
significativos para el conocimiento que se desea obtener, en cuanto al número de
registros, a veces es suficiente realizar el análisis sobre un subconjunto o
muestra.

b. Pre-procesar la información. Ésta etapa tiene por objetivo preparar los
datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las
técnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a
fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo
erróneo; integración de datos, para generar un único almacén de datos
coherente en aquellos casos donde los datos provienen de diferentes fuentes;
transformaciones de datos, para normalizarlos; y reducción de datos, a fin de
reducir el tamaño de los datos, por ejemplo, eliminando características
redundantes. La importancia del pre-procesamiento de los datos es por la calidad
de los datos sobre los que se aplican técnicas de descubrimiento de
conocimiento ya que esto impacta de manera directa en la calidad del
conocimiento que se descubre a partir de ellos.
c. Transformación de la información. Ésta es la que insume mayor tiempo,
aproximadamente el 60% del esfuerzo total; ya que es necesario tener el
conocimiento del negocio, así como el objetivo del proyecto o hacia donde se
quiere llegar.
d. Patrones. Antes de comenzar con ésta etapa, se define el tipo de
conocimiento que se desea obtener, a partir de éste se elige la técnica y
finalmente el algoritmo. La minería tiene diferentes objetivos como predictivo
- 13 -
(estimación de valores futuros o desconocidos de variables de interés a partir de
otras variables independientes) o descriptivo (identificación de patrones en los
datos que los explican o resumen).
e. Conocimiento. Una vez que se tenga el modelo de minería de datos, se
da un informe de los resultados obtenidos por medio de presentaciones, reportes,
cuadros comparativos, graficas, etcétera. Para evaluar si los resultados son los
esperados.

Los objetivos del descubrimiento de conocimiento y la minería de datos son:
Procesar automáticamente grandes cantidades de datos.
Identificar los patrones más significativos y relevantes.
Descubrir conocimiento apropiado para satisfacer las metas de un
usuario.
Formular una estrategia de alcance organizacional para el desarrollo,
adquisición y aplicación del conocimiento.
Implantar estrategias orientadas al conocimiento.
Promover la mejora continua de los procesos de negocio, enfatizando la
generación y utilización del conocimiento.
Monitorizar y evaluar los logros obtenidos mediante la aplicación del
conocimiento.
Reducir los tiempos de ciclo en el desarrollo de nuevos producto y
mejorar los existentes.
Reducir los costos por repetición de errores.[5]

1.6. Metodologías de minería de datos

Ante la necesidad existente en el mercado de una aproximación sistemática para
la realización de los proyectos de minería de datos, diversas empresas y
consultorías han especificado un proceso de modelado diseñado para guiar al
usuario a través de una sucesión de pasos que le dirijan a obtener buenos
- 14 -
resultados. Dentro de las principales metodologías utilizadas por los analistas en
los proyectos de minería de datos se tiene la metodología SEMMA (Sample,
Explore, Modify, Model, Assess que significa: Muestreo, exploración,
manipulación, modelado y valoración) propuesta por SAS y la metodología de
libre distribución CRISPDM (Cross- Industry Standard Process for Data Mining)
creada por un consorcio de empresas europeas, NCR (Dinamarca), AG
(Alemania), SPSS (Inglaterra) y OHRA (Holanda)
Existen otras metodologías menos usuales como la metodología KM-IRIS creada
por un grupo de de Integración y Re-Ingeniería de Sistemas (IRIS) de la
Universidad Jaume.[14]

1.6.1. Metodologías SEMMA
SAS Institute desarrollador de ésta metodología, la define como el proceso de
selección, exploración y modelado de grandes cantidades de datos para
descubrir patrones de negocio desconocidos.

El nombre de ésta metodología corresponde a sus letras iníciales en inglés:
Sample (Muestreo), Explore (Exploración), Modify (Manipulación), Model
(Modelado) y Asses (Valoración).

Figura 2. Fases de la metodología SEMMA.[15]
- 15 -

El proceso se inicia con la extracción de la población muestral sobre la que se
va a aplicar el análisis. El objetivo de ésta fase consiste en seleccionar una
muestra representativa del problema en estudio.

La representatividad de la muestra se define como la capacidad de reproducir
a pequeña escala las características de la población. Ésta es indispensable ya
que de no cumplirse invalida todo el modelo y los resultados dejan de ser
admisibles. La forma más común de obtener una muestra es la selección al azar,
es decir, cada uno de los individuos de una población tiene la misma posibilidad
de ser elegido. Este método de muestreo se denomina muestreo aleatorio
simple.

La metodología SEMMA establece que para cada muestra considerada para el
análisis del proceso asocia el nivel de confianza de la muestra. Una vez
determinada una muestra o conjunto de muestras representativas de la población
en estudio, la metodología SEMMA indica que se procede a una exploración de
la información disponible con el fin de simplificar el problema y optimizar la
eficiencia del modelo. Para lograr este objetivo se propone la utilización de
herramientas de visualización ó de técnicas estadísticas que ayuden a poner de
manifiesto relaciones entre variables. De esta forma se pretende determinar
cuáles son las variables explicativas que van a servir como entradas al modelo.

La tercera fase de la metodología consiste en la manipulación de los datos,
con los resultados de la exploración realizada, de forma que se definan y tengan
el formato adecuado de los datos que serán introducidos en el modelo.

Una vez que se han definido las entradas del modelo, con el formato adecuado
para la aplicación de la técnica de modelado, se procede al análisis y modelado
de los datos. El objetivo de ésta fase consiste en establecer una relación entre
- 16 -
las variables explicativas y las variables objetivo, que posibiliten inferir el valor de
las mismas con un nivel de confianza determinado.Las técnicas utilizadas para el modelado de los datos incluyen métodos
estadísticos tradicionales (tales como análisis discriminante, métodos de
agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales
como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión,
reglas de asociación y computación evolutiva.

Finalmente, la última fase del proceso consiste en la valoración de los
resultados mediante el análisis de bondad del modelo o modelos, contrastado
con otros métodos estadísticos o con nuevas poblaciones muéstrales. En la
figura 3 se observa un esquema de la dinámica general de la metodología.

- 17 -

Figura 3. Metodología SEMMA.[14]

En conclusión, la metodología consiste en los siguientes pasos: tomar los datos o
una muestra en caso de que la cantidad de datos sea muy grande, se exploran,
modifican, modelan y se evalúan en el modelo o los modelos resultantes para
elegir el más adecuado. [14] y [15]
1.6.2. Metodología CRISP-DM
CRISP-DM es una organización europea creada por tres grandes jugadores en
proyectos de minería de datos que son SPSS, NCR y Daimler Chrysler. Lo que
trata ésta metodología es desarrollar los proyectos de minería de datos bajo un
proceso estandarizado de definición y validación de tal forma que se desarrollen
- 18 -
proyectos minimizando los costos que impliquen y con un alto impacto en el
negocio.

La metodología CRISP-DM proporciona dos documentos distintos como
herramienta de ayuda en el desarrollo del proyecto de minería de datos: el
modelo de referencia y la guía del usuario.

El documento del modelo de referencia describe de forma general las fases,
tareas generales y salidas de un proyecto de minería en general.

La guía del usuario proporciona información más detallada sobre la aplicación
práctica del modelo de referencia a proyectos de minería de datos específicos,
proporcionando consejos y listas de comprobación sobre las tareas
correspondientes a cada fase.

La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería
de datos en seis fases, que interactúan entre ellas de forma iterativa durante el
desarrollo del proyecto.

- 19 -

Figura 4. Fases del proceso de modelado metodología CRISP-DM. [14]

En la figura 4, las flechas indican relaciones más habituales entre las fases,
aunque podamos establecer relaciones entre cualquier fase. El círculo exterior
simboliza la naturaleza cíclica del proceso de modelado.

La primera fase análisis del problema, incluye la comprensión de los objetivos y
requerimientos del proyecto desde una perspectiva empresarial, con el fin de
convertirlos en objetivos técnicos y en una planificación.

La segunda fase de análisis de datos comprende la recolección inicial de datos,
en orden a que se establezca un primer contacto con el problema, identificando
la calidad de los datos y estableciendo las relaciones más evidentes que
permitan establecer las primeras hipótesis.

Una vez realizado el análisis de datos, la metodología establece que se proceda
la preparación de los datos, de tal forma que sean tratados por las técnicas de
- 20 -
modelado. La preparación de datos incluye las tareas generales de selección de
datos a los que se va a aplicar la técnica de modelado (variables y muestras),
limpieza de los datos, generación de variables adicionales, integración de
diferentes orígenes de datos y cambios de formato.

La fase de preparación de los datos, se encuentra muy relacionada con la fase
de modelado. Independientemente de la técnica de modelado, los datos
necesitan ser procesados en diferentes formas. Por lo tanto las fases de
preparación y modelado interactúan de forma sistemática.

En la fase de modelado se seleccionan las técnicas de modelado más
apropiadas para el proyecto de minería de datos específico.

En la fase de evaluación se evalúa el modelo escogido, no desde el punto de
vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el
proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en
caso que se hayan cometido errores. Si el modelo generado es válido en función
de los criterios de éxito establecidos en la primera fase y de la precisión del
mismo, se procede al despliegue de éste en caso de requerirse.

La fase de explotación es en la cual se muestra el resumen de evaluación de los
resultados, las relaciones y patrones encontrados para que éstos sean utilizados
en la traza de estrategias y toma de decisiones. [14] y [16]

1.6.3. Comparación de metodologías
Las metodologías SEMMA y CRISP-DM comparten la misma esencia,
estructurando el proyecto de minería de datos en fases que se encuentran
interrelacionadas entre sí, convirtiendo el proceso en iterativo e interactivo.
La metodología SEMMA se centra más en las características técnicas del
desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una
- 21 -
perspectiva más amplia respecto a los objetivos empresariales del proyecto. Ésta
diferencia se establece ya desde la primera fase del proyecto de minería de
datos donde la metodología SEMMA comienza realizando un muestreo de datos,
mientras que la metodología CRISP-DM comienza realizando un análisis del
problema empresarial para su transformación en un problema. Entonces la
metodología CRISP-DM está más cercana al concepto real de proyecto,
integrada con una Metodología de Gestión de Proyectos específica que
completaría las tareas administrativas y técnicas.[14]

Otra diferencia significativa entre la metodología SEMMA y la metodología
CRISP-DM radica en su relación con herramientas comerciales. La metodología
SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los
productos SAS donde se encuentra implementada. Por su parte la metodología
CRISP-DM ha sido diseñada como una metodología neutra respecto a la
herramienta que se utilice para el desarrollo de minería de datos siendo su
distribución libre y gratuita.[14]

En la figura 5 se muestran la comparativa entre las dos metodologías.

- 22 -

Figura 5. Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y
CRISPDM. [14]
- 23 -

1.7. Fases de un Proyecto de Minería de Datos

Los pasos a seguir para la realización de un proyecto de minería de datos son
siempre los mismos, independientemente de la técnica específica de extracción
de conocimiento usada.

Figura 6. Fases del Proyecto de Minería de Datos. [10]
La figura 6 muestra las fases de la minería de datos, las cuales se describen a
continuación:

a. Selección y preprocesado de datos. La selección de la información
dependerá del objetivo del proyecto, por ejemplo si se requiere hacer un análisis
de las altas de líneas Telcel en el mes de noviembre y diciembre de la ciudad de
México y zona metropolitana, entonces se está hablando que se acota la
información de la base de datos de todos los clientes, incluso, se trabaja con solo
una muestra de la información requerida. Con el preprocesado se refiere a la
eliminación de información errónea y la corrección algunos datos nulos o con
valores irreales.

b. Selección de variables. Aún después de haber sido preprocesados los
datos o la información, en la mayoría de los casos se tiene una cantidad enorme
de datos. La selección de características reduce el tamaño de los datos eligiendo
las variables más influyentes en el problema, sin apenas sacrificar la calidad del
modelo de conocimiento obtenido del proceso de minería. Los métodos para la
selección de características son aquellos basados en la elección de los mejores
- 24 -
atributos del problema y aquellos que buscan variables independientes mediante
tests de sensibilidad,algoritmos de distancia.

c. Extracción de conocimiento. El conocimiento se obtiene aplicando
alguna técnica de minería de datos (árboles de decisión, cluster, etcétera) a la
información dependiendo del objetivo del estudio (véase el capitulo 2 de Técnicas
de minería de datos); con la finalidad de obtener un modelo de conocimiento, que
representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre dichas variables.
También se usan varias técnicas a la vez para generar distintos modelos, aunque
generalmente cada técnica obliga a un preprocesado diferente de los datos.

d. Interpretación y evaluación. Una vez obtenido el modelo, se procede a
su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos
mediante el uso de distintas técnicas, se comparan los modelos en busca de
aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, se altera alguno de los pasos anteriores para generar
nuevos modelos.

1.8. Aplicaciones de la minería de datos

La minería de datos se utiliza para varios pronósticos tanto en el sector público
como privado, industrias como la banca, los seguros, la medicina, para la
reducción de costos, mejorar la investigación, y aumentar las ventas. Por
ejemplo, las industrias de seguros y banca, usan aplicaciones de minería de
datos para detectar el fraude y ayuda a la evaluación del riesgo (credit scoring)
Utilizando los datos de clientes recabados a lo largo de varios años, las
empresas desarrollan modelos que predicen si un cliente tienen alto riesgo
- 25 -
crediticio (por ejemplo hoy en día se cuenta con el buró de crédito), o si un
crédito es fraudulento y tiene que ser investigado más a fondo.

La comunidad médica a veces utiliza a la minería de datos para ayudar a
predecir la eficacia de un procedimiento o medicamento. Las empresas
farmacéuticas usan la minería de datos de compuestos químicos y material
genético para ayudar a guiar la investigación en nuevos tratamientos para las
enfermedades.

Empresas como el servicio telefónico, los proveedores de música, clubes utilizan
la minería de datos para crear un análisis de churn (probabilidad de que un
cliente cancele algún servicio), para evaluar los que son probables a que
permanezcan como suscriptores y cuáles son susceptibles de pasar a la
competencia.

En Estados Unidos, la minería de datos se utilizó inicialmente como un medio
para detectar el fraude y el derroche, hoy en día también se utiliza para fines
tales como medir y mejorar el rendimiento del programa. Se ha informado que
ésta ha ayudado al gobierno federal de EU. a la recuperación de millones de
dólares por fraude.

El Departamento de Justicia de EU. ha sido capaz de utilizar la minería de datos
para evaluar modelos de delincuencia y ajustar las asignaciones de recursos en
consecuencia.

Otro ejemplo es la Administración Federal de Aviación (EU.), que utiliza la
minería de datos para revisión de accidentes comunes de avión para reconocer
los defectos y recomendar precaución. Recientemente, la minería de datos ha
sido cada vez más citada como una herramienta importante para la seguridad de
los ciudadanos. [10]

- 26 -
1.8.1. En el Gobierno
Ejemplo: El FBI analizará las bases de datos comerciales para detectar
terroristas.

En julio del 2002, el director del Federal Bureau of Investigation (FBI), John
Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en
la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de
compra de los consumidores, con el fin de descubrir potenciales terroristas antes
de que ejecuten una acción. Algunos expertos aseguran que, con ésta
información, el FBI unirá todas las bases de datos mediante el número de la
Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa
usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su
altura y peso, sus contribuciones a la iglesia, grupos políticos u organizaciones
no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los
libros que lee, los productos de supermercado que compra, si tomó clases de
vuelo o si tiene cuentas de banco abiertas, entre otros.[10]

1.8.2. En la Empresa
Ejemplo 1. Predecir qué personas que solicitan un crédito no lo devuelven.

Se cuenta con los datos correspondientes a los créditos concedidos con
anterioridad, y otros datos personales como el salario del cliente, si posee casa
propia, etcétera. Ver tabla 2.

- 27 -

Tabla 2.Información de créditos personales.[10]

Aplicando minería de datos, se tiene como resultado la siguiente Regla:

SI cuentas-morosas>0 ENTONCES devuelve-crédito = No
SI cuentas-morosas=0 Y (salario>2500 Ó Dcrédito > 10) ENTONCES
Devuelve-crédito=Sí

Ejemplo 2. Determinar las características socio económicas de los turistas en un
determinado destino o paquete turístico, identificar patrones de reservas y sugerir
destinos.

Tabla 3. Información de destinos por cliente.
- 28 -
En la tabla 3 se tiene la información del cliente y características del viaje.
Ana: profesional que viaja por motivos de negocios a grandes ciudades como
México y Monterrey.
Pedro: profesional que viaja por motivos de negocios generalmente a Monterrey.
Luis: turista que viaja a destinos turísticos dentro de México.

Esta información en conjunto con la minería de datos es útil también para sugerir
destinos en sitios Web ó envió de publicidad a domicilio, obtener la puntuación de
un usuario X de una muestra de paquetes turísticos, buscar otros usuarios Y’s
que tengan un patrón de gustos similar a X, recomendar los paquetes preferidos
de los Y’s, entre otros.

Ejemplo 3. En el oeste se venden más camisas de manga corta que en el este.
Una forma de probar ésta hipótesis es la presentada por la minería de datos,
donde se sigue todo un proceso de búsqueda de patrones y criterios definidos
por el usuario hasta llegar a la información relevante que apoye o niegue su
hipótesis.

Otra manera es obtener los resultados de ventas de ambos lugares, pero con
esto solo se obtendría un Cierto o Falso, es decir no se sabría la razón del
porque el resultado, si esto ha sido siempre o por periodos de tiempos, que tipos
de clientes son los más usuales, etcétera.

Ejemplo 4. Análisis de datos del carro de compras.
Se tiene la siguiente información en la tabla 4.
- 29 -

Tabla 4. Información de compras por cliente (carrito)[10]
Con dicha información y un algoritmo de minería de datos se determinaría que:
100% de las veces que se compran pañales también se compra leche.
50% de las veces que se compran huevos también se compra aceite.
33% de las veces que se compra vino y salmón también se compra
lechuga.[10]

1.8.3. En la Universidad
Ejemplo: Conociendo si los recién titulados de una universidad llevan a cabo
actividades profesionales relacionadas con sus estudios.

Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en
Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México
(Rodas, 2001) Se quería observar si sus recién titulados se insertaban en
actividades profesionales relacionadas con sus estudios y, en caso negativo, se
buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la
universidad.

El objetivo era saber si con los planes de estudio de la universidad y el
aprovechamiento del alumno se hacía una buena inserción laboral o si existían
otras variables que participaban en el proceso. Dentro de la información
considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño
- 30 -académico, la zona económica donde tenía su vivienda y la actividad profesional,
entre otras variables. Mediante la aplicación de conjuntos aproximados se
descubrió que existían cuatro variables que determinaban la adecuada inserción
laboral, que son citadas de acuerdo con su importancia: zona económica donde
habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio
final al salir de la carrera.
A partir de estos resultados, la universidad tendrá que hacer un estudio
socioeconómico sobre grupos de alumnos que pertenecían a las clases
económicas bajas para dar soluciones, debido a que tres de las cuatro variables
no dependían de la universidad.[10]

1.8.4. En Investigaciones Espaciales
Ejemplo: Proyecto SKYCAT.

Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)
coleccionó tres terabytes de imágenes que contenían aproximadamente dos
millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una
resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen.

El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(agrupamiento) y árboles de decisión para poder clasificar los objetos en
estrellas, planetas, sistemas, galaxias, etcétera.
Con la información obtenida, los astrónomos han descubierto dieciséis nuevos
quásars con corrimiento hacia el rojo que los incluye entre los objetos más
lejanos del universo y, por consiguiente, más antiguos. Estos quásars son
difíciles de encontrar y permiten saber más acerca de los orígenes del
universo.[5] y [10]

- 31 -
1.8.5. En los Clubes Deportivos
Ejemplo: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a
su cuerpo de entrenadores.

El Advanced Scout es un software que emplea técnicas de minería de datos y
que han desarrollado investigadores de IBM para detectar patrones estadísticos y
eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo
muy específico: analizar el juego de los equipos de la National Basketball
Association (NBA)
El software utiliza todos los registros guardados de cada evento en cada juego:
pases, encestes, rebotes y doble marcaje (double team) a un jugador por el
equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar
eventos que no detectan cuando observan el juego en vivo o en película.

Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador
generalmente da la oportunidad a otro de encestar más fácilmente. Sin embargo,
cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el
porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le
hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no
reaccionaban correctamente a los dobles marcajes.
El cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos
contra Chicago. Observaron que los jugadores de Chicago rompían su doble
marcaje muy rápido de tal forma que podían tapar al encestador libre de los
Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los
entrenadores crearon estrategias alternativas para tratar con el doble marcaje.

En el 2000 IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un
patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de
aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo
descubrimientos interesantes. [10]
- 32 -
Capítulo 2. Técnicas de Minería
de datos.
2.1. Introducción

Hoy en día, la cantidad de datos que se recaba es inimaginable, exceden
nuestra habilidad de reducir y analizar la información, pero se cuenta con
varias técnicas para apoyo al análisis, así como la tecnología para procesar
grandes bases de datos.

Las tareas de la minería de datos se clasifican en:
a. Predictivas: Estimación de valores futuros o desconocidos de
variables de interés (variables objetivo) a partir de otras variables
independientes (predictivas) Por ejemplo el análisis de ventas cruzadas, que
descubre qué objetos tienden a ser comprados juntos para crear
recomendaciones y determinar cómo el posicionamiento del producto
contribuye directamente a su línea inferior.
En éstas tareas se resuelven con técnicas como: agrupamiento o clustering,
regresión, series de tiempo, análisis de secuencias, entre otras.

b. Descriptivas: Identificación de patrones en los datos que lo explican o
resumen. Por ejemplo, la previsión de ventas que optimiza el funcionamiento
de su almacén, manteniendo un stock de cada producto que sea suficiente
para poder servir rápidamente los pedidos de sus clientes. Así la
organización dispone de información sobre las ventas de cada producto en
cada mes del último año.
En este tipo de análisis se usa técnicas como: análisis de asociaciones,
árboles de decisión, redes neuronales, análisis de grupos, etcétera.

- 33 -

Tabla 1.Técnicas y tareas a realizar. [24]

En la tabla 5 se muestra un cuadro comparativo de las diferentes técnicas,
así como las tareas (clasificación, regresión, agrupamiento, reglas de
asociación, correlaciónales) y algunas técnicas y algoritmos que las abordan.
[9],[17] y [24]
Nota: La selección de la técnica a utilizar en el análisis depende de los datos
con los que se cuente y el objetivo del estudio.

2.2. Técnica de detección de anomalías (Outlier)

La meta principal en la detección de anomalías, es encontrar objetos que
sean diferentes de los demás. Frecuentemente estos objetos son conocidos
como anomalías (outlier) La detección de anomalías también es conocida
como detección de desviaciones, porque objetos anómalos tienen valores de
atributos con una desviación significativa respecto a los valores típicos
esperados. Aunque las anomalías son frecuentemente tratados como ruido o
error en muchas operaciones, tales como agrupamiento, para propósitos de
- 34 -
detección de fraude son una herramienta valiosa para encontrar
comportamientos atípicos en las operaciones que un cliente realiza en una
entidad financiera. En términos de salida, las técnicas actuales de detección
de anomalías se clasifican en:
a. Técnicas basadas en Modelos. Se basan en el campo de
estadísticas, dada la premisa de conocer la distribución de los datos. Entre
estas técnicas se resalta: el método de convex hull el cual consiste en
encontrar el polígono convexo más pequeño que incluye a todos los datos,
dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez
que tomamos dos puntos en ella, el segmento que los une pertenece también
a dicha figura, se muestra un ejemplo de en la figura 7.

Figura 1. Ejemplo del método Convexo Hull

b. Técnicas basadas en proximidad. Ésta técnica se basa
fundamentalmente en el manejo de distancias entre objetos, entre mayor sea
la distancia del objeto respecto a los demás, éste es considerado como una
anomalía. Entre los principales métodos se encuentra: la distancia de
Mahalanobis y la distancia Euclidiana.

El método de Mahalanobis es una forma diferente de clasificar los datos en
los dos grupos y esto se hace mediante la distancia de Mahalanobis en lugar
de la distancia euclídea. Está representa la distancia entre el valor promedio
del grupo que tiene una covarianza constante, de modo que en dos
- 35 -
dimensiones, se da esta distancia por un elipsoide. En la figura 8 se
representa una curva de Mahalanobis, donde el proceso de clasificación
consiste en calcular la distancia de Mahalanobis de un punto de prueba a la
media de los dos grupos y luego decidir qué medio es el más cercano.
Supongamos que las x’s son el grupo masculino y las o el femenino,
entonceses posible ver la forma elíptica que rodea el grupo masculino.

Figura 2. Ejemplo del Algoritmo de Mahalonobis
- 36 -

El método Euclidiano se basa en calcular la distancia entre dos puntos
),...,(0 21 npppP y ),...,( 2 nqqqQ = mediante la formula:
2
1
22
22
2
11 )()(....)()( i
n
i
inn qpqpqpqp ∑
=
−=−++−+−

Quedando de la siguiente manera: 212
2
12 )()( yyxxd −+−=

Esté método calcula la distancia como la longitud de la recta que une dos
puntos en el espacio.

En la figura 9 se observa gráficamente las dos distancias.

Figura 3. Distancia Mahalanobis y Euclidiana.

c. Técnicas basadas en densidad. Ésta técnica se basa en la
estimación de densidad de los objetos, para ello, los objetos localizados en
regiones de baja densidad y que son relativamente distantes de sus vecinos
se consideran anómalos.
Entre los principales métodos se encuentra: LOF (Local Outlier Factor), está
técnica de minera de datos generalmente es de aprendizaje no supervisado,
ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna
- 37 -
una calificación a cada instancia que refleja el grado con el cual la instancia
es anómala.

Por lo general ésta técnica es considerada para identificar errores en los
datos ó bien para análisis muy en particular, por ejemplo, para el
descubrimiento de fraudes. [18], [19] y [20]

2.3. Agrupamiento (Clustering)

El análisis de grupos (cluster) es un proceso que divide un grupo de objetos
de tal forma que los miembros de cada grupo son similares de acuerdo a
alguna métrica.
El agrupamiento de acuerdo a la similitud es una técnica muy poderosa, la
clave para esto es trasladar alguna medida intuitiva de similitud dentro de una
medida cuantitativa.

El objetivo es agrupar elementos en grupos de manera que los elementos
dentro de un mismo grupo sean lo más parecidos, mientras que elementos
de distintos grupos sean lo más diferentes.

Figura 4. Ejemplo de grupos o clúster.
- 38 -

En la figura 10 se representa un ejemplo de grupos donde la entrada de
patrones se muestra en (a), y los grupos se muestran en (b).
La obtención de dichos grupos depende del criterio o distancia considerados.
Por ejemplo, una baraja de cartas españolas se podría dividir de distintos
modos:

En cuatro grupos (los cuatro palos)
En ocho grupos (los cuatro palos y según sean figuras o números)
En dos grupos (figuras y números)

Es decir, todo depende de lo que se considere como similar. [21] y [22]
2.3.1. Etapas del análisis grupo
Elección de las variables: Los tipos de variables dependerán del
planteamiento del problema, éstas son: variables cualitativas, ordinales
(grado de estudio), nominales (grupo), variables cuantitativas, variables
discretas (número de alumnos), variables continuas (estaturas) [5]

Elección de la medida de asociación o similitud: En realidad, es bastante
subjetivo el hecho de elegir una medida de similitud ya que depende de las
escalas de medida. Las observaciones se agrupan según la similitud
expresada en términos de una distancia.

Algunas formulas de distancia más usadas son:
Distancia euclidiana es llamada también distancia clásica, como la
longitud de la recta que une dos puntos en el espacio.
∑ = −=
d
i ii
yxyxEucl
1
2)(),(
- 39 -

Distancia de Manhattan: es llamada también distancia por cuadras
(city block), está hace referencia a recorrer un camino no en diagonal
(por el camino más corto) si no zigzagueando, como se haría en
Manhattan. ∑ = −=
d
i ii
yxyxManh
1
||),(

Distancia de Mahalanobis: es una distancia más robusta que utiliza
la matriz de covarianzas S.
)()()(),( 1 yxDCovyxyxsMahalanobi −−= −

Visualmente las distancias se observan en la figura 11.

Di
sta
nc
ia
Eu
clí
de
a
Distancia Mahalanobis
Di
sta
nc
ia
Ma
nh
att
an
Di
sta
nc
ia
Eu
clí
de
a
Distancia Mahalanobis
Di
sta
nc
ia
Ma
nh
att
an

Figura 5. Comparación de cálculo de distancias.
- 40 -

Elección de las técnicas de grupos: Existen diferentes técnicas de grupo,
la selección dependerá del resultado que se espera. (Ver 2.3.2 Técnicas de
agrupamiento)
Validación de los resultados: Evaluar que tan bueno es el ajuste, es decir si
el número de agrupaciones es el adecuado así como la contribución de las
variables al agrupamiento.

2.3.2. Técnicas de agrupamiento.
Mapas autoorganizativos (Kohonen): la característica más importante del
modelo es el concepto de aprendizaje en un vecindario o agrupación próximo a la
neurona ganadora.

Figura 6. Visualización de un Mapa de Kohonen.
- 41 -
En la figura 12 se muestra un ejemplo de Mapa de Kohonen de dos capas
donde cada neurona de competición es una categoría y cada neurona de
entrada está conectada con cada una de las células de la capa de
competición (células que se distribuyen inicialmente de forma aleatoria).

Paso1: Se recibe el ejemplo de entrada (n-dimensional)
Los ejemplos son representables como puntos en un espacio n-dimensional

Figura 7. Entradas en un mapa de Kohonen
Paso2: Se propaga por las conexiones hasta llegar a la capa de competición
(competición que se realiza de acuerdo a un modelo de interacción lateral)
Los prototipos (objetos diseñados para una demostración) también se
representan en el espacio y sus coordenadas quedan determinadas por los
pesos de las neuronas de la capa de competición

Figura 8. Se propagan las conexiones hasta llegar a la capa de competición.
- 42 -
Paso3: Cada célula de esta capa de competición produce una salida al
comparar el ejemplo con sus pesos.

Paso4: Se selecciona el prototipo cuya distancia al ejemplo sea menor
(célula ganadora)

Figura 9. Se selecciona el prototipo.
Paso 5: Los pesos de la célula ganadora se modifican para acercarse
ligeramente al ejemplo modificando así el mapa de prototipos inicial

Figura 10. Mapa de prototipo inicial.
- 43 -
Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa
la distancia del ejemplo a los distintos prototipos existentes sino también la
clase a la que pertenecen los ejemplos cercanos.

K-Medias (K-Means): es un método de agrupación de casos que se basa en
las distancias existentes entre ellos en un conjunto de variables (este método
no permite agrupar variables). El objetivo de este algoritmo es intentar situar
los prototipos de forma tal que aquellos patrones cercanos (distancia
euclídea) sean similares entre sí.

Ejemplo. Se cuenta con la siguiente información:

Tabla 2. Datos para el ejemplo de K-medias.

Paso 1. Graficando se tiene que:
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH

Figura 11. Gráfica inicial de la información.
Paso 2. Seleccionar k elementos aleatoriamente, los cuales
representa el centro o media de cada cluster. Para este caso de estudio
tomamos medicina A y medicina B como los primeros centroides (centros
- 44 -
multivariantes de los conglomerados) definiéndolos como 1c y 2c
respectivamente; entonces se tiene )1,1(1 =c y )1,2(2 =c
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH

Figura 12. Primeros centroides.
Paso 3. A cada objeto restante se le asigna el grupo con el cual más se
parece, basándose en una distancia entre el objeto y la media del grupo.
Para esto se calcula la distancia entre los centros de los cluster de cada
objeto que en este caso es 1c y 2c .

La distancia de medicina )3,4(=c ) con el primer centroide o media del
cluster se calcula con la fórmula de la distancia:
)1,1(1 =c 61.3)13()14(
22 =−+− , y con respecto al segundo
centroide es )1,2(2 =c 83.2)13()24(
22 =−+− , etc.
Para agrupación de cada objeto se basa en la mínima distancia, por ejemplo
para medicina C la distancia es menor hacia el grupo 2, por tanto esasignada a este.
La distancia de medicina D = (5,4) con respecto a los centroides es:
- 45 -
)1,1(1 =c 5)14()15(
22 =−+−
)1,2(2 =c 24.4)14()25(
22 =−+−
Entonces de acuerdo al resultado de las distancias se tiene que medicina C y
D están asignadas al grupo 2. Entonces la matriz de grupo quedaría definida
de la siguiente manera:

Paso 4. Se itera nuevamente.
En el grupo uno solo existe un centroide )1,1(1 =c , en el grupo 2 hay 3 por
tanto se calcula el promedio de estos para obtener el segundo.
)
3
8
,
3
11
()
3
431
,
3
542
(2 =
++++=c . Ver figura 19.
0
1
2
3
4
5
0 2 4 6
Atributo1 índice ponderado
pH

Figura 13. Gráfica de los segundos centroides.
Ahora se calculan las distancias de los objetos con el nuevo centroide:

- 46 -
Medicina )1,2(B )1,1(1 =c 1)11()12(
22 =−+−
)
3
8
,
3
11
(2 =c 36.2)3/81()3/112(
22 =−+−
Medicina )3,4(C
)1,1(1 =c
61.3)13()14( 22 =−+−
)
3
8
,
3
11
(2 =c
47.0)3/83()3/114( 22 =−+−
Medicina )4,5(D
)1,1(1 =c
5)14()15( 22 =−+−
)
3
8
,
3
11
(2 =c
89.1)3/84()3/115( 22 =−+−
Medicina B se mueve al Grupo 1, medicina C y D siguen quedando en el
grupo B, la matriz queda:
Paso 5. Como la matriz 0G es diferente a 1G , se vuelve a iterar.
Para obtener los nuevos centroides se calcula el promedio de A y B para el
primer grupo, de C y D para el grupo 2.
)1,
2
1
1()
2
11
,
2
21
(1 =
++=c y )
2
1
3,
2
1
4()
2
43
,
2
54
(2 =
++=c
- 47 -

Figura 14. Gráfica con nuevos centroides.
Nuevamente calculamos la distancia de los objetos con los nuevos
centroides.

El resultado de las distancias mínimas dan como resultado Medicina A y B en
primer grupo y medicina C y D en el segundo,

Paso 6. Como el resultado es el mismo que el anterior 12 GG = se
termina de iterar; ya que los grupos no se han movido por tanto no es
necesario más iteraciones. Quedando la agrupación final:

- 48 -

Tabla 3. Tabla final del ejemplo.
2.3.3. Ventajas de la técnica
Rendimiento en la información, es decir, se analiza en grandes bases
de datos sin problema alguno.
Entre las clases internas la similitud es muy alta.
Entre las clases externas la similitud es muy baja.
La calidad del resultado de los grupos depende de la medida de
similitud usada por el método y su implementación.
La calidad del método de agrupamiento también depende de la
capacidad de descubrir algunos o todos los patrones ocultos.
La calidad de la agrupación también depende de la definición y
representación del grupo elegido.
2.3.4. Usos y/o aplicaciones
Biología: Crear la taxonomía de todas las cosas vivas, como reino,
clases, categorías, familia, género y especies. Con el apoyo de ésta
técnica, encontramos la clasificación parecida.
Recuperación de información: por ejemplo, buscar algo en Internet
entre las millones de páginas Web. El agrupamiento usa grupos de
ésta búsqueda, dando como resultados grupos de agrupamiento más
pequeños.
Clima: para entender el clima, se requiere encontrar patrones en la
atmósfera y el océano.
Medicina: Los grupos se usan para identificar diferentes
subcategorías, por ejemplo, para identificar tipos de depresión.
- 49 -
Negocios: se usa para agrupar clientes y así realizar actividades de
marketing.
2.3.5. Limitaciones
Necesidad de validar la solución.
Técnica exploratoria, sin solución única.
Perdida de alguna información valiosa más minuciosa.
La dificultad de etiquetar los grupos.
Gran numero de dimensiones. [26] y [27]

2.4. Árboles de Decisión
Un árbol de decisión es un modelo de predicción y se define como un
conjunto de condiciones organizadas en una estructura jerárquica, de tal
manera que la decisión final a tomar se determina siguiendo las condiciones
que se cumplen desde la raíz del árbol hasta sus hojas.
Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que
puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la
construcción de modelos predictivos. Por está razón es la técnica mas usada.
Un árbol de decisión tiene unas entradas las cuales son un objeto o una
situación descrita por medio de un conjunto de atributos y a partir de esto
devuelve una respuesta la cual en últimas es una decisión que es tomada a
partir de las entradas. Los valores toman las entradas y las salidas son
valores discretos o continuos
De forma más concreta, refiriéndonos al ámbito empresarial, los árboles de
decisión son diagramas de decisiones secuenciales y muestran sus posibles
resultados. Éstos ayudan a las empresas a determinar cuales son sus
opciones al mostrarles las distintas decisiones y sus resultados. La opción
que evita una pérdida o produce un beneficio extra tiene un valor. La
- 50 -
habilidad de crear una opción, por lo tanto, tiene un valor que es comprado o
vendido.

Inicio
Edad
Antigüedad
Rechazar Aceptar
Rechazar
>= 25 años
< 18 meses >= 18 meses
< 25 años
Inicio
Edad
Antigüedad
Rechazar Aceptar
Rechazar
>= 25 años
< 18 meses >= 18 meses
< 25 años

Figura 15. Árbol de decisión.

En la figura 21 se observa un ejemplo de árbol el cual contiene dos variables:
edad y antigüedad. Se interpreta de la siguiente manera:
Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado.
Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si
es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad
es igual o mayor a 18 meses entonces el cliente es aceptado.
Existen ciertos conceptos de la metodología:
Entropía: es la medida de la incertidumbre que hay en un sistema. Es decir,
ante una determinada situación, la probabilidad de que ocurra cada uno de
los posibles resultados.
La función de entropía más usada es la denominada binaria descrita por la
fórmula:
- 51 -
)
1
1
(log)1()
1
(log)1,( 222 p
p
p
pppH
−
−+=−
Su gráfica es:

Figura 16. Gráfica de la entropía.
Un ejemplo de la entropía binaria podría ser sacar una bola de color blanco
negro de una bolsa. Si en la bolsa hay 3 bolas blancas y 3 negras el
resultado es completamente desconocido, es decir la incertidumbre es
máxima, es decir la entropía es 1. Si, al otro extremo, en la bolsa hay 6 bolas
negras el resultado es conocido de antemano, luego la incertidumbre no
existe, y la entropía es 0.
Ganancia de información: es la diferencia entre la entropía de un nodo y la
de uno de sus descendientes. En el fondo no es más que una heurística
(resolución de problemas mediante la creatividad y el pensamiento), que
servirá para la elección del mejor atributo en cada nodo.
Es decir, para el nodo con el conjunto de entrenamiento S y el atributo A, la
),( ASGanancia es:
)(),()( AEntropíanpIAGanancia −=

Siendo Sv el subconjunto de S formado por aquellas instancias que en el
atributo A toman el valor v.
- 52 -
Ejemplo: Supongamos que hay un conjunto de entrenamiento S con 14
ejemplos, de los que 9 son positivos y 5 son negativos. Su entropía es por
tanto (aplicando la fórmula de la entropía binaria) 0.940. Dividiendo el
conjunto según un atributo A, se obtiene un subconjunto Sa con 6 ejemplos
positivos y 2 negativos (entropía 0.811) y otro subconjunto Sb con 3 ejemplos
positivos y 3 negativos (entropía 1.00). La ganancia de información que se
obtiene si clasificamos el conjunto S según el atributo A es:
Ganancia(S,A)= 0.940 - (8/14)0.811 - (6/14)1.00= 0.048
Nota: Se elige el atributo que proporcione una mayor ganancia de
información.
2.4.1. Algoritmos o técnicas de árboles de decisión.
Entre los algoritmos de aprendizaje más usuales se encuentra:
CART[Breiman,1984]. Se basa en el lema “divide y vencerás”, son métodos
que construyen árboles binarios basados en el criterio de partición GINI y que
sirven para clasificación como para regresión. La poda se basa en unaestimación de la complejidad del error.
El proceso general es:
Paso 1. El nodo raíz es dividido en subgrupos (dos o más)
determinados por la partición de una variable predictora elegida, generando
nodos hijos.
Paso 2. Los nodos hijos son divididos usando la partición de una nueva
variable. El proceso recursivo se repite para los nuevos nodos hijos
sucesivamente hasta que se cumpla alguna condición de parada.
Paso 3. Algunos de los nodos resultantes son terminales, mientras que
otros nodos continúan dividiéndose hasta llegar a un nodo terminal.
Paso 4. En cada árbol se cumple la propiedad de tener un camino
único entre el nodo raíz y cada uno de los demás nodos del árbol.

Ejemplo: en 215 pacientes que sufrieron un ataque al corazón se evaluaron
variables sociodemográficas, historia médica y exámenes de laboratorio.
- 53 -
A los 30 días 37 pacientes murieron. Se presenta el Árbol de Clasificación
desarrollado con el fin de estimar “El riesgo de un segundo ataque”. Ver
figura 23

Figura 17. Ejemplo de árbol resuelto con el algoritmo CART.
ID3.Propuesto por Quinlan en 1986, el ID3 es considerado el árbol de
decisión más simple, usa la ganancia de información como criterio de
separación. El árbol crece hasta encontrar un nodo final. No emplea
procedimientos de poda ni manejo de valores perdidos.
El objetivo es construir un árbol de decisión que explique cada instancia de la
secuencia de entrada de la manera más compacta posible, según los criterios
de coste y bondad. En cada momento elige el mejor atributo
- 54 -
El algoritmo general se define mediante un ejemplo:
Se toma la decisión de asistir a un juego o no, considerando los factores
climatológicos definidos en la siguiente tabla:
NSiAltaTempladaLluvioso14
PNoNormalCalienteNublado13
PSiAltaTempladaNublado12
PSiNormalTempladaSoleado11
PNoNormalTempladaLluvioso10
PNoNormalFríaSoleado9
NNoAltaTempladaSoleado8
PSiNormalFríaNublado7
NSiNormalFríaLluvioso6
PNoNormalFríaLluvioso5
PNoAltaTempladaLluvioso4
PNoAltaCalienteNublado3
NSiAltaCalienteSoleado2
NNoAltaCalienteSoleado1
Tipo_claseVientoHumedadTemperaturaClima_general#_Caso
NSiAltaTempladaLluvioso14
PNoNormalCalienteNublado13
PSiAltaTempladaNublado12
PSiNormalTempladaSoleado11
PNoNormalTempladaLluvioso10
PNoNormalFríaSoleado9
NNoAltaTempladaSoleado8
PSiNormalFríaNublado7
NSiNormalFríaLluvioso6
PNoNormalFríaLluvioso5
PNoAltaTempladaLluvioso4
PNoAltaCalienteNublado3
NSiAltaCalienteSoleado2
NNoAltaCalienteSoleado1
Tipo_claseVientoHumedadTemperaturaClima_general#_Caso

Tabla 4. Información de climas para ejemplo.
Analizando la información se ve que se tiene 9 con clase P y 5 con clase N.
Paso 1. Se calcula la información requerida para la clasificación
general con la ecuación:
)()()()(),( 22 np
n
Log
np
n
np
p
Log
np
p
npI
++
−
++
−=
I (p, n) = - (9/14)*log
2
(9/14) - (5/14)*log
2
(5/14) = 0.940 bits
Paso 2. Se calcula para cada atributo, se comienza con clima general, se
observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de
los cuales 2 son de clase p y 3 N, entonces:
Soleado
21 =p , 21 =n
971.0)5/3(log*)5/3()5/2(log*)5/2(),( 2211 =−−=npI
- 55 -
Para el valor de Nublado 42 =p , 02 =n
0)4/0(log*)4/0()4/4(log*)4/4(),( 2222 =−−=npI
Y para el valor de Lluvioso 33 =p , 13 =n
971.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI
Paso 3. Se calcula a entropía total de los atributos:
np
npInpnpInpnpInp
AE vvvv
+
+++++++++
=
)(*)(...)(*)()((*)(
(( 22221111

694.0
14
)5)(*4)((*5
)_lim( 332211 =
+++++
=
npnpInpI
GeneralaCE

Paso 4. Se obtienen la ganancia que es la diferencia entre la entropía
de un nodo y la de uno de sus descendientes y sirve para la elección del
mejor atributo en cada nodo que es que gana la mayor información.
)(),()( AEntropíanpIAGanancia −=
Ganancia (Clima_General)= 0.940 - E (Clima_General)= 0.940 -0.694 =
0.246

Clima General
Soleado Nublado
Lluvioso
[2+,3-]
E= 0.971 [3+,1-]
E= 0.971
[3+,0-]
E= 0
Clima General
Soleado Nublado
Lluvioso
[2+,3-]
E= 0.971 [3+,1-]
E= 0.971
[3+,0-]
E= 0

Figura 18. Árbol de ejemplo con valores de ramificación Clima General.
Paso 5. El mismo procedimiento es aplicado a los otros tres atributos,
por tanto se continúa con temperatura.
- 56 -
Caliente 21 =p , 21 =n
1)4/2(log*)4/2()4/2(log*)4/2(),( 2211 =−−=npI
Templada 42 =p p1 = 4, 22 =n
918.0)6/2(log*)6/2()6/4(log*)6/4(),( 2222 =−−=npI
Fria 33 =p , 13 =n
811.0)4/1(log*)4/1()4/3(log*)4/3(),( 2233 =−−=npI
Se calcula ahora la entropía del atributo temperatura.
14
),(*4),(*6),(*4
)( 332211
npInpInpI
aTemperaturE
++
=
911.014/))811.0(*4)918.0(*6)1(*4()( =++=aTemperaturE
Paso 6. Se calcula la ganancia.
Ganancia (Temperatura) = 0.940 - E(Temperatura) = 0.029
Ganancia (Temperatura) = 0.940 -.911=.029
Temperatura
Caliente Fría
Templada
[2+,2-]
E= 1 [4+,2-]
E= 0.918
[3+,1-]
E= 0.811
Temperatura
Caliente Fría
Templada
[2+,2-]
E= 1 [4+,2-]
E= 0.918
[3+,1-]
E= 0.811

Figura 19. Árbol con rama "Temperatura".
Paso 7. Ahora se continua con el atributo de humedad:
Alta 31 =p , 41 =n
985.0)7/4(log*)7/4()7/3(log*)7/3(),( 2211 =−−=npI
Normal 62 =p , 12 =n
591.0)7/1(log*)7/1()7/6(log*)7/6(),( 22212 =−−=npI
- 57 -
Paso 8. Se calcula su entropía.
14
),(*7),(*7
)( 2211
npInpI
HumedadE
+
=
788.0
14
)591(.*7)985(.*7
)( =+=HumedadE
Paso 9. Y finalmente su ganancia.
Ganancia (Humedad) = 0.940 - E(Humedad) = 0.151
Ganancia (Humedad)= .940-.788=.151

Humedad
Alta Normal
[3+,4-]
E= 0.985
[6+,1-]
E= 0.591
Humedad
Alta Normal
[3+,4-]
E= 0.985
[6+,1-]
E= 0.591

Figura 20.Árbol con rama "Humedad".
Paso 10. Se hacen los cálculos correspondientes para viento.
Si 31 =p , 31 =n
1.0)6/3(log*)6/3()6/3(log*)6/3(),( 2211 =−−=npI
No 62 =p , 22 =n
811.0)8/2(log*)8/2()8/6(log*)8/6(),( 2222 =−−=npI

Paso 11. Se calcula la entropía y su ganancia.
- 58 -
14
),(*8),(*6
)( 2211
npInpI
VientoE
+
=
892.0
14
)811.0(*8)1(.*6
)( =+=VientoE
Ganancia (Viento) = 0.940 - E(viento) = .048
Ganancia (viento)= .940-.892=.048
Paso 12. Una vez realizado los cálculos para todos los atributos, se
identifica la tupla con mayor ganancia que en este caso es Clima_General
para que sea tomada como nodo inicial, el árbol queda de la siguiente
manera:

Figura 21. árbol de ramificación "Clima General".
Paso 13. Esté proceso se hace para cada nodo del árbol. Obteniendo
un árbol final:
- 59 -
Clima General
Humedad P Viento
N
Soleado
Nublado Lluvioso
P
Alta Normal
N
No
P
Si
Clima General
Humedad P Viento
N
Soleado
Nublado Lluvioso
P
Alta Normal
N
No
P
Si

Figura 22. Árbol final.

C4.5. Es la evolución del ID3, presentado por Quinlan en 1993.
Usa como criterio de separación el radio de ganancia (gain ratio) o proporción
de ganancia. Esta es la medida basada en información que considera
diferentes números (y diferentes probabilidades) de los resultados de las
pruebas.
2.4.2. Las ventajas de la técnica de Árboles de decisión
Resume los ejemplos de partida, permitiendo la clasificación de
nuevos casos siempre y cuando no existan modificaciones
sustanciales en las condiciones bajo las cuales se generaron los
ejemplos que sirvieron para su construcción.
Facilita la interpretación de la decisión adoptada.
Proporciona un alto grado de comprensión del conocimiento utilizado
en la toma de decisiones.
Explica el comportamiento respecto a una determinada tarea de
decisión.
- 60 -
Reduce el número de variables independientes.
Es una magnifica herramienta para el control de la gestión
empresarial.
Minimizan el pre-tratamiento, trabajan con un cierto nivel de ruido y
datos faltantes.
Se definen los ejemplos en términos de pares atributo-valor
(representados como un conjunto fijo de atributos, por