Logo Studenta

MineriaDatos2008 - Gloria Mendoza

¡Este material tiene más páginas!

Vista previa del material en texto

1
Minería de Datos
Sistemas de Gestión 2
UTN – FRRo – ISI
Est. Mónica Grasso
Ing. Cristian Bigatti
Ing. Guillermo Leale
2008
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
2
Minería de Datos, Data Mining
p Proceso de extraer conocimiento útil y 
comprensible, previamente desconocido 
de grandes cantidades de datos 
almacenados en distintos formatos.
p Proceso automático o semiautomático 
(asistido)
Objetivo: CONVERTIR DATOS EN 
INFORMACION
2
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
3
Análisis de grandes volúmenes de datos
p Datos
n Número de registros (cantidad de 
observaciones, filas) muy grande:108… 1012
bytes
n Datos multidimensionales de alta dimensión 
(cantidad de variables o atributos, columnas) 
102 …. 104
p Usuarios finales con pocos conocimientos 
sobre análisis de datos y poco tiempo 
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
4
Análisis de grandes volúmenes de datos
p Información obtenida
n Evaluación: ¿es válida, útil, entendible, 
novedosa?
n Uso: resumir la base de datos y facilitar la 
toma de decisión. Visualizar datos de alta 
dimensionalidad facilitando la comprensión de 
su estructura.
p Para predecir en base a datos nuevos
p Para explicar los datos actuales
3
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
5
Minería
p Variedad de técnicas para identificar información 
o conocimiento desde un conjunto de datos, y 
extraer éstos de modo tal que puedan ser 
dispuestos para su uso en áreas tales como, 
soporte de decisión, pronóstico y estimaciones.
p Los datos son frecuentemente voluminosos, pero 
en su forma actual no se puede hacer uso directo 
de ellos. Es la información oculta en ellos la 
que es útil. 
Clementine User Guide
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
6
• 80´s y principios 90´s
• OLAP y reporting: consultas predefinidas. El 
sistema OLAP como sistema para extraer 
informes, gráficas y confirmar hipótesis. 
Técnicas fundamentalmente estadísticas.
• Se usa casi exclusivamente información 
interna de la organización.
• Finales de los 90
• Data-Mining: descubrimiento de patrones. 
Técnicas de aprendizaje automático para 
generar patrones novedosos.
• El Data-Warehouse compila, 
fundamentalmente, información interna.
Historia
4
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
7
Historia (cont.)
p Principios de los 00´s
n Técnicas de “scoring” y simulación: 
descubrimiento y uso de modelos globales. 
Estimación a partir de variables de entrada de 
variables de salida (causa-efecto) utilizando 
simulación sobre el modelo aprendido.
n El Data-Warehouse compila la información 
interna junto con fuentes externas 
(parámetros de la economía, poblacionales, 
geográficos, etc.).
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
8
Diferencia entre OLAP y minería
• Las herramientas OLAP 
• facilitan el “manejo” y “transformación” de los 
datos.
• producen datos informativos (más 
agregados, combinados).
• ayudan a analizar los datos porque producen 
diferentes vistas de los mismos.
• Las herramientas de Minería de Datos:
• son muy variadas: permiten “extraer” patrones, 
modelos, descubrir relaciones, regularidades, 
tendencias, etc.
• producen reglas o patrones
(conocimiento).
5
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
9
Algunas preguntas a responder
Analista de crédito: 
¿Le concedemos el crédito a este cliente?
Gerente de supermercado:
Los que compran cerveza ¿qué más llevan?
Jefe de Area de Comercialización:
¿Cuántos TV pantalla plana venderemos el 
mes que viene?
Director de RRHH:
¿Cuál es el perfil de mis empleados?
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
10
Ejemplo: Canasta de compra
Un supermercado quiere información sobre 
los hábitos de compra de sus clientes para 
mejorar el servicio:
n reubicar los productos que se suelen comprar 
juntos,
n localizar los productos nuevos en el mejor 
lugar,
n ofrecer promociones.
6
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
11
Ejemplo: Canasta de compra
Se dispone de datos sobre las compras de los 
clientes. Una fracción de la base de datos es:
Operación Huevos Aceite Pañales Vino Leche Manteca Asado Lechuga
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,,
Patrón descubierto / modelo:
Huevos Aceite Confianza: 75%
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
12
Aplicaciones 
p Comercio / Marketing
n Identificar patrones de compra
n Buscar asociaciones ente clientes y características 
demográficas
n Predecir respuestas a campañas de marketing
n Análisis de canasta de compra
p Bancos
n Detectar patrones de uso fraudulento de tarjetas
n Identificar clientes leales
n Identificar clientes con posibilidad de cambiar de 
categoría
n Detectar correlaciones entre indicadores financieros
n Identificar reglas de mercados de valores
7
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
13
Aplicaciones (cont.)
p Seguros y salud
n Análisis de procedimientos médicos solicitados 
en conjunto
n Identificar clientes para nuevos servicios
n Identificar patrones de comportamiento en 
clientes con riesgo
n Detectar comportamiento fraudulento
p Transportes
n Determinar la logística de la distribución
n Analizar patrones de carga
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
14
Aplicaciones (cont.)
p Medicina
n Identificación de terapias médicas satisfactorias para 
distintas enfermedades
n Asociación de síntomas y patologías
n Estudio de factores de riesgo/salud
n Segmentación de pacientes para atención inteligente del 
grupo
n Estudios epidemiológicos
n Análisis de rendimientos de campaña de información, 
prevención
n Predicción de requerimientos de los centros asistenciales 
para la asignación óptima de recursos
8
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
15
Aplicaciones (cont.)
p Procesos industriales
n Predicción de fallos
n Modelos de calidad (costos / beneficios)
p Deportes
n Descubrimiento de sinergias entre integrantes 
de equipos
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
16
Minería de Datos
¿KDD* o Data Mining?
* Knowledge Discovery in Databases
9
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
17
Knowledge Discovery in Databases
KDD: proceso no trivial de identificar patrones válidos, 
novedosos, potencialmente útiles y comprensibles a partir 
de los datos
Preparación 
de los datos
MINERIA 
de DATOS
patrones
Evaluación 
Interpretación 
Visualización
Sistemas de 
Información CONOCIMIENTO
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
18
Proceso de extracción de conocimiento
p Fases
datos iniciales resultados DECISIONES
1. Integración y 
recopilación
2. Selección, 
limpieza y 
transformación
3. Minería 
de datos
4. Evaluación e 
interpretación
5. Difusión y 
uso
DW
Vista 
minable
+ + +
 + + -
 - -
CONOCIMIENTO
10
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
19
1. Integración y Recopilación
n Determinar las fuentes de información útiles y 
ubicarlas
n Diseñar el DW: unificar operacionalmente 
todas las fuentes de datos
n Implantar el DW: navegar y visualizar los 
datos
n Los datos deben presentarse en una tabla 
plana, llamada “vista minable”
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
20
Origen de los datos
Generalmente, los datos que se quieren 
investigar se encuentran en:
n Archivos planos
n Hojas de calculo
n Backups
n Documentos
n Datos externos
n Contenidos de Internet
n DW
El análisis posterior será mucho más 
sencillo si la fuente es unificada, 
accesible (interna) y desconectada del 
trabajo transaccional.
11
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
21
Aparte de información interna de la organización, los almacenes 
de datos pueden recoger información externa:
• Datos demográficos (INDEC), páginas amarillas, uso de 
Internet, información de otrasorganizaciones.
• Datos compartidos en una industria o área de negocio, 
organizaciones y colegios profesionales, catálogos, etc.
• Datos resumidos de áreas geográficas, evolución de la 
economía, informes climatológicos, programaciones 
televisivas-deportivas.
• Bases de datos compradas a otras compañías.
Origen de los datos
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
22
Almacenes de Datos
Los almacenes de datos no son imprescindibles para hacer 
extracción de conocimiento a partir de datos. Se puede 
aplicar minería sobre un archivo de datos.
Las ventajas de organizar un almacén de datos para 
realizar minería de datos se amortizan sobradamente a 
medio y largo plazo cuando:
• tenemos grandes volúmenes de datos, o
• éstos aumentan con el tiempo, o
• provienen de fuentes heterogéneas o
• se van a combinar de maneras arbitrarias y no 
predefinidas. 
12
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
23
Tipo de usuario
n ‘picapedreros’ (o ‘granjeros’): se dedican 
fundamentalmente a realizar informes 
periódicos, ver la evolución de determinados 
parámetros, controlar valores anómalos, etc. 
n ‘exploradores’: encargados de encontrar 
nuevos patrones significativos utilizando 
técnicas de minería de datos.
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
24
Proceso de extracción de conocimiento
p Fases
datos iniciales resultados DECISIONES
1. Integración y 
recopilación
2. Selección, 
limpieza y 
transformación
3. Minería 
de datos
4. Evaluación e 
interpretación
5. Difusión y 
uso
DW
Vista 
minable
+ + +
 + + -
 - -
CONOCIMIENTO
13
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
25
¿Por qué las técnicas de aprendizaje automático y 
la Estadística no son directamente aplicables?
Características especiales de los Datos
• Gran volumen de datos y en distintas tablas
• Muy alta dimensionalidad (muchos campos)
• DATOS IMPERFECTOS...
2. Selección, limpieza y transformación
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
26
Objetivo: Eliminar el mayor número posible de datos
• erróneos o inconsistentes (limpieza) e 
• irrelevantes (criba).
Métodos: estadísticos, casi exclusivamente.
• gráficos (detección de datos anómalos).
• selección de datos (muestreo, ya sea 
verticalmente, eliminando atributos, u 
horizontalmente, eliminando t-uplas).
• redefinición de atributos (agrupación o 
separación).
2. Selección, limpieza y transformación
14
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
27
2. Selección, limpieza y transformación
Etapas:
n Análisis exploratorio y gráfico
n Análisis de datos faltantes
n Detección de datos anómalos: outliers
n Comprobación de los supuestos subyacentes 
del modelo, si los hubiera
Nota Si los datos no provienen de un DW puede requerirse un 
proceso previo de ETL
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
28
Proceso de extracción de conocimiento
p Fases
datos iniciales resultados DECISIONES
1. Integración y 
recopilación
2. Selección, 
limpieza y 
transformación
3. Minería 
de datos
4. Evaluación e 
interpretación
5. Difusión y 
uso
DW
Vista 
minable
+ + +
 + + -
 - -
CONOCIMIENTO
15
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
29
Patrones a descubrir:
• Una vez recogidos los datos de interés, un explorador 
decide qué tipo de patrón quiere descubrir.
• El tipo de conocimiento que se desea extraer va a marcar 
la técnica de minería a utilizar.
• Según como sea la búsqueda del conocimiento se puede 
distinguir entre:
• Directed data mining: se sabe claramente lo que se 
busca, generalmente predecir o definir clases.
• Undirected data mining: no se sabe lo que se busca, 
se trabaja con los datos (¡hasta que confiesen!).
3. Minería: Técnicas
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
30
Las técnicas de minería de datos crean modelos predictivos y/o 
descriptivos. 
3. Minería: Tipos de modelos
Un modelo predictivo responde preguntas sobre 
datos futuros.
¿Cuáles serán las ventas el año próximo? 
¿Es esta transacción fraudulenta? 
¿Qué tipo de seguro es más probable que contrate el cliente 
X?
Un modelo descriptivo proporciona información 
sobre las relaciones entre los datos.
Los clientes que compran pañales suelen comprar cerveza.
El tabaco y el alcohol son los factores más importantes en la 
enfermedad Y.
Los clientes sin televisión y con bicicleta tienen 
características muy distintas del resto.
16
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
31
Para determinar si jugar o no jugar al tenis esta tarde 
contamos con los datos de experiencias anteriores.
3. Minería: Modelo Predictivo
Observación Clima Temperatura Humedad Viento ¿Se jugó?
1 Soleado Calurosa Alta Débil No
2 Soleado Calurosa Alta Fuerte No
3 Nublado Calurosa Alta Débil Sí
4 Lluvioso Moderada Alta Débil Sí
5 Lluvioso Fresca Normal Débil Sí
6 Lluvioso Fresca Normal Fuerte No
7 Nublado Fresca Normal Fuerte Sí
8 Soleado Moderada Alta Débil No
9 Soleado Fresca Normal Débil Sí
10 Lluvioso Fresca Normal Débil Sí
11 Soleado Moderada Normal Fuerte Sí
12 Nublado Moderada Alta Fuerte Sí
13 Nublado Moderada Normal Débil Sí
14 Lluvioso Calurosa Alta Fuerte No
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
32
Procesamos los datos con un algoritmo de aprendizaje de árboles de 
decisión, señalando el atributo “Jugar Tenis” como “output”.
El resultado del algoritmo es el siguiente modelo:
¿Clima?
SI¿Humedad?
Soleado
Nublado
Lluvioso
¿Viento?
SI SINONO
Alta Normal Fuerte Débil
3. Minería: Modelo Predictivo
Si (Clima = soleado, Temperatura = calurosa, 
Humedad= alta, Viento = fuerte) ¿jugar?
17
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
33
3. Minería: Modelo Predictivo
Usemos este modelo para predecir si esta tarde 
jugamos o no al tenis. 
Por ejemplo, si:
(Clima = soleado, Temperatura = calurosa, 
Humedad= alta, Viento = fuerte) 
n La predicción es NO.
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
34
• Queremos categorizar nuestros empleados.
• Contamos con los datos siguientes:
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Aus/Año Antigüedad Sexo
1 1000 Sí No 0 Alquiler No 7 15 H
2 2000 No Sí 1 Alquiler Sí 3 3 M
3 1500 Sí Sí 2 Prop Sí 5 10 H
4 3000 Sí Sí 1 Alquiler No 15 7 M
5 1000 Sí Sí 0 Prop Sí 1 6 H
6 4000 No Sí 0 Alquiler Sí 3 16 M
7 2500 No No 0 Alquiler Sí 0 8 H
8 2000 No Sí 0 Prop Sí 2 6 M
9 2000 Sí Sí 3 Prop No 7 5 H
10 3000 Sí Sí 2 Prop No 1 20 H
11 5000 No No 0 Alquiler No 2 12 M
12 800 Sí Sí 2 Prop No 3 1 H
13 2000 No No 0 Alquiler No 27 5 M
14 1000 No Sí 0 Alquiler Sí 0 7 H
15 800 No Sí 0 Alquiler No 3 2 H
3. Minería: Modelo Descriptivo
18
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
35
• Procesamos estos datos con un algoritmo de clustering K-means.
• Se crean tres clusters, con la siguiente descripción:
cluster 1: 5 examples
Sueldo : 2260
Casado : No -> 0.8
Sí -> 0.2
Coche : No -> 0.8
Sí -> 0.2
Hijos : 0
Alq/Prop : Alquiler -> 1.0
Sindic. : No -> 0.8
Sí -> 0.2
Ausencias/Año : 8
Antigüedad : 8
Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples
Sueldo : 2250
Casado : No -> 1.0
Coche : Sí -> 1.0
Hijos : 0
Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0
Ausencias/Año : 2
Antigüedad : 8
Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples
Sueldo : 1883
Casado : Sí -> 1.0
Coche : Sí -> 1.0
Hijos : 2
Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67
Sí -> 0.33
Ausencias/Año : 5
Antigüedad : 8
Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos. Alquilan. Poco sindicalizados. Muchas ausencias.
• GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas ausencias. Alquilan. Mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicalizados. Hombres.
3. Minería: Modelo Descriptivo
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
36
3. Minería: Tipos de modelos
n Predictivos: Permiten estimar valores futuros 
de variables dependientes, a partir de otras 
variables (o campos de la base de datos)que 
llamaremos independientes o predictivas
n Descriptivos: Exploran las propiedades de los 
datos, identifican patrones presentes.
19
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
37
3. Minería: Taxonomía
MINERIA
Verificación Descubrimiento
SQL OLAP Descripción Predicción
Clusters Clasificación Regresión
Asociación
Visualización Arboles
otros Reglas de inducción
Redes Neuronales
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
38
3. Minería: Tipos de conocimiento
p Asociaciones: Una asociación entre dos 
atributos ocurre cuando es relativamente 
alta la frecuencia con que se presentan 
juntos dos valores determinados, uno de 
cada atributo. 
n Ejemplo, en un supermercado se analiza si los 
pañales y los productos para bebé se compran 
conjuntamente
20
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
39
3. Minería: Tipos de conocimiento
p Tendencias y Regresión: El objetivo es 
predecir los valores de una variable 
cuantitativa a partir de otra variable, que 
puede ser el tiempo. 
n Ejemplo, se intenta predecir el número de 
clientes o pacientes, los ingresos, llamadas, 
ganancias, costos, etc. a partir de los valores 
de semanas, meses o años anteriores.
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
40
3. Minería: Tipos de conocimiento
p Agrupamiento / Segmentación: El 
agrupamiento (o clustering) es la 
detección de grupos de individuos 
homogéneos. 
n Se diferencia de la clasificación en el que no se 
conocen ni las clases ni su número, con lo que 
el objetivo es determinar grupos (clusters o 
aglomerados) diferenciados entre sí.
21
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
41
3. Minería: Tipos de conocimiento
p Clasificación: Una clasificación es el 
descubrimiento de una dependencia. El atributo 
dependiente puede tomar un valor entre varias 
clases, previamente conocidas, dependiendo de 
los valores que presenta en otras variables de 
interés.
n Ejemplo: se sabe (por un estudio de dependencias) que 
los atributos edad, número de miopías y astigmatismo 
han determinado los pacientes para los que su operación 
de cirugía ocular ha sido satisfactoria.
Podemos intentar determinar las reglas que clasifican un 
caso como positivo o negativo a partir de esos atributos.
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
42
3. Minería: Tareas y Técnicas
TECNICAS Clasificación Predicción Cluster Asociación Otros
Redes Neuronales x x x
Arboles de Decisión x x x
Kohonen x
Regresión paramétrica x
Regresión Logística x
K means x x
Asociaciones x
Análisis factorial x
Análisis discriminante x
TAREAS generadoras de MODELOS
Predictivo (supervisado) Descriptivo (no supervisado)
22
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
43
3. Minería: Técnicas de modelado
se basan en conocimiento teórico previo
variables dependientes e independientes ANOVA
Etapas identificación Regresión
estimación Series de Tiempo
diagnosis Análisis Discriminante
predicción
Cluster
Análisis Factorial
Arboles de Decisión
Redes Neuronales
Análisis Conjunto
OLAP
Reporting
herramientas más superficiales y 
limitadas
Técnicas auxiliares
T
éc
n
ic
as
 d
e 
m
o
d
el
ad
o
 
or
ig
in
ad
o 
po
r:
contrastar antes de considerarlo válido
la teoría
los datos
no se asigna papel predeterminado a las 
variables
los modelos se crean automáticamente a 
partir del reconocimiento de patrones
mezcla del conocimiento obtenido antes y 
después de la minería
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
44
Proceso de extracción de conocimiento
p Fases
datos iniciales resultados DECISIONES
1. Integración y 
recopilación
2. Selección, 
limpieza y 
transformación
3. Minería 
de datos
4. Evaluación e 
interpretación
5. Difusión y 
uso
DW
Vista 
minable
+ + +
 + + -
 - -
CONOCIMIENTO
23
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
45
La fase anterior produce una o más hipótesis de modelos.
Para seleccionar y validar estos modelos es necesario el 
uso de criterios de evaluación de hipótesis.
1ª Fase: Comprobación de la precisión del modelo en un 
conjunto de ejemplos independiente del que se ha 
utilizado para que el modelo aprenda. Se puede elegir el 
mejor modelo.
2ª Fase: Se puede realizar una experiencia piloto con 
ese modelo. Por ejemplo, si el modelo encontrado se 
quería utilizar para predecir la respuesta de los clientes a 
un nuevo producto, se puede enviar un mailing a un 
subconjunto de clientes y evaluar la fiabilidad del 
modelo.
4. Evaluación
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
46
El despliegue del modelo a veces a veces es trivial 
pero otras veces requiere un proceso de 
implementación o interpretación:
• El modelo puede requerir implementación (p.ej. 
tiempo real detección de tarjetas fraudulentas).
• El modelo es descriptivo y requiere 
interpretación (p.ej. una caracterización de 
zonas geográficas según la distribución de los 
productos vendidos).
Interpretación
24
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
47
Proceso de extracción de conocimiento
p Fases
datos iniciales resultados DECISIONES
1. Integración y 
recopilación
2. Selección, 
limpieza y 
transformación
3. Minería 
de datos
4. Evaluación e 
interpretación
5. Difusión y 
uso
DW
Vista 
minable
+ + +
 + + -
 - -
CONOCIMIENTO
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
48
• El modelo puede tener muchos usuarios y necesita 
difusión: es necesario expresar el modelo de una 
manera comprensible para los usuarios de la 
organización (p.ej. las cervezas y los productos 
congelados se compran frecuentemente en 
conjunto ⇒ ponerlos en góndolas próximas).
Difusión y uso
25
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
49
Como los procesos no son estáticos, los modelos deben adaptarse 
a los cambios, requieren:
Difusión y uso
Monitoreo y Actualización
Monitoreo: Revalidar el modelo con cierta 
frecuencia sobre nuevos datos, para detectar si 
requiere actualización por cambio de contexto 
(económicos, competencia, fuentes de datos, etc.)
Actualización: Revisar el modelo. 
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
50
Relación con otras disciplinas
Actualmente el data mining ha sido 
reconocido como un campo de interés por 
los estadísticos y puede ser considerado 
como una mezcla de:
pestadística
pinteligencia artificial e
pinvestigación sobre bases de datos
Levy Mangin(2002)
26
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
51
Relación con otras disciplinas
Las técnicas de la Minería de Datos persiguen el 
descubrimiento automático del conocimiento 
contenido en la información almacenada en 
grandes bases de datos. Su objetivo es 
descubrir patrones, perfiles, y tendencias a 
través del análisis de datos con tecnologías de 
reconocimiento de patrones, redes neuronales, 
lógica difusa, algoritmos genéticos y otras 
técnicas estadísticas avanzadas del análisis 
multivariante de datos.
Pérez, César (2004)
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
52
ESTADISTICA: Análisis Multivariado
clasificación Clusters
Análisis Factorial 
Componentes Principales
nominales Correspondencias
ordinales Escalamiento Multidimensional
variables explicativas
cuantitativas Regresión
variables 
cuantitativas
una
M
ét
od
os
 
Métodos 
Factoriales
variables explicadas
Segment
ación
explicativos cuantitativa
variables 
cualitativas
descriptivos
factores ANOVA
factores Análisis Conjunto
cuantitativas Análisis Discriminante
varias Análisis Canónico
una
M
ét
od
os
 
Segment
aciónvariables 
explicativas y 
explicadas
explicativos cuantitativa
cualitativa
27
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
53
Software
n Clementine de SPSS
n Intelligent Miner de IBM
n Weka y R (libres)
n SQL Server
n Otros
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
54
WEKA
p WEKA en Java:
n http://www.cs.waikato.ac.nz/ml/weka
n Hernández Orallo (2006): Práctica de minería 
de datos. Introducción al WEKA 
www.dsic.upv.es/~jorallo/docent/doctorat/weka.pdf
28
UTN - FRRo - ISI - Sistemas de Gestión II 
2008
55
Bibliografía
p Hernández Orallo, J y otros (2004): Introducción 
a la Minería de Datos. Pearson, Prentice Hall. 
España. ISBN: 84-205-4091-9
p Pérez, César (2004): Técnicas de Análisis 
Multivariante. Aplicaciones con SPSS. Pearson. 
Prentice Hall. España. ISBN 84-205-4104-4
p Levy Mangin, JP y otros (2003): Análisis 
Multivariable para las Ciencias Sociales. Pearson. 
Prentice Hall. España. ISBN: 84-205-3727-6

Continuar navegando

Materiales relacionados

67 pag.
Mineração de Dados: Processo e Técnicas

BUAP

User badge image

Estudiando Y Aprendendo

17 pag.
BI DW y DM

IPN

User badge image

ripold7