Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Minería de Datos Sistemas de Gestión 2 UTN – FRRo – ISI Est. Mónica Grasso Ing. Cristian Bigatti Ing. Guillermo Leale 2008 UTN - FRRo - ISI - Sistemas de Gestión II 2008 2 Minería de Datos, Data Mining p Proceso de extraer conocimiento útil y comprensible, previamente desconocido de grandes cantidades de datos almacenados en distintos formatos. p Proceso automático o semiautomático (asistido) Objetivo: CONVERTIR DATOS EN INFORMACION 2 UTN - FRRo - ISI - Sistemas de Gestión II 2008 3 Análisis de grandes volúmenes de datos p Datos n Número de registros (cantidad de observaciones, filas) muy grande:108… 1012 bytes n Datos multidimensionales de alta dimensión (cantidad de variables o atributos, columnas) 102 …. 104 p Usuarios finales con pocos conocimientos sobre análisis de datos y poco tiempo UTN - FRRo - ISI - Sistemas de Gestión II 2008 4 Análisis de grandes volúmenes de datos p Información obtenida n Evaluación: ¿es válida, útil, entendible, novedosa? n Uso: resumir la base de datos y facilitar la toma de decisión. Visualizar datos de alta dimensionalidad facilitando la comprensión de su estructura. p Para predecir en base a datos nuevos p Para explicar los datos actuales 3 UTN - FRRo - ISI - Sistemas de Gestión II 2008 5 Minería p Variedad de técnicas para identificar información o conocimiento desde un conjunto de datos, y extraer éstos de modo tal que puedan ser dispuestos para su uso en áreas tales como, soporte de decisión, pronóstico y estimaciones. p Los datos son frecuentemente voluminosos, pero en su forma actual no se puede hacer uso directo de ellos. Es la información oculta en ellos la que es útil. Clementine User Guide UTN - FRRo - ISI - Sistemas de Gestión II 2008 6 • 80´s y principios 90´s • OLAP y reporting: consultas predefinidas. El sistema OLAP como sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas. • Se usa casi exclusivamente información interna de la organización. • Finales de los 90 • Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos. • El Data-Warehouse compila, fundamentalmente, información interna. Historia 4 UTN - FRRo - ISI - Sistemas de Gestión II 2008 7 Historia (cont.) p Principios de los 00´s n Técnicas de “scoring” y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido. n El Data-Warehouse compila la información interna junto con fuentes externas (parámetros de la economía, poblacionales, geográficos, etc.). UTN - FRRo - ISI - Sistemas de Gestión II 2008 8 Diferencia entre OLAP y minería • Las herramientas OLAP • facilitan el “manejo” y “transformación” de los datos. • producen datos informativos (más agregados, combinados). • ayudan a analizar los datos porque producen diferentes vistas de los mismos. • Las herramientas de Minería de Datos: • son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. • producen reglas o patrones (conocimiento). 5 UTN - FRRo - ISI - Sistemas de Gestión II 2008 9 Algunas preguntas a responder Analista de crédito: ¿Le concedemos el crédito a este cliente? Gerente de supermercado: Los que compran cerveza ¿qué más llevan? Jefe de Area de Comercialización: ¿Cuántos TV pantalla plana venderemos el mes que viene? Director de RRHH: ¿Cuál es el perfil de mis empleados? UTN - FRRo - ISI - Sistemas de Gestión II 2008 10 Ejemplo: Canasta de compra Un supermercado quiere información sobre los hábitos de compra de sus clientes para mejorar el servicio: n reubicar los productos que se suelen comprar juntos, n localizar los productos nuevos en el mejor lugar, n ofrecer promociones. 6 UTN - FRRo - ISI - Sistemas de Gestión II 2008 11 Ejemplo: Canasta de compra Se dispone de datos sobre las compras de los clientes. Una fracción de la base de datos es: Operación Huevos Aceite Pañales Vino Leche Manteca Asado Lechuga 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, ,,,, Patrón descubierto / modelo: Huevos Aceite Confianza: 75% UTN - FRRo - ISI - Sistemas de Gestión II 2008 12 Aplicaciones p Comercio / Marketing n Identificar patrones de compra n Buscar asociaciones ente clientes y características demográficas n Predecir respuestas a campañas de marketing n Análisis de canasta de compra p Bancos n Detectar patrones de uso fraudulento de tarjetas n Identificar clientes leales n Identificar clientes con posibilidad de cambiar de categoría n Detectar correlaciones entre indicadores financieros n Identificar reglas de mercados de valores 7 UTN - FRRo - ISI - Sistemas de Gestión II 2008 13 Aplicaciones (cont.) p Seguros y salud n Análisis de procedimientos médicos solicitados en conjunto n Identificar clientes para nuevos servicios n Identificar patrones de comportamiento en clientes con riesgo n Detectar comportamiento fraudulento p Transportes n Determinar la logística de la distribución n Analizar patrones de carga UTN - FRRo - ISI - Sistemas de Gestión II 2008 14 Aplicaciones (cont.) p Medicina n Identificación de terapias médicas satisfactorias para distintas enfermedades n Asociación de síntomas y patologías n Estudio de factores de riesgo/salud n Segmentación de pacientes para atención inteligente del grupo n Estudios epidemiológicos n Análisis de rendimientos de campaña de información, prevención n Predicción de requerimientos de los centros asistenciales para la asignación óptima de recursos 8 UTN - FRRo - ISI - Sistemas de Gestión II 2008 15 Aplicaciones (cont.) p Procesos industriales n Predicción de fallos n Modelos de calidad (costos / beneficios) p Deportes n Descubrimiento de sinergias entre integrantes de equipos UTN - FRRo - ISI - Sistemas de Gestión II 2008 16 Minería de Datos ¿KDD* o Data Mining? * Knowledge Discovery in Databases 9 UTN - FRRo - ISI - Sistemas de Gestión II 2008 17 Knowledge Discovery in Databases KDD: proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Preparación de los datos MINERIA de DATOS patrones Evaluación Interpretación Visualización Sistemas de Información CONOCIMIENTO UTN - FRRo - ISI - Sistemas de Gestión II 2008 18 Proceso de extracción de conocimiento p Fases datos iniciales resultados DECISIONES 1. Integración y recopilación 2. Selección, limpieza y transformación 3. Minería de datos 4. Evaluación e interpretación 5. Difusión y uso DW Vista minable + + + + + - - - CONOCIMIENTO 10 UTN - FRRo - ISI - Sistemas de Gestión II 2008 19 1. Integración y Recopilación n Determinar las fuentes de información útiles y ubicarlas n Diseñar el DW: unificar operacionalmente todas las fuentes de datos n Implantar el DW: navegar y visualizar los datos n Los datos deben presentarse en una tabla plana, llamada “vista minable” UTN - FRRo - ISI - Sistemas de Gestión II 2008 20 Origen de los datos Generalmente, los datos que se quieren investigar se encuentran en: n Archivos planos n Hojas de calculo n Backups n Documentos n Datos externos n Contenidos de Internet n DW El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. 11 UTN - FRRo - ISI - Sistemas de Gestión II 2008 21 Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa: • Datos demográficos (INDEC), páginas amarillas, uso de Internet, información de otrasorganizaciones. • Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. • Datos resumidos de áreas geográficas, evolución de la economía, informes climatológicos, programaciones televisivas-deportivas. • Bases de datos compradas a otras compañías. Origen de los datos UTN - FRRo - ISI - Sistemas de Gestión II 2008 22 Almacenes de Datos Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. Se puede aplicar minería sobre un archivo de datos. Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: • tenemos grandes volúmenes de datos, o • éstos aumentan con el tiempo, o • provienen de fuentes heterogéneas o • se van a combinar de maneras arbitrarias y no predefinidas. 12 UTN - FRRo - ISI - Sistemas de Gestión II 2008 23 Tipo de usuario n ‘picapedreros’ (o ‘granjeros’): se dedican fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros, controlar valores anómalos, etc. n ‘exploradores’: encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos. UTN - FRRo - ISI - Sistemas de Gestión II 2008 24 Proceso de extracción de conocimiento p Fases datos iniciales resultados DECISIONES 1. Integración y recopilación 2. Selección, limpieza y transformación 3. Minería de datos 4. Evaluación e interpretación 5. Difusión y uso DW Vista minable + + + + + - - - CONOCIMIENTO 13 UTN - FRRo - ISI - Sistemas de Gestión II 2008 25 ¿Por qué las técnicas de aprendizaje automático y la Estadística no son directamente aplicables? Características especiales de los Datos • Gran volumen de datos y en distintas tablas • Muy alta dimensionalidad (muchos campos) • DATOS IMPERFECTOS... 2. Selección, limpieza y transformación UTN - FRRo - ISI - Sistemas de Gestión II 2008 26 Objetivo: Eliminar el mayor número posible de datos • erróneos o inconsistentes (limpieza) e • irrelevantes (criba). Métodos: estadísticos, casi exclusivamente. • gráficos (detección de datos anómalos). • selección de datos (muestreo, ya sea verticalmente, eliminando atributos, u horizontalmente, eliminando t-uplas). • redefinición de atributos (agrupación o separación). 2. Selección, limpieza y transformación 14 UTN - FRRo - ISI - Sistemas de Gestión II 2008 27 2. Selección, limpieza y transformación Etapas: n Análisis exploratorio y gráfico n Análisis de datos faltantes n Detección de datos anómalos: outliers n Comprobación de los supuestos subyacentes del modelo, si los hubiera Nota Si los datos no provienen de un DW puede requerirse un proceso previo de ETL UTN - FRRo - ISI - Sistemas de Gestión II 2008 28 Proceso de extracción de conocimiento p Fases datos iniciales resultados DECISIONES 1. Integración y recopilación 2. Selección, limpieza y transformación 3. Minería de datos 4. Evaluación e interpretación 5. Difusión y uso DW Vista minable + + + + + - - - CONOCIMIENTO 15 UTN - FRRo - ISI - Sistemas de Gestión II 2008 29 Patrones a descubrir: • Una vez recogidos los datos de interés, un explorador decide qué tipo de patrón quiere descubrir. • El tipo de conocimiento que se desea extraer va a marcar la técnica de minería a utilizar. • Según como sea la búsqueda del conocimiento se puede distinguir entre: • Directed data mining: se sabe claramente lo que se busca, generalmente predecir o definir clases. • Undirected data mining: no se sabe lo que se busca, se trabaja con los datos (¡hasta que confiesen!). 3. Minería: Técnicas UTN - FRRo - ISI - Sistemas de Gestión II 2008 30 Las técnicas de minería de datos crean modelos predictivos y/o descriptivos. 3. Minería: Tipos de modelos Un modelo predictivo responde preguntas sobre datos futuros. ¿Cuáles serán las ventas el año próximo? ¿Es esta transacción fraudulenta? ¿Qué tipo de seguro es más probable que contrate el cliente X? Un modelo descriptivo proporciona información sobre las relaciones entre los datos. Los clientes que compran pañales suelen comprar cerveza. El tabaco y el alcohol son los factores más importantes en la enfermedad Y. Los clientes sin televisión y con bicicleta tienen características muy distintas del resto. 16 UTN - FRRo - ISI - Sistemas de Gestión II 2008 31 Para determinar si jugar o no jugar al tenis esta tarde contamos con los datos de experiencias anteriores. 3. Minería: Modelo Predictivo Observación Clima Temperatura Humedad Viento ¿Se jugó? 1 Soleado Calurosa Alta Débil No 2 Soleado Calurosa Alta Fuerte No 3 Nublado Calurosa Alta Débil Sí 4 Lluvioso Moderada Alta Débil Sí 5 Lluvioso Fresca Normal Débil Sí 6 Lluvioso Fresca Normal Fuerte No 7 Nublado Fresca Normal Fuerte Sí 8 Soleado Moderada Alta Débil No 9 Soleado Fresca Normal Débil Sí 10 Lluvioso Fresca Normal Débil Sí 11 Soleado Moderada Normal Fuerte Sí 12 Nublado Moderada Alta Fuerte Sí 13 Nublado Moderada Normal Débil Sí 14 Lluvioso Calurosa Alta Fuerte No UTN - FRRo - ISI - Sistemas de Gestión II 2008 32 Procesamos los datos con un algoritmo de aprendizaje de árboles de decisión, señalando el atributo “Jugar Tenis” como “output”. El resultado del algoritmo es el siguiente modelo: ¿Clima? SI¿Humedad? Soleado Nublado Lluvioso ¿Viento? SI SINONO Alta Normal Fuerte Débil 3. Minería: Modelo Predictivo Si (Clima = soleado, Temperatura = calurosa, Humedad= alta, Viento = fuerte) ¿jugar? 17 UTN - FRRo - ISI - Sistemas de Gestión II 2008 33 3. Minería: Modelo Predictivo Usemos este modelo para predecir si esta tarde jugamos o no al tenis. Por ejemplo, si: (Clima = soleado, Temperatura = calurosa, Humedad= alta, Viento = fuerte) n La predicción es NO. UTN - FRRo - ISI - Sistemas de Gestión II 2008 34 • Queremos categorizar nuestros empleados. • Contamos con los datos siguientes: #Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Aus/Año Antigüedad Sexo 1 1000 Sí No 0 Alquiler No 7 15 H 2 2000 No Sí 1 Alquiler Sí 3 3 M 3 1500 Sí Sí 2 Prop Sí 5 10 H 4 3000 Sí Sí 1 Alquiler No 15 7 M 5 1000 Sí Sí 0 Prop Sí 1 6 H 6 4000 No Sí 0 Alquiler Sí 3 16 M 7 2500 No No 0 Alquiler Sí 0 8 H 8 2000 No Sí 0 Prop Sí 2 6 M 9 2000 Sí Sí 3 Prop No 7 5 H 10 3000 Sí Sí 2 Prop No 1 20 H 11 5000 No No 0 Alquiler No 2 12 M 12 800 Sí Sí 2 Prop No 3 1 H 13 2000 No No 0 Alquiler No 27 5 M 14 1000 No Sí 0 Alquiler Sí 0 7 H 15 800 No Sí 0 Alquiler No 3 2 H 3. Minería: Modelo Descriptivo 18 UTN - FRRo - ISI - Sistemas de Gestión II 2008 35 • Procesamos estos datos con un algoritmo de clustering K-means. • Se crean tres clusters, con la siguiente descripción: cluster 1: 5 examples Sueldo : 2260 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Ausencias/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 2250 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Ausencias/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 1883 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Ausencias/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 • GRUPO 1: Sin hijos. Alquilan. Poco sindicalizados. Muchas ausencias. • GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas ausencias. Alquilan. Mujeres. • GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicalizados. Hombres. 3. Minería: Modelo Descriptivo UTN - FRRo - ISI - Sistemas de Gestión II 2008 36 3. Minería: Tipos de modelos n Predictivos: Permiten estimar valores futuros de variables dependientes, a partir de otras variables (o campos de la base de datos)que llamaremos independientes o predictivas n Descriptivos: Exploran las propiedades de los datos, identifican patrones presentes. 19 UTN - FRRo - ISI - Sistemas de Gestión II 2008 37 3. Minería: Taxonomía MINERIA Verificación Descubrimiento SQL OLAP Descripción Predicción Clusters Clasificación Regresión Asociación Visualización Arboles otros Reglas de inducción Redes Neuronales UTN - FRRo - ISI - Sistemas de Gestión II 2008 38 3. Minería: Tipos de conocimiento p Asociaciones: Una asociación entre dos atributos ocurre cuando es relativamente alta la frecuencia con que se presentan juntos dos valores determinados, uno de cada atributo. n Ejemplo, en un supermercado se analiza si los pañales y los productos para bebé se compran conjuntamente 20 UTN - FRRo - ISI - Sistemas de Gestión II 2008 39 3. Minería: Tipos de conocimiento p Tendencias y Regresión: El objetivo es predecir los valores de una variable cuantitativa a partir de otra variable, que puede ser el tiempo. n Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costos, etc. a partir de los valores de semanas, meses o años anteriores. UTN - FRRo - ISI - Sistemas de Gestión II 2008 40 3. Minería: Tipos de conocimiento p Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos homogéneos. n Se diferencia de la clasificación en el que no se conocen ni las clases ni su número, con lo que el objetivo es determinar grupos (clusters o aglomerados) diferenciados entre sí. 21 UTN - FRRo - ISI - Sistemas de Gestión II 2008 41 3. Minería: Tipos de conocimiento p Clasificación: Una clasificación es el descubrimiento de una dependencia. El atributo dependiente puede tomar un valor entre varias clases, previamente conocidas, dependiendo de los valores que presenta en otras variables de interés. n Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria. Podemos intentar determinar las reglas que clasifican un caso como positivo o negativo a partir de esos atributos. UTN - FRRo - ISI - Sistemas de Gestión II 2008 42 3. Minería: Tareas y Técnicas TECNICAS Clasificación Predicción Cluster Asociación Otros Redes Neuronales x x x Arboles de Decisión x x x Kohonen x Regresión paramétrica x Regresión Logística x K means x x Asociaciones x Análisis factorial x Análisis discriminante x TAREAS generadoras de MODELOS Predictivo (supervisado) Descriptivo (no supervisado) 22 UTN - FRRo - ISI - Sistemas de Gestión II 2008 43 3. Minería: Técnicas de modelado se basan en conocimiento teórico previo variables dependientes e independientes ANOVA Etapas identificación Regresión estimación Series de Tiempo diagnosis Análisis Discriminante predicción Cluster Análisis Factorial Arboles de Decisión Redes Neuronales Análisis Conjunto OLAP Reporting herramientas más superficiales y limitadas Técnicas auxiliares T éc n ic as d e m o d el ad o or ig in ad o po r: contrastar antes de considerarlo válido la teoría los datos no se asigna papel predeterminado a las variables los modelos se crean automáticamente a partir del reconocimiento de patrones mezcla del conocimiento obtenido antes y después de la minería UTN - FRRo - ISI - Sistemas de Gestión II 2008 44 Proceso de extracción de conocimiento p Fases datos iniciales resultados DECISIONES 1. Integración y recopilación 2. Selección, limpieza y transformación 3. Minería de datos 4. Evaluación e interpretación 5. Difusión y uso DW Vista minable + + + + + - - - CONOCIMIENTO 23 UTN - FRRo - ISI - Sistemas de Gestión II 2008 45 La fase anterior produce una o más hipótesis de modelos. Para seleccionar y validar estos modelos es necesario el uso de criterios de evaluación de hipótesis. 1ª Fase: Comprobación de la precisión del modelo en un conjunto de ejemplos independiente del que se ha utilizado para que el modelo aprenda. Se puede elegir el mejor modelo. 2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quería utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de clientes y evaluar la fiabilidad del modelo. 4. Evaluación UTN - FRRo - ISI - Sistemas de Gestión II 2008 46 El despliegue del modelo a veces a veces es trivial pero otras veces requiere un proceso de implementación o interpretación: • El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas fraudulentas). • El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de zonas geográficas según la distribución de los productos vendidos). Interpretación 24 UTN - FRRo - ISI - Sistemas de Gestión II 2008 47 Proceso de extracción de conocimiento p Fases datos iniciales resultados DECISIONES 1. Integración y recopilación 2. Selección, limpieza y transformación 3. Minería de datos 4. Evaluación e interpretación 5. Difusión y uso DW Vista minable + + + + + - - - CONOCIMIENTO UTN - FRRo - ISI - Sistemas de Gestión II 2008 48 • El modelo puede tener muchos usuarios y necesita difusión: es necesario expresar el modelo de una manera comprensible para los usuarios de la organización (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto ⇒ ponerlos en góndolas próximas). Difusión y uso 25 UTN - FRRo - ISI - Sistemas de Gestión II 2008 49 Como los procesos no son estáticos, los modelos deben adaptarse a los cambios, requieren: Difusión y uso Monitoreo y Actualización Monitoreo: Revalidar el modelo con cierta frecuencia sobre nuevos datos, para detectar si requiere actualización por cambio de contexto (económicos, competencia, fuentes de datos, etc.) Actualización: Revisar el modelo. UTN - FRRo - ISI - Sistemas de Gestión II 2008 50 Relación con otras disciplinas Actualmente el data mining ha sido reconocido como un campo de interés por los estadísticos y puede ser considerado como una mezcla de: pestadística pinteligencia artificial e pinvestigación sobre bases de datos Levy Mangin(2002) 26 UTN - FRRo - ISI - Sistemas de Gestión II 2008 51 Relación con otras disciplinas Las técnicas de la Minería de Datos persiguen el descubrimiento automático del conocimiento contenido en la información almacenada en grandes bases de datos. Su objetivo es descubrir patrones, perfiles, y tendencias a través del análisis de datos con tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa, algoritmos genéticos y otras técnicas estadísticas avanzadas del análisis multivariante de datos. Pérez, César (2004) UTN - FRRo - ISI - Sistemas de Gestión II 2008 52 ESTADISTICA: Análisis Multivariado clasificación Clusters Análisis Factorial Componentes Principales nominales Correspondencias ordinales Escalamiento Multidimensional variables explicativas cuantitativas Regresión variables cuantitativas una M ét od os Métodos Factoriales variables explicadas Segment ación explicativos cuantitativa variables cualitativas descriptivos factores ANOVA factores Análisis Conjunto cuantitativas Análisis Discriminante varias Análisis Canónico una M ét od os Segment aciónvariables explicativas y explicadas explicativos cuantitativa cualitativa 27 UTN - FRRo - ISI - Sistemas de Gestión II 2008 53 Software n Clementine de SPSS n Intelligent Miner de IBM n Weka y R (libres) n SQL Server n Otros UTN - FRRo - ISI - Sistemas de Gestión II 2008 54 WEKA p WEKA en Java: n http://www.cs.waikato.ac.nz/ml/weka n Hernández Orallo (2006): Práctica de minería de datos. Introducción al WEKA www.dsic.upv.es/~jorallo/docent/doctorat/weka.pdf 28 UTN - FRRo - ISI - Sistemas de Gestión II 2008 55 Bibliografía p Hernández Orallo, J y otros (2004): Introducción a la Minería de Datos. Pearson, Prentice Hall. España. ISBN: 84-205-4091-9 p Pérez, César (2004): Técnicas de Análisis Multivariante. Aplicaciones con SPSS. Pearson. Prentice Hall. España. ISBN 84-205-4104-4 p Levy Mangin, JP y otros (2003): Análisis Multivariable para las Ciencias Sociales. Pearson. Prentice Hall. España. ISBN: 84-205-3727-6
Compartir