Logo Studenta

Clase_6_Data_Mining

¡Este material tiene más páginas!

Vista previa del material en texto

1 
Data Mining 
 
1) Fundamentos de Data Mining 
 
Las técnicas de Data Mining son el resultado de un largo proceso de investigación y 
desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron 
almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los 
datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a 
través de los datos en tiempo real. 
 
Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva 
de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo 
para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías 
que ya están suficientemente maduras: 
 
o Recolección masiva de datos 
o Potentes computadoras con multiprocesadores 
o Algoritmos de Data Mining 
 
Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente 
estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de 
los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% 
espera alcanzarlo en el segundo trimestre de 2005. 
 
En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser 
aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes 
+ 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad 
paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo 
- efectiva con tecnología de computadoras con multiprocesamiento paralelo. 
 
Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 
10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, 
confiables, entendibles que consistentemente son más performantes que métodos 
estadísticos clásicos. 
 
En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se 
basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones 
de navegación de datos (drill through applications), y la habilidad para almacenar grandes 
bases de datos es crítica para Data Mining. 
 
Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por 
décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de 
máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos 
relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los 
entornos de Data Warehouse actuales. 
 
 
2 
 
 
2) Qué es Data Mining? 
 
Data Mining, es la extracción de información oculta y predecible de grandes bases de datos, 
es una poderosa tecnología nueva con gran potencial que ayuda a las compañías a 
concentrarse en la información más importante de sus Bases de Información (Data 
Warehouse). 
 
Un Sistema Data mining es una tecnología de soporte para usuario final cuyo objetivo es 
extraer conocimiento útil y utilizable a partir de la información contenida en las bases de 
datos de las empresas. 
 
 
3) Cómo se desarrollan los sistemas Data Mining? 
 
Los sistemas Datamining se desarrollan bajo lenguajes de última generación basados en la 
inteligencia artificial y utilizan modelos matemáticos tales como: 
 
Redes neuronales artificiales: modelos predecible no-lineales que aprenden a través del 
entrenamiento y semejan la estructura de una red neuronal biológica. 
 
Arboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. 
Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos 
específicos de árboles de decisión incluyen Arboles de Clasificación y Regresión (CART: 
Classification And Regression Tree) y Detección de Interacción Automática de Chi 
Cuadrado (CHAI: Chi Square Automatic Interaction Detection) 
 
Algoritmos genéticos: técnicas de optimización que usan procesos tales como 
combinaciones genéticas, mutaciones y selección natural en un diseño basado en los 
conceptos de evolución. 
 
Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de 
datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él 
en un conjunto de datos históricos (donde k ? 1). Algunas veces se llama la técnica del 
vecino k-más cercano. 
 
Regla de inducción: la extracción de reglas if-then de datos basados en significado 
estadístico. 
 
Muchas de estas tecnologías han estado en uso por más de una década en herramientas de 
análisis especializadas que trabajan con volúmenes de datos relativamente pequeños. Estas 
capacidades están ahora evolucionando para integrarse directamente con herramientas 
OLAP y de 
Data Warehousing. 
 
 
3 
4) Qué son capaces de hacer las herramientas del Data Mining? 
 
Las herramientas de Data Mining predicen futuras tendencias y comportamientos, 
permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento 
acabado de la información (knowledge-driven). Los análisis prospectivos automatizados 
ofrecidos por un producto así van más allá de los eventos pasados provistos por 
herramientas retrospectivas típicas de sistemas de soporte de decisión. 
 
 Las herramientas de Data Mining pueden responder a preguntas de negocios que 
tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los 
usuarios de esta información casi no están dispuestos a aceptar. “Estas herramientas 
exploran las bases de datos en busca de patrones ocultos, encontrando información 
predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus 
expectativas”. 
 
 Una vez que las herramientas de Data Mining fueron implementadas en 
computadoras cliente servidor de alta performance o de procesamiento paralelo, pueden 
analizar bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles 
clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? 
y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc. 
 
Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya 
existentes de software y hardware para acrecentar el valor de las fuentes de información 
existentes y pueden ser integradas con nuevos productos y sistemas pues son traídas en 
línea (on-line). 
 
5) El Alcance del Data Mining 
 
Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede 
generar nuevas oportunidades de negocios al proveer estas capacidades: 
Predicción automatizada de tendencias y comportamientos. 
 
Data Mining automatiza el proceso de encontrar información predecible en grandes bases 
de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora 
pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de 
problema predecible es el marketing apuntado a objetivos (targeted marketing). Data 
Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos 
para maximizar los resultados de la inversión en futuros mailing. Otros problemas 
predecibles incluyen pronósticos de problemas financieros futuros y otras formas de 
incumplimiento, e identificar segmentos de población que probablemente respondan 
similarmente a eventos dados. 
 
Descubrimiento automatizado de modelos previamente desconocidos. 
Las herramientas de Data Mining barren las bases de datos e identifican modelos 
previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos 
incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos 
anormales que pueden representar errores de tipeado en la carga de datos. 
4 
 
Las técnicas de Data Mining pueden redituarlos beneficios de automatización en las 
plataformas de hardware y software existentes y puede ser implementadas en sistemas 
nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean 
desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de 
procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en 
minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente 
experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea 
práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a 
su vez, producen mejores predicciones. 
Las bases de datos pueden ser grandes tanto en profundidad como en ancho: 
 
Más columnas. Los analistas muchas veces deben limitar el número de variables a examinar 
cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables 
que son descartadas porque parecen sin importancia pueden proveer información acerca de 
modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar 
toda la base de datos, sin preseleccionar un subconjunto de variables. 
 
Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a 
los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de 
población. 
 
6) ¿Cómo Trabaja el Data Mining? 
 
¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce 
o que van a pasar? La técnica usada para realizar estas hazañas en Data Mining se llama 
Modelado. Modelado es simplemente el acto de construir un modelo en una situación 
donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la 
respuesta. Por ejemplo, si busca un galeón español hundido en los mares lo primero que 
podría hacer es investigar otros tesoros españoles que ya fueron encontrados en el pasado. 
Notaría que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda 
y que hay ciertas características respecto de las corrientes oceánicas y ciertas rutas que 
probablemente tomara el capitán del barco en esa época. Usted nota esas similitudes y arma 
un modelo que incluye las características comunes a todos los sitios de estos tesoros 
hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que 
en el pasado hubo más probabilidad de darse una situación similar. Con un poco de 
esperanza, si tiene un buen modelo, probablemente encontrará el tesoro. 
 
Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace 
mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de 
Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que 
la gente construye modelos. Las computadoras son cargadas con mucha información acerca 
de una variedad de situaciones donde una respuesta es conocida y luego el software de Data 
Mining en la computadora debe correr a través de los datos y distinguir las características 
de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado 
en situaciones similares donde usted no conoce la respuesta. 
 
5 
Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, ¿Cómo 
puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle 
que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data 
Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos 
del proceso de Data Mining. Una vez que el proceso está completo, los resultados pueden 
ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo 
funciona, las observaciones deben mantenerse para los datos excluidos. 
 
7) Arquitectura para Data Mining 
 
Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el 
data warehouse así como con herramientas flexibles e interactivas para el análisis de 
negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, 
requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos 
conceptos requieren implementación operacional, la integración con el warehouse 
simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico 
resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en 
áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de 
nuevos productos, etc. 
 
El punto de inicio ideal es un data warehouse que contenga una combinación de datos de 
seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la 
actividad de los competidores. Información histórica sobre potenciales clientes también 
provee una excelente base para prospecting. Este warehouse puede ser implementado en 
una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los 
datos flexible y rápido. 
 
Un server multidimensional OLAP permite que un modelo de negocios más sofisticado 
pueda ser aplicado cuando se navega por el data warehouse. Las estructuras 
multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera 
mirar el negocio - resumido por línea de producto, u otras perspectivas claves para su 
negocio. El server de Data Mining debe estar integrado con el data warehouse y el server 
OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un 
avanzado, metadata centrado en procesos define los objetivos del Data Mining para 
resultados específicos tales como manejos de campaña, prospecting, y optimización de 
promociones. La integración con el data warehouse permite que decisiones operacionales 
sean implementadas directamente y monitoreadas. A medida que el data warehouse crece 
con nuevas decisiones y resultados, la organización puede "minar" las mejores prácticas y 
aplicarlas en futuras decisiones. 
 
Este diseño representa una transferencia fundamental desde los sistemas de soporte de 
decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través 
de software de consultas y reportes, el server de Análisis Avanzado aplica los modelos de 
negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la 
información más relevante. Estos resultados mejoran los metadatos en el server OLAP 
proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. 
6 
Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser 
aplicadas para planificar futuras acciones y confirmar el impacto de esos planes. 
 
 
 
 
8) Por qué usar Data Mining? 
Sin duda alguna que el uso de Data Mining: 
o Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un 
sentido automatizado para identificar información clave desde volúmenes de datos 
generados por procesos tradicionales y de e-Business. 
 
o Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que 
tienen un mayor en un objetivo, qué segmentos de clientes son desechables y qué 
unidades de negocio son sobrepasados y por qué. 
 
o Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el 
problema y el entorno y es capaz de medir la acciones y los resultados de la mejor 
forma. 
o Genera Modelos descriptivos : En un contexto de objetivos definidos en los 
negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar 
automáticamente, visualizar y comprender los datos e identificar patrones, 
relaciones y dependencias que impactan en los resultados finales de la cuenta de 
resultados (tales como el aumento de los ingresos, incremento de los beneficios, 
contenciónde costos y gestión de riesgos) 
 
o Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas 
a través del proceso del Data Mining sean expresadas como reglas de negocio o 
modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales 
(presentaciones, informes, información electrónica compartida, embebidos en 
aplicaciones,...) para guiar la estrategia y planificación de la empresa. 
 
Minería de datos 
 
La Minería de Datos es un conjunto de técnicas para la inducción de conocimiento 
útil a partir de masas ingentes de datos. Tiene, por lo tanto, un solapamiento importante con 
otras disciplinas como la estadística tradicional, el reconocimiento de patrones, la 
inteligencia artificial, etc. Se la suele distinguir de ellas por el campo de aplicación: se suele 
aceptar que la minería de datos estudia información acumulada en empresas y otras 
organizaciones acerca de sus clientes, usuarios, etc., y las interacciones de éstos con 
aquéllas de manera que el conocimiento que pueda extraerse de ella sirva para mejorar la 
rentabilidad, el nivel de servicio, redefinir estrategias de márketing, etc. 
 
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información 
contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han 
creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de 
http://es.wikipedia.org/wiki/Inducci%C3%B3n
http://es.wikipedia.org/wiki/Estad%C3%ADstica
http://es.wikipedia.org/wiki/Reconocimiento_de_patrones
http://es.wikipedia.org/wiki/Inteligencia_artificial
http://es.wikipedia.org/wiki/Marketing
http://es.wikipedia.org/wiki/Data_warehouse
http://es.wikipedia.org/wiki/Bases_de_Datos
7 
datos en las que centralizan información potencialmente útil de todas sus áreas de negocio, 
etc. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de 
datos desestructurados como información contenida en ficheros de texto, en internet, etc. 
 
Tabla de contenidos 
1 Ejemplos de uso de la minería de datos 
2 Minería de datos y otras disciplinas análogas 
3 Protocolo de un proyecto de minería de datos 
4 Tendencias 
5 Enlaces externos 
6 Véase también 
 
1.- Ejemplos de uso de la minería de datos 
 
El ejemplo clásico —aparte de algo rancio y, posiblemente, apócrifo— de 
aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en 
supermercados. Un estudio muy citado detectó que los viernes había una cantidad 
inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que 
se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva 
para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la 
televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de 
cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas, pero un 
ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —
como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar 
cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, 
posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se 
les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el 
objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los 
más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos 
con muestras de clientes que, efectivamente, se dieron de baja en el pasado. 
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude 
en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de 
los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales 
suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, 
distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas 
frente a ellas. 
También es un área en boga el del análisis del comportamiento de los visitantes —sobre 
todo, cuando son clientes potenciales— en una página de internet. O la utilización de la 
información —obtenida por medios más o menos legítimos— sobre ellos para ofrecerles 
propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un 
determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la 
información histórica disponible acerca de los clientes que han comprado el primero. 
Minería de datos y otras disciplinas análogas 
Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y 
disciplinas análogas, como pueden serlo la estadística, la inteligencia artificial, etc. Hay 
quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de 
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Ejemplos_de_uso_de_la_miner.C3.ADa_de_datos#Ejemplos_de_uso_de_la_miner.C3.ADa_de_datos
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Miner.C3.ADa_de_datos_y_otras_disciplinas_an.C3.A1logas#Miner.C3.ADa_de_datos_y_otras_disciplinas_an.C3.A1logas
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Protocolo_de_un_proyecto_de_miner.C3.ADa_de_datos#Protocolo_de_un_proyecto_de_miner.C3.ADa_de_datos
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Tendencias#Tendencias
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Enlaces_externos#Enlaces_externos
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#V.C3.A9ase_tambi.C3.A9n#V.C3.A9ase_tambi.C3.A9n
http://es.wikipedia.org/wiki/Blanqueo_de_dinero
8 
negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella 
una serie de problemas y métodos específicos que la hacen distinta de otras disciplinas. 
El hecho es que la práctica totalidad de los modelos y algoritmos de uso general en minería 
de datos —redes neuronales, árboles de regresión y clasificación, modelos logísticos, 
análisis de componentes principales, etc.— gozan de una tradición relativamente larga en 
otros campos. 
Fases de un proyecto de minería de datos 
Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente: 
Comprensión del negocio y del problema que se quiere resolver 
Determinación, obtención y limpieza de los datos necesarios 
Creación de modelos matemáticos 
Validación, comunicación, etc. de los resultados obtenidos 
Integración, si procede, de los resultados en un sistema transaccional o similar 
La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más 
compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada 
en proyectos de minería de datos se han ido desarrollando metodologías que permiten 
gestionar esta complejidad de una manera más o menos uniforme. Ejemplos de ellas son 
CRISP-DM y SEMMA. 
 
Fases de un Proyecto de Minería de Datos 
 
Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los 
mismos, independientemente de la técnica específica de extracción de conocimiento 
utilizada. 
 
El proceso de minería de datos pasa por las siguientes fases: 
 
 1.- Filtrado de datos 
 2.- Selección de Variables 
 3.- Extracción de Conocimiento 
 4.- Interpretación y Evaluación 
Si desea obtener una descripción más detallada, puede consultar la documentación de 
CRISP-DM. CRISP-DM (CRoss Industry Standard Process for Data Mining) es un 
estándar industrial utilizado por más de 160 empresas e instituciones de todo el mundo, que 
surge en respuesta a la falta de estandarización y propone un modelo de proceso general 
para proyectos de minería de datos: 
 Neutral respecto a industria y herramientas. 
 Aplicable en cualquier sector de negocio.http://es.wikipedia.org/wiki/Red_neuronal
http://www.crisp-dm.org/
http://www.sas.com/technologies/analytics/datamining/miner/semma.html
http://www.daedalus.es/AreasMDFase1-E.php
http://www.daedalus.es/AreasMDFase2-E.php
http://www.daedalus.es/AreasMDFase3-E.php
http://www.daedalus.es/AreasMDFase4-E.php
http://www.crisp-dm.org/
9 
Fases de un proyecto de Minería de Datos: 
1.- Filtrado de datos 
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) 
nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún 
algoritmo de minería sobre los datos "en bruto". 
Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores 
incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se 
obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del 
proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...). 
2.- Selección de variables 
 
Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad 
ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las 
variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de 
conocimiento obtenido del proceso de minería. 
Los métodos para la selección de características son básicamente dos: 
 Aquellos basados en la elección de los mejores atributos del problema, 
 Y aquellos que buscan variables independientes mediante tests de sensibilidad, 
algoritmos de distancia o heurísticos. 
3.- Algoritmos de Extracción de Conocimiento 
 
Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que 
representa patrones de comportamiento observados en los valores de las variables del 
problema o relaciones de asociación entre dichas variables. También pueden usarse varias 
técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a 
un preprocesado diferente de los datos. 
 
4.- Interpretación y evaluación 
Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las 
conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber 
obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los 
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos 
alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar 
nuevos modelos. 
 
Tendencias 
La minería de datos ha sufrido transformaciones en los últimos años de acuerdo con 
cambios tecnológicos, de estrategias de márketing, la extensión de los modelos de compra 
en línea, etc. Los más importantes de ellos son: 
La importancia que han cobrado los datos no estructurados (texto, páginas de internet, etc.) 
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, 
portales de internet, etc. 
La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente 
a un fraude con una tarjeta de crédito, ésta pueda ser cancelada casi al instante) 
 
 
 
10 
 
Principios de Data Mining 
1. Resumen 
2. Introducción 
3. Panorama general de data mining 
4. La forma en que se trabaja con Data Mining 
5. Aplicaciones de Data Mining 
6. Extensiones de Data Mining 
7. Conclusiones y perspectivas 
8. Referencias 
RESUMEN 
En los últimos años, ha existido un gran crecimiento en nuestras capacidades de 
generar y colectar datos, debido básicamente al gran poder de procesamiento de las 
máquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas 
enormes masas de datos existe una gran cantidad de información "oculta", de gran 
importancia estratégica, a la que no se puede acceder por las técnicas clásicas de 
recuperación de la información. 
El descubrimiento de esta información "oculta" es posible gracias a la Minería de 
Datos (Data Mining), que entre otras sofisticadas técnicas aplica la inteligencia 
artificial para encontrar patrones y relaciones dentro de los datos permitiendo la 
creación de modelos, es decir, representaciones abstractas de la realidad, pero es el 
descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga de la 
preparación de los datos y la interpretación de los resultados obtenidos, los cuales 
dan un significado a estos patrones encontrados. 
Así el valor real de los datos reside en la información que se puede extraer de ellos, 
información que ayude a tomar decisiones o mejorar nuestra comprensión de los 
fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos avanzados 
son el arma secreta de muchos negocios exitosos. 
Empleando métodos analíticos avanzados para la explotación de datos, los 
negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen 
costos y mejoran la satisfacción del cliente. 
El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del 
conocimiento y su uso predominante en nivel empresarial, a fin de contribuir en la 
toma de decisiones tácticas y estratégicas en una organización proporcionando un 
sentido automatizado para la generación de conocimiento. 
Vimos cual es la relación entre Data Mining y un Data Warehouse, conocimos lo 
más relevante sobre el proceso de Data Warehousing y como esta inmerso el Data 
Mining sobre su arquitectura. Así mismo, presentamos algunas fases generales y 
otras un poco más específicas sobre como implementar un proyecto Data Mining. 
También conocimos cuales son las diferencias entre Data Mining y los procesos de 
estadística, a pesar de que son ramas con notables diferencias, ambas pueden 
complementarse en sus procesos de toma de decisiones y presentación de 
resultados. 
http://www.monografias.com/trabajos26/data-mining/data-mining.shtml#resum
http://www.monografias.com/trabajos26/data-mining/data-mining.shtml#intro
http://www.monografias.com/trabajos26/data-mining/data-mining.shtml#panor
http://www.monografias.com/trabajos26/data-mining/data-mining.shtml#forma
http://www.monografias.com/trabajos26/data-mining/data-mining2.shtml#aplicac
http://www.monografias.com/trabajos26/data-mining/data-mining2.shtml#extenc
http://www.monografias.com/trabajos26/data-mining/data-mining2.shtml#conclu
http://www.monografias.com/trabajos26/data-mining/data-mining2.shtml#refer
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
11 
Se incluyeron aplicaciones de Data Mining en varias áreas además de la 
empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar 
un proceso de este tipo. Además, hablamos de algunas herramientas de distribución 
libre y algunas comerciales que son empleadas para emprender proyectos de Data 
Mining. 
Conocimos dos extensiones de Data Mining, Web Mining y Text Mining, 
finalmente dimos algunos puntos de vista, comentarios y opiniones sobre lo que es 
Data Mining y lo que se espera de esta tecnología en los próximos años. 
INTRODUCCIÓN. 
Desde épocas remotas la humanidad seha preocupado por la creación de bienes con 
el mínimo de recursos. Distintos pueblos y en distintos períodos se practicaban la 
previsión, planeación y organización de grupos para ejercitar diversas actividades 
(entre ellas la pesca, agricultura, el comercio, la guerra, etc.). En años más recientes 
durante la revolución industrial se pusieron en práctica ideas que sirvieron para la 
creación de la administración, ya que durante ese tiempo se pensó en la manera de 
producir más con menos recursos. A partir de ese momento precursores e idealistas 
fueron sentando las bases para la creación de la administración convirtiéndola en 
una ciencia. La humanidad ha utilizado varias formas para llevar a cabo 
transacciones de los bienes, tal es el caso de los antiguos pueblos al utilizar 
monedas de metal con diferentes insignias, descripciones y denominaciones para el 
intercambio de artículos o servicios. 
Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen 
uso de ellas para que una empresa pueda evaluar planes, decisiones, políticas, 
procedimientos y en general todo lo concerniente a ella, entre estas herramientas 
podemos hablar de: herramientas contables, financieras, matemáticas, economía y de 
información. 
El mundo experimenta cambios fundamentales. Los continuos avances en 
tecnología de computadoras y comunicaciones tienen un fuerte impacto sobre la forma 
en que las personas trabajan. La tecnología y las expectativas de las personas que la 
utilizan están modificando gradualmente las características de los sistemas de 
información. Actualmente la economía de muchas empresas y países está basada en la 
información, más en la tecnología de sistemas de información que sobre las 
máquinas y productos no relacionados con ella. El desarrollo de los sistemas de 
información juega en este tiempo un papel muy valioso dentro de las organizaciones. 
En la era industrial lo más importante era el uso del capital y recursos tangibles para 
generar nuevos productos. Actualmente los recursos básicos son las ideas y el uso 
de información. El empleo estratégico de la información continuará creando en 
todas las empresas y organizaciones nuevas oportunidades.[13] 
Para desarrollar un sistema de información se necesita tecnología y gente, desde los 
usuarios de la información, pasando por los operadores, capturistas de datos y 
analistas de sistemas, hasta llegar a los niveles directivos de toda la organización. Los 
primeros programadores de computadoras desarrollaban aplicaciones que 
satisfacían vagamente los requerimientos de información de los usuarios finales. 
Ahora, gracias a las herramientas de hardware y software con las que se cuenta es 
mucho más fácil obtener la información necesaria y a tiempo. Una de estas 
herramientas son los Sistemas Administradores de Bases de Datos(DBMS, por sus 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
12 
siglas en inglés), pero vayamos más haya, ¿qué sucedería si adoptamos 
herramientas o técnicas de bases de datos que "nos digan qué hacer" según las 
información que ellas presentan?, esto nos conduce a hablar de Data Mining o 
Minería de Datos. 
Mientras que la innovación y la originalidad son habilidades fundamentales para la 
supervivencia de las empresas, su éxito y prosperidad depende también de 
decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de 
tiempo. Para tomar decisiones, es fundamental contar con información de calidad. 
Hoy en día, el nivel gerencial cuenta con una eficaz herramienta para lograr ese 
objetivo: las técnicas de Data Mining. 
Con respecto a los nuevos usos de las bases de datos, el Data Mining aparece como 
uno de los más prometedores, unido y fuertemente relacionado con los problemas 
asociados a los grandes almacenes de datos llamados Data Warehouses. La 
relación entre el costo de los ordenadores y la atención humana ha cambiado 
sustancialmente. El recurso más precioso es el factor humano y los ordenadores 
deben potenciarlo. Esto plantea una nueva filosofía de acceso a la información 
donde los ordenadores deben analizar los datos, resumirlos, organizarlos y resolver 
cuestiones mucho más complejas que las actuales, ofreciendo al usuario la 
información que realmente le interesa. Este proceso, como se verá a lo largo de este 
trabajo, esta muy ligado a cuestiones de Data Mining y Data Warehause. 
Por el momento solo diremos que Data Mining es la integración de un conjunto de 
áreas que tienen como propósito la identificación de un conocimiento obtenido a 
partir de las bases de datos que aporten un sesgo hacia la toma de decisiones, en el 
transcurso de este trabajo detallaremos esto y será de una forma más 
comprensible. Las técnicas de Data Mining son el resultado de un largo proceso de 
investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de 
negocios fueron almacenados por primera vez en computadoras, y continuó con 
mejoras en el acceso a los datos, y más recientemente con tecnologías generadas 
para permitir a los usuarios navegar a través de los datos en tiempo real. Data 
Mining toma este proceso de evolución más allá del acceso y navegación 
retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. 
Data Mining está listo para su aplicación en la comunidad de negocios porque está 
soportado por tres tecnologías que ya están suficientemente maduras: 
 
 Recolección masiva de datos. 
 Potentes computadoras con multiprocesadores. 
 Algoritmos de Data Mining. 
Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un 
reciente estudio del META GROUP sobre los proyectos de Data Warehouse 
encontró que el 19% de los que contestaron están por encima del nivel de los 50 
Gigabytes. En algunas industrias, tales como ventas al por menor (retail), estos 
números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una 
base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS 
sobre IBM SP2. La necesidad paralela de motores computacionales mejorados 
puede ahora alcanzarse de forma más costo-efectiva con tecnología de 
computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi../../../../../cgi-bin/search.cgi
13 
utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo 
han sido implementadas recientemente como herramientas maduras, confiables, 
entendibles que consistentemente son más performantes que métodos estadísticos 
clásicos. 
En la evolución desde los datos de negocios a información de negocios, cada nuevo 
paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para 
las aplicaciones de navegación de datos (drill through applications), y la habilidad 
para almacenar grandes bases de datos es crítica para Data Mining. 
Los componentes esenciales de la tecnología de Data Mining han estado bajo 
desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia 
artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los 
motores de bases de datos relacionales de alta performance, hicieron que estas 
tecnologías fueran prácticas para los entornos de Data Warehouse actuales. 
La idea de Data Mining no es nueva. Desde los años sesenta los estadísticos 
manejaban términos como Data Fishing, Data Mining o Data Archaeology con la 
idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. 
A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y 
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de 
Data Mining y KDD (Knowledge Discovery in Databases, Descubrimiento de 
Conocimiento en Bases de Datos). A finales de los años ochenta sólo existían un par 
de empresas dedicadas a esta tecnología; en 2002 ya había más de 100 empresas en 
el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este 
tema las forman investigadores de más de ochenta países. Esta tecnología ha sido 
un buen punto de encuentro entre personas pertenecientes al ámbito académico y 
al de los negocios.[20] 
El presente trabajo tiene como finalidad dar a conocer una perspectiva general 
acerca de todo lo referente a la teoría de Data Mining, existen técnicas de 
implantación de Data Mining, algoritmos, reglas, etc., de las cuales no daremos 
mayor detalle, ya que no se encuentran como un objetivo de este documento, solo 
se mencionarán como la base teórica de la Minería de Datos. Lo que sí perseguimos 
de manera específica es dejar en claro qué es el concepto de Data Mining, sus 
expectativas o finalidades, dar a conocer sus cimientos y a qué nos llevan todos 
ellos, sus posibles aplicaciones y cómo se esta usando actualmente en algunas 
áreas, principalmente en el nivel empresarial. Aquí cabe mencionar que Data 
Mining es un proceso utilizado frecuentemente en macro empresas, sin embargo, 
también es utilizado en las llamadas Pymes (Pequeñas Y Medianas EmpresaS) y 
además a nivel científico, aunque con menor frecuencia, es por ello que nos hemos 
enfocado sobre todo a la utilización de dicho proceso en las empresas grandes y 
cómo es que funciona en ellas, aún así, creímos conveniente introducir algunos 
ejemplos de su uso en otros entornos. 
El primer capítulo, Panorama general de Data Mining comienza con un ejemplo 
introductorio para dar una idea general del por qué es necesario utilizar Data 
Mining en ciertos casos, esto nos lleva a dar un paso previo antes de conocer 
exactamente qué es Data Mining, Data Warehouse: un paso antes de Data Mining 
nos menciona qué relación hay entre Data Warehouse y Data Mining, es 
importante entender este concepto ya que podríamos decir que es una de las 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
14 
principales bases de la Minería de Datos, finalmente el capítulo nos dice lo que en 
realidad es Data Mining, sus objetivos y algunas formas generales de su utilización. 
La forma en qué trabaja Data Mining, el capítulo número dos, menciona, de 
forma muy general como es que está constituido Data Mining, cuál es su 
arquitectura, la forma en que se implementa y las fases que se siguen para una 
buena implantación de un proyecto de Data Mining, como bien lo hemos 
mencionado anteriormente, este no es un trabajo para describir detalladamente las 
técnicas de la Minería de Datos, por ello cabe aclarar que este capítulo tiene un 
enfoque teórico básico. 
Los dos primeros capítulos nos sirven para entender básicamente cuáles podrían 
ser las aplicaciones de Data Mining, el tercer capítulo Aplicaciones de Data Mining 
nos da varios ejemplos de dónde y cómo puede ser utilizado este proceso y cuáles 
son sus ventajas en estas áreas de aplicación (principalmente en nivel empresarial). 
El capítulo número cuatro, Extensiones de Data Mining, abordamos dos temas 
complementarios que también se utilizan como procesos de Data Mining, a saber, 
el Web Mining y el Text Mining. Estos temas también los podríamos ver como una 
aplicación de Data Mining, sin embargo, los hemos colocado en un capítulo aparte 
ya que están considerados como un campo diferente, esto es, aplicaciones vistas 
como un meta Data Mining. 
Finalmente, el último capítulo, Conclusiones y perspectivas, damos nuestras 
conclusiones y algunos puntos de vista particulares, mencionamos cuáles son las 
oportunidades que existen para trabajar en proyectos de este tipo y qué es lo que se 
espera de Data Mining en los próximos años. 
Hemos incluido también un Resumen de todo lo abordado durante nuestro 
documento que contempla los aspectos más importantes aquí tratados. 
En la bibliografía podrá encontrar las direcciones http de donde se tomaron muchos 
de los aspectos mencionados en el transcurso de este trabajo; cuando coloquemos 
un número, por ejemplo [2], al final de un párrafo o cualquier sentencia, estamos 
haciendo referencia al número de artículo de internet mencionado en la bibliografía 
de donde fue tomado dicho párrafo o sentencia. 
CAPITULO I 
PANORAMA GENERAL DE DATA MINING. 
En este capítulo abordamos los conceptos fundamentales relacionados con Data 
Mining que nos ayudarán a tener, sobre todo, una idea general de él y además nos 
auxiliarán para entender los siguientes capítulos. Comenzamos con un ejemplo 
introductorio en la sección 1.1, Ejemplo de un problema asociado a Data Mining 
donde pretendemos dar a conocer una aplicación muy simple de Data Mining. 
Continuamos con el apartado 1.2, Data Warehouse: Un paso antes de Data Mining 
ya que creemos conveniente tener las nociones adecuadas de este tema que se 
relaciona fuertemente con Data Mining y del cuál haremos mención en el resto de 
este trabajo. Finalmente, en la sección 1.3, ¿Qué es Data Mining? explicamos de la 
forma que creímos útil el concepto real de Data Mining, sus objetivos y una forma 
breve de cómo y dónde se trabaja con él. 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
15 
1.1. Ejemplo de un problema asociado a Data Mining. [18] 
Para poder generar una idea general del significado y aplicación de Data Mining, 
consideremos el siguiente problema: 
Suponga que usted es el gerente de mercadeo para una compañía de telefonía celular. 
El problema considera lo siguiente: 
 La deserción de clientes es muy alta. 
 La producción(después de que el contrato expira) es del 40%. 
 Los clientes reciben un teléfono de regalo con el contrato. 
 Usted paga una comisión de ventas por contrato. 
 Se le da un teléfono nuevo a cada persona cuyo contrato ha expirado, lo cual 
es muy caro y por ende poco rentable para la compañía. 
 Traer de regreso a un cliente después de que se va es difícil y caro. 
1.1.1. Posible solución al problema de ejemplo. 
 Se debe predecir qué clientesabandonarán la compañía tres meses antes de 
que el contrato expire. 
 Si queremos conservar a un cliente que creamos abandonará la empresa, se le 
debería ofrecer un nuevo teléfono. 
 No hay que prestarle atención a los clientes que tienen altas posibilidades de 
quedarse en la empresa. 
 Si hay clientes que no deseamos conservar, simplemente no hacemos nada. 
Pues bien, es muy fácil pretender hacer todo lo mencionado antes, pero ahora la 
pregunta es ¿cómo lo hacemos?. No podemos tomar decisiones a la ligera, ni tomar 
medidas de las cuales estamos seguros que fallarán, por ejemplo, suena absurdo, en 
cuestiones como éstas, recurrir a la lectura del Tarot. La solución debe basarse en 
algo más formal y coherente y una de esas alternativas es Data Mining. 
1.1.2. Solución del problema ejemplo a través de Data Mining. 
La solución que puede dar Data Mining al ejemplo del problema mencionado en 
esta sección considera lo siguiente: 
 Interactuar dinámicamente con el cliente. 
 Trabajar hacia delante y no hacia atrás. 
 Mejorar la calidad de la interacción. 
 ¿El cliente quiere interactuar? 
o La línea de ganancias se salva. 
 Optimizar el tiempo de interacción. 
o Aumentar el valor del cliente constantemente. 
o Aumentar el valor de vida del cliente. 
En esta sección hemos visto solo un ejemplo introductoria, en las secciones 
subsecuentes trataremos otros casos e iremos explicando como es que Data Mining 
ofrece soluciones a problemas de empresas. 
1.2. Data Warehouse: Un paso antes de Data Mining. 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
16 
Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en 
claro lo que es un Data Warehouse que en principio lo podemos ver como un 
concepto que esta antes de Data Mining y es la base de este (aunque no siempre es 
así), por ello el objetivo de esta sección es dar una idea general a este concepto, no 
entraremos en muchos detalles, pero daremos a conocer lo más relevante para que 
en las secciones siguientes, cuando hablemos de Data Warehouse o Data 
Warehousing no haya dudas sobre lo que nos estamos refiriendo. 
Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para 
organizar sus datos de forma que sean comprensibles para las personas. Este 
proceso es conocido como Data Warehousing. La comprensión de los datos 
almacenados es esencial para cualquier organización, ya que constituye un 
elemento básico en la toma de decisiones. 
Un Data Warehouse es un almacén o repositorio de datos categorizados, que 
concentra un gran volumen de información de interés para toda una organización, la 
cual se distribuye por medio de diversas herramientas de consulta y de creación de 
informes orientadas a la toma de decisiones. El objetivo del Data Warehouse (DW) 
es agrupar los datos con el propósito de facilitar su posterior análisis, de forma que 
sean fáciles de acceder y, posteriormente, analizar información sobre la propia 
empresa. A este tipo de datos se les conoce como informativos. Los sistemas que 
manejan estos datos se denominan OLAP (Online Analytical Processing). Existe 
muchas definiciones formales de DW de distintos autores, pero una de las mas 
famosas puede ser la dada por Inmon en 1992: Un Data Warehouse es una colección 
de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, 
organizados para soportar necesidades empresariales. 
Los Data Warehouses a menudo almacenan gran cantidad de información, la cual 
está a veces subdividida en pequeñas unidades lógicas. Periódicamente, se 
importan estos datos de otros sistemas de información dentro del Data 
Warehouse, para realizar sobre ellos un procesamiento posterior. Un Data 
Warehouse se diferencia de una Base de Datos operacional de una empresa, 
diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa, 
mediante la importación de información, pero el DW no es esa BD operacional.[7] 
Muchos de los datos de una empresa se utilizan como soporte a los negocios, por 
eso a este tipo de datos se les denomina operacionales. Los sistemas usados con el 
fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing).[10] 
Las principales características o propiedades de un DW son las siguientes: 
 El DW está orientado a la toma de decisiones. Un buen diseño de la base de 
datos favorece el análisis y la recuperación de datos para obtener una ventaja 
estratégica y para facilitar las decisiones de marketing. 
 El DW almacena datos categorizándolos o estructurándolos de forma que 
favorezcan el análisis de los datos y puedan proporcionar análisis históricos. 
 El DW no está orientado a procesos relacionados con la operativa de la 
empresa, es decir, que solo esta destinado a funcionar como un "almacén de 
datos". 
 El DW está preparado para ser explotado mediante herramientas específicas 
que permiten la extracción de información significativa y patrones de 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
17 
comportamiento que permanecen ocultos en un enorme repositorio de datos. Esta 
explotación de los datos se suele realizar con herramientas de Data Mining. 
1.2.1. Software para un Data Warehouse.[10] 
La información estratégica se almacena en Gigabytes(tal vez más) de datos de 
marketing. En este caso se necesita software especializado que permita capturar los 
datos relevantes en forma rápida. El software no debería limitarse únicamente al 
acceso a los datos, sino también, al análisis significativo de los datos, esto es, 
transformar los datos de la información cruda o no procesada, en información útil 
para la empresa. 
El software o herramientas de negocios inteligentes se colocan sobre la plataforma 
Data Warehousing y proveen este servicio. Debido a que son el punto principal de 
contacto entre la aplicación del depósito y la gente que lo usa, estas herramientas 
pueden constituir la diferencia entre el éxito o fracaso de un depósito. 
Las herramientas de negocio inteligentes se han convertido en los sucesores de los 
sistemas de soporte de decisión, pero tienen un alcance más amplio. No solamente 
ayudan en las decisiones de soporte sino, en muchos casos, estas herramientas 
soportan muchas funciones operacionales y de misión-crítica de la compañía. Sin 
embargo, estos productos no son infalibles ya que sólo se consigue el máximo 
provecho del Data Warehouse, si eligen las herramientas adecuadas a las 
necesidades de cada usuario final. 
Una de estas herramientas es Data Mining, sin embargo, hay otras que no 
mencionaremos ya que se encuentran fuera de los objetivos de este trabajo. El 
proceso de Data Mining extrae los conocimientos guardados o información 
predictiva desde el Data Warehouse sin requerir pedidos o preguntas específicas. 
Data Mining usa algunas de las técnicas de computación más avanzadas para 
generar modelos y asociaciones como redes neurales, detección de desviación, 
modelado predictivo y programación genética. 
1.2.2. Ventajas y Desventajas del Data Warehouse. 
La utilización de Data Warehouse proporciona una serie de ventajas: 
 Proporciona un gran poder de procesamiento de información. 
 Permite una mayor flexibilidad y rapidez en el acceso a la información. 
 Facilita la toma de decisiones en los negocios. 
 Las empresas obtienenun aumento de la productividad. 
 Proporciona una comunicación fiable entre todos los departamentos de la 
empresa. 
 Mejora las relaciones con los proveedores y los clientes. 
 Permite conocer qué está pasando en el negocio, es decir, estar siempre 
enterado de los buenos y malos resultados. 
 Transforma los datos en información y la información en conocimiento. 
 Permite hacer planes de forma más efectiva. 
 Reduce los tiempos de respuesta y los costes de operación. 
Resumiendo, el Data Warehouse proporciona una información de gestión accesible, 
correcta, uniforme y actualizada. Proporciona un menor coste en la toma de 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
18 
decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y 
permite el rediseño de los procesos. 
Pero los Data Warehouse también tienen algunas desventajas: 
 Requieren una revisión del modelo de datos, objetos, transacciones y además 
del almacenamiento. 
 Tienen un diseño complejo y multidisciplinar. 
 Requieren una reestructuración de los sistemas operacionales. 
 Tienen un alto coste. 
 Requieren sistemas, aplicaciones y almacenamiento específico. 
Por último, cabe mencionar la existencia del Data Marts (Mercado de Datos) que es 
una versión más reducida de un Data Warehouse, a menudo conteniendo 
información específica de algún departamento, como marketing, finanzas o 
mantenimiento de la red. Idealmente, el Data Marts debería ser un subconjunto del 
Data Warehouse, a fin de mantener consistencia en las prácticas de administración 
de datos corporativos y para mantener la seguridad y la integridad de la información 
cruda que se está usando. Para las grandes compañías, el Data Marts usualmente 
contiene una docena de gigabytes de datos. Ahora podemos continuar y dar una 
explicación de lo que en realidad es Data Mining, a pesar de que en este apartado 
hemos dado una definición de manera somera. 
1.3. ¿Qué es Data Mining?[14] 
Cada día generamos una gran cantidad de información, algunas veces conscientes 
de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos 
damos cuenta de que generamos información cuando registramos nuestra entrada 
en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando 
pagamos con una tarjeta de crédito o cuando reservamos un boleto de avión. Otras 
veces no nos damos cuenta de que generamos información, como cuando 
conducimos por una vía donde están contabilizando el número de automóviles que 
pasan por minuto, cuando se sigue nuestra navegación por Internet o cuando nos 
sacan una fotografía del rostro al haber pasado cerca de una oficina gubernamental. 
¿Con qué finalidad queremos generar información? Son muchos los motivos que 
nos llevan a generar información, ya que nos pueden ayudar a controlar, optimizar, 
administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar 
decisiones de cualquier ámbito según el dominio en que nos desarrollemos. La 
información por sí misma está considerada un bien patrimonial. De esta forma, si 
una empresa tiene una pérdida total o parcial de información provoca bastantes 
perjuicios. Es evidente que la información debe ser protegida, pero también 
explotada. 
¿Qué nos ha permitido poder generar tanta información? En los últimos años, 
debido al desarrollo tecnológico a niveles exponenciales tanto en el área de 
cómputo como en la de transmisión de datos, ha sido posible que se gestionen de 
una mejor manera el manejo y almacenamiento de la información. Sin duda existen 
cuatro factores importantes que nos han llevado a este suceso: 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
19 
1. El abaratamiento de los sistemas de almacenamiento tanto temporal como 
permanente. 
2. El incremento de las velocidades de cómputo en los procesadores. 
3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión 
de datos. 
4. El desarrollo de sistemas administradores de bases de datos más poderosos. 
Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de 
la información en las bases de datos. Podemos decir que algunas empresas 
almacenan un cierto tipo de datos al que se ha denominado dato-escritura, ya que 
sólo se guarda (o escribe) en el disco duro, pero nunca se hace uso de él. 
Generalmente, todas las empresas usan un dato llamado dato-escritura-lectura, que 
utilizan para hacer consultas dirigidas. Un nuevo tipo de dato al cual se ha llamado 
dato-escritura-lectura-análisis es el que proporciona en conjunto un verdadero 
conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con 
tecnologías que nos ayuden a explotar el potencial de este tipo de datos. La 
cantidad de información que nos llega cada día es tan inmensa que nos resulta 
difícil asimilarla. Basta con ir al buscador Altavista y solicitar la palabra 
information para ver que existen 171.769.416 sitios donde nos pueden decir algo al 
respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada 
página, tardaríamos entonces 326 años en visitarlas todas. Esto es imposible, y, por 
lo tanto, existe una clara necesidad de disponer de tecnologías que nos ayuden en 
nuestros procesos de búsqueda y, aún más, de tecnologías que nos ayuden a 
comprender su contenido. 
Como bien sabemos, algunos sistemas producen una cantidad inmensa de datos; 
estos datos con frecuencia contienen valiosa información que puede resultar muy 
útil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporación. 
Las dimensiones de las base de datos grandes (montañas) y sus velocidades de 
crecimiento, hacen muy difícil para un humano su análisis y la extracción de alguna 
información importante (oro). Aún con el uso de herramientas estadísticas clásicas 
esta tarea es casi imposible. 
El Data Mining surge como una tecnología que intenta ayudar a comprender el 
contenido de una base de datos. De forma general, los datos son la materia prima 
bruta, en el momento que el usuario les atribuye algún significado especial pasan a 
convertirse en información. Cuando los especialistas elaboran o encuentran un 
modelo, haciendo que la interpretación del confronto entre la información y ese 
modelo represente un valor agregado, entonces nos referimos al conocimiento. En 
la figura 1.1 se ilustra la jerarquía que existe en una base de datos entre dato, 
información y conocimiento. Se observa igualmente el volumen que presenta en 
cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquía. 
El área interna dentro del triángulo representa los objetivos que se han propuesto. 
La separación del triángulo representa la estrecha unión entre dato e información, 
no así entre la información y el conocimiento. El Data Mining trabaja en el nivel 
superior buscando patrones, comportamientos, agrupaciones, secuencias, 
tendencias o asociaciones que puedan generar algún modelo que nos permita 
comprender mejor el dominio para ayudar en una posible toma de decisión. 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
20 
 
Figura 1.1. Relación entre Dato, Información y conocimiento. 
El descubrimiento de conocimiento en base de datos (KDD, de Knowledge 
Discovery in Databases) combina las técnicas tradicionales con numerosos 
recursos desarrollados en el área de la inteligencia artificial. En estas aplicaciones 
el término "Minería de Datos" (Data Mining) ha tenido más aceptación. En algunos 
casos las herramientas provenientes de la inteligencia artificial son nuevas, no del 
todo comprendidas y carentes de un soporte teórico formal. Pero en este caso el 
objetivo es tan valioso, que los resultados prácticos han rebasado a la elegancia 
académica. 
Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir 
patrones de información interesante y potencialmente útiles, inmersos en una 
gran base de datos en la que se interactúa constantemente. Data Mining es una 
combinación de procesos como: 
 Extracción de datos 
 Limpieza de datos. 
 Selección de características. 
 Algoritmos. 
 Análisis de resultados. 
Las herramientas de Data Mining exploran gran cantidad de datos dentro de una 
BD grande, y mediante su análisis predicen posibles tendencias o comportamientos 
futuros entro de una empresa, permitiendo al experto tomar decisiones en los 
negocios de una forma rápida y utilizando un conocimiento que de otra forma no 
habría encontrado. Mediante la utilización de estas herramientas se pueden 
generar nuevas oportunidades de negocio. Algunas posibilidades que ofrecen estas 
herramientas son: 
 Predicción automatizada de tendencias y comportamientos. 
 Descubrimiento automatizado de modelos desconocidos. 
 Descubrimiento de anomalías y acciones fraudulentas por parte de clientes. 
../../../../../cgi-bin/search.cgi
21 
Este producto esta fuertemente relacionado con análisis estadísticos, el objetivo de 
generar hipótesis potenciales de interés que son posteriormente verificadas (Vea la 
figura 1.2.). 
 
Figura 1.2. 
Encontrar patrones significativos en todos los datos puede proporcionar una 
ventaja competitiva a cualquier organización. 
Otra definición que se puede dar de Data Mining y que es muy común encontrar 
dice: "Una actividad de extracción cuyo objetivo es el de descubrir hechos 
contenidos en las bases de datos". En la mayoría de los casos se refiere a un trabajo 
automatizado. Si hay alguna intervención humana a lo largo del proceso, este no es 
considerado como minería de datos por parte algunas personas. La palabra 
descubrimiento está relacionada con el hecho de que mucha de la información 
valiosa es desconocida con anterioridad. En todo caso, estas técnicas pueden 
ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un 
particular contexto. En cuanto a los hechos escondidos, estos estarán 
principalmente bajo la forma de reglas las cuales nos ayudarán a entender el 
modelo del sistema relacionado con los datos observados. Por otra parte, las reglas 
también pueden ser usadas en la predicción de ciertos estado del sistema (lo que se 
busca). 
Desde un punto de vista académico el término Data Mining es una etapa dentro de 
un proceso mayor llamado KDD. Lo que en verdad hace el Data Mining es reunir 
las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la 
Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, 
principalmente usando como materia prima las bases de datos. 
El Data Mining es una tecnología compuesta por etapas que integra varias áreas y 
que no se debe confundir con un gran software. Durante el desarrollo de un 
proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que 
pueden ser estadísticas, de visualización de datos o de inteligencia artificial, 
principalmente. Actualmente existen aplicaciones o herramientas comerciales de 
Data Mining muy poderosas que contienen un sinfín de utilerías que facilitan el 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
22 
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose 
con otra herramienta.[19] 
1.3.1. ¿Dónde se utiliza Data Mining? 
La utilidad de Data Mining se puede dar dentro de los siguientes aspectos: 
 Sistemas parcialmente desconocidos: Si el modelo del sistema que 
produce los datos es bien conocido, entonces no necesitamos de la minería de 
datos ya que todas las variables son de alguna manera predecibles. Este no es el 
caso del comercio electrónico, debido a los efectos del comportamiento humano, el 
clima y de decisiones políticas entre otros. En estos casos habrá una parte del 
sistema que es conocida y habrá una parte aparentemente de naturaleza aleatoria. 
Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con 
el sistema, existe la posibilidad de encontrar nuevos aspectos previamente 
desconocidos del modelo. 
 Enorme cantidad de datos: Al contar con mucha información en algunas 
bases de datos es importante para una empresa encontrar la forma de analizar 
"montañas" de información (lo que para un humano sería imposible) y que ello 
le produzca algún tipo de beneficio. 
 Potente hardware y software: Muchas de las herramientas presentes en 
la minería de datos están basadas en el uso intensivo de la computación, en 
consecuencia, un equipo conveniente y un software eficiente, con el cual cuente 
una compañía, aumentará el desempeño del proceso de buscar y analizar 
información, el cual a veces debe vérselas con producciones de datos del orden 
de los Gbytes/hora (repetimos, algo humanamente imposible). Por ejemplo, las 
técnicas de Data Mining son utilizadas habitualmente para el análisis y 
explotación de datos de un Data Warehouse(véase la sección 1.2). El uso del 
Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que 
contenga datos sobre sus procesos productivos, datos de seguimiento de 
clientes, datos externos de mercado, datos sobre la actividad de competidores, 
etc. 
Una vez que las herramientas de Data Mining fueron implementadas en 
computadoras cliente servidor de alto rendimiento o de procesamiento paralelo, 
pueden analizar bases de datos masivas para brindar respuesta a preguntas tales 
como, ¿cuales clientes tienen mas probabilidad de responder al próximo envío de 
correo promocional, y por qué? y presentar los resultados en formas de tablas, con 
gráficas, reportes, texto, hipertexto, etc. 
Un ejemplo trivial de minería de datos, es su uso en un departamento de ventas. Si 
una tienda registra las ventas de un cliente y es sabido que ese cliente compra 
muchas camisas de seda, el sistema de Data Mining hará una correlación entre ese 
cliente y las camisas de seda. El departamento de compras mirará la información y 
realizará envíos de información sobre camisas de seda a ese cliente, o a todos los 
clientes que sigan ese modelo obtenido. En este caso el sistema de Data Mining es 
usado para recoger o extraer información nueva sobre los clientes, la cual estaba 
oculta anteriormente. 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
23 
El Data Mining también es fundamental en la investigación científica y técnica, como 
herramienta de análisis y descubrimiento de conocimiento a partir de datos de 
observación o de resultados de experimentos. 
1.3.2. Los objetivos principales de Data Mining. 
Data Mining persigue ciertos objetivos de manera especifica, a saber: 
 Descripción: El principal producto del proceso de la minería de datos es el 
descubrimiento de reglas. Estas mostrarán nuevas relaciones entre las variableso excepciones de acuerdo a la empresa en que se utilice este proceso. Ello 
enriquecerá el análisis y la descripción de la forma en que trabaja una compañía y 
ayudará en la planificación y en el diseño de futuros cambios. Es posible que 
algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte 
posible realizar modificaciones apropiadas en la organización con el propósito 
de mejorar su desempeño. 
 Predicción (Forecasting): Una vez descubiertas reglas importantes, 
estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser 
en el caso de secuencias en el tiempo, o bien en la identificación e interrupción a 
tiempo, de una futura mala experiencia de crédito. En esta tarea, se 
complementan las técnicas estadísticas tradicionales con aquellas provenientes 
de la inteligencia artificial. Conceptos adaptativos como los algoritmos genéticos 
y las redes neuronales, permiten realizar predicciones más acertadas, 
especialmente en casos de gran complejidad y con relaciones internas. 
1.3.3. Algunas herramientas utilizadas en Data Mining de la 
Inteligencia artificial. 
 Redes Neuronales (Neural Networks): Grupo de unidades 
interconectadas y organizadas por capas. Estas pueden ser funciones 
matemáticas y números almacenados en computadoras digitales, pero pueden 
ser elaboradas también mediante dispositivos analógicos como los transistores a 
efecto de campo. A pesar del incremento en velocidad y de la escala de 
integración en los semiconductores, la mejor contribución de las redes neuronales 
tendrá que esperar por computadoras más rápidas, masivas y paralelas. 
 Mapas característicos de Kohonen (Self-organizing Maps): Es una 
red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a 
los patrones presentes. Una vez entrenada es capaz de identificar tales patrones 
en nuevos datos. 
 Reconocimiento de patrones (Pattern Recognition): Se trata de un 
grupo de técnicas orientadas a evaluar la similitud y las diferencias entre señales. 
Se involucran en esto a varios tipos de pre-procesamiento tales como la 
transformada de Fourier. 
 K-nearest neibor: Un procedimiento para clasificar a los records de un 
archivo mediante la identificación de grupos (clusters) y decidiendo a cual grupo 
pertenece cada uno de los records. 
 Algoritmo Genético (Genetic Algorithm): Imitando la evolución de las 
especies mediante la mutación, reproducción y selección, estos algoritmos 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
24 
proporcionan programas y optimizaciones que pueden ser utilizados en la 
construcción y entrenamiento de otras estructuras como las redes neuronales. 
CAPITULO II 
LA FORMA EN QUE SE TRABAJA CON DATA MINING. 
El presente capítulo esta enfocado, como lo dice su nombre, a la forma en que se 
trabaja con Data Mining, es decir, veremos cómo es la arquitectura de Data 
Mining y su relación estrecha con un Data Warehouse, esto en la sección 2.1, La 
Arquitectura de Data Mining, y abordaremos en el apartado 2.2, Fases para la 
creación de un proyecto Data Mining, las cinco etapas que son llevadas a cabo 
para poner en marcha un proyecto de Data Mining, por supuesto que no es nuestra 
intención dar una guía detallada para poder realizar algo de esta naturaleza, pero sí 
una referencia adecuada, ya que en la realidad, construir un proyecto de tal 
naturaleza, y en sí un proyecto de cualquier tipo, depende mucho de las 
circunstancias reales a la cuales nos estemos enfrentando. 
2.1. La Arquitectura de Data Mining. [19] 
Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining 
puede generar nuevas oportunidades de negocios al proveer estas capacidades: 
 Predicción automatizada de tendencias y comportamientos: Data 
Mining automatiza el proceso de encontrar información predecible en grandes 
bases de datos. Preguntas que tradicionalmente requerían un intenso análisis 
manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un 
típico ejemplo de problema predecible es el marketing, Data Mining usa datos 
en anuncios publicitarios anteriores para identificar posibles objetivos para 
maximizar los resultados de la inversión en futuros anuncios. Otros problemas 
predecibles incluyen pronósticos de problemas financieros futuros o identificar 
segmentos de población que probablemente respondan similarmente a eventos 
dados (por ejemplo, anuncios de televisión). 
 Descubrimiento automatizado de modelos previamente 
desconocidos. Las herramientas de Data Mining barren las bases de datos e 
identifican modelos previamente escondidos en un sólo paso. Otros problemas 
de descubrimiento de modelos incluye detectar transacciones fraudulentas de 
tarjetas de créditos e identificar datos anormales que pueden representar errores 
de tipeado en la carga de datos. 
Las técnicas de Data Mining pueden redituar los beneficios de automatización en las 
plataformas de hardware y software existentes y puede ser implementadas en 
sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos 
productos sean desarrollados. Cuando las herramientas de Data Mining son 
implementadas en sistemas de procesamiento paralelo de alto performance 
(rendimiento), pueden analizar bases de datos masivas en minutos. Procesamiento 
más rápido significa que los usuarios pueden automáticamente experimentar con 
más modelos para entender datos complejos. La alta velocidad hace que sea 
práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de 
datos, a su vez, producen mejores predicciones. 
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
../../../../../cgi-bin/search.cgi
25 
Las bases de datos pueden ser grandes tanto en profundidad como en ancho: 
 Más columnas. Los analistas muchas veces deben limitar el número de 
variables a examinar cuando realizan análisis manuales debido a limitaciones de 
tiempo. Sin embargo, variables que son descartadas porque parecen sin 
importancia pueden proveer información acerca de modelos desconocidos. Un 
Data Mining de alto rendimiento permite a los usuarios explorar toda la base de 
datos, sin preseleccionar un subconjunto de variables. 
 Más filas. Muestras mayores producen menos errores de estimación y 
desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero 
importantes segmentos de población. 
2.1.1. Los Modelos de Data Mining. 
¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted 
desconoce o que van a pasar? La técnica usada para realizar estas hazañas en Data 
Mining se llama Modelado. Modelado es simplemente el acto de construir un 
modelo en una situación donde usted conoce la respuesta y luego la aplica en otra 
situación de la cual desconoce la respuesta. Por ejemplo, si busca un galeón español 
hundido en los mares lo primero que podría hacer es investigar otros tesoros 
españoles que ya fueron encontrados en el pasado. Notaría que esos barcos 
frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay 
ciertas características respecto

Continuar navegando

Materiales relacionados