Logo Studenta

A1 2_Sandoval_Padilla_Fernando_Cesar - Fernando Cesar Sandoval Padilla

Vista previa del material en texto

UNIVERSIDAD DE GUADALAJARA 
Centro Universitario de Ciencias Exactas e Ingenierías
Minería de Datos
Minería de datos y aprendizaje automático 
Alumnos: Código: Carrera:
Sandoval Padilla Fernando Cesar 215685409 Ingeniería informática (INNI)
Saldívar Fonseca Francisco 215408162 Ingeniería informática (INNI)
Hernández Sánchez Luis Ángel 215638982 Ingeniería informática (INNI)
Docente: Sección: Ciclo:
Román Godínez Israel D01 2021B
El porqué de la minería de datos
Se necesitan con urgencia herramientas poderosas y versátiles para descubrir 
automáticamente información valiosa a partir de enormes cantidades de datos y 
transformar dichos datos en conocimiento organizado.
• El campo es joven, dinámico y prometedor.
• La minería de datos convierte una gran colección de datos en conocimiento.
• La minería de datos puede verse como resultado de la evolución natural de la 
tecnología de la información.
El mundo es rico en datos pero pobre en información. 
¿Qué es la minería de datos?
Puede definirse de muchas formas diferentes:
• Análogamente, la minería de datos debería haber sido más apropiadamente llamado 
como "extracción de conocimiento a partir de datos".
• Minería del conocimiento.
• Descubrimiento de conocimiento a partir de datos.
• Un paso esencial en el proceso de descubrimiento de conocimiento.
La minería de datos como un paso en el proceso de 
descubrimiento de conocimiento.
¿Qué tipo de datos se pueden extraer?
La minería de datos se puede aplicar a cualquier tipo de datos siempre que los datos sean 
significativos para una aplicación de destino.
• Datos de Bases de Datos 
• Datos de Almacenes de Datos
• Datos Transaccionales
Almacén de DatosTransacción de Datos
Otros tipos de datos:
• Datos relacionados con el tiempo o de secuencia (registros históricos).
• Flujos de datos (videovigilancia y datos de sensores).
• Datos espaciales (mapas).
• Datos de diseño de ingeniería (Diseño de edificios, circuitos integrados).
• Datos de hipertexto y multimedia (incluidos datos de texto, imagen, vídeo y audio).
• Gráficos y datos en red (por ejemplo, redes sociales y de información).
• La web (El depósito de información enorme disponible en internet).
¿Qué tipos de patrones se pueden extraer?
Hay una serie de funcionalidades de minería de datos. Las cuales son: 
• Caracterización y discriminación
• Extracción de patrones, asociaciones y correlaciones frecuentes.
• Clasificación y regresión
• Análisis de agrupamiento
• Análisis de valores atípicos
Caracterización y discriminación
Las entradas de datos se pueden asociar con clases o conceptos.
• La caracterización de datos es un resumen de las características de una clase de datos 
objetivo. Los datos correspondientes a la clase especificada por el usuario 
normalmente se recopilan mediante una consulta.
• La discrminacion de datos es una comparacion de caracteristicas generales de los 
objetos de una o varias clases contrastantes. Un usuario puede especificar la clase 
destino y contrastantes, y los objetos de datos se pueden recuperar mediante 
consultas en la base de datos.
Extracción de patrones frecuentes, asociaciones y correlaciones
Son patrones que ocurren con frecuencia y se refiere a un conjunto de artículos que a 
menudo aparecen juntos en un conjunto de datos transaccionales.
La extracción de patrones frecuentes conduce al descubrimiento de asociaciones y 
correlaciones interesantes dentro de los datos.
Por lo general, las reglas de asociación se descartan como poco interesantes si no 
satisfacen tanto un umbral mínimo de soporte y un umbral mínimo de confianza.
Ejemplo
En esta notación la regla indica que los clientes en estudio, el 2% tiene entre 20 y 29 años 
con un ingreso de $40000 a $49000 y que ha comprado una computadora portátil. 
El 60% representa la probabilidad de que un cliente de estos compre una computadora 
portátil. 
Clasificación y regresión para análisis predictivo
• Los modelos de clasificación permiten predecir la pertenencia a una clase. Por ejemplo, 
si tratamos de clasificar entre nuestros clientes quiénes son más propensos a abandonar la 
tienda. Los resultados del modelo son binarios, o un sí o un no, con su grado de 
probabilidad.
• Los modelos de regresión en cambio nos permiten predecir un valor. Por ejemplo, cuál 
es el beneficio estimado que obtendremos de un determinado cliente en los próximos 
meses o nos ayudan a estimar el pronóstico de ventas.
Un modelo de clasificación se puede representar por una regla SI-ENTONCES, un árbol o una 
red neuronal.
Análisis de agrupamiento 
A diferencia de la clasificacion y regresion que analizan conjuntos de datos etiquetados por 
clase, agrupamiento analiza los objetos de datos sin etiquetas.
Los grupos de objetos se forman de modo que los objetos dentro de un grupo que tienen 
similitud entre sí, pero son bastantes diferentes a los objetos de otros grupos.
Esta agrupación puede facilitar la organización en las observaciones en una jerarquía de 
clases que agrupan eventos similares.
Análisis de valores atípicos 
Son objetos que no cumplen con el comportamiento general o el modelo de los datos. 
Muchos métodos de minería de datos toman estos valores como excepciones, sin embargo 
en algunas aplicaciones como de detección de fraude los eventos pueden ser más 
interesantes que los que ocurren con más regularidad.
El análisis de datos atípicos se denominan minería de anomalías. 
¿Qué tecnologías se utilizan?
Estadística
Estadística estudia la recopilación, análisis, interpretación o explicación y presentación de 
datos. La minería de datos tiene una conexión inherente con las estadísticas.
A modelo estadístico es un conjunto de funciones matemáticas que describen el 
comportamiento de los objetos en una clase objetivo en términos de variables aleatorias y 
sus distribuciones de probabilidad asociadas.
Machine Learning
Investiga cómo las computadoras pueden aprender o mejorar su desempeño basándose en 
datos. Un área de investigación principal es la de los programas informáticos para 
automáticamente aprender a reconocer patrones complejos y tomar decisiones 
inteligentes basadas en datos.
El Machine Learning es una disciplina del campo de la Inteligencia Artificial que, a través de 
algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos 
masivos y elaborar predicciones (análisis predictivo).
Bases de datos y almacenes de datos
Los sistemas de bases de datos suelen ser bien conocidos por su alta escalabilidad en el 
procesamiento de conjuntos de datos muy grandes y relativamente estructurados.
La minería de datos puede hacer un buen uso de las tecnologías de bases de datos 
escalables para lograr una alta eficiencia y escalabilidad en grandes conjuntos de datos.
Un almacén de datos integra datos provenientes de múltiples fuentes y varios periodos de 
tiempo con información orientada a cierto ámbito.
Recuperación de información 
Es la ciencia de buscar documentos o información en ellos, pueden ser de texto o 
multimedia y pueden residir en la web.
La diferencia entre los sistemas tradicionales de recuperación de información y de bases de 
datos es que la recuperacion de informacion asume que los datos no estan estructurados y 
las consultas están formadas principalmente por palabras clave, las cuales no tienen 
estructuras complejas a diferencia de las consultas SQL en sistemas de bases de datos.
¿A qué tipos de aplicaciones se dirigen?
“DONDE HAY DATOS, HAY APLICACIONES”
La minería de datos ha tenido grandes éxitos en muchas aplicaciones. Es
imposible enumerar todas las aplicaciones en las que la minería de datos
juega un papel fundamental.
Para demostrar la importancia de las aplicaciones como una dimensión
importante en la investigación y el desarrollo de la minería de datos, se
analizaran dos ejemplos:
Inteligencia de Negocio
Inteligencia empresarial: Las tecnologías proporcionanvistas
históricas, actuales y predictivas de las operaciones
comerciales. Los ejemplos incluyen informes, procesamiento
analítico en línea, gestión del rendimiento empresarial,
inteligencia competitiva, evaluación comparativa y análisis
predictivo.
¿Que importancia tiene en la minería de datos?
Es posible que muchas empresas no puedan realizar un análisis de mercado eficaz,
comparar los comentarios de los clientes sobre productos similares, descubrir las
fortalezas y debilidades de sus competidores, retener clientes muy valiosos y
tomar decisiones comerciales inteligentes.
Por lo que se puede intuir que la minería de datos es el núcleo de la inteligencia
empresarial.
Herramientas y Técnicas 
Las herramientas de procesamiento analítico en línea en inteligencia empresarial se
basan en el almacenamiento de datos y la minería de datos multidimensional.
Al utilizar técnicas de minería de caracterización, podemos comprender mejor las
características de cada grupo de clientes y desarrollar programas personalizados de
recompensa para los clientes.
Motores de Búsqueda Web 
Es un servidor informático especializado que busca información en la
Web. Los resultados de la búsqueda de una consulta de usuario a
menudo se devuelven como una lista. Los resultados pueden consistir
en páginas web, imágenes y otros tipos de archivos. Algunos motores
de búsqueda también buscan y devuelven datos disponibles en bases
de datos públicas o directorios abiertos.
Desafíos 
1° Tienen que manejar una cantidad enorme y cada vez mayor de
datos. Normalmente, estos datos no se pueden procesar con una
o unas pocas máquinas. En cambio, los motores de búsqueda a
menudo necesitan usar nubes.
Desafíos 
2° Los motores de búsqueda web a menudo tienen que trabajar
con datos en línea. Un motor de búsqueda puede permitirse la
construcción de un modelo definido sobre grandes conjuntos de
datos.
Desafíos 
3° Los motores de búsqueda web a menudo tienen que lidiar con
consultas que se realizan solo un número muy reducido de veces.
Otro desafío es mantener y actualizar gradualmente un modelo
sobre flujos de datos de rápido crecimiento.Mapa conceptual 
Bibliografía
• Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques (3rd ed.). 
Morgan Kaufmann Publishers.
• González, L. (2020, 18 agosto). Algoritmos de Agrupamiento. Aprende IA. 
https://aprendeia.com/algoritmos-de-clustering-agrupamiento-aprendizaje-no-supervisado/
• Heras, J. M. (2020, 29 septiembre). ¿Clasificación o Regresión? IArtificial.net. 
https://www.iartificial.net/clasificacion-o-regresion/
• I. (2019, 14 febrero). Qué Es El «Machine Learning». Iberdrola. 
https://www.iberdrola.com/innovacion/machine-learning-aprendizaje-automatico
• Rodrigo, J. A. (2018, 3 junio). Reglas de asociación y algoritmo Apriori con R. 
cienciadedatos. https://www.cienciadedatos.net/documentos/43_reglas_de_asociacion
• Oded Maimon and Lior Rokach. 2005. Data Mining and Knowledge Discovery Handbook. 
Springer-Verlag New York, Inc., Secaucus, NJ, USA.
• Agrupamientos - MoodleDocs. (s. f.). moodle. Recuperado 24 de agosto de 2021, de 
https://docs.moodle.org/all/es/Agrupamientos
• Computing, R. (2001, 24 octubre). CRM como herramienta de data mining. Computing. 
https://www.computing.es/infraestructuras/informes/1003791001801/crm-herramienta-
data-mining.1.html
• L. (2021, 13 abril). Reglas de Asociación. Aprende IA. https://aprendeia.com/reglas-de-
asociacion/
• Landa, J. (2016, 19 febrero). ¿Qué es KDD y Minería de Datos? – Javier Landa. Javier Landa. 
http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/
• P, R. (2019, 11 septiembre). 14 useful applications of data mining. Big Data Made 
Simple. https://bigdata-madesimple.com/14-useful-applications-of-data-mining/
• Team, D. S. (2020, 18 diciembre). Algoritmos de agrupación y su importancia en el 
aprendizaje de las máquinas. DATA SCIENCE. https://datascience.eu/es/aprendizaje-
automatico/algoritmos-de-agrupacion-y-su-importancia-en-el-aprendizaje-de-las-
maquinas/

Otros materiales