Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE GUADALAJARA Centro Universitario de Ciencias Exactas e Ingenierías Minería de Datos Minería de datos y aprendizaje automático Alumnos: Código: Carrera: Sandoval Padilla Fernando Cesar 215685409 Ingeniería informática (INNI) Saldívar Fonseca Francisco 215408162 Ingeniería informática (INNI) Hernández Sánchez Luis Ángel 215638982 Ingeniería informática (INNI) Docente: Sección: Ciclo: Román Godínez Israel D01 2021B El porqué de la minería de datos Se necesitan con urgencia herramientas poderosas y versátiles para descubrir automáticamente información valiosa a partir de enormes cantidades de datos y transformar dichos datos en conocimiento organizado. • El campo es joven, dinámico y prometedor. • La minería de datos convierte una gran colección de datos en conocimiento. • La minería de datos puede verse como resultado de la evolución natural de la tecnología de la información. El mundo es rico en datos pero pobre en información. ¿Qué es la minería de datos? Puede definirse de muchas formas diferentes: • Análogamente, la minería de datos debería haber sido más apropiadamente llamado como "extracción de conocimiento a partir de datos". • Minería del conocimiento. • Descubrimiento de conocimiento a partir de datos. • Un paso esencial en el proceso de descubrimiento de conocimiento. La minería de datos como un paso en el proceso de descubrimiento de conocimiento. ¿Qué tipo de datos se pueden extraer? La minería de datos se puede aplicar a cualquier tipo de datos siempre que los datos sean significativos para una aplicación de destino. • Datos de Bases de Datos • Datos de Almacenes de Datos • Datos Transaccionales Almacén de DatosTransacción de Datos Otros tipos de datos: • Datos relacionados con el tiempo o de secuencia (registros históricos). • Flujos de datos (videovigilancia y datos de sensores). • Datos espaciales (mapas). • Datos de diseño de ingeniería (Diseño de edificios, circuitos integrados). • Datos de hipertexto y multimedia (incluidos datos de texto, imagen, vídeo y audio). • Gráficos y datos en red (por ejemplo, redes sociales y de información). • La web (El depósito de información enorme disponible en internet). ¿Qué tipos de patrones se pueden extraer? Hay una serie de funcionalidades de minería de datos. Las cuales son: • Caracterización y discriminación • Extracción de patrones, asociaciones y correlaciones frecuentes. • Clasificación y regresión • Análisis de agrupamiento • Análisis de valores atípicos Caracterización y discriminación Las entradas de datos se pueden asociar con clases o conceptos. • La caracterización de datos es un resumen de las características de una clase de datos objetivo. Los datos correspondientes a la clase especificada por el usuario normalmente se recopilan mediante una consulta. • La discrminacion de datos es una comparacion de caracteristicas generales de los objetos de una o varias clases contrastantes. Un usuario puede especificar la clase destino y contrastantes, y los objetos de datos se pueden recuperar mediante consultas en la base de datos. Extracción de patrones frecuentes, asociaciones y correlaciones Son patrones que ocurren con frecuencia y se refiere a un conjunto de artículos que a menudo aparecen juntos en un conjunto de datos transaccionales. La extracción de patrones frecuentes conduce al descubrimiento de asociaciones y correlaciones interesantes dentro de los datos. Por lo general, las reglas de asociación se descartan como poco interesantes si no satisfacen tanto un umbral mínimo de soporte y un umbral mínimo de confianza. Ejemplo En esta notación la regla indica que los clientes en estudio, el 2% tiene entre 20 y 29 años con un ingreso de $40000 a $49000 y que ha comprado una computadora portátil. El 60% representa la probabilidad de que un cliente de estos compre una computadora portátil. Clasificación y regresión para análisis predictivo • Los modelos de clasificación permiten predecir la pertenencia a una clase. Por ejemplo, si tratamos de clasificar entre nuestros clientes quiénes son más propensos a abandonar la tienda. Los resultados del modelo son binarios, o un sí o un no, con su grado de probabilidad. • Los modelos de regresión en cambio nos permiten predecir un valor. Por ejemplo, cuál es el beneficio estimado que obtendremos de un determinado cliente en los próximos meses o nos ayudan a estimar el pronóstico de ventas. Un modelo de clasificación se puede representar por una regla SI-ENTONCES, un árbol o una red neuronal. Análisis de agrupamiento A diferencia de la clasificacion y regresion que analizan conjuntos de datos etiquetados por clase, agrupamiento analiza los objetos de datos sin etiquetas. Los grupos de objetos se forman de modo que los objetos dentro de un grupo que tienen similitud entre sí, pero son bastantes diferentes a los objetos de otros grupos. Esta agrupación puede facilitar la organización en las observaciones en una jerarquía de clases que agrupan eventos similares. Análisis de valores atípicos Son objetos que no cumplen con el comportamiento general o el modelo de los datos. Muchos métodos de minería de datos toman estos valores como excepciones, sin embargo en algunas aplicaciones como de detección de fraude los eventos pueden ser más interesantes que los que ocurren con más regularidad. El análisis de datos atípicos se denominan minería de anomalías. ¿Qué tecnologías se utilizan? Estadística Estadística estudia la recopilación, análisis, interpretación o explicación y presentación de datos. La minería de datos tiene una conexión inherente con las estadísticas. A modelo estadístico es un conjunto de funciones matemáticas que describen el comportamiento de los objetos en una clase objetivo en términos de variables aleatorias y sus distribuciones de probabilidad asociadas. Machine Learning Investiga cómo las computadoras pueden aprender o mejorar su desempeño basándose en datos. Un área de investigación principal es la de los programas informáticos para automáticamente aprender a reconocer patrones complejos y tomar decisiones inteligentes basadas en datos. El Machine Learning es una disciplina del campo de la Inteligencia Artificial que, a través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos masivos y elaborar predicciones (análisis predictivo). Bases de datos y almacenes de datos Los sistemas de bases de datos suelen ser bien conocidos por su alta escalabilidad en el procesamiento de conjuntos de datos muy grandes y relativamente estructurados. La minería de datos puede hacer un buen uso de las tecnologías de bases de datos escalables para lograr una alta eficiencia y escalabilidad en grandes conjuntos de datos. Un almacén de datos integra datos provenientes de múltiples fuentes y varios periodos de tiempo con información orientada a cierto ámbito. Recuperación de información Es la ciencia de buscar documentos o información en ellos, pueden ser de texto o multimedia y pueden residir en la web. La diferencia entre los sistemas tradicionales de recuperación de información y de bases de datos es que la recuperacion de informacion asume que los datos no estan estructurados y las consultas están formadas principalmente por palabras clave, las cuales no tienen estructuras complejas a diferencia de las consultas SQL en sistemas de bases de datos. ¿A qué tipos de aplicaciones se dirigen? “DONDE HAY DATOS, HAY APLICACIONES” La minería de datos ha tenido grandes éxitos en muchas aplicaciones. Es imposible enumerar todas las aplicaciones en las que la minería de datos juega un papel fundamental. Para demostrar la importancia de las aplicaciones como una dimensión importante en la investigación y el desarrollo de la minería de datos, se analizaran dos ejemplos: Inteligencia de Negocio Inteligencia empresarial: Las tecnologías proporcionanvistas históricas, actuales y predictivas de las operaciones comerciales. Los ejemplos incluyen informes, procesamiento analítico en línea, gestión del rendimiento empresarial, inteligencia competitiva, evaluación comparativa y análisis predictivo. ¿Que importancia tiene en la minería de datos? Es posible que muchas empresas no puedan realizar un análisis de mercado eficaz, comparar los comentarios de los clientes sobre productos similares, descubrir las fortalezas y debilidades de sus competidores, retener clientes muy valiosos y tomar decisiones comerciales inteligentes. Por lo que se puede intuir que la minería de datos es el núcleo de la inteligencia empresarial. Herramientas y Técnicas Las herramientas de procesamiento analítico en línea en inteligencia empresarial se basan en el almacenamiento de datos y la minería de datos multidimensional. Al utilizar técnicas de minería de caracterización, podemos comprender mejor las características de cada grupo de clientes y desarrollar programas personalizados de recompensa para los clientes. Motores de Búsqueda Web Es un servidor informático especializado que busca información en la Web. Los resultados de la búsqueda de una consulta de usuario a menudo se devuelven como una lista. Los resultados pueden consistir en páginas web, imágenes y otros tipos de archivos. Algunos motores de búsqueda también buscan y devuelven datos disponibles en bases de datos públicas o directorios abiertos. Desafíos 1° Tienen que manejar una cantidad enorme y cada vez mayor de datos. Normalmente, estos datos no se pueden procesar con una o unas pocas máquinas. En cambio, los motores de búsqueda a menudo necesitan usar nubes. Desafíos 2° Los motores de búsqueda web a menudo tienen que trabajar con datos en línea. Un motor de búsqueda puede permitirse la construcción de un modelo definido sobre grandes conjuntos de datos. Desafíos 3° Los motores de búsqueda web a menudo tienen que lidiar con consultas que se realizan solo un número muy reducido de veces. Otro desafío es mantener y actualizar gradualmente un modelo sobre flujos de datos de rápido crecimiento.Mapa conceptual Bibliografía • Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann Publishers. • González, L. (2020, 18 agosto). Algoritmos de Agrupamiento. Aprende IA. https://aprendeia.com/algoritmos-de-clustering-agrupamiento-aprendizaje-no-supervisado/ • Heras, J. M. (2020, 29 septiembre). ¿Clasificación o Regresión? IArtificial.net. https://www.iartificial.net/clasificacion-o-regresion/ • I. (2019, 14 febrero). Qué Es El «Machine Learning». Iberdrola. https://www.iberdrola.com/innovacion/machine-learning-aprendizaje-automatico • Rodrigo, J. A. (2018, 3 junio). Reglas de asociación y algoritmo Apriori con R. cienciadedatos. https://www.cienciadedatos.net/documentos/43_reglas_de_asociacion • Oded Maimon and Lior Rokach. 2005. Data Mining and Knowledge Discovery Handbook. Springer-Verlag New York, Inc., Secaucus, NJ, USA. • Agrupamientos - MoodleDocs. (s. f.). moodle. Recuperado 24 de agosto de 2021, de https://docs.moodle.org/all/es/Agrupamientos • Computing, R. (2001, 24 octubre). CRM como herramienta de data mining. Computing. https://www.computing.es/infraestructuras/informes/1003791001801/crm-herramienta- data-mining.1.html • L. (2021, 13 abril). Reglas de Asociación. Aprende IA. https://aprendeia.com/reglas-de- asociacion/ • Landa, J. (2016, 19 febrero). ¿Qué es KDD y Minería de Datos? – Javier Landa. Javier Landa. http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/ • P, R. (2019, 11 septiembre). 14 useful applications of data mining. Big Data Made Simple. https://bigdata-madesimple.com/14-useful-applications-of-data-mining/ • Team, D. S. (2020, 18 diciembre). Algoritmos de agrupación y su importancia en el aprendizaje de las máquinas. DATA SCIENCE. https://datascience.eu/es/aprendizaje- automatico/algoritmos-de-agrupacion-y-su-importancia-en-el-aprendizaje-de-las- maquinas/
Compartir