Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ FACULTAD DE CIENCIAS TÉCNICAS CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN PROYECTO DE TITULACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERA EN TECNOLOGÍAS DE LA INFORMACIÓN TEMA: VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS PARA ANALISIS DE PATRONES EN LOS PROYECTOS DE TITULACIÓN DE LA FACULTAD DE CIENCIAS TÉCNICAS EN LA UNESUM AUTORA: MARCILLO PINCAY JOSELYN MERCEDES TUTOR: ING. LENIN JONATAN PIN GARCÍA, PHD. JIPIJAPA – MANABÍ – ECUADOR 2024 i ii iii iv v DEDICATORIA El presente trabajo es dedicado especialmente a Dios, por guiarme en cada paso largo y firme durante toda mi formación. A mis padres Verónica y Paúl, que han sido indispensables en mi vida, en mi trayectoria estudiantil, en forjar mi carácter y en todo lo que soy ahora; por ello dedico tan significativo logro. A mi mascota Kiam (+), que hoy ya no me acompaña físicamente pero que estuvo conmigo cuando debía entregar trabajos académicos, brindándome su tiempo y compañía. A mis hermanos quienes son mi fuente de inspiración y de apoyo. A mi esposo por motivarme cada día e impulsarme a cumplir cada uno de mis objetivos, en definitiva, a los docentes de la carrera por mostrarme varias maneras de enseñar y compartir cada uno de sus conocimientos. Gracias a todos. vi AGRADECIMIENTO Estoy tan agradecida con la vida por cada logro y cada tropiezo, más aún por que las caídas me han impulsado a ser una mujer más valiente y con más ganas de triunfar. Estoy tan convencida que para obtener resultados siempre es importante trabajar día a día por ellos. Mi madre siempre ha sido fuente de inspiración porque me ha enseñado a ser una persona dedicada y funcional, me ha enseñado que con esfuerzo y trabajo conseguimos nuestras metas; es por ello que esta meta alcanzada no solo es mía, sino de ambas. La Universidad Estatal del Sur de Manabí, permitió que yo alcanzara aquellos frutos por los cuales un día trabajé, por ello agradezco su buena formación por medio de los docentes de la carrera y las oportunidades que se me brindó, entre ellos una beca que me ayudó a costear un dispositivo tecnológico para realizar mis tareas semestre a semestre. vii INDICE DE CONTENIDOS RESUMEN ............................................................................................................................................. xii ABSTRACT ........................................................................................................................................... xiii TITULO DEL PROYECTO ......................................................................................................................... 1 CAPITULO I. ASPECTOS GENERALES ...................................................................................................... 2 1.1. Introducción ............................................................................................................................. 2 1.2. Planteamiento Del Problema Científico............................................................................. 4 1.3 Formulación Del Problema ...................................................................................................... 6 1.4. Definición Del Objeto ............................................................................................................... 6 1.5. Objetivos ................................................................................................................................... 7 1.5.1. Objetivo General ............................................................................................................... 7 1.6. Hipótesis.................................................................................................................................... 7 1.7. Definición De Características o Variables .............................................................................. 7 Variable Dependiente: ................................................................................................................ 7 Variable Independiente: ............................................................................................................. 8 1.8. Justificación .............................................................................................................................. 8 CAPITULO II: MARCO TEÓRICO ........................................................................................................... 10 2.1. Antecedentes Investigativos ................................................................................................... 10 2.2 Fundamentación Teórica ........................................................................................................ 13 2.2.1. Tecnologías de la Información ........................................................................................ 13 2.2.1.1. Dato ............................................................................................................................... 14 2.2.1.2. Información ................................................................................................................... 14 2.2.3. Base de datos .................................................................................................................... 15 2.2.3.1. Funcionalidad de una Base de datos ............................................................................ 15 2.2.3.2. Características de una base de datos ............................................................................. 15 2.2.4. Minería de datos ............................................................................................................... 16 2.2.4.1. Importancia de minería de datos ................................................................................... 16 2.2.4.2. Etapas de minería de datos............................................................................................ 17 2.2.4.2.1. Extracción de datos .................................................................................................... 17 2.2.4.2.2. Análisis de los datos ................................................................................................... 17 2.2.4.2.3. Segmentación de la información................................................................................ 17 2.2.4.2.4. Técnicas de minería de datos ..................................................................................... 18 2.2.4.2.5. Seguimiento de patrones ............................................................................................ 18 2.2.4.2.6. Asociación .................................................................................................................. 18 viii 2.2.4.2.7. Clasificación ............................................................................................................... 18 2.2.4.3. Técnicas de minería de datos ........................................................................................ 19 2.2.4.3.1. Detección de valores atípicos ..................................................................................... 19 2.2.4.3.2. Clustering ................................................................................................................... 19 2.2.4.3.3. Patrones Secuenciales ................................................................................................ 19 2.2.4.3.4. Árbol de decisión ........................................................................................................ 19 2.2.4.3.5. Análisis de regresión .................................................................................................. 20 2.2.4.3.6. Procesamiento de memoriaa largo plazo .................................................................. 20 2.2.4.3.7. Redes Neuronales ....................................................................................................... 20 2.2.4.4. Metodologías de minería de datos ................................................................................. 20 2.2.4.4.1. KDD (Descubrimiento en base de datos) ................................................................... 20 2.2.4.4.1.1. Fase de selección ..................................................................................................... 21 2.2.4.4.1.2. Fase de preprocesamiento y limpieza ...................................................................... 21 2.2.4.4.1.3. Fase de transformación ........................................................................................... 22 2.2.4.4.1.4. Fase de minería de datos ......................................................................................... 22 2.2.4.4.1.5. Fase de interpretación y evaluación ....................................................................... 22 2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess) ................................................. 23 2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining) .......................... 23 2.2.4.4.3.1. Fases de CRISP – DM ............................................................................................. 23 2.2.4.4.3.2. Características ......................................................................................................... 24 2.2.4.5. Aplicaciones de minería de datos .................................................................................. 24 2.2.4.5.1. Marketing ................................................................................................................... 25 2.2.4.5.2. La banca ......................................................................................................................... 25 2.2.4.5.3. Educación ................................................................................................................... 25 2.2.4.5.4. Comercio electrónico .................................................................................................. 26 2.2.4.5.5. Comercio minorista .................................................................................................... 26 2.2.4.5.6. Proveedores de servicios ............................................................................................. 26 2.2.4.5.7. Medicina ..................................................................................................................... 26 2.2.4.5.8. Televisión y radio ....................................................................................................... 26 2.2.4.6. Software de minería de datos ........................................................................................ 27 2.2.4.6.1. Rapidminer Studio ...................................................................................................... 27 2.2.4.6.2. Teradata ...................................................................................................................... 27 2.2.4.6.3. Oracle Data Miner ..................................................................................................... 27 2.2.4.6.4. Knime.......................................................................................................................... 28 2.2.4.6.5. Orange ........................................................................................................................ 28 2.2.4.6.6. SAS ............................................................................................................................. 29 ix 2.2.4.6.7. Qlik ............................................................................................................................. 29 2.2.4.6.8. Weka ........................................................................................................................... 29 2.2.4.6.9. Sisense ........................................................................................................................ 30 2.2.5. Visualización de Información .......................................................................................... 30 2.2.5.1. Importancia de la Visualización de Datos .................................................................... 31 2.2.5.2. Técnica De Visualización De Datos .............................................................................. 32 2.2.5.2.1. Gráfico de Línea ......................................................................................................... 32 2.2.5.2.2. Gráfico de Barras ....................................................................................................... 32 2.2.5.2.3. Gráfico de dispersión.................................................................................................. 33 2.2.5.2.4. Gráfico de área ........................................................................................................... 34 2.2.5.2.5. Gráfico Indicador ....................................................................................................... 34 2.2.6. Rendimiento académico ................................................................................................... 35 2.2.7. Gestion del conocimiento .................................................................................................... 35 2.2.8. Minería de texto .................................................................................................................. 35 2.2.9. Mineria de texto en la gestión del conocimiento ............................................................... 36 2.2.10. Modalidades de publicación de documentos científicos ................................................. 37 2.3. Marco Conceptual ................................................................................................................... 38 CAPITULO III MARCO METODOLÓGICO .............................................................................................. 42 3.1. Tipo de investigación.................................................................................................................... 42 3.1. Métodos teóricos .................................................................................................................. 42 3.1.1. Histórico-lógico ................................................................................................................ 43 3.1.2. Análisis-Síntesis ............................................................................................................... 43 3.1.3. Inducción-deducción ........................................................................................................ 44 3.2. Métodos empíricos ............................................................................................................... 44 3.3. Técnicas e instrumento de recolección de datos. ................................................................ 44 3.3.1. Técnicas ............................................................................................................................ 44 3.3.1.1. Observación ................................................................................................................... 45 3.3.1.2. Entrevista ....................................................................................................................... 45 3.3.2. Instrumentos..................................................................................................................... 45 3.3.2.1. Ficha de entrevista ........................................................................................................ 45 3.3.3. Herramientas tecnológicas ...............................................................................................45 3.3.3.1. Atlas TI .......................................................................................................................... 45 3.3. Población y muestra ............................................................................................................ 46 3.3.1. Población .......................................................................................................................... 46 3.3.2 Muestra .............................................................................................................................. 46 3.4. Análisis e interpretación de los resultados.......................................................................... 46 x CAPITULO IV: PROPUESTA .................................................................................................................. 51 4.1. Análisis Situacional ............................................................................................................ 52 4.2. Diagnóstico .......................................................................................................................... 53 4.2.1. Análisis de las Fortalezas, Oportunidades, Debilidades y Amenazas ................................. 53 4.3. Factibilidad ......................................................................................................................... 54 4.3.1. Factibilidad Operativa ...................................................................................................... 54 4.3.2. Factibilidad Tecnológica .................................................................................................. 55 4.3.3. Factibilidad Económica ................................................................................................... 56 4.4. Desarrollo de la propuesta .................................................................................................. 57 4.4.1. Ejecución del modelo KDD .................................................................................................. 58 CAPITULO V: ASPECTOS ADMINISTRATIVOS ....................................................................................... 68 5.1. Presupuesto/Recursos: humanos, Materiales, Financieros ............................................... 68 5.2. Cronograma de Actividades. Diagrama de Gantt ................................................................... 69 5.2.1. Cronograma de actividades del proceso de investigación.................................................... 70 5.3. Conclusiones ....................................................................................................................... 71 5.4. Recomendaciones ................................................................................................................ 72 Bibliografía ............................................................................................................................................ 1 Vista general del proceso KDD ............................................................................................................ 14 Rapidminer ......................................................................................................................................... 15 Gestionar datos en Rapidminer ................................................................................................... 16 Entrada de datos y muestra de resultados .................................................................................. 17 Operadores .................................................................................................................................... 17 Operador Set Role ........................................................................................................................ 19 Operador Split Data ..................................................................................................................... 20 Árbol de decisión ........................................................................................................................... 20 Árbol de decisión en Rapidminer 1 .......................................................................................... 22 Resultados obtenidos del árbol de decisión ............................................................................. 22 Visualización de información .............................................................................................................. 28 Dashboards ......................................................................................................................................... 33 xi INDICE DE TABLAS Tabla 1 Población .............................................................................................................................. 46 Tabla 2 FODA ................................................................................................................................... 53 Tabla 3 Versión de pago Rapidminer y Tableau ................................................................................ 56 Tabla 4 Vista minable generada ......................................................................................................... 58 Tabla 5 Proceso de descubrimiento de conocimiento: Fase de selección ........................................... 59 Tabla 6 Identificación de variable de objetivos de estudio ................................................................. 62 Tabla 8 Presupuesto ........................................................................................................................... 68 Tabla 9 Cronograma de Actividades .................................................................................................. 69 Tabla 10 Cronograma del proceso de Investigación ........................................................................... 70 INDICE DE ILUSTRACIONES Ilustración 1 Repositorio digital de la UNESUM .............................................................................. 57 Ilustración 2 Vista minable en excel .................................................................................................. 60 Ilustración 3 Vista minable en Rapidminer ....................................................................................... 61 Ilustración 4 Árbol de decisión generado en Rapidminer .................................................................. 63 Ilustración 5 Árbol de decisión generado en Rpidminer .................................................................... 65 Ilustración 6 Árbol de decisión generado en Rapid miner ................................................................. 66 Ilustración 7 Dashboard elaborado en Tableau Public ....................................................................... 67 INDICE DE FIGURAS Figura 1 Comparación de tendencias de varias empresas .................................................................... 32 Figura 2 Gastos de viaje de una empresa ........................................................................................ 33 Figura 3 Notas de matemáticas y estadística de 20 alumnos .............................................................. 33 Figura 4 Ganancias mensuales de tiendas .......................................................................................... 34 Figura 5 Actividades de mineria de texto ............................................................................................ 36 Figura 6 Porcentaje de revistas en open Access con respecto al total ............................................... 37 Figura 7 Crecimiento (%) promedio de documentos científicos publicados por país. ......................... 38 file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700848 file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700849file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700850 file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700851 file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700854 xii RESUMEN Las instituciones de Educación Superior en América Latina se encuentran enfocadas en favorecer el desarrollo de investigaciones a fin de mantener entornos de trabajo que proporcionen instrumentos para el análisis del conocimiento. Sin embargo, es una tarea difícil mejorar la colaboración entre universidades para fomentar el intercambio de información fiable y objetiva. La visualización de información y minería para analizar los patrones en los proyectos de titulación se llevó a cabo mediante la recopilación de datos del repositorio digital de la Universidad Estatal de Manabí, el mismo que almacena en su totalidad los proyectos de titulación de la Facultad de Ciencias Técnicas. Esta investigación propone conocer el alto valor de los proyectos de la Carrera de Tecnologías de la Información con el descubrimiento de conocimiento en base de datos denominado (KDD), utilizando herramientas de análisis para la transformación de los datos tales como: Rapid Miner y Tableau. Cabe mencionar que no existe una base de datos centralizada, por lo tanto, el propósito de esta investigación es la elaboración de un dashboard aplicando minería de datos para la visualización del descubrimiento de patrones. La investigación es de tipo descriptiva, buscando recopilar datos directamente de su estado inicial, trabajar los datos en Rapidminer para conocer la influencia sobre el comportamiento de los datos y los patrones resultantes. En el desarrollo de la propuesta se observa las fases del proceso kdd para mostrar los datos estructurados y conocer a que líneas de investigación se orientan los proyectos de titulación; mediante la creación de un dashboards en Tablaau creando oportunidades para la investigación en diversas áreas, y la construcción de nuevos conocimientos.. PALABRAS CLAVE: Dashboard; minería; patrones; kdd; visualización xiii ABSTRACT Higher Education institutions in Latin America are focused on promoting the development of research in order to maintain work environments that provide instruments for the analysis of knowledge. However, it is a difficult task to improve collaboration between universities to encourage the exchange of reliable and objective information. The visualization of information and mining to analyze the patterns in the degree projects was carried out by collecting data from the digital repository of the Universidad Estatal de Manabí, the same one that stores the degree projects of the Technical Sciences Faculty. This research proposes to know the high value of the projects of the Information Technology Career with the discovery of knowledge in a database called (KDD), using analysis tools for data transformation such as: Rapid Miner and Tableau. It is worth mentioning that there is no centralized database, therefore, the purpose of this research is the development of a dashboard applying data mining to visualize the discovery of patterns. The research is descriptive, seeking to collect data directly from its initial state, work the data in Rapidminer to understand the influence on the behavior of the data and the resulting patterns. In the development of the proposal, the phases of the kdd process are observed to show the structured data and know which lines of research the degree projects are oriented towards; by creating dashboards in Tablaau, creating opportunities for researching in various areas, and the construction of new knowledge. KEYWORDS: Dashboard; mining; patterns; kdd; display 1 TITULO DEL PROYECTO VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS PARA ANALISIS DE PATRONES EN LOS PROYECTOS DE TITULACIÓN DE LA FACULTAD DE CIENCIAS TÉCNICAS EN LA UNESUM 2 CAPITULO I. ASPECTOS GENERALES 1.1. Introducción El conocimiento en minería de datos consiste en el análisis exploratorio y modelado de grandes cantidades de datos, involucra e integra diferentes técnicas en sus diversas disciplinas como: Data Warehouse, estadística, aprendizaje de máquina, computación de alta performance, computación evolutiva, reconocimiento de patrones, redes neuronales, visualización de datos, recuperación de información, procesamiento de imágenes y señales, y análisis de datos espaciales o temporales. Los datos almacenados son un tesoro para las organizaciones, es en donde se guardan las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, además representan la memoria de la organización. Implementar el procesamiento de los datos permite analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos, siendo su principal ventaja inferir en comportamientos, modelos, relaciones y estimaciones de los datos, para poder desarrollar predicciones sobre los mismos, sin la necesidad de contar con patrones o reglas preestablecidas, permitiendo tomar decisiones proactivas y basadas en un conocimiento acabado de la información. La visualización de información y minería para analizar los patrones en los proyectos de titulación se llevará a cabo mediante la recopilación de datos del repositorio de la Facultad de Ciencias Técnicas de la Universidad Estatal de Manabí el cual, almacena en su totalidad los proyectos de titulación de las carreras de Tecnologías de la Información, Telemática e Ingeniería Civil. El proyecto se propone mediante la utilización de plataformas de análisis que transforman los datos para la resolución de problemas. Luego de conocer las carreras pertenecientes a la facultad, se escogió la carrera de Tecnologías de la Información porque 3 maneja una guía metodológica que cumple con el formato de datos para aplicar minería de datos y visualización de información Por tal razón, el paso principal a realizar es la recopilación de los datos de valor en una matriz de Excel, el cual simplifica la información y acelera el análisis en los programas escogidos: Tableau como herramienta tecnológica para combinar la búsqueda por bases de datos con un lenguaje descriptivo para la representación de gráficos. Del mismo modo Rapidminer atribuye el desarrollo de procesos de análisis mediante el encadenamiento de operadores a través de un entorno gráfico. El trabajo de investigación se desarrolla debido a la problemática encontrada, la cual consiste en que no existe una base de datos centralizada de los proyectos de titulación, es importante la aplicación de este tipo de procedimientos porque permite la organización de la información y descubrir las tendencias en todos los procesos a los que se direccionan. Por lo tanto, este estudio beneficia a los docentes de la carrera conocer una visualización de los datos mas profunda y poder trabajarlos en miras de mejoras los procesos académicos o direccionar trabajos de investigación a otras áreas de estudio. La investigación se encuentra compuesta por cinco capítulos, entre ellos, el CAPITULO I, nos muestra la introducción del trabajo de investigación, seguido del planteamiento científico, objetivos, justificación, de tal manera que se pueda obtener una visión mucho mas amplia del objeto de estudio. Seguidamente, el CAPITULO II, se compone del marco teorico en el que se expresa la relación de las dos variables en función de la investigación, antecedentes, fundamentación teorica y marco conceptual, en este apartado se expone la investigación científica mediante la revisión literaria y análisis de enfoque teóricosde varios autores fundamentales para esclarecer el contexto de la investigación. 4 El CAPITULO III, aborda la metodología aplicada, en el que se detalla el tipo de investigación, métodos y técnicas utilizadas para la obtención de los datos, también se muestra los resultados sobre la percepción del encargado de manejar la información de los trabajos de titulacion y la subida de información al repositorio digital. Consecuentemente, el CAPITULO IV, evidencia la propuesta en función del análisis situacional, en el que se expone el procedimiento que se lleva a cabo para el tratamiento de los datos y la aplicación de minería, obteniendo como resultado un dashboard en el que se representa la información mas relevante. En el CAPITULO V, se plantea los aspectos administrativos como el presupuesto para la ejecución del trabajo de investigación, cronograma de actividades, conclusiones y recomendaciones. 1.2. Planteamiento Del Problema Científico En la tecnología actual se manejan grandes cantidades de datos que se perciben como un elemento principal para extraer un conocimiento nuevo. La minería de datos se transforma en la unión de métodos y procedimientos para resolver una serie de problemas; se busca obtener pautas o patrones a partir de los datos recopilados siendo una disciplina práctica que esclarece dudas y obtiene proyección para la toma de decisiones en base a grandes volúmenes de datos. El procedimiento de profundizar en los datos para descubrir tendencias es muy complejo debido que los usuarios necesitan extraer conocimiento de diferentes fuentes; la minería de datos es un proceso que debe ser interactivo para permitir su enfoque en la búsqueda de patrones en función de buenos resultados. Los niveles de abstracción juegan un papel esencial para expresar los patrones descubiertos mediante la extracción de información de grandes cantidades de datos. Hoy en día la minería de datos es indispensable para resolver problemáticas de la cotidianidad; en una pequeña tienda para determinar las ventas que ha tenido un producto 5 durante un determinado tiempo es importante partir de la propia información de ventas diarias para en próximos meses organizar el producto y promocionarlo de una manera más eficiente; lo mismo sucede con las grandes empresas de supermercados las cuales buscan conocer sobre el comportamiento de compra de sus clientes, hasta determinar información personal de un individuo sobre sus intereses. La educación es un trabajo constante para mejorar la eficiencia académica y potenciar un entorno educativo de calidad que supere las limitaciones tanto de estudiantes y docentes en las distintas universidades; La minería de datos y la incorporación de las TIC (Tecnologías de la Información y Comunicación) en la educación, acumulan grandes cantidades de datos que en lo posterior requieren del tratamiento adecuado para utilizarlos en la toma de decisiones, lo cual debe generar información valiosa que optimice los datos ya existentes. En Manabí, la investigación científica, la vinculación con la sociedad y prácticas pre profesionales, son procesos indispensables para la construcción y aplicación de los conocimientos adquiridos durante el proceso de enseñanza-aprendizaje para fomentar el carácter profesional e investigador de los estudiantes. Los proyectos de titulación son parte de los requerimientos para la obtención de un título de tercer nivel, estos pueden ser de estudio o de implementación, sin embargo, no existe una visualización de los datos en grandes volúmenes que permita observar a que líneas de investigación se direccionan. El sistema de gestión académico de la Universidad Estatal del Sur de Manabí, contiene un repositorio que genera grandes cantidades de datos; se almacenan todos los proyectos de titulación de la facultad de Ciencias Técnicas, se encuentran accesibles para cada estudiante, docente o usuario en general. La información se encuentra pública pero no existe una base de datos centralizada que muestre los datos de manera estructurada y el descubrimiento de tendencias en todos los procesos a los que se dirigen los profesionales en formación. 6 La carrera de Tecnologias de la Informacion, fue la escogida para trabajar con las grandes cantidades de datos que se almacenan de trabajos de titulacion que ejecutan los estudiantes, es potencialmente útil estudiar esta información porque muestra una manera distinta del camino que toma cada uno de los datos y como la representación de ese camino puede llevar a identificar patrones significativos que aporten positivamente la toma de decisiones sobre un determinado grupo de estudiantes. La solución que se busca con la presente investigación es aplicar minería de datos a todos los documentos digitales que se encuentran subidos en el repositorio, analizarlos, buscar los posibles patrones y elaborar un dashboard que permita visualizar los hallazgos más importantes, obteniendo así, datos precisos, coherentes y de alto valor. El trabajo se realiza para conocer la aplicación de minería de datos en la educación; la evaluación de patrones de comportamiento y la identificación de líneas de investigación a las que se direccionan los estudiantes; lo que permitirá a los docentes de la facultad implementar herramientas educativas que mejoren las experiencias de aprendizaje teórico-práctico y que reconozcan la diversidad de enfoques para abordar un determinado problema. 1.3 Formulación Del Problema ¿Qué aportes brindará la visualización de información y minería de datos para el análisis de patrones en los proyectos de titulación de la carrera de Tecnologías de la Información? 1.4. Definición Del Objeto La investigación presentada tiene el propósito de aplicar el proceso de minería de datos para descubrir patrones o anomalías en grandes conjuntos de datos, tales como, el repositorio digital de la UNESUM, en el cual se albergan todos los proyectos de titulación de la facultad de Ciencias Técnicas, dicho esto, es importante destacar que no son datos estructurados, lo cual, dificulta conocer las tendencias a las que se direccionan, o datos principales que permitan 7 obtener un acercamiento más preciso sobre los estudiantes, una vez dado el cumplimiento del proceso de minería los resultados se representarán mediante la visualización de información. 1.5. Objetivos 1.5.1. Objetivo General Realizar visualización de información y minería de datos para análisis de patrones en los proyectos de titulación de la facultad de Ciencias Técnicas en la UNESUM. 1.5.2. Objetivos específicos ✓ Establecer los requerimientos para la visualización de información y minería de datos para el descubrimiento de patrones en los proyectos de titulación de la facultad de ciencias técnicas en la UNESUM ✓ Analizar el proceso KDD para aplicarlo en la base de datos en los proyectos de titulación de la facultad de Ciencias Técnicas en la UNESUM ✓ Elaborar un dashboard con la interpretación de los resultados obtenidos del proceso KDD en los proyectos de titulación de la facultad de ciencias técnicas en la UNESUM 1.6. Hipótesis Con la visualización de información y minería de datos mejora significativamente el análisis de patrones de los proyectos de titulación de la Facultad de Ciencias Técnicas en la UNESUM 1.7. Definición De Características o Variables La visualización y minería de datos favorece el análisis de patrones en los proyectos de Titulación de La Facultad de Ciencias Técnicas en la UNESUM Variable Dependiente: Análisis de patrones en los proyectos de titulación 8 Variable Independiente: Visualización de información y minería de datos 1.8. Justificación Una de las razones principales para elaborar la investigación es reconocer lo importancia de la búsqueda de patrones en grandes conjuntos de datos que, de manera rápidano se pueden identificar, pero al realizar un análisis en profundidad se pueden extraer conocimientos claves para la construcción de modelos o algoritmos que pueden predecir resultados concretos. Por esta razón, dentro de la investigación se encuentra un enfoque teórico que ha permitido la comprensión de cómo se realiza el proceso de minería y visualización de datos. La minería de datos es un proceso mediante el cual es posible encontrar en grandes volúmenes de datos, patrones, anomalías y correlacionales, lo que permite predecir resultados lo que constituye a una diferencia clave en cualquier organización. Con lo antes mencionado, aplicar minería de datos a los proyectos de titulación permite, interpretar y generar visualizaciones de conocimiento útil. La ejecución de minería de datos básicamente permite que se minimice cantidad de datos redundantes y se transforme en objeto de análisis para mejorar el rendimiento académico y predecir las líneas de investigación a las que se direcciona el comportamiento del estudiante. La principal contribución es aplicar minería de datos a los trabajos de Titulación para extraer y/o analizar datos provenientes de cada trabajo: título del trabajo, año de publicación, palabras clave, presupuesto y población. A través de la aplicación de técnicas y herramientas de minería de datos para entender de manera contextualizada los comportamientos de una población, en efecto, mediante la interpretación de patrones. Tomando como metodología el proceso de descubrimiento de conocimiento en base de datos (kdd, Knowledge Discovery 9 in Databases). De manera que se evidencie la evolución de la carrera en los últimos dos años y mejorar los diferentes procesos de formación del estudiante. Las innovaciones en los sistemas educativos destacan por introducir nuevas tecnologías para mejorar los entornos de enseñanza-aprendizaje de modo que genere beneficio en estudiantes y docentes; el repositorio digital de la UNESUM, almacena todos los trabajos de titulación, por tanto, este espacio incrementa la cantidad de datos lo cual refleja una contribución para explorar grandes bases de datos de manera automática. La investigación tiene como finalidad la elaboración de un dashboard con la interpretación de los resultados obtenidos del proceso KDD. La viabilidad del proyecto, desde el punto técnico cuenta con herramientas tecnológicas de versión gratuita, en la estimación del presupuesto no incluye costos, por tanto, no genera gastos mayores. También se considera el uso de recursos humanos para la gestión positiva de las tareas realizadas durante la elaboración del proyecto. Quienes se benefician del trabajo de investigación, es la facultad de Ciencias Técnicas, considerando, al decano de la facultad, coordinadores de carrera y biblioteca de la Universidad Estatal del Sur de Manabí. 10 CAPITULO II: MARCO TEÓRICO 2.1. Antecedentes Investigativos (Calvache Fernández, Álvarez Vallejo, & Triviño Arbeláez, 2018), De la Universidad de Quindío, Armenia, Colombia. Demostraron en su investigación “Proceso KDD como apoyo a las estrategias del proyecto SARA (Sistema de acompañamiento para el rendimiento académico)” Los altos índices de deserción estudiantil, siendo uno de los principales problemas; cerca de la mitad de los estudiantes que inician sus estudios no logran concluirlos. Por lo tanto, el proyecto SARA, aplica el proceso KDD para localizar patrones y predecir casos de deserción; datos personales, socioeconómicos y académicos. Dicho esto, los factores de deserción más importantes se sitúan en el ámbito personal y socioeconómico; el núcleo familiar, integrantes de la familia y fuente de financiación. Finalmente, la minería de datos permitió el manejo eficiente de sus datos para intervenir en la retención de los estudiantes brindando la posibilidad de tomar buenas decisiones. (Mancilla Vela, Leal Gatica, Sánchez Ortiz, & Vidal Silva, 2020), puntualizan en su investigación “Factores asociados al éxito de los estudiantes en modalidad de aprendizaje en línea: análisis en minería de datos”, sobre la modalidad de aprendizaje en línea en las que se establece variables asociadas al éxito o fracaso; los programas a distancia de los estudiantes son generadores de grandes cantidades de datos, tienen la capacidad de registrar algunas variables asociadas a su proceso de aprendizaje. Aplicando técnicas de minería de datos, se obtienen dos partes fundamentales; la construcción de modelos y la detección de patrones. El método utilizado corresponde al modelo CRISP-DM (proceso cruzado estándar de la industria para la minería de datos) aplicado a programas de e-learning. Contribuyendo a un mayor entendimiento en la situación académica final del estudiante, los programas con mayor éxito o con mayor fracaso. 11 (Bedregal Alpaca, Tupacyupanqui Jaén, & Cornejo Aparicio, 2020), elaboraron la investigación “Análisis del rendimiento académico de los estudiantes de ingeniería de sistemas, posibilidades de deserción y propuestas para su retención”, para conocer sobre el rezago en los estudios y como afecta en las instituciones educativas y a sus estudiantes; por ello es importante estudiar la problemática expuesta. El objetivo del trabajo es analizar el rendimiento académico de cohortes 2011-2016 de la universidad pública de la escuela profesional de Ingeniería de Sistemas, así mismo, se aplica técnicas de minería de datos para encontrar patrones en su comportamiento académicos, se emplea la metodología CRISP-DM. Obteniendo como resultados variables influyentes de acuerdo a la relación de créditos aprobados. Se concluye no solo tomar datos de sus calificaciones, sino, el avance en la aprobación de asignaturas. (Urbina Nájera, Téllez Velázquez, & Cruz Barbosa, 2021) realizaron la investigación “Patrones que identifican a estudiantes universitarios desertores aplicando minería de datos educativa”, para presentar las características más importantes permisibles sobre la deserción universitaria, mediante algoritmos de minería de datos educativa. Se utilizó arboles de decisión para estudiar datos del periodo 2014-2019, obteniendo una fácil interpretación de no solo identificar un posible desertor, sino que permite señalar de manera jerárquica, atributos significativos. (García González , Sánchez Sánchez, Orozco, & Obredor, 2019), de la Universidad Simón Bolívar, ejecutaron la investigación “Extracción de conocimiento para la predicción y análisis de los resultados de la prueba de calidad de la educación superior en Colombia”, para analizar estrategias y programas con los cuales las Instituciones de Educación trabajan para adoptar metodologías orientadas a mejorar el desempeño y formación del estudiante. Se construyo una base de datos utilizando extracción del conocimiento KDD para conocer el desempeño académico del estudiante en áreas asociadas a contenidos de pruebas Saber Pro. 12 Como resultado el proceso fue complejo debido al gran volumen de datos recopilados y a su estructura; sin embargo, los resultados obtenidos son acordes al desempeño de cada estudiante. (Fernandez Morales & Bonilla Carrión, 2020), realizaron la investigación “Bibliominería, datos y el proceso de toma de decisiones”, para extraer información de grandes volúmenes de datos como: préstamos, referencia, adquisiciones, entre otros. Utilizando herramientas con poco presupuesto y que se pueden utilizar son Orange, Weka, JHepWork, Knime y Rapidminer. Para finalizar disponen de sistemas transaccionales que automaticen operaciones día a día los cuales son soportados sobre bases de datos relacionales. (Jose, 2018), realizó la investigación “Minería de datos aplicada a la detección de patrones para el análisis de rendimiento académico de los estudiantes de la carrera de Ingeniería en Sistemas Computacionales de la UniversidadCatólica Santiago de Guayaquil”, para elaborar un modelo predictivo en beneficio de estudiantes y docentes, cuando ellos se inscriban en cada semestre indicando cuál es su probabilidad de éxito alerta o fracaso. La metodología KDD se utilizó como herramienta de extracción de datos en Excel; mostrando mediante un semáforo 59 pruebas en las que, 16(27,12%) fueron falsos positivos y 6(10,17) falsos negativos. (Vanegas, 2019), en la Pontifica Universidad Católica del Ecuador, “Modelo de minería de datos para la identificación de patrones que influyen en la mora de la cooperativa de ahorro y crédito San José”, menciona que existe un problema por la dificultad al analizar la información crediticia e histórica de los socios, por tanto, utiliza la metodología CRISP-DM para predecir patrones y efectuar la toma de decisiones. La data analizada permitió estudiar 6033 registros de crédito permitiendo generar reportes y predicción. (Luna & Guzman Arenas, 2020), de Instituto Politécnico Nacional, “Minería de datos con búsqueda de patrones de comportamiento”, muestra una manera de realizar el 13 descubrimiento de los datos y utiliza técnica de generalización y sumarización de datos en cubos de datos. Incluyendo varios tipos de conocimiento; algoritmos matemáticos, organización de las bases de datos, algoritmos de recuperación, diseños de interfaces de usuarios y sistemas operativos. (Grivjalva Arriaga, Freire Avilés, Real Avilés, & Arellano, 2018), de la Universidad Católica Santiago de Guayaquil. Realizó la investigación “Aplicación de técnicas de minería de datos para el análisis de la eficiencia académica”, teniendo como objetivo estudiar los estándares minios para que las Instituciones de Educación Superior cumplan a cabalidad con su proceso de evaluación y acreditación; uno de ellos es la eficiencia académica, por ello se determinan los factores de mayor incidencia en la deserción estudiantil mediante la minería de datos, utilizando de igual manera las técnicas de árboles de decisión y clustering. La aplicación para el descubrimiento de conocimiento (KDD) permitió obtener que uno de los factores mas importantes son los bajos promedios obtenidos durante los primeros semestres. Todas las Universidades de Educación Superior tienen problemas similares o aún mayores, es fundamental que los sistemas de información para el registro de datos de los estudiantes sean de ámbito personal, económico y académico con la finalidad de ampliar el campo de estudio y analizar la información en beneficio de la educación. 2.2 Fundamentación Teórica 2.2.1. Tecnologías de la Información (Ortí, 2018) Afirma que, TI (Tecnologías de la Información) muestra su desarrollo en ámbitos de la informática y las telecomunicaciones. El acceso, producción y comunicación de los datos se representa en varios códigos, dependiendo del texto, imagen o sonido. Sin duda, el ordenador es el elemento más importante del ser humano para acceder a internet. 14 (Almenara, 1996) Indica que, establecer “nuevas tecnologías” en la sociedad de la comunicación e información, produce cambios como en su momento se plasmaron significativos en la historia de la imprenta y la electrónica; los alcances y efectos proponen cambios en una estructura social, económica, laboral, jurídica y política. Centran su enfoque en manipular, almacenar y distribuir datos. (Sáez, 1983, como se citó en Beer, 2019) menciona que, “tecnologías de la información se considera aquella que se encarga del manejo y tratamiento de los datos, refiriéndose a un conjunto de datos; abarca técnicas, dispositivos y métodos que permitan transmitirlos mediante señales o conocimientos”. 2.2.1.1. Dato (Santos, 2020) “Representa a un conjunto de caracteres que denotan un significado claro; puede ser numérico, alfabético o alfanumérico. Responde a la función (objeto, atributo, valor)”. (Ramírez, 2018) “Es un conjunto prudente de elementos sobre un hecho real; por lo general un dato se almacena en una base de datos que se utiliza por una aplicación informática o programa que permite la ejecución de tareas”. 2.2.1.2. Información (Mera, 2018) La base de la sociedad actual es la información. Con el paso del tiempo se manejan grandes volúmenes de información y mediante el ordenador se ejecutan tareas en el tratamiento de los datos. Es fundamental emplear un sistema de almacenamiento para guardar y recuperar información que se solicite. (Terán, 2020) Uno de los principales significados que se asocia a la información es que se presenta como un conjunto de datos propiamente interrelacionados, los cuales de manera 15 individual solo describen sus características, pero de manera conjunta se obtiene un significado el cual proporciona una buena toma de decisiones. 2.2.3. Base de datos (Gómez Ballester, y otros) Definen “Base de Datos” a los archivos y conjunto de datos siendo estos correlacionados, recolectados que pueden satisfacer las necesidades de información en una determinada área en la que existen numerosas bases de datos. También se conoce como un conjunto de archivos que se dedican a guardar información de manera complementaria y con la intención de relacionarla. (UNAM, 2018) Base de datos o también conocido como DB (Data Base en inglés) es un conjunto de datos que pertenecen a un mismo sentido y son almacenados de manera sistemática. En este sentido, se puede realizar una similitud con la de una biblioteca debido que se compone de libros y mucha información. 2.2.3.1. Funcionalidad de una Base de datos Se denomina un soporte digital que tiene como objetivo almacenar de manera masiva información de diferente índole en un formato de texto plano. Se utilizan en sistemas que necesitan de una interacción fluida con la conexión en su aplicativo; almacenar, editar y eliminar. (Pisco Gómez, y otros, 2017) Son diseñadas para gestionar grandes cantidades de datos que más adelante representan una información; implica la definición de estructuras como los mecanismos que se utilizar para manipular datos. Además, se trabaja la información de manera que sea fiable a pesar de fallos o caídas de sistema. 2.2.3.2. Características de una base de datos ▪ Posibilita el acceso mediante lenguajes de programación estándar ▪ Permite la elaboración de consultas complejas por medio de comando 16 ▪ Asegura la seguridad de acceso y de su auditaría ▪ Existen varias opciones de multiusuarios bajo claves ▪ Almacena, protege y recupera datos administrados ▪ Autonomía lógica y física de los datos ▪ Bajo índice de repeticiones ▪ Diferentes formatos para depurar y tomar datos de interés en tiempo real 2.2.4. Minería de datos (Ramírez, 2018) alega que, minería de datos integra un conjunto de áreas que tienen como objetivo identificar a partir de un conocimiento base, nueva información que aporte a una correcta toma de decisiones. Según (Riquelme, Ruiz, & Gilbert, 2010), la minería de datos representa una explosión de información que en la actualidad es almacenada, debido que los datos no se encuentran restringidos; como resultado de la mezcla de las técnicas y herramientas para los tipos de datos no son adecuadas. La tecnología actual necesita del desarrollo de minería de datos para poder distribuirlos por el mundo. (Arévalo Cordovilla, 2020) menciona que, esta nueva disciplina de minería de datos se creó especialmente para llevar a cabo la etapa de extraer información valiosa de un gran volumen de datos; proporciona también una valiosa inteligencia empresarial e incluso en estudios científicos y médicos. 2.2.4.1. Importancia de minería de datos (Totvs Latam, 2022) Menciona que, se trata de un procedimiento automatizado que se encarga de la búsqueda de patrones en distintos conjuntos de datos que de manera simple el ser humano no puede comprender o identificar; centra su objetivo en visualizarpatrones correlaciones que permitan predecir resultados futuros. Es un análisis que se estudia a 17 profundidad en una base de datos creada para identificar información y construir modelos a partir de ellas; comprender aspectos que influyen en el comportamiento del ser humano y las decisiones que toma para generar resultados positivos. La minería de datos ha permitido la mejora en la toma de decisiones organizativas mediante el análisis para esclarecer datos. Aplicar las técnicas de minería de datos que respalden estos análisis la divide principalmente en dos categorías: describir el conjunto de datos de destino o prever resultados por medio del uso de algoritmos de machine learning. 2.2.4.2. Etapas de minería de datos (Riquelme, Ruiz, & Gilbert, 2019) La información se extrae del almacenamiento de todos los datos que también se conoce como base de datos. La minería de datos funciona mediante etapas, siendo una de las principales la recolección de los datos. 2.2.4.2.1. Extracción de datos La configuración del software de minería es uno de los principales pasos, el programa posteriormente empezará a buscar los datos que han sido almacenados. Son sistemas muy intuitivos que permiten su configuración mediante parámetros con el objetivo de extraer la información más importante. 2.2.4.2.2. Análisis de los datos Una vez terminado el proceso de extracción de datos, el programa inicia su análisis de los datos con el objetivo de transformarlos en una información clara. Luego, se realiza una comparación de relaciones y patrones mediante un parámetro específico. 2.2.4.2.3. Segmentación de la información También se conoce como análisis de clasificación, se trata de un modelo de minería de datos que se centra en la segmentación de la información que se extrajo a través de categorías 18 seleccionadas. Para lograr el objetivo se emplea un algoritmo informático que se encarga de extraer datos y luego registrarlos en una nueva categoría que cumpla con lo establecido. 2.2.4.2.4. Técnicas de minería de datos La minería de datos aporta a una ventaja fundamental de manera que proporciona información importante y oportuna a la cual no se tendría acceso de manera fácil. De esta manera se emplean técnicas que en su mayoría van a depender de las necesidades de cada empresa. 2.2.4.2.5. Seguimiento de patrones Siendo una de las principales, el seguimiento de patrones implica reconocer y monitorear las diferentes tendencias en grupos de datos para realizar un análisis inteligente respecto a los resultados de la empresa; este proceso se puede relacionar con muchas cosas, desde identificar datos de alto rendimiento a comprender los comportamientos de compra de clientes. 2.2.4.2.6. Asociación Implica estudiar las ocurrencias de los atributos conectados, es decir, busca las variables que se tengan vinculo en función de sus atributos o eventos establecidos. Las reglas de asociación son útiles para estudiar el comportamiento de su consumidor. 2.2.4.2.7. Clasificación Se utiliza para derivar datos importantes y metadatos. Es el proceso que se lleva a cabo para dividir grandes cantidades de datos en categorías objetivas; esta categorización se determina con un marco de datos; base de datos relacional, base de datos orientada a objetos, etc. 19 2.2.4.3. Técnicas de minería de datos 2.2.4.3.1. Detección de valores atípicos Existen instancias en las que el patrón de datos no genera una comprensión clara de datos; en esta situación, la técnica de detección de valores atípicos identifica anomalías o valores en un conjunto de datos para comprender causas especificas e incluso predicciones más precisas. 2.2.4.3.2. Clustering De igual manera que la clasificación, es una técnica que consiste en realizar una agrupación de datos en función a similitudes. Permite el descubrimiento de conocimientos, detectar anomalías y obtener información interna sobre la estructura de los datos. 2.2.4.3.3. Patrones Secuenciales Como su nombre lo indica, se enfoca en el descubrimiento de patrones o serie de eventos de una secuencia. De manera amplia se utiliza en minería de datos transaccionales debido que tiene numerosas aplicaciones. Incluso pueden ofrecer ayuda a empresas para la recomendación de artículos relevantes a distintos clientes con la finalidad de maximizar sus ventas. 2.2.4.3.4. Árbol de decisión Un árbol de decisión también es considerado una técnica de minería de datos con enfoque al aprendizaje automático que se ocupa de visualizar las relaciones de modelado en lo que respecta a entrada y salida mediante el uso de reglas (sí/entonces). De esta manera, con este enfoque se aprende como la entrada influye en la salida de los datos; suelen estar diseñados como un diagrama de flujo, de arriba hacia abajo. 20 2.2.4.3.5. Análisis de regresión Es una de las técnicas más populares en cuanto aprendizaje automático porque utiliza la relación lineal entre variables, ayuda a predecir el verdadero valor futuro de las variables. Esta técnica cuenta con numerosas aplicaciones respecto a pronósticos financieros, planificación de recursos y toma de decisiones estratégicas. 2.2.4.3.6. Procesamiento de memoria a largo plazo Cuando se hace referencia a procesamiento de memoria a largo plazo se habla de una técnica en aprendizaje automático que es utilizado para el análisis de los datos durante períodos prolongados y permite la identificación de patrones de datos basados en el tiempo, por ejemplo; datos climáticos. 2.2.4.3.7. Redes Neuronales Una red neuronal también se conoce como una de las más populares técnicas en los modelos de aprendizaje automáticos que se utilizan en Inteligencia Artificial, de igual manera que las neuronas del cerebro buscan identificar las relaciones que existen en los datos. Cuentan con diferentes capas que permitan el trabajo colaborativo para arrojar resultados con gran precisión. 2.2.4.4. Metodologías de minería de datos (Guzmán, 2020) Existen tres metodologías que dominan en el proceso de minería de datos, aquellas son: KDD, CRISP-DM Y SEMMA. 2.2.4.4.1. KDD (Descubrimiento en base de datos) (Jima Narváez, 2020) Según Fayyad en 1996 define Knowledge Discovery in Databases como, kdd o descubrimiento de conocimiento en bases de datos como un proceso no trivial, es decir, poco común para identificar patrones válidos, novedosos y útiles. En esta definición se introducen propiedades del conocimiento extraído: 21 ▪ Válido: Los patrones tienen que ser precisos para los nuevos datos y no solo para aquellos que se han utilizado. ▪ Novedoso: Debe aportar algo que se desconoce totalmente. ▪ Potencialmente útil: Debe tener un beneficio ▪ Comprensible: La información que no es comprensible no aporta conocimiento en cuanto a su utilidad. Esta metodología propone cinco fases: selección, preprocesamiento, transformación, minería de datos y evaluación e implantación. Se trata de un proceso iterativo e interactivo. 2.2.4.4.1.1. Fase de selección La primera fase corresponde a la de selección cuyo objetivo es identificar las fuentes de datos y la recopilación incluso la integración de los mismos en un repositorio, el origen de los datos es muy diverso, puede ser interno o externo a la organización. Si es interno es posible se considere las bases de datos corporativas, data werehouse o también crear una, para el problema que se busque esclarecer; (encuestas, entrevistas, generación de atributos a partir de los ya existentes). En esta fase es importante cuidar de los datos debido que son la materia prima que va a representar a los modelos de una mejor manera. 2.2.4.4.1.2. Fase de preprocesamiento y limpieza El propósito de esta fase es obtener un conjunto de datos que incluye todos los atributos para el problema de estudio en un formato adecuado que cuide de la limpieza, transformación yselección del subconjunto de datos que se encuentran contenidos en una base para aplicar dicho proceso de minería de datos; en esta fase se realiza un análisis determinante que se hace con los datos que tienen poca relevancia o se consideran innecesarios, datos que no se ajustan al comportamiento normal, perdidos o faltantes. 22 2.2.4.4.1.3. Fase de transformación A fin de eliminar ruido de la base de datos y asegurar la calidad respecto al conocimiento que se obtiene, los datos erróneos son algunos de los problemas que se heredan de la fase anterior; por ello, se debe identificar de manera clara el origen de los mismos, de manera que se pueda realizar validación y verificación al momento de transformar los datos, que consiste en modificar su forma, sea de transformación o derivar nuevos atributos, así también, cambiar el tipo de dato o rango. 2.2.4.4.1.4. Fase de minería de datos Esta fase se considera el principal núcleo de todo el proceso porque su objetivo principal es producir conocimiento realmente útil para que el usuario mediante un modelo tenga una base minable, un producto de la fase anterior. Dicho de esta manera, describe patrones y relaciones que se pueden usar para realizar predicciones y mejoren la comprensión de los datos permitiendo la explicación de escenarios pasados. Contiene también algunos tipos de tareas, son consideradas como un problema que debe ser resuelto por un algoritmo y se distingue en dos grupos; en el primero las tareas predictivas(clasificación) y en el segundo las descriptivas (clustering). Clasificación: Es una de las tareas más utilizadas porque se enfoca en realizar la clasificación de un dato dentro de sus clases establecidas en un modelo que se encuentra trabajando. Clustering: Esta tarea en cambio permite formar grupos que los objetos del mismo grupo que establecen características similares entre sí y de igual manera son diferentes a los objetos de otro grupo. 2.2.4.4.1.5. Fase de interpretación y evaluación Para la aceptación de un modelo de minería de datos es importante medir la calidad de sus patrones para que pueda obtener resultados el algoritmo aprobado, de este modo, se debe 23 incluir tres cualidades; preciso, comprensible e intefresante. Permite estimar la relación entre un atributo dependiente y un atributo independiente. 2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess) La propuesta por SAS Institute Inc, en desarrollar esta metodología la define como un proceso de selección, exploración y modelamiento de enormes cantidades de datos para descubrir patrones de negocios totalmente desconocidos. 2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining) Consiste en un método que se ha probado para orientar los trabajos de minería de datos. De manera que incluye descripciones de las fases normales de un proyecto, todas las tareas que se deben desarrollar en cada base y una breve explicación de las relaciones entre ellas. También se considera un modelo estándar abierto del proceso iniciado ya que describe los enfoques más comunes que se utilizan, siendo un modelo analítico más usado. 2.2.4.4.3.1. Fases de CRISP – DM Comprensión del negocio ▪ Conocimiento de los objetivos y requerimientos del proyecto´ ▪ Identificación del problema de minería de datos Comprensión de los datos ▪ Alcanzar conjunto inicial de datos ▪ Inspección del conjunto de datos ▪ Establecer las características de calidad de datos ▪ Determinar los resultados iniciales Preparación de datos ▪ Clasificación de los datos 24 ▪ Saneamiento de datos Modelamiento ▪ Ejecución de herramientas de minería de datos Evaluación ▪ Decidir si los resultados se ajustan con los objetivos del negocio ▪ Reconocer los temas de negocio que debieron abordarse Despliegue ▪ Implantar los modelos resultantes en la práctica ▪ Configuración para minería de datos de forma continua 2.2.4.4.3.2. Características ▪ Permite almacenamiento para experiencia y replicar los proyectos ▪ Permite la planeación y gerencia del proyecto ▪ Usa un factor comodidad para usuarios nuevos ▪ Se maneja con madurez cada una de las fases de la minería de datos 2.2.4.5. Aplicaciones de minería de datos (Novoseltseva, 2021) Los avances en la última década en potencia y velocidad de procesamiento han permitido dejar atrás las prácticas manuales a un análisis de datos automatizado. La minería de datos utiliza metodologías y programas para descubrir relaciones entre todos sus elementos a estudiar; las empresas aprovechan este proceso y su aprendizaje automático para mejorar las interpretaciones que se obtengan. Es ampliamente utilizada en muchas áreas permitiendo el trabajo en conjunto de sus aplicaciones y herramientas para obtener un conocimiento sólido e íntegro. 25 2.2.4.5.1. Marketing Esta área utiliza la minería de datos para la exploración en bases de datos amplias, de tal manera, busca la segmentación en el mercado. Analiza las relaciones entre parámetros como; edad, sexo, gustos, etc., en relación a sus clientes. Se posibilita averiguar el comportamiento de los mismos para direccionar campañas de fidelización personalizadas. También predice como los usuarios pueden ser propensos a dar de baja un servicio, cuales son sus intereses al momento de realizar alguna búsqueda y debe incluir un listado de correos electrónicos para un mayor índice de respuestas. 2.2.4.5.2. La banca La utilización de la minería de datos en los bancos se usa para una mayor comprensión de los riesgos del mercado, habitualmente se aplica a las calificaciones crediticias y a los sistemas inteligentes que mantienen la lucha contra el fraude al analizar transacciones, patrones de compra, datos financieros y operaciones con tarjeta de sus clientes. Permite conocer mejor las preferencias y hábitos para la optimización del rendimiento de sus campañas de marketing; canales de venta y la gestión del cumplimiento normativo. 2.2.4.5.3. Educación Minería de datos en ámbitos académicos, también se denomina minería de datos educativa (MDE) o educación basada en datos (EDM), se considera una disciplina que utiliza para su aplicación algoritmos de análisis de daros en un contexto educativo y beneficia a la educación al momento de acceder a datos de los estudiantes, predicción de niveles de rendimiento y en la búsqueda de estudiantes o grupos que necesiten atención adicional. 26 2.2.4.5.4. Comercio electrónico En el comercio electrónico utilizan minería de datos para ofrecer ventas adicionales y cruzadas mediante sus sitios web. Uno de los más conocidos es Amazon, debido que utiliza técnicas de minería para obtener más clientes en su tienda electrónica. 2.2.4.5.5. Comercio minorista Los supermercados utilizan patrones de compra de manera conjunta para la identificación de asociaciones de productos y establecer como colocar los productos en su respectivo lugar, también detecta las ofertas más valiosas por el cliente y la generación de aumento de ventas. 2.2.4.5.6. Proveedores de servicios Los proveedores de servicio, así como los de telefonía y servicios públicos, emplean minería de datos para descubrir las razones por las que un cliente decide abandonar su empresa. Por ello analizan datos de facturación, interacción con atención al cliente y los problemas denominadas quejas presentadas a la empresa para asignar una puntuación probabilística y ofrecer incentivos. 2.2.4.5.7. Medicina Extraer datos permite dar paso a los diagnósticos de manera precisa, alcanzar toda la información de un paciente como; historial médico, examen físico, tratamiento, permite mostrar al paciente nuevos tratamientos y soluciones; considerando una gestión eficaz y rentable para identificar riesgos en determinados segmentos de la población y a un mayor conocimiento de las necesidades del paciente. 2.2.4.5.8.Televisión y radio Existen redes que aplican minería de datos para interactuar activamente, midiendo audiencias de tv y radios en línea. Mediante estos sistemas se recopilan y analizan información 27 anónima de los canales, emisiones y programación respecto a sus visualizaciones. Permite hacer recomendaciones a espectadores de radio y televisión para comprender mejor su comportamiento. 2.2.4.6. Software de minería de datos 2.2.4.6.1. Rapidminer Studio (RapidMiner, 2021) Es una plataforma que lidera en ciencia de datos y el análisis predictivo. Se utiliza en organizaciones, gobiernos, empresas, etc. Se considera una herramienta poderosa y una de las más utilizadas, por lo tanto, se recomienda debido que su sistema de interfaz y programación requieren menor curva de aprendizaje alcanzando mayor productividad en poco tiempo. El sistema visual es una de sus mayores ventajas porque sin demasiados conocimientos se puede trabajar en soluciones predictivas en cuanto grandes volúmenes de datos. 2.2.4.6.2. Teradata (Teradata, 2019) Teradata Warehouse muestra una solución muy completa que une la tecnología de base de datos, plataformas hardware que aportan un crecimiento sobre las necesidades de la empresa, herramientas y aplicaciones del mercado. Es una combinación integra de experiencia y conocimientos, es diseñada como soporte a la toma de decisiones de manera que su arquitectura se encuentra paralela y no está sujeta a limitaciones. 2.2.4.6.3. Oracle Data Miner (Oracle, 2020) Es una interfaz de usuario para descubrir patrones, relaciones e información oculta de sus datos; contiene algoritmos de minería y análisis de datos. Oracle Data Miner descarta el movimiento y que los datos se dupliquen; mantiene el mínimo tiempo de latencia desde los datos que no han sido procesados hasta los datos valiosos, mantiene la seguridad y la creación de modelos que se requieren dentro del proceso de minería de datos. 28 Mediante el uso de Oracle Data Miner los usuarios pueden crear modelos descriptivos y predictivos para: ▪ Pronosticar el comportamiento del cliente ▪ Direccionar a los mejores clientes ▪ Descubrir, segmentos, clústeres y perfiles ▪ Reconocer los riesgos de retención de clientes ▪ Determinar oportunidades de venta ▪ Identificar comportamientos extraños 2.2.4.6.4. Knime (Knime, 2019) Es perteneciente a una nueva generación de herramientas que se denominan plataformas de data science y machine learning por gartner. Este tipo de herramientas han permitido a científicos de datos, analistas o usuarios de negocios interactuar con los datos, crear y gestionar modelos avanzados. Las funcionalidades principales son: importación, preparación, exploración, modelado, evaluación y despliegue de datos. Puntos fuertes: ▪ A través de la interfaz visual la programación de sus aplicaciones es intuitiva y conecta visualmente nodos que recopilan varias funciones e integra módulos automatizados. ▪ Ofrece extensas funcionalidades con la posibilidad de conectar múltiples fuentes de datos para unificar datos provenientes de bades de datos, archivos o servicios web. ▪ Cuenta con una versión gratuita para uso personal y una versión de pago para uso de organizaciones. 2.2.4.6.5. Orange (Schmitz, 2023) Se define como un software de minería de datos que utiliza código abierto para visualizar, analizar y modelar datos. Permite crear flujos de trabajo, es capaz de 29 efectuar tareas como preprocesamiento, clasificación, regresión, clustering, análisis de redes y visualización. Es compatible con formatos de archivos como CSV, Excel, Sql y otros. 2.2.4.6.6. SAS (Merino & Dorado Sánchez, 2020) Es una herramienta de minería de datos SAS Enterprise Miner que es útil para el descubrimiento de nuevas y notables relaciones, patrones y tendencias para examinar grandes cantidades de datos. Efectuar el proceso de minería de datos incluye la selección de fuentes de datos y la calidad de los mismos. Se pueden generar modelos a través de SAS Rapid Predictive, mejora la precisión comparando evaluaciones y estadísticas de predicción de modelos con varios enfoques. 2.2.4.6.7. Qlik Admite extraer el valor que se encuentra oculto en los datos que se generan en las empresas; se trata de una plataforma de inteligencia activa, cuenta con funciones en la nube, emplea inteligencia artificial y analiza en tiempo real para toma de decisiones fundamentadas y colaborativas. Al combinar inteligencia artificial con la interacción humana facilita llevar a cabo la inteligencia aumentada y se consigue a traes de indexación asociativa que generan de manera automática conocimientos sobre los datos para que puedan ser explorados por usuarios. 2.2.4.6.8. Weka Software de código abierto que facilita herramientas para preprocesar la implementación de algunos algoritmos de aprendizaje automático y herramientas de visualización que puedan efectuar el desarrollo de técnicas de aprendizaje automático. Primero comienza con datos sin procesar que se han recopilado en el campo. Estos datos contienen valores nulos e irrelevantes, por lo tanto, utiliza herramientas proporcionadas por Weka para realizar una limpieza exhaustiva. Luego, guarda los datos en su almacenamiento local para la aplicación de algoritmos. 30 2.2.4.6.9. Sisense (The data Schools, 2023) Es una plataforma que analiza datos, se encuentra diseñada para ofrecer capacidades avanzadas que permitan a los usuarios tomar decisiones basadas en una información precisa y oportuna. Los analistas pueden crear reportes de manera rápida, ofrece funcionalidades que aceleran el proceso de desarrollo e implementación lo que reduce significativamente el tiempo para obtener resultados. ▪ Integración de datos: conecta y consolida datos de varias fuentes, incluyendo bases de datos, aplicaciones y servicios de nube. ▪ Visualización de datos: variedad de opciones para visualizar datos: gráficos, tablas, paneles. ▪ Análisis y exploración de datos: herramientas avanzadas para el descubrimiento de patrones, tendencias, relaciones ocultas. ▪ Creación de informes: Los usuarios pueden crear informes y dashboards interactivos. ▪ Analítica predictiva: permite realizar pronósticos y modelar escenarios futuros. ▪ Acceso móvil: visualización de datos desde dispositivos móviles. 2.2.5. Visualización de Información (Gómez, 2018) Es la práctica de representación de datos de un modo visual y significativa; la visualización de información permite que los usuarios puedan comprender fácilmente la información de una manera eficaz y poder compartir conocimientos de manera sencilla con personas no expertas en un determinado tema. Muchas veces las visualizaciones se crean pensando en la audiencia a la cual se quiera explicar la información, por ello, se diseñan herramientas y tecnologías con funciones interactivos para fácil manipulación. (Gómez M. , 2023) Es la traducción de datos cuantitativos representados en un lenguaje visual para que los usuarios obtengan una mejor comprensión; para efectuar la visualización 31 de datos se requiere de herramientas y conocimientos para elaborar el diseño, así como el manejo de sus datos, de modo que se obtenga un resultado objetivo. 2.2.5.1. Importancia de la Visualización de Datos (Valero Sancho, 2020) Los usuarios dentro de organizaciones actuales se exigen tener acceso a datos; la representación de datos debe ser en formato fácil para entender de manera puntual la leyenda de los gráficos. De manera empresarial se necesita una representación de datos e interacción de forma intuitiva. Las herramientas de visualización permiten a los responsables de manejar dicha información una buena toma de decisiones para trabajar los datos con menor dificultad, por lo tanto, se obtiene valor en toda la organización. También se considera una habilidad clave en la actualidad,
Compartir