Logo Studenta

Marcillo Pincay Joselyn Mercedes

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ 
 
FACULTAD DE CIENCIAS TÉCNICAS 
 
CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN 
 
 
 
PROYECTO DE TITULACIÓN PREVIO A LA OBTENCIÓN 
DEL TÍTULO DE 
 
INGENIERA EN TECNOLOGÍAS DE LA INFORMACIÓN 
 
TEMA: 
VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS 
PARA ANALISIS DE PATRONES EN LOS PROYECTOS DE 
TITULACIÓN DE LA FACULTAD DE CIENCIAS TÉCNICAS EN 
LA UNESUM 
AUTORA: 
MARCILLO PINCAY JOSELYN MERCEDES 
 
TUTOR: 
ING. LENIN JONATAN PIN GARCÍA, PHD. 
 
JIPIJAPA – MANABÍ – ECUADOR 
 
2024 
 
i 
 
 
 
ii 
 
 
 
iii 
 
 
 
iv 
 
 
 
v 
 
DEDICATORIA 
El presente trabajo es dedicado especialmente a Dios, por guiarme en cada paso largo y firme 
durante toda mi formación. A mis padres Verónica y Paúl, que han sido indispensables en mi 
vida, en mi trayectoria estudiantil, en forjar mi carácter y en todo lo que soy ahora; por ello 
dedico tan significativo logro. A mi mascota Kiam (+), que hoy ya no me acompaña físicamente 
pero que estuvo conmigo cuando debía entregar trabajos académicos, brindándome su tiempo 
y compañía. A mis hermanos quienes son mi fuente de inspiración y de apoyo. 
A mi esposo por motivarme cada día e impulsarme a cumplir cada uno de mis objetivos, en 
definitiva, a los docentes de la carrera por mostrarme varias maneras de enseñar y compartir 
cada uno de sus conocimientos. 
Gracias a todos. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
 
AGRADECIMIENTO 
Estoy tan agradecida con la vida por cada logro y cada tropiezo, más aún por que las caídas me 
han impulsado a ser una mujer más valiente y con más ganas de triunfar. Estoy tan convencida 
que para obtener resultados siempre es importante trabajar día a día por ellos. Mi madre siempre 
ha sido fuente de inspiración porque me ha enseñado a ser una persona dedicada y funcional, 
me ha enseñado que con esfuerzo y trabajo conseguimos nuestras metas; es por ello que esta 
meta alcanzada no solo es mía, sino de ambas. 
La Universidad Estatal del Sur de Manabí, permitió que yo alcanzara aquellos frutos por los 
cuales un día trabajé, por ello agradezco su buena formación por medio de los docentes de la 
carrera y las oportunidades que se me brindó, entre ellos una beca que me ayudó a costear un 
dispositivo tecnológico para realizar mis tareas semestre a semestre. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vii 
 
INDICE DE CONTENIDOS 
 
RESUMEN ............................................................................................................................................. xii 
ABSTRACT ........................................................................................................................................... xiii 
TITULO DEL PROYECTO ......................................................................................................................... 1 
CAPITULO I. ASPECTOS GENERALES ...................................................................................................... 2 
1.1. Introducción ............................................................................................................................. 2 
1.2. Planteamiento Del Problema Científico............................................................................. 4 
1.3 Formulación Del Problema ...................................................................................................... 6 
1.4. Definición Del Objeto ............................................................................................................... 6 
1.5. Objetivos ................................................................................................................................... 7 
1.5.1. Objetivo General ............................................................................................................... 7 
1.6. Hipótesis.................................................................................................................................... 7 
1.7. Definición De Características o Variables .............................................................................. 7 
Variable Dependiente: ................................................................................................................ 7 
Variable Independiente: ............................................................................................................. 8 
1.8. Justificación .............................................................................................................................. 8 
CAPITULO II: MARCO TEÓRICO ........................................................................................................... 10 
2.1. Antecedentes Investigativos ................................................................................................... 10 
2.2 Fundamentación Teórica ........................................................................................................ 13 
2.2.1. Tecnologías de la Información ........................................................................................ 13 
2.2.1.1. Dato ............................................................................................................................... 14 
2.2.1.2. Información ................................................................................................................... 14 
2.2.3. Base de datos .................................................................................................................... 15 
2.2.3.1. Funcionalidad de una Base de datos ............................................................................ 15 
2.2.3.2. Características de una base de datos ............................................................................. 15 
2.2.4. Minería de datos ............................................................................................................... 16 
2.2.4.1. Importancia de minería de datos ................................................................................... 16 
2.2.4.2. Etapas de minería de datos............................................................................................ 17 
2.2.4.2.1. Extracción de datos .................................................................................................... 17 
2.2.4.2.2. Análisis de los datos ................................................................................................... 17 
2.2.4.2.3. Segmentación de la información................................................................................ 17 
2.2.4.2.4. Técnicas de minería de datos ..................................................................................... 18 
2.2.4.2.5. Seguimiento de patrones ............................................................................................ 18 
2.2.4.2.6. Asociación .................................................................................................................. 18 
viii 
 
2.2.4.2.7. Clasificación ............................................................................................................... 18 
2.2.4.3. Técnicas de minería de datos ........................................................................................ 19 
2.2.4.3.1. Detección de valores atípicos ..................................................................................... 19 
2.2.4.3.2. Clustering ................................................................................................................... 19 
2.2.4.3.3. Patrones Secuenciales ................................................................................................ 19 
2.2.4.3.4. Árbol de decisión ........................................................................................................ 19 
2.2.4.3.5. Análisis de regresión .................................................................................................. 20 
2.2.4.3.6. Procesamiento de memoriaa largo plazo .................................................................. 20 
2.2.4.3.7. Redes Neuronales ....................................................................................................... 20 
2.2.4.4. Metodologías de minería de datos ................................................................................. 20 
2.2.4.4.1. KDD (Descubrimiento en base de datos) ................................................................... 20 
2.2.4.4.1.1. Fase de selección ..................................................................................................... 21 
2.2.4.4.1.2. Fase de preprocesamiento y limpieza ...................................................................... 21 
2.2.4.4.1.3. Fase de transformación ........................................................................................... 22 
2.2.4.4.1.4. Fase de minería de datos ......................................................................................... 22 
2.2.4.4.1.5. Fase de interpretación y evaluación ....................................................................... 22 
2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess) ................................................. 23 
2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining) .......................... 23 
2.2.4.4.3.1. Fases de CRISP – DM ............................................................................................. 23 
2.2.4.4.3.2. Características ......................................................................................................... 24 
2.2.4.5. Aplicaciones de minería de datos .................................................................................. 24 
2.2.4.5.1. Marketing ................................................................................................................... 25 
2.2.4.5.2. La banca ......................................................................................................................... 25 
2.2.4.5.3. Educación ................................................................................................................... 25 
2.2.4.5.4. Comercio electrónico .................................................................................................. 26 
2.2.4.5.5. Comercio minorista .................................................................................................... 26 
2.2.4.5.6. Proveedores de servicios ............................................................................................. 26 
2.2.4.5.7. Medicina ..................................................................................................................... 26 
2.2.4.5.8. Televisión y radio ....................................................................................................... 26 
2.2.4.6. Software de minería de datos ........................................................................................ 27 
2.2.4.6.1. Rapidminer Studio ...................................................................................................... 27 
2.2.4.6.2. Teradata ...................................................................................................................... 27 
2.2.4.6.3. Oracle Data Miner ..................................................................................................... 27 
2.2.4.6.4. Knime.......................................................................................................................... 28 
2.2.4.6.5. Orange ........................................................................................................................ 28 
2.2.4.6.6. SAS ............................................................................................................................. 29 
ix 
 
2.2.4.6.7. Qlik ............................................................................................................................. 29 
2.2.4.6.8. Weka ........................................................................................................................... 29 
2.2.4.6.9. Sisense ........................................................................................................................ 30 
2.2.5. Visualización de Información .......................................................................................... 30 
2.2.5.1. Importancia de la Visualización de Datos .................................................................... 31 
2.2.5.2. Técnica De Visualización De Datos .............................................................................. 32 
2.2.5.2.1. Gráfico de Línea ......................................................................................................... 32 
2.2.5.2.2. Gráfico de Barras ....................................................................................................... 32 
2.2.5.2.3. Gráfico de dispersión.................................................................................................. 33 
2.2.5.2.4. Gráfico de área ........................................................................................................... 34 
2.2.5.2.5. Gráfico Indicador ....................................................................................................... 34 
2.2.6. Rendimiento académico ................................................................................................... 35 
2.2.7. Gestion del conocimiento .................................................................................................... 35 
2.2.8. Minería de texto .................................................................................................................. 35 
2.2.9. Mineria de texto en la gestión del conocimiento ............................................................... 36 
2.2.10. Modalidades de publicación de documentos científicos ................................................. 37 
2.3. Marco Conceptual ................................................................................................................... 38 
CAPITULO III MARCO METODOLÓGICO .............................................................................................. 42 
3.1. Tipo de investigación.................................................................................................................... 42 
3.1. Métodos teóricos .................................................................................................................. 42 
3.1.1. Histórico-lógico ................................................................................................................ 43 
3.1.2. Análisis-Síntesis ............................................................................................................... 43 
3.1.3. Inducción-deducción ........................................................................................................ 44 
3.2. Métodos empíricos ............................................................................................................... 44 
3.3. Técnicas e instrumento de recolección de datos. ................................................................ 44 
3.3.1. Técnicas ............................................................................................................................ 44 
3.3.1.1. Observación ................................................................................................................... 45 
3.3.1.2. Entrevista ....................................................................................................................... 45 
3.3.2. Instrumentos..................................................................................................................... 45 
3.3.2.1. Ficha de entrevista ........................................................................................................ 45 
3.3.3. Herramientas tecnológicas ...............................................................................................45 
3.3.3.1. Atlas TI .......................................................................................................................... 45 
3.3. Población y muestra ............................................................................................................ 46 
3.3.1. Población .......................................................................................................................... 46 
3.3.2 Muestra .............................................................................................................................. 46 
3.4. Análisis e interpretación de los resultados.......................................................................... 46 
x 
 
CAPITULO IV: PROPUESTA .................................................................................................................. 51 
4.1. Análisis Situacional ............................................................................................................ 52 
4.2. Diagnóstico .......................................................................................................................... 53 
4.2.1. Análisis de las Fortalezas, Oportunidades, Debilidades y Amenazas ................................. 53 
4.3. Factibilidad ......................................................................................................................... 54 
4.3.1. Factibilidad Operativa ...................................................................................................... 54 
4.3.2. Factibilidad Tecnológica .................................................................................................. 55 
4.3.3. Factibilidad Económica ................................................................................................... 56 
4.4. Desarrollo de la propuesta .................................................................................................. 57 
4.4.1. Ejecución del modelo KDD .................................................................................................. 58 
CAPITULO V: ASPECTOS ADMINISTRATIVOS ....................................................................................... 68 
5.1. Presupuesto/Recursos: humanos, Materiales, Financieros ............................................... 68 
5.2. Cronograma de Actividades. Diagrama de Gantt ................................................................... 69 
5.2.1. Cronograma de actividades del proceso de investigación.................................................... 70 
5.3. Conclusiones ....................................................................................................................... 71 
5.4. Recomendaciones ................................................................................................................ 72 
Bibliografía ............................................................................................................................................ 1 
Vista general del proceso KDD ............................................................................................................ 14 
Rapidminer ......................................................................................................................................... 15 
Gestionar datos en Rapidminer ................................................................................................... 16 
Entrada de datos y muestra de resultados .................................................................................. 17 
Operadores .................................................................................................................................... 17 
Operador Set Role ........................................................................................................................ 19 
Operador Split Data ..................................................................................................................... 20 
Árbol de decisión ........................................................................................................................... 20 
Árbol de decisión en Rapidminer 1 .......................................................................................... 22 
Resultados obtenidos del árbol de decisión ............................................................................. 22 
Visualización de información .............................................................................................................. 28 
Dashboards ......................................................................................................................................... 33 
 
 
 
 
 
xi 
 
INDICE DE TABLAS 
Tabla 1 Población .............................................................................................................................. 46 
Tabla 2 FODA ................................................................................................................................... 53 
Tabla 3 Versión de pago Rapidminer y Tableau ................................................................................ 56 
Tabla 4 Vista minable generada ......................................................................................................... 58 
Tabla 5 Proceso de descubrimiento de conocimiento: Fase de selección ........................................... 59 
Tabla 6 Identificación de variable de objetivos de estudio ................................................................. 62 
Tabla 8 Presupuesto ........................................................................................................................... 68 
Tabla 9 Cronograma de Actividades .................................................................................................. 69 
Tabla 10 Cronograma del proceso de Investigación ........................................................................... 70 
INDICE DE ILUSTRACIONES 
Ilustración 1 Repositorio digital de la UNESUM .............................................................................. 57 
Ilustración 2 Vista minable en excel .................................................................................................. 60 
Ilustración 3 Vista minable en Rapidminer ....................................................................................... 61 
Ilustración 4 Árbol de decisión generado en Rapidminer .................................................................. 63 
Ilustración 5 Árbol de decisión generado en Rpidminer .................................................................... 65 
Ilustración 6 Árbol de decisión generado en Rapid miner ................................................................. 66 
Ilustración 7 Dashboard elaborado en Tableau Public ....................................................................... 67 
INDICE DE FIGURAS 
Figura 1 Comparación de tendencias de varias empresas .................................................................... 32 
Figura 2 Gastos de viaje de una empresa ........................................................................................ 33 
Figura 3 Notas de matemáticas y estadística de 20 alumnos .............................................................. 33 
Figura 4 Ganancias mensuales de tiendas .......................................................................................... 34 
Figura 5 Actividades de mineria de texto ............................................................................................ 36 
Figura 6 Porcentaje de revistas en open Access con respecto al total ............................................... 37 
Figura 7 Crecimiento (%) promedio de documentos científicos publicados por país. ......................... 38 
 
 
 
 
 
 
 
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700848
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700849file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700850
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700851
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700854
xii 
 
RESUMEN 
Las instituciones de Educación Superior en América Latina se encuentran enfocadas en 
favorecer el desarrollo de investigaciones a fin de mantener entornos de trabajo que 
proporcionen instrumentos para el análisis del conocimiento. Sin embargo, es una tarea difícil 
mejorar la colaboración entre universidades para fomentar el intercambio de información fiable 
y objetiva. La visualización de información y minería para analizar los patrones en los 
proyectos de titulación se llevó a cabo mediante la recopilación de datos del repositorio digital 
de la Universidad Estatal de Manabí, el mismo que almacena en su totalidad los proyectos 
de titulación de la Facultad de Ciencias Técnicas. Esta investigación propone conocer el alto 
valor de los proyectos de la Carrera de Tecnologías de la Información con el descubrimiento 
de conocimiento en base de datos denominado (KDD), utilizando herramientas de análisis para 
la transformación de los datos tales como: Rapid Miner y Tableau. Cabe mencionar que no 
existe una base de datos centralizada, por lo tanto, el propósito de esta investigación es la 
elaboración de un dashboard aplicando minería de datos para la visualización del 
descubrimiento de patrones. La investigación es de tipo descriptiva, buscando recopilar datos 
directamente de su estado inicial, trabajar los datos en Rapidminer para conocer la influencia 
sobre el comportamiento de los datos y los patrones resultantes. En el desarrollo de la propuesta 
se observa las fases del proceso kdd para mostrar los datos estructurados y conocer a que líneas 
de investigación se orientan los proyectos de titulación; mediante la creación de un dashboards 
en Tablaau creando oportunidades para la investigación en diversas áreas, y la construcción de 
nuevos conocimientos.. 
PALABRAS CLAVE: Dashboard; minería; patrones; kdd; visualización 
 
 
 
xiii 
 
ABSTRACT 
Higher Education institutions in Latin America are focused on promoting the development of 
research in order to maintain work environments that provide instruments for the analysis of 
knowledge. However, it is a difficult task to improve collaboration between universities to 
encourage the exchange of reliable and objective information. The visualization of information 
and mining to analyze the patterns in the degree projects was carried out by collecting data 
from the digital repository of the Universidad Estatal de Manabí, the same one that stores the 
degree projects of the Technical Sciences Faculty. This research proposes to know the high 
value of the projects of the Information Technology Career with the discovery of knowledge 
in a database called (KDD), using analysis tools for data transformation such as: Rapid Miner 
and Tableau. It is worth mentioning that there is no centralized database, therefore, the purpose 
of this research is the development of a dashboard applying data mining to visualize the 
discovery of patterns. The research is descriptive, seeking to collect data directly from its initial 
state, work the data in Rapidminer to understand the influence on the behavior of the data and 
the resulting patterns. In the development of the proposal, the phases of the kdd process are 
observed to show the structured data and know which lines of research the degree projects are 
oriented towards; by creating dashboards in Tablaau, creating opportunities for researching in 
various areas, and the construction of new knowledge. 
KEYWORDS: Dashboard; mining; patterns; kdd; display 
 
 
 
1 
 
TITULO DEL PROYECTO 
VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS PARA ANALISIS 
DE PATRONES EN LOS PROYECTOS DE TITULACIÓN DE LA FACULTAD DE 
CIENCIAS TÉCNICAS EN LA UNESUM 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2 
 
CAPITULO I. ASPECTOS GENERALES 
1.1. Introducción 
El conocimiento en minería de datos consiste en el análisis exploratorio y modelado de 
grandes cantidades de datos, involucra e integra diferentes técnicas en sus diversas disciplinas 
como: Data Warehouse, estadística, aprendizaje de máquina, computación de alta performance, 
computación evolutiva, reconocimiento de patrones, redes neuronales, visualización de datos, 
recuperación de información, procesamiento de imágenes y señales, y análisis de datos 
espaciales o temporales. 
Los datos almacenados son un tesoro para las organizaciones, es en donde se guardan 
las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, además 
representan la memoria de la organización. 
Implementar el procesamiento de los datos permite analizar factores de influencia en 
determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o 
agrupar ítems similares, además de obtener secuencias de eventos que provocan 
comportamientos específicos, siendo su principal ventaja inferir en comportamientos, modelos, 
relaciones y estimaciones de los datos, para poder desarrollar predicciones sobre los mismos, 
sin la necesidad de contar con patrones o reglas preestablecidas, permitiendo tomar decisiones 
proactivas y basadas en un conocimiento acabado de la información. 
La visualización de información y minería para analizar los patrones en los proyectos 
de titulación se llevará a cabo mediante la recopilación de datos del repositorio de la Facultad 
de Ciencias Técnicas de la Universidad Estatal de Manabí el cual, almacena en su totalidad 
los proyectos de titulación de las carreras de Tecnologías de la Información, Telemática e 
Ingeniería Civil. El proyecto se propone mediante la utilización de plataformas de análisis que 
transforman los datos para la resolución de problemas. Luego de conocer las carreras 
pertenecientes a la facultad, se escogió la carrera de Tecnologías de la Información porque 
 
3 
 
maneja una guía metodológica que cumple con el formato de datos para aplicar minería de 
datos y visualización de información 
Por tal razón, el paso principal a realizar es la recopilación de los datos de valor en una 
matriz de Excel, el cual simplifica la información y acelera el análisis en los programas 
escogidos: Tableau como herramienta tecnológica para combinar la búsqueda por bases de 
datos con un lenguaje descriptivo para la representación de gráficos. Del mismo modo 
Rapidminer atribuye el desarrollo de procesos de análisis mediante el encadenamiento de 
operadores a través de un entorno gráfico. 
El trabajo de investigación se desarrolla debido a la problemática encontrada, la cual 
consiste en que no existe una base de datos centralizada de los proyectos de titulación, es 
importante la aplicación de este tipo de procedimientos porque permite la organización de la 
información y descubrir las tendencias en todos los procesos a los que se direccionan. Por lo 
tanto, este estudio beneficia a los docentes de la carrera conocer una visualización de los datos 
mas profunda y poder trabajarlos en miras de mejoras los procesos académicos o direccionar 
trabajos de investigación a otras áreas de estudio. 
La investigación se encuentra compuesta por cinco capítulos, entre ellos, el 
CAPITULO I, nos muestra la introducción del trabajo de investigación, seguido del 
planteamiento científico, objetivos, justificación, de tal manera que se pueda obtener una visión 
mucho mas amplia del objeto de estudio. 
Seguidamente, el CAPITULO II, se compone del marco teorico en el que se expresa 
la relación de las dos variables en función de la investigación, antecedentes, fundamentación 
teorica y marco conceptual, en este apartado se expone la investigación científica mediante la 
revisión literaria y análisis de enfoque teóricosde varios autores fundamentales para esclarecer 
el contexto de la investigación. 
 
4 
 
El CAPITULO III, aborda la metodología aplicada, en el que se detalla el tipo de 
investigación, métodos y técnicas utilizadas para la obtención de los datos, también se muestra 
los resultados sobre la percepción del encargado de manejar la información de los trabajos de 
titulacion y la subida de información al repositorio digital. 
Consecuentemente, el CAPITULO IV, evidencia la propuesta en función del análisis 
situacional, en el que se expone el procedimiento que se lleva a cabo para el tratamiento de los 
datos y la aplicación de minería, obteniendo como resultado un dashboard en el que se 
representa la información mas relevante. 
En el CAPITULO V, se plantea los aspectos administrativos como el presupuesto para 
la ejecución del trabajo de investigación, cronograma de actividades, conclusiones y 
recomendaciones. 
1.2. Planteamiento Del Problema Científico 
En la tecnología actual se manejan grandes cantidades de datos que se perciben como 
un elemento principal para extraer un conocimiento nuevo. La minería de datos se transforma 
en la unión de métodos y procedimientos para resolver una serie de problemas; se busca obtener 
pautas o patrones a partir de los datos recopilados siendo una disciplina práctica que esclarece 
dudas y obtiene proyección para la toma de decisiones en base a grandes volúmenes de datos. 
El procedimiento de profundizar en los datos para descubrir tendencias es muy 
complejo debido que los usuarios necesitan extraer conocimiento de diferentes fuentes; la 
minería de datos es un proceso que debe ser interactivo para permitir su enfoque en la búsqueda 
de patrones en función de buenos resultados. Los niveles de abstracción juegan un papel 
esencial para expresar los patrones descubiertos mediante la extracción de información de 
grandes cantidades de datos. 
Hoy en día la minería de datos es indispensable para resolver problemáticas de la 
cotidianidad; en una pequeña tienda para determinar las ventas que ha tenido un producto 
 
5 
 
durante un determinado tiempo es importante partir de la propia información de ventas diarias 
para en próximos meses organizar el producto y promocionarlo de una manera más eficiente; 
lo mismo sucede con las grandes empresas de supermercados las cuales buscan conocer sobre 
el comportamiento de compra de sus clientes, hasta determinar información personal de un 
individuo sobre sus intereses. 
La educación es un trabajo constante para mejorar la eficiencia académica y potenciar 
un entorno educativo de calidad que supere las limitaciones tanto de estudiantes y docentes en 
las distintas universidades; La minería de datos y la incorporación de las TIC (Tecnologías de 
la Información y Comunicación) en la educación, acumulan grandes cantidades de datos que 
en lo posterior requieren del tratamiento adecuado para utilizarlos en la toma de decisiones, lo 
cual debe generar información valiosa que optimice los datos ya existentes. 
En Manabí, la investigación científica, la vinculación con la sociedad y prácticas pre 
profesionales, son procesos indispensables para la construcción y aplicación de los 
conocimientos adquiridos durante el proceso de enseñanza-aprendizaje para fomentar el 
carácter profesional e investigador de los estudiantes. Los proyectos de titulación son parte de 
los requerimientos para la obtención de un título de tercer nivel, estos pueden ser de estudio o 
de implementación, sin embargo, no existe una visualización de los datos en grandes 
volúmenes que permita observar a que líneas de investigación se direccionan. 
El sistema de gestión académico de la Universidad Estatal del Sur de Manabí, contiene 
un repositorio que genera grandes cantidades de datos; se almacenan todos los proyectos de 
titulación de la facultad de Ciencias Técnicas, se encuentran accesibles para cada estudiante, 
docente o usuario en general. La información se encuentra pública pero no existe una base de 
datos centralizada que muestre los datos de manera estructurada y el descubrimiento de 
tendencias en todos los procesos a los que se dirigen los profesionales en formación. 
 
6 
 
La carrera de Tecnologias de la Informacion, fue la escogida para trabajar con las 
grandes cantidades de datos que se almacenan de trabajos de titulacion que ejecutan los 
estudiantes, es potencialmente útil estudiar esta información porque muestra una manera 
distinta del camino que toma cada uno de los datos y como la representación de ese camino 
puede llevar a identificar patrones significativos que aporten positivamente la toma de 
decisiones sobre un determinado grupo de estudiantes. La solución que se busca con la presente 
investigación es aplicar minería de datos a todos los documentos digitales que se encuentran 
subidos en el repositorio, analizarlos, buscar los posibles patrones y elaborar un dashboard que 
permita visualizar los hallazgos más importantes, obteniendo así, datos precisos, coherentes y 
de alto valor. 
El trabajo se realiza para conocer la aplicación de minería de datos en la educación; la 
evaluación de patrones de comportamiento y la identificación de líneas de investigación a las 
que se direccionan los estudiantes; lo que permitirá a los docentes de la facultad implementar 
herramientas educativas que mejoren las experiencias de aprendizaje teórico-práctico y que 
reconozcan la diversidad de enfoques para abordar un determinado problema. 
1.3 Formulación Del Problema 
¿Qué aportes brindará la visualización de información y minería de datos para el análisis de 
patrones en los proyectos de titulación de la carrera de Tecnologías de la Información? 
1.4. Definición Del Objeto 
La investigación presentada tiene el propósito de aplicar el proceso de minería de datos 
para descubrir patrones o anomalías en grandes conjuntos de datos, tales como, el repositorio 
digital de la UNESUM, en el cual se albergan todos los proyectos de titulación de la facultad 
de Ciencias Técnicas, dicho esto, es importante destacar que no son datos estructurados, lo 
cual, dificulta conocer las tendencias a las que se direccionan, o datos principales que permitan 
 
7 
 
obtener un acercamiento más preciso sobre los estudiantes, una vez dado el cumplimiento del 
proceso de minería los resultados se representarán mediante la visualización de información. 
1.5. Objetivos 
1.5.1. Objetivo General 
Realizar visualización de información y minería de datos para análisis de patrones en los 
proyectos de titulación de la facultad de Ciencias Técnicas en la UNESUM. 
1.5.2. Objetivos específicos 
✓ Establecer los requerimientos para la visualización de información y minería de datos 
para el descubrimiento de patrones en los proyectos de titulación de la facultad de 
ciencias técnicas en la UNESUM 
✓ Analizar el proceso KDD para aplicarlo en la base de datos en los proyectos de 
titulación de la facultad de Ciencias Técnicas en la UNESUM 
✓ Elaborar un dashboard con la interpretación de los resultados obtenidos del proceso 
KDD en los proyectos de titulación de la facultad de ciencias técnicas en la UNESUM 
1.6. Hipótesis 
Con la visualización de información y minería de datos mejora significativamente el análisis 
de patrones de los proyectos de titulación de la Facultad de Ciencias Técnicas en la UNESUM 
1.7. Definición De Características o Variables 
La visualización y minería de datos favorece el análisis de patrones en los proyectos de 
Titulación de La Facultad de Ciencias Técnicas en la UNESUM 
Variable Dependiente: 
Análisis de patrones en los proyectos de titulación 
 
8 
 
Variable Independiente: 
Visualización de información y minería de datos 
1.8. Justificación 
Una de las razones principales para elaborar la investigación es reconocer lo 
importancia de la búsqueda de patrones en grandes conjuntos de datos que, de manera rápidano se pueden identificar, pero al realizar un análisis en profundidad se pueden extraer 
conocimientos claves para la construcción de modelos o algoritmos que pueden predecir 
resultados concretos. Por esta razón, dentro de la investigación se encuentra un enfoque teórico 
que ha permitido la comprensión de cómo se realiza el proceso de minería y visualización de 
datos. 
La minería de datos es un proceso mediante el cual es posible encontrar en grandes 
volúmenes de datos, patrones, anomalías y correlacionales, lo que permite predecir resultados 
lo que constituye a una diferencia clave en cualquier organización. Con lo antes mencionado, 
aplicar minería de datos a los proyectos de titulación permite, interpretar y generar 
visualizaciones de conocimiento útil. La ejecución de minería de datos básicamente permite 
que se minimice cantidad de datos redundantes y se transforme en objeto de análisis para 
mejorar el rendimiento académico y predecir las líneas de investigación a las que se direcciona 
el comportamiento del estudiante. 
La principal contribución es aplicar minería de datos a los trabajos de Titulación para 
extraer y/o analizar datos provenientes de cada trabajo: título del trabajo, año de publicación, 
palabras clave, presupuesto y población. A través de la aplicación de técnicas y herramientas 
de minería de datos para entender de manera contextualizada los comportamientos de una 
población, en efecto, mediante la interpretación de patrones. Tomando como metodología el 
proceso de descubrimiento de conocimiento en base de datos (kdd, Knowledge Discovery 
 
9 
 
in Databases). De manera que se evidencie la evolución de la carrera en los últimos dos años y 
mejorar los diferentes procesos de formación del estudiante. 
Las innovaciones en los sistemas educativos destacan por introducir nuevas tecnologías 
para mejorar los entornos de enseñanza-aprendizaje de modo que genere beneficio en 
estudiantes y docentes; el repositorio digital de la UNESUM, almacena todos los trabajos de 
titulación, por tanto, este espacio incrementa la cantidad de datos lo cual refleja una 
contribución para explorar grandes bases de datos de manera automática. 
La investigación tiene como finalidad la elaboración de un dashboard con la 
interpretación de los resultados obtenidos del proceso KDD. La viabilidad del proyecto, desde 
el punto técnico cuenta con herramientas tecnológicas de versión gratuita, en la estimación del 
presupuesto no incluye costos, por tanto, no genera gastos mayores. También se considera el 
uso de recursos humanos para la gestión positiva de las tareas realizadas durante la elaboración 
del proyecto. Quienes se benefician del trabajo de investigación, es la facultad de Ciencias 
Técnicas, considerando, al decano de la facultad, coordinadores de carrera y biblioteca de la 
Universidad Estatal del Sur de Manabí. 
 
 
 
 
 
 
 
10 
 
CAPITULO II: MARCO TEÓRICO 
2.1. Antecedentes Investigativos 
(Calvache Fernández, Álvarez Vallejo, & Triviño Arbeláez, 2018), De la Universidad 
de Quindío, Armenia, Colombia. Demostraron en su investigación “Proceso KDD como apoyo 
a las estrategias del proyecto SARA (Sistema de acompañamiento para el rendimiento 
académico)” Los altos índices de deserción estudiantil, siendo uno de los principales 
problemas; cerca de la mitad de los estudiantes que inician sus estudios no logran concluirlos. 
Por lo tanto, el proyecto SARA, aplica el proceso KDD para localizar patrones y predecir casos 
de deserción; datos personales, socioeconómicos y académicos. Dicho esto, los factores de 
deserción más importantes se sitúan en el ámbito personal y socioeconómico; el núcleo 
familiar, integrantes de la familia y fuente de financiación. Finalmente, la minería de datos 
permitió el manejo eficiente de sus datos para intervenir en la retención de los estudiantes 
brindando la posibilidad de tomar buenas decisiones. 
 (Mancilla Vela, Leal Gatica, Sánchez Ortiz, & Vidal Silva, 2020), puntualizan en su 
investigación “Factores asociados al éxito de los estudiantes en modalidad de aprendizaje en 
línea: análisis en minería de datos”, sobre la modalidad de aprendizaje en línea en las que se 
establece variables asociadas al éxito o fracaso; los programas a distancia de los estudiantes 
son generadores de grandes cantidades de datos, tienen la capacidad de registrar algunas 
variables asociadas a su proceso de aprendizaje. Aplicando técnicas de minería de datos, se 
obtienen dos partes fundamentales; la construcción de modelos y la detección de patrones. El 
método utilizado corresponde al modelo CRISP-DM (proceso cruzado estándar de la industria 
para la minería de datos) aplicado a programas de e-learning. Contribuyendo a un mayor 
entendimiento en la situación académica final del estudiante, los programas con mayor éxito o 
con mayor fracaso. 
 
11 
 
 (Bedregal Alpaca, Tupacyupanqui Jaén, & Cornejo Aparicio, 2020), elaboraron la 
investigación “Análisis del rendimiento académico de los estudiantes de ingeniería de 
sistemas, posibilidades de deserción y propuestas para su retención”, para conocer sobre el 
rezago en los estudios y como afecta en las instituciones educativas y a sus estudiantes; por 
ello es importante estudiar la problemática expuesta. El objetivo del trabajo es analizar el 
rendimiento académico de cohortes 2011-2016 de la universidad pública de la escuela 
profesional de Ingeniería de Sistemas, así mismo, se aplica técnicas de minería de datos para 
encontrar patrones en su comportamiento académicos, se emplea la metodología CRISP-DM. 
Obteniendo como resultados variables influyentes de acuerdo a la relación de créditos 
aprobados. Se concluye no solo tomar datos de sus calificaciones, sino, el avance en la 
aprobación de asignaturas. 
(Urbina Nájera, Téllez Velázquez, & Cruz Barbosa, 2021) realizaron la investigación 
“Patrones que identifican a estudiantes universitarios desertores aplicando minería de datos 
educativa”, para presentar las características más importantes permisibles sobre la deserción 
universitaria, mediante algoritmos de minería de datos educativa. Se utilizó arboles de decisión 
para estudiar datos del periodo 2014-2019, obteniendo una fácil interpretación de no solo 
identificar un posible desertor, sino que permite señalar de manera jerárquica, atributos 
significativos. 
(García González , Sánchez Sánchez, Orozco, & Obredor, 2019), de la Universidad 
Simón Bolívar, ejecutaron la investigación “Extracción de conocimiento para la predicción y 
análisis de los resultados de la prueba de calidad de la educación superior en Colombia”, para 
analizar estrategias y programas con los cuales las Instituciones de Educación trabajan para 
adoptar metodologías orientadas a mejorar el desempeño y formación del estudiante. Se 
construyo una base de datos utilizando extracción del conocimiento KDD para conocer el 
desempeño académico del estudiante en áreas asociadas a contenidos de pruebas Saber Pro. 
 
12 
 
Como resultado el proceso fue complejo debido al gran volumen de datos recopilados y a su 
estructura; sin embargo, los resultados obtenidos son acordes al desempeño de cada estudiante. 
(Fernandez Morales & Bonilla Carrión, 2020), realizaron la investigación 
“Bibliominería, datos y el proceso de toma de decisiones”, para extraer información de grandes 
volúmenes de datos como: préstamos, referencia, adquisiciones, entre otros. Utilizando 
herramientas con poco presupuesto y que se pueden utilizar son Orange, Weka, JHepWork, 
Knime y Rapidminer. Para finalizar disponen de sistemas transaccionales que automaticen 
operaciones día a día los cuales son soportados sobre bases de datos relacionales. 
(Jose, 2018), realizó la investigación “Minería de datos aplicada a la detección de 
patrones para el análisis de rendimiento académico de los estudiantes de la carrera de 
Ingeniería en Sistemas Computacionales de la UniversidadCatólica Santiago de Guayaquil”, 
para elaborar un modelo predictivo en beneficio de estudiantes y docentes, cuando ellos se 
inscriban en cada semestre indicando cuál es su probabilidad de éxito alerta o fracaso. La 
metodología KDD se utilizó como herramienta de extracción de datos en Excel; mostrando 
mediante un semáforo 59 pruebas en las que, 16(27,12%) fueron falsos positivos y 6(10,17) 
falsos negativos. 
(Vanegas, 2019), en la Pontifica Universidad Católica del Ecuador, “Modelo de 
minería de datos para la identificación de patrones que influyen en la mora de la cooperativa 
de ahorro y crédito San José”, menciona que existe un problema por la dificultad al analizar la 
información crediticia e histórica de los socios, por tanto, utiliza la metodología CRISP-DM 
para predecir patrones y efectuar la toma de decisiones. La data analizada permitió estudiar 
6033 registros de crédito permitiendo generar reportes y predicción. 
(Luna & Guzman Arenas, 2020), de Instituto Politécnico Nacional, “Minería de datos 
con búsqueda de patrones de comportamiento”, muestra una manera de realizar el 
 
13 
 
descubrimiento de los datos y utiliza técnica de generalización y sumarización de datos en 
cubos de datos. Incluyendo varios tipos de conocimiento; algoritmos matemáticos, 
organización de las bases de datos, algoritmos de recuperación, diseños de interfaces de 
usuarios y sistemas operativos. 
(Grivjalva Arriaga, Freire Avilés, Real Avilés, & Arellano, 2018), de la Universidad 
Católica Santiago de Guayaquil. Realizó la investigación “Aplicación de técnicas de minería 
de datos para el análisis de la eficiencia académica”, teniendo como objetivo estudiar los 
estándares minios para que las Instituciones de Educación Superior cumplan a cabalidad con 
su proceso de evaluación y acreditación; uno de ellos es la eficiencia académica, por ello se 
determinan los factores de mayor incidencia en la deserción estudiantil mediante la minería de 
datos, utilizando de igual manera las técnicas de árboles de decisión y clustering. La aplicación 
para el descubrimiento de conocimiento (KDD) permitió obtener que uno de los factores mas 
importantes son los bajos promedios obtenidos durante los primeros semestres. Todas las 
Universidades de Educación Superior tienen problemas similares o aún mayores, es 
fundamental que los sistemas de información para el registro de datos de los estudiantes sean 
de ámbito personal, económico y académico con la finalidad de ampliar el campo de estudio y 
analizar la información en beneficio de la educación. 
2.2 Fundamentación Teórica 
2.2.1. Tecnologías de la Información 
(Ortí, 2018) Afirma que, TI (Tecnologías de la Información) muestra su desarrollo en 
ámbitos de la informática y las telecomunicaciones. El acceso, producción y comunicación de 
los datos se representa en varios códigos, dependiendo del texto, imagen o sonido. Sin duda, el 
ordenador es el elemento más importante del ser humano para acceder a internet. 
 
14 
 
(Almenara, 1996) Indica que, establecer “nuevas tecnologías” en la sociedad de la 
comunicación e información, produce cambios como en su momento se plasmaron 
significativos en la historia de la imprenta y la electrónica; los alcances y efectos proponen 
cambios en una estructura social, económica, laboral, jurídica y política. Centran su enfoque 
en manipular, almacenar y distribuir datos. 
(Sáez, 1983, como se citó en Beer, 2019) menciona que, “tecnologías de la información 
se considera aquella que se encarga del manejo y tratamiento de los datos, refiriéndose a un 
conjunto de datos; abarca técnicas, dispositivos y métodos que permitan transmitirlos mediante 
señales o conocimientos”. 
2.2.1.1. Dato 
(Santos, 2020) “Representa a un conjunto de caracteres que denotan un significado 
claro; puede ser numérico, alfabético o alfanumérico. Responde a la función (objeto, atributo, 
valor)”. 
(Ramírez, 2018) “Es un conjunto prudente de elementos sobre un hecho real; por lo 
general un dato se almacena en una base de datos que se utiliza por una aplicación informática 
o programa que permite la ejecución de tareas”. 
2.2.1.2. Información 
(Mera, 2018) La base de la sociedad actual es la información. Con el paso del tiempo 
se manejan grandes volúmenes de información y mediante el ordenador se ejecutan tareas en 
el tratamiento de los datos. Es fundamental emplear un sistema de almacenamiento para 
guardar y recuperar información que se solicite. 
(Terán, 2020) Uno de los principales significados que se asocia a la información es que 
se presenta como un conjunto de datos propiamente interrelacionados, los cuales de manera 
 
15 
 
individual solo describen sus características, pero de manera conjunta se obtiene un significado 
el cual proporciona una buena toma de decisiones. 
2.2.3. Base de datos 
(Gómez Ballester, y otros) Definen “Base de Datos” a los archivos y conjunto de datos 
siendo estos correlacionados, recolectados que pueden satisfacer las necesidades de 
información en una determinada área en la que existen numerosas bases de datos. También se 
conoce como un conjunto de archivos que se dedican a guardar información de manera 
complementaria y con la intención de relacionarla. 
(UNAM, 2018) Base de datos o también conocido como DB (Data Base en inglés) es 
un conjunto de datos que pertenecen a un mismo sentido y son almacenados de manera 
sistemática. En este sentido, se puede realizar una similitud con la de una biblioteca debido que 
se compone de libros y mucha información. 
2.2.3.1. Funcionalidad de una Base de datos 
Se denomina un soporte digital que tiene como objetivo almacenar de manera masiva 
información de diferente índole en un formato de texto plano. Se utilizan en sistemas que 
necesitan de una interacción fluida con la conexión en su aplicativo; almacenar, editar y 
eliminar. 
(Pisco Gómez, y otros, 2017) Son diseñadas para gestionar grandes cantidades de datos 
que más adelante representan una información; implica la definición de estructuras como los 
mecanismos que se utilizar para manipular datos. Además, se trabaja la información de manera 
que sea fiable a pesar de fallos o caídas de sistema. 
2.2.3.2. Características de una base de datos 
▪ Posibilita el acceso mediante lenguajes de programación estándar 
▪ Permite la elaboración de consultas complejas por medio de comando 
 
16 
 
▪ Asegura la seguridad de acceso y de su auditaría 
▪ Existen varias opciones de multiusuarios bajo claves 
▪ Almacena, protege y recupera datos administrados 
▪ Autonomía lógica y física de los datos 
▪ Bajo índice de repeticiones 
▪ Diferentes formatos para depurar y tomar datos de interés en tiempo real 
2.2.4. Minería de datos 
(Ramírez, 2018) alega que, minería de datos integra un conjunto de áreas que tienen 
como objetivo identificar a partir de un conocimiento base, nueva información que aporte a 
una correcta toma de decisiones. 
Según (Riquelme, Ruiz, & Gilbert, 2010), la minería de datos representa una explosión 
de información que en la actualidad es almacenada, debido que los datos no se encuentran 
restringidos; como resultado de la mezcla de las técnicas y herramientas para los tipos de datos 
no son adecuadas. La tecnología actual necesita del desarrollo de minería de datos para poder 
distribuirlos por el mundo. 
(Arévalo Cordovilla, 2020) menciona que, esta nueva disciplina de minería de datos se 
creó especialmente para llevar a cabo la etapa de extraer información valiosa de un gran 
volumen de datos; proporciona también una valiosa inteligencia empresarial e incluso en 
estudios científicos y médicos. 
2.2.4.1. Importancia de minería de datos 
(Totvs Latam, 2022) Menciona que, se trata de un procedimiento automatizado que se 
encarga de la búsqueda de patrones en distintos conjuntos de datos que de manera simple el ser 
humano no puede comprender o identificar; centra su objetivo en visualizarpatrones 
correlaciones que permitan predecir resultados futuros. Es un análisis que se estudia a 
 
17 
 
profundidad en una base de datos creada para identificar información y construir modelos a 
partir de ellas; comprender aspectos que influyen en el comportamiento del ser humano y las 
decisiones que toma para generar resultados positivos. 
La minería de datos ha permitido la mejora en la toma de decisiones organizativas 
mediante el análisis para esclarecer datos. Aplicar las técnicas de minería de datos que 
respalden estos análisis la divide principalmente en dos categorías: describir el conjunto de 
datos de destino o prever resultados por medio del uso de algoritmos de machine learning. 
2.2.4.2. Etapas de minería de datos 
(Riquelme, Ruiz, & Gilbert, 2019) La información se extrae del almacenamiento de 
todos los datos que también se conoce como base de datos. La minería de datos funciona 
mediante etapas, siendo una de las principales la recolección de los datos. 
2.2.4.2.1. Extracción de datos 
La configuración del software de minería es uno de los principales pasos, el programa 
posteriormente empezará a buscar los datos que han sido almacenados. Son sistemas muy 
intuitivos que permiten su configuración mediante parámetros con el objetivo de extraer la 
información más importante. 
2.2.4.2.2. Análisis de los datos 
Una vez terminado el proceso de extracción de datos, el programa inicia su análisis de 
los datos con el objetivo de transformarlos en una información clara. Luego, se realiza una 
comparación de relaciones y patrones mediante un parámetro específico. 
2.2.4.2.3. Segmentación de la información 
También se conoce como análisis de clasificación, se trata de un modelo de minería de 
datos que se centra en la segmentación de la información que se extrajo a través de categorías 
 
18 
 
seleccionadas. Para lograr el objetivo se emplea un algoritmo informático que se encarga de 
extraer datos y luego registrarlos en una nueva categoría que cumpla con lo establecido. 
2.2.4.2.4. Técnicas de minería de datos 
La minería de datos aporta a una ventaja fundamental de manera que proporciona 
información importante y oportuna a la cual no se tendría acceso de manera fácil. De esta 
manera se emplean técnicas que en su mayoría van a depender de las necesidades de cada 
empresa. 
2.2.4.2.5. Seguimiento de patrones 
Siendo una de las principales, el seguimiento de patrones implica reconocer y 
monitorear las diferentes tendencias en grupos de datos para realizar un análisis inteligente 
respecto a los resultados de la empresa; este proceso se puede relacionar con muchas cosas, 
desde identificar datos de alto rendimiento a comprender los comportamientos de compra de 
clientes. 
2.2.4.2.6. Asociación 
Implica estudiar las ocurrencias de los atributos conectados, es decir, busca las variables 
que se tengan vinculo en función de sus atributos o eventos establecidos. Las reglas de 
asociación son útiles para estudiar el comportamiento de su consumidor. 
2.2.4.2.7. Clasificación 
Se utiliza para derivar datos importantes y metadatos. Es el proceso que se lleva a cabo 
para dividir grandes cantidades de datos en categorías objetivas; esta categorización se 
determina con un marco de datos; base de datos relacional, base de datos orientada a objetos, 
etc. 
 
19 
 
2.2.4.3. Técnicas de minería de datos 
2.2.4.3.1. Detección de valores atípicos 
Existen instancias en las que el patrón de datos no genera una comprensión clara de 
datos; en esta situación, la técnica de detección de valores atípicos identifica anomalías o 
valores en un conjunto de datos para comprender causas especificas e incluso predicciones más 
precisas. 
2.2.4.3.2. Clustering 
De igual manera que la clasificación, es una técnica que consiste en realizar una 
agrupación de datos en función a similitudes. Permite el descubrimiento de conocimientos, 
detectar anomalías y obtener información interna sobre la estructura de los datos. 
2.2.4.3.3. Patrones Secuenciales 
Como su nombre lo indica, se enfoca en el descubrimiento de patrones o serie de 
eventos de una secuencia. De manera amplia se utiliza en minería de datos transaccionales 
debido que tiene numerosas aplicaciones. Incluso pueden ofrecer ayuda a empresas para la 
recomendación de artículos relevantes a distintos clientes con la finalidad de maximizar sus 
ventas. 
2.2.4.3.4. Árbol de decisión 
Un árbol de decisión también es considerado una técnica de minería de datos con 
enfoque al aprendizaje automático que se ocupa de visualizar las relaciones de modelado en lo 
que respecta a entrada y salida mediante el uso de reglas (sí/entonces). De esta manera, con 
este enfoque se aprende como la entrada influye en la salida de los datos; suelen estar diseñados 
como un diagrama de flujo, de arriba hacia abajo. 
 
20 
 
2.2.4.3.5. Análisis de regresión 
Es una de las técnicas más populares en cuanto aprendizaje automático porque utiliza 
la relación lineal entre variables, ayuda a predecir el verdadero valor futuro de las variables. 
Esta técnica cuenta con numerosas aplicaciones respecto a pronósticos financieros, 
planificación de recursos y toma de decisiones estratégicas. 
2.2.4.3.6. Procesamiento de memoria a largo plazo 
Cuando se hace referencia a procesamiento de memoria a largo plazo se habla de una 
técnica en aprendizaje automático que es utilizado para el análisis de los datos durante períodos 
prolongados y permite la identificación de patrones de datos basados en el tiempo, por ejemplo; 
datos climáticos. 
2.2.4.3.7. Redes Neuronales 
Una red neuronal también se conoce como una de las más populares técnicas en los 
modelos de aprendizaje automáticos que se utilizan en Inteligencia Artificial, de igual manera 
que las neuronas del cerebro buscan identificar las relaciones que existen en los datos. Cuentan 
con diferentes capas que permitan el trabajo colaborativo para arrojar resultados con gran 
precisión. 
2.2.4.4. Metodologías de minería de datos 
(Guzmán, 2020) Existen tres metodologías que dominan en el proceso de minería de datos, 
aquellas son: KDD, CRISP-DM Y SEMMA. 
2.2.4.4.1. KDD (Descubrimiento en base de datos) 
(Jima Narváez, 2020) Según Fayyad en 1996 define Knowledge Discovery in Databases como, 
kdd o descubrimiento de conocimiento en bases de datos como un proceso no trivial, es decir, 
poco común para identificar patrones válidos, novedosos y útiles. En esta definición se 
introducen propiedades del conocimiento extraído: 
 
21 
 
▪ Válido: Los patrones tienen que ser precisos para los nuevos datos y no solo para 
aquellos que se han utilizado. 
▪ Novedoso: Debe aportar algo que se desconoce totalmente. 
▪ Potencialmente útil: Debe tener un beneficio 
▪ Comprensible: La información que no es comprensible no aporta conocimiento en 
cuanto a su utilidad. 
Esta metodología propone cinco fases: selección, preprocesamiento, transformación, minería 
de datos y evaluación e implantación. Se trata de un proceso iterativo e interactivo. 
2.2.4.4.1.1. Fase de selección 
La primera fase corresponde a la de selección cuyo objetivo es identificar las fuentes 
de datos y la recopilación incluso la integración de los mismos en un repositorio, el origen de 
los datos es muy diverso, puede ser interno o externo a la organización. Si es interno es posible 
se considere las bases de datos corporativas, data werehouse o también crear una, para el 
problema que se busque esclarecer; (encuestas, entrevistas, generación de atributos a partir de 
los ya existentes). En esta fase es importante cuidar de los datos debido que son la materia 
prima que va a representar a los modelos de una mejor manera. 
2.2.4.4.1.2. Fase de preprocesamiento y limpieza 
El propósito de esta fase es obtener un conjunto de datos que incluye todos los atributos 
para el problema de estudio en un formato adecuado que cuide de la limpieza, transformación 
yselección del subconjunto de datos que se encuentran contenidos en una base para aplicar 
dicho proceso de minería de datos; en esta fase se realiza un análisis determinante que se hace 
con los datos que tienen poca relevancia o se consideran innecesarios, datos que no se ajustan 
al comportamiento normal, perdidos o faltantes. 
 
22 
 
2.2.4.4.1.3. Fase de transformación 
A fin de eliminar ruido de la base de datos y asegurar la calidad respecto al 
conocimiento que se obtiene, los datos erróneos son algunos de los problemas que se heredan 
de la fase anterior; por ello, se debe identificar de manera clara el origen de los mismos, de 
manera que se pueda realizar validación y verificación al momento de transformar los datos, 
que consiste en modificar su forma, sea de transformación o derivar nuevos atributos, así 
también, cambiar el tipo de dato o rango. 
2.2.4.4.1.4. Fase de minería de datos 
Esta fase se considera el principal núcleo de todo el proceso porque su objetivo 
principal es producir conocimiento realmente útil para que el usuario mediante un modelo tenga 
una base minable, un producto de la fase anterior. Dicho de esta manera, describe patrones y 
relaciones que se pueden usar para realizar predicciones y mejoren la comprensión de los datos 
permitiendo la explicación de escenarios pasados. Contiene también algunos tipos de tareas, 
son consideradas como un problema que debe ser resuelto por un algoritmo y se distingue en 
dos grupos; en el primero las tareas predictivas(clasificación) y en el segundo las descriptivas 
(clustering). 
Clasificación: Es una de las tareas más utilizadas porque se enfoca en realizar la clasificación 
de un dato dentro de sus clases establecidas en un modelo que se encuentra trabajando. 
Clustering: Esta tarea en cambio permite formar grupos que los objetos del mismo grupo que 
establecen características similares entre sí y de igual manera son diferentes a los objetos de 
otro grupo. 
2.2.4.4.1.5. Fase de interpretación y evaluación 
Para la aceptación de un modelo de minería de datos es importante medir la calidad de 
sus patrones para que pueda obtener resultados el algoritmo aprobado, de este modo, se debe 
 
23 
 
incluir tres cualidades; preciso, comprensible e intefresante. Permite estimar la relación entre 
un atributo dependiente y un atributo independiente. 
2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess) 
La propuesta por SAS Institute Inc, en desarrollar esta metodología la define como un 
proceso de selección, exploración y modelamiento de enormes cantidades de datos para 
descubrir patrones de negocios totalmente desconocidos. 
2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining) 
Consiste en un método que se ha probado para orientar los trabajos de minería de datos. 
De manera que incluye descripciones de las fases normales de un proyecto, todas las tareas que 
se deben desarrollar en cada base y una breve explicación de las relaciones entre ellas. También 
se considera un modelo estándar abierto del proceso iniciado ya que describe los enfoques más 
comunes que se utilizan, siendo un modelo analítico más usado. 
2.2.4.4.3.1. Fases de CRISP – DM 
Comprensión del negocio 
▪ Conocimiento de los objetivos y requerimientos del proyecto´ 
▪ Identificación del problema de minería de datos 
Comprensión de los datos 
▪ Alcanzar conjunto inicial de datos 
▪ Inspección del conjunto de datos 
▪ Establecer las características de calidad de datos 
▪ Determinar los resultados iniciales 
Preparación de datos 
▪ Clasificación de los datos 
 
24 
 
▪ Saneamiento de datos 
Modelamiento 
▪ Ejecución de herramientas de minería de datos 
Evaluación 
▪ Decidir si los resultados se ajustan con los objetivos del negocio 
▪ Reconocer los temas de negocio que debieron abordarse 
Despliegue 
▪ Implantar los modelos resultantes en la práctica 
▪ Configuración para minería de datos de forma continua 
2.2.4.4.3.2. Características 
▪ Permite almacenamiento para experiencia y replicar los proyectos 
▪ Permite la planeación y gerencia del proyecto 
▪ Usa un factor comodidad para usuarios nuevos 
▪ Se maneja con madurez cada una de las fases de la minería de datos 
2.2.4.5. Aplicaciones de minería de datos 
(Novoseltseva, 2021) Los avances en la última década en potencia y velocidad de 
procesamiento han permitido dejar atrás las prácticas manuales a un análisis de datos 
automatizado. La minería de datos utiliza metodologías y programas para descubrir relaciones 
entre todos sus elementos a estudiar; las empresas aprovechan este proceso y su aprendizaje 
automático para mejorar las interpretaciones que se obtengan. Es ampliamente utilizada en 
muchas áreas permitiendo el trabajo en conjunto de sus aplicaciones y herramientas para 
obtener un conocimiento sólido e íntegro. 
 
25 
 
2.2.4.5.1. Marketing 
Esta área utiliza la minería de datos para la exploración en bases de datos amplias, de 
tal manera, busca la segmentación en el mercado. Analiza las relaciones entre parámetros 
como; edad, sexo, gustos, etc., en relación a sus clientes. Se posibilita averiguar el 
comportamiento de los mismos para direccionar campañas de fidelización personalizadas. 
También predice como los usuarios pueden ser propensos a dar de baja un servicio, cuales son 
sus intereses al momento de realizar alguna búsqueda y debe incluir un listado de correos 
electrónicos para un mayor índice de respuestas. 
2.2.4.5.2. La banca 
La utilización de la minería de datos en los bancos se usa para una mayor comprensión 
de los riesgos del mercado, habitualmente se aplica a las calificaciones crediticias y a los 
sistemas inteligentes que mantienen la lucha contra el fraude al analizar transacciones, patrones 
de compra, datos financieros y operaciones con tarjeta de sus clientes. Permite conocer mejor 
las preferencias y hábitos para la optimización del rendimiento de sus campañas de marketing; 
canales de venta y la gestión del cumplimiento normativo. 
2.2.4.5.3. Educación 
Minería de datos en ámbitos académicos, también se denomina minería de datos 
educativa (MDE) o educación basada en datos (EDM), se considera una disciplina que utiliza 
para su aplicación algoritmos de análisis de daros en un contexto educativo y beneficia a la 
educación al momento de acceder a datos de los estudiantes, predicción de niveles de 
rendimiento y en la búsqueda de estudiantes o grupos que necesiten atención adicional. 
 
26 
 
2.2.4.5.4. Comercio electrónico 
En el comercio electrónico utilizan minería de datos para ofrecer ventas adicionales y 
cruzadas mediante sus sitios web. Uno de los más conocidos es Amazon, debido que utiliza 
técnicas de minería para obtener más clientes en su tienda electrónica. 
2.2.4.5.5. Comercio minorista 
Los supermercados utilizan patrones de compra de manera conjunta para la 
identificación de asociaciones de productos y establecer como colocar los productos en su 
respectivo lugar, también detecta las ofertas más valiosas por el cliente y la generación de 
aumento de ventas. 
2.2.4.5.6. Proveedores de servicios 
Los proveedores de servicio, así como los de telefonía y servicios públicos, emplean 
minería de datos para descubrir las razones por las que un cliente decide abandonar su empresa. 
Por ello analizan datos de facturación, interacción con atención al cliente y los problemas 
denominadas quejas presentadas a la empresa para asignar una puntuación probabilística y 
ofrecer incentivos. 
2.2.4.5.7. Medicina 
Extraer datos permite dar paso a los diagnósticos de manera precisa, alcanzar toda la 
información de un paciente como; historial médico, examen físico, tratamiento, permite 
mostrar al paciente nuevos tratamientos y soluciones; considerando una gestión eficaz y 
rentable para identificar riesgos en determinados segmentos de la población y a un mayor 
conocimiento de las necesidades del paciente. 
2.2.4.5.8.Televisión y radio 
Existen redes que aplican minería de datos para interactuar activamente, midiendo 
audiencias de tv y radios en línea. Mediante estos sistemas se recopilan y analizan información 
 
27 
 
anónima de los canales, emisiones y programación respecto a sus visualizaciones. Permite 
hacer recomendaciones a espectadores de radio y televisión para comprender mejor su 
comportamiento. 
2.2.4.6. Software de minería de datos 
2.2.4.6.1. Rapidminer Studio 
(RapidMiner, 2021) Es una plataforma que lidera en ciencia de datos y el análisis 
predictivo. Se utiliza en organizaciones, gobiernos, empresas, etc. Se considera una 
herramienta poderosa y una de las más utilizadas, por lo tanto, se recomienda debido que su 
sistema de interfaz y programación requieren menor curva de aprendizaje alcanzando mayor 
productividad en poco tiempo. El sistema visual es una de sus mayores ventajas porque sin 
demasiados conocimientos se puede trabajar en soluciones predictivas en cuanto grandes 
volúmenes de datos. 
2.2.4.6.2. Teradata 
(Teradata, 2019) Teradata Warehouse muestra una solución muy completa que une la 
tecnología de base de datos, plataformas hardware que aportan un crecimiento sobre las 
necesidades de la empresa, herramientas y aplicaciones del mercado. Es una combinación 
integra de experiencia y conocimientos, es diseñada como soporte a la toma de decisiones de 
manera que su arquitectura se encuentra paralela y no está sujeta a limitaciones. 
2.2.4.6.3. Oracle Data Miner 
(Oracle, 2020) Es una interfaz de usuario para descubrir patrones, relaciones e 
información oculta de sus datos; contiene algoritmos de minería y análisis de datos. Oracle 
Data Miner descarta el movimiento y que los datos se dupliquen; mantiene el mínimo tiempo 
de latencia desde los datos que no han sido procesados hasta los datos valiosos, mantiene la 
seguridad y la creación de modelos que se requieren dentro del proceso de minería de datos. 
 
28 
 
Mediante el uso de Oracle Data Miner los usuarios pueden crear modelos descriptivos y 
predictivos para: 
▪ Pronosticar el comportamiento del cliente 
▪ Direccionar a los mejores clientes 
▪ Descubrir, segmentos, clústeres y perfiles 
▪ Reconocer los riesgos de retención de clientes 
▪ Determinar oportunidades de venta 
▪ Identificar comportamientos extraños 
2.2.4.6.4. Knime 
(Knime, 2019) Es perteneciente a una nueva generación de herramientas que se 
denominan plataformas de data science y machine learning por gartner. Este tipo de 
herramientas han permitido a científicos de datos, analistas o usuarios de negocios interactuar 
con los datos, crear y gestionar modelos avanzados. Las funcionalidades principales son: 
importación, preparación, exploración, modelado, evaluación y despliegue de datos. 
Puntos fuertes: 
▪ A través de la interfaz visual la programación de sus aplicaciones es intuitiva y conecta 
visualmente nodos que recopilan varias funciones e integra módulos automatizados. 
▪ Ofrece extensas funcionalidades con la posibilidad de conectar múltiples fuentes de 
datos para unificar datos provenientes de bades de datos, archivos o servicios web. 
▪ Cuenta con una versión gratuita para uso personal y una versión de pago para uso de 
organizaciones. 
2.2.4.6.5. Orange 
(Schmitz, 2023) Se define como un software de minería de datos que utiliza código 
abierto para visualizar, analizar y modelar datos. Permite crear flujos de trabajo, es capaz de 
 
29 
 
efectuar tareas como preprocesamiento, clasificación, regresión, clustering, análisis de redes y 
visualización. Es compatible con formatos de archivos como CSV, Excel, Sql y otros. 
2.2.4.6.6. SAS 
(Merino & Dorado Sánchez, 2020) Es una herramienta de minería de datos SAS 
Enterprise Miner que es útil para el descubrimiento de nuevas y notables relaciones, patrones 
y tendencias para examinar grandes cantidades de datos. Efectuar el proceso de minería de 
datos incluye la selección de fuentes de datos y la calidad de los mismos. Se pueden generar 
modelos a través de SAS Rapid Predictive, mejora la precisión comparando evaluaciones y 
estadísticas de predicción de modelos con varios enfoques. 
2.2.4.6.7. Qlik 
Admite extraer el valor que se encuentra oculto en los datos que se generan en las 
empresas; se trata de una plataforma de inteligencia activa, cuenta con funciones en la nube, 
emplea inteligencia artificial y analiza en tiempo real para toma de decisiones fundamentadas 
y colaborativas. Al combinar inteligencia artificial con la interacción humana facilita llevar a 
cabo la inteligencia aumentada y se consigue a traes de indexación asociativa que generan de 
manera automática conocimientos sobre los datos para que puedan ser explorados por usuarios. 
2.2.4.6.8. Weka 
Software de código abierto que facilita herramientas para preprocesar la 
implementación de algunos algoritmos de aprendizaje automático y herramientas de 
visualización que puedan efectuar el desarrollo de técnicas de aprendizaje automático. Primero 
comienza con datos sin procesar que se han recopilado en el campo. Estos datos contienen 
valores nulos e irrelevantes, por lo tanto, utiliza herramientas proporcionadas por Weka para 
realizar una limpieza exhaustiva. Luego, guarda los datos en su almacenamiento local para la 
aplicación de algoritmos. 
 
30 
 
2.2.4.6.9. Sisense 
 (The data Schools, 2023) Es una plataforma que analiza datos, se encuentra diseñada 
para ofrecer capacidades avanzadas que permitan a los usuarios tomar decisiones basadas en 
una información precisa y oportuna. Los analistas pueden crear reportes de manera rápida, 
ofrece funcionalidades que aceleran el proceso de desarrollo e implementación lo que reduce 
significativamente el tiempo para obtener resultados. 
▪ Integración de datos: conecta y consolida datos de varias fuentes, incluyendo bases de 
datos, aplicaciones y servicios de nube. 
▪ Visualización de datos: variedad de opciones para visualizar datos: gráficos, tablas, 
paneles. 
▪ Análisis y exploración de datos: herramientas avanzadas para el descubrimiento de 
patrones, tendencias, relaciones ocultas. 
▪ Creación de informes: Los usuarios pueden crear informes y dashboards interactivos. 
▪ Analítica predictiva: permite realizar pronósticos y modelar escenarios futuros. 
▪ Acceso móvil: visualización de datos desde dispositivos móviles. 
2.2.5. Visualización de Información 
(Gómez, 2018) Es la práctica de representación de datos de un modo visual y 
significativa; la visualización de información permite que los usuarios puedan comprender 
fácilmente la información de una manera eficaz y poder compartir conocimientos de manera 
sencilla con personas no expertas en un determinado tema. Muchas veces las visualizaciones 
se crean pensando en la audiencia a la cual se quiera explicar la información, por ello, se 
diseñan herramientas y tecnologías con funciones interactivos para fácil manipulación. 
(Gómez M. , 2023) Es la traducción de datos cuantitativos representados en un lenguaje 
visual para que los usuarios obtengan una mejor comprensión; para efectuar la visualización 
 
31 
 
de datos se requiere de herramientas y conocimientos para elaborar el diseño, así como el 
manejo de sus datos, de modo que se obtenga un resultado objetivo. 
2.2.5.1. Importancia de la Visualización de Datos 
(Valero Sancho, 2020) Los usuarios dentro de organizaciones actuales se exigen tener 
acceso a datos; la representación de datos debe ser en formato fácil para entender de manera 
puntual la leyenda de los gráficos. De manera empresarial se necesita una representación de 
datos e interacción de forma intuitiva. Las herramientas de visualización permiten a los 
responsables de manejar dicha información una buena toma de decisiones para trabajar los 
datos con menor dificultad, por lo tanto, se obtiene valor en toda la organización. También se 
considera una habilidad clave en la actualidad,

Continuar navegando

Materiales relacionados