Marcillo Pincay Joselyn Mercedes

•

Inst Educ Madre Maria Mazarello

alonso gar

28/3/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Minería

1476 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ

FACULTAD DE CIENCIAS TÉCNICAS

CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN

PROYECTO DE TITULACIÓN PREVIO A LA OBTENCIÓN
DEL TÍTULO DE

INGENIERA EN TECNOLOGÍAS DE LA INFORMACIÓN

TEMA:
VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS
PARA ANALISIS DE PATRONES EN LOS PROYECTOS DE
TITULACIÓN DE LA FACULTAD DE CIENCIAS TÉCNICAS EN
LA UNESUM
AUTORA:
MARCILLO PINCAY JOSELYN MERCEDES

TUTOR:
ING. LENIN JONATAN PIN GARCÍA, PHD.

JIPIJAPA – MANABÍ – ECUADOR

2024

iii

DEDICATORIA
El presente trabajo es dedicado especialmente a Dios, por guiarme en cada paso largo y firme
durante toda mi formación. A mis padres Verónica y Paúl, que han sido indispensables en mi
vida, en mi trayectoria estudiantil, en forjar mi carácter y en todo lo que soy ahora; por ello
dedico tan significativo logro. A mi mascota Kiam (+), que hoy ya no me acompaña físicamente
pero que estuvo conmigo cuando debía entregar trabajos académicos, brindándome su tiempo
y compañía. A mis hermanos quienes son mi fuente de inspiración y de apoyo.
A mi esposo por motivarme cada día e impulsarme a cumplir cada uno de mis objetivos, en
definitiva, a los docentes de la carrera por mostrarme varias maneras de enseñar y compartir
cada uno de sus conocimientos.
Gracias a todos.

AGRADECIMIENTO
Estoy tan agradecida con la vida por cada logro y cada tropiezo, más aún por que las caídas me
han impulsado a ser una mujer más valiente y con más ganas de triunfar. Estoy tan convencida
que para obtener resultados siempre es importante trabajar día a día por ellos. Mi madre siempre
ha sido fuente de inspiración porque me ha enseñado a ser una persona dedicada y funcional,
me ha enseñado que con esfuerzo y trabajo conseguimos nuestras metas; es por ello que esta
meta alcanzada no solo es mía, sino de ambas.
La Universidad Estatal del Sur de Manabí, permitió que yo alcanzara aquellos frutos por los
cuales un día trabajé, por ello agradezco su buena formación por medio de los docentes de la
carrera y las oportunidades que se me brindó, entre ellos una beca que me ayudó a costear un
dispositivo tecnológico para realizar mis tareas semestre a semestre.

vii

INDICE DE CONTENIDOS

RESUMEN ............................................................................................................................................. xii
ABSTRACT ........................................................................................................................................... xiii
TITULO DEL PROYECTO ......................................................................................................................... 1
CAPITULO I. ASPECTOS GENERALES ...................................................................................................... 2
1.1. Introducción ............................................................................................................................. 2
1.2. Planteamiento Del Problema Científico............................................................................. 4
1.3 Formulación Del Problema ...................................................................................................... 6
1.4. Definición Del Objeto ............................................................................................................... 6
1.5. Objetivos ................................................................................................................................... 7
1.5.1. Objetivo General ............................................................................................................... 7
1.6. Hipótesis.................................................................................................................................... 7
1.7. Definición De Características o Variables .............................................................................. 7
Variable Dependiente: ................................................................................................................ 7
Variable Independiente: ............................................................................................................. 8
1.8. Justificación .............................................................................................................................. 8
CAPITULO II: MARCO TEÓRICO ........................................................................................................... 10
2.1. Antecedentes Investigativos ................................................................................................... 10
2.2 Fundamentación Teórica ........................................................................................................ 13
2.2.1. Tecnologías de la Información ........................................................................................ 13
2.2.1.1. Dato ............................................................................................................................... 14
2.2.1.2. Información ................................................................................................................... 14
2.2.3. Base de datos .................................................................................................................... 15
2.2.3.1. Funcionalidad de una Base de datos ............................................................................ 15
2.2.3.2. Características de una base de datos ............................................................................. 15
2.2.4. Minería de datos ............................................................................................................... 16
2.2.4.1. Importancia de minería de datos ................................................................................... 16
2.2.4.2. Etapas de minería de datos............................................................................................ 17
2.2.4.2.1. Extracción de datos .................................................................................................... 17
2.2.4.2.2. Análisis de los datos ................................................................................................... 17
2.2.4.2.3. Segmentación de la información................................................................................ 17
2.2.4.2.4. Técnicas de minería de datos ..................................................................................... 18
2.2.4.2.5. Seguimiento de patrones ............................................................................................ 18
2.2.4.2.6. Asociación .................................................................................................................. 18
viii

2.2.4.2.7. Clasificación ............................................................................................................... 18
2.2.4.3. Técnicas de minería de datos ........................................................................................ 19
2.2.4.3.1. Detección de valores atípicos ..................................................................................... 19
2.2.4.3.2. Clustering ................................................................................................................... 19
2.2.4.3.3. Patrones Secuenciales ................................................................................................ 19
2.2.4.3.4. Árbol de decisión ........................................................................................................ 19
2.2.4.3.5. Análisis de regresión .................................................................................................. 20
2.2.4.3.6. Procesamiento de memoriaa largo plazo .................................................................. 20
2.2.4.3.7. Redes Neuronales ....................................................................................................... 20
2.2.4.4. Metodologías de minería de datos ................................................................................. 20
2.2.4.4.1. KDD (Descubrimiento en base de datos) ................................................................... 20
2.2.4.4.1.1. Fase de selección ..................................................................................................... 21
2.2.4.4.1.2. Fase de preprocesamiento y limpieza ...................................................................... 21
2.2.4.4.1.3. Fase de transformación ........................................................................................... 22
2.2.4.4.1.4. Fase de minería de datos ......................................................................................... 22
2.2.4.4.1.5. Fase de interpretación y evaluación ....................................................................... 22
2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess) ................................................. 23
2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining) .......................... 23
2.2.4.4.3.1. Fases de CRISP – DM ............................................................................................. 23
2.2.4.4.3.2. Características ......................................................................................................... 24
2.2.4.5. Aplicaciones de minería de datos .................................................................................. 24
2.2.4.5.1. Marketing ................................................................................................................... 25
2.2.4.5.2. La banca ......................................................................................................................... 25
2.2.4.5.3. Educación ................................................................................................................... 25
2.2.4.5.4. Comercio electrónico .................................................................................................. 26
2.2.4.5.5. Comercio minorista .................................................................................................... 26
2.2.4.5.6. Proveedores de servicios ............................................................................................. 26
2.2.4.5.7. Medicina ..................................................................................................................... 26
2.2.4.5.8. Televisión y radio ....................................................................................................... 26
2.2.4.6. Software de minería de datos ........................................................................................ 27
2.2.4.6.1. Rapidminer Studio ...................................................................................................... 27
2.2.4.6.2. Teradata ...................................................................................................................... 27
2.2.4.6.3. Oracle Data Miner ..................................................................................................... 27
2.2.4.6.4. Knime.......................................................................................................................... 28
2.2.4.6.5. Orange ........................................................................................................................ 28
2.2.4.6.6. SAS ............................................................................................................................. 29
ix

2.2.4.6.7. Qlik ............................................................................................................................. 29
2.2.4.6.8. Weka ........................................................................................................................... 29
2.2.4.6.9. Sisense ........................................................................................................................ 30
2.2.5. Visualización de Información .......................................................................................... 30
2.2.5.1. Importancia de la Visualización de Datos .................................................................... 31
2.2.5.2. Técnica De Visualización De Datos .............................................................................. 32
2.2.5.2.1. Gráfico de Línea ......................................................................................................... 32
2.2.5.2.2. Gráfico de Barras ....................................................................................................... 32
2.2.5.2.3. Gráfico de dispersión.................................................................................................. 33
2.2.5.2.4. Gráfico de área ........................................................................................................... 34
2.2.5.2.5. Gráfico Indicador ....................................................................................................... 34
2.2.6. Rendimiento académico ................................................................................................... 35
2.2.7. Gestion del conocimiento .................................................................................................... 35
2.2.8. Minería de texto .................................................................................................................. 35
2.2.9. Mineria de texto en la gestión del conocimiento ............................................................... 36
2.2.10. Modalidades de publicación de documentos científicos ................................................. 37
2.3. Marco Conceptual ................................................................................................................... 38
CAPITULO III MARCO METODOLÓGICO .............................................................................................. 42
3.1. Tipo de investigación.................................................................................................................... 42
3.1. Métodos teóricos .................................................................................................................. 42
3.1.1. Histórico-lógico ................................................................................................................ 43
3.1.2. Análisis-Síntesis ............................................................................................................... 43
3.1.3. Inducción-deducción ........................................................................................................ 44
3.2. Métodos empíricos ............................................................................................................... 44
3.3. Técnicas e instrumento de recolección de datos. ................................................................ 44
3.3.1. Técnicas ............................................................................................................................ 44
3.3.1.1. Observación ................................................................................................................... 45
3.3.1.2. Entrevista ....................................................................................................................... 45
3.3.2. Instrumentos..................................................................................................................... 45
3.3.2.1. Ficha de entrevista ........................................................................................................ 45
3.3.3. Herramientas tecnológicas ...............................................................................................45
3.3.3.1. Atlas TI .......................................................................................................................... 45
3.3. Población y muestra ............................................................................................................ 46
3.3.1. Población .......................................................................................................................... 46
3.3.2 Muestra .............................................................................................................................. 46
3.4. Análisis e interpretación de los resultados.......................................................................... 46
x

CAPITULO IV: PROPUESTA .................................................................................................................. 51
4.1. Análisis Situacional ............................................................................................................ 52
4.2. Diagnóstico .......................................................................................................................... 53
4.2.1. Análisis de las Fortalezas, Oportunidades, Debilidades y Amenazas ................................. 53
4.3. Factibilidad ......................................................................................................................... 54
4.3.1. Factibilidad Operativa ...................................................................................................... 54
4.3.2. Factibilidad Tecnológica .................................................................................................. 55
4.3.3. Factibilidad Económica ................................................................................................... 56
4.4. Desarrollo de la propuesta .................................................................................................. 57
4.4.1. Ejecución del modelo KDD .................................................................................................. 58
CAPITULO V: ASPECTOS ADMINISTRATIVOS ....................................................................................... 68
5.1. Presupuesto/Recursos: humanos, Materiales, Financieros ............................................... 68
5.2. Cronograma de Actividades. Diagrama de Gantt ................................................................... 69
5.2.1. Cronograma de actividades del proceso de investigación.................................................... 70
5.3. Conclusiones ....................................................................................................................... 71
5.4. Recomendaciones ................................................................................................................ 72
Bibliografía ............................................................................................................................................ 1
Vista general del proceso KDD ............................................................................................................ 14
Rapidminer ......................................................................................................................................... 15
Gestionar datos en Rapidminer ................................................................................................... 16
Entrada de datos y muestra de resultados .................................................................................. 17
Operadores .................................................................................................................................... 17
Operador Set Role ........................................................................................................................ 19
Operador Split Data ..................................................................................................................... 20
Árbol de decisión ........................................................................................................................... 20
Árbol de decisión en Rapidminer 1 .......................................................................................... 22
Resultados obtenidos del árbol de decisión ............................................................................. 22
Visualización de información .............................................................................................................. 28
Dashboards ......................................................................................................................................... 33

INDICE DE TABLAS
Tabla 1 Población .............................................................................................................................. 46
Tabla 2 FODA ................................................................................................................................... 53
Tabla 3 Versión de pago Rapidminer y Tableau ................................................................................ 56
Tabla 4 Vista minable generada ......................................................................................................... 58
Tabla 5 Proceso de descubrimiento de conocimiento: Fase de selección ........................................... 59
Tabla 6 Identificación de variable de objetivos de estudio ................................................................. 62
Tabla 8 Presupuesto ........................................................................................................................... 68
Tabla 9 Cronograma de Actividades .................................................................................................. 69
Tabla 10 Cronograma del proceso de Investigación ........................................................................... 70
INDICE DE ILUSTRACIONES
Ilustración 1 Repositorio digital de la UNESUM .............................................................................. 57
Ilustración 2 Vista minable en excel .................................................................................................. 60
Ilustración 3 Vista minable en Rapidminer ....................................................................................... 61
Ilustración 4 Árbol de decisión generado en Rapidminer .................................................................. 63
Ilustración 5 Árbol de decisión generado en Rpidminer .................................................................... 65
Ilustración 6 Árbol de decisión generado en Rapid miner ................................................................. 66
Ilustración 7 Dashboard elaborado en Tableau Public ....................................................................... 67
INDICE DE FIGURAS
Figura 1 Comparación de tendencias de varias empresas .................................................................... 32
Figura 2 Gastos de viaje de una empresa ........................................................................................ 33
Figura 3 Notas de matemáticas y estadística de 20 alumnos .............................................................. 33
Figura 4 Ganancias mensuales de tiendas .......................................................................................... 34
Figura 5 Actividades de mineria de texto ............................................................................................ 36
Figura 6 Porcentaje de revistas en open Access con respecto al total ............................................... 37
Figura 7 Crecimiento (%) promedio de documentos científicos publicados por país. ......................... 38

file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700848
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700849file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700850
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700851
file:///C:/Users/Joselyn%20Mercedes/Documents/TESIS-JOSELYN/TESIS1.1.docx%23_Toc149700854
xii

RESUMEN
Las instituciones de Educación Superior en América Latina se encuentran enfocadas en
favorecer el desarrollo de investigaciones a fin de mantener entornos de trabajo que
proporcionen instrumentos para el análisis del conocimiento. Sin embargo, es una tarea difícil
mejorar la colaboración entre universidades para fomentar el intercambio de información fiable
y objetiva. La visualización de información y minería para analizar los patrones en los
proyectos de titulación se llevó a cabo mediante la recopilación de datos del repositorio digital
de la Universidad Estatal de Manabí, el mismo que almacena en su totalidad los proyectos
de titulación de la Facultad de Ciencias Técnicas. Esta investigación propone conocer el alto
valor de los proyectos de la Carrera de Tecnologías de la Información con el descubrimiento
de conocimiento en base de datos denominado (KDD), utilizando herramientas de análisis para
la transformación de los datos tales como: Rapid Miner y Tableau. Cabe mencionar que no
existe una base de datos centralizada, por lo tanto, el propósito de esta investigación es la
elaboración de un dashboard aplicando minería de datos para la visualización del
descubrimiento de patrones. La investigación es de tipo descriptiva, buscando recopilar datos
directamente de su estado inicial, trabajar los datos en Rapidminer para conocer la influencia
sobre el comportamiento de los datos y los patrones resultantes. En el desarrollo de la propuesta
se observa las fases del proceso kdd para mostrar los datos estructurados y conocer a que líneas
de investigación se orientan los proyectos de titulación; mediante la creación de un dashboards
en Tablaau creando oportunidades para la investigación en diversas áreas, y la construcción de
nuevos conocimientos..
PALABRAS CLAVE: Dashboard; minería; patrones; kdd; visualización

xiii

ABSTRACT
Higher Education institutions in Latin America are focused on promoting the development of
research in order to maintain work environments that provide instruments for the analysis of
knowledge. However, it is a difficult task to improve collaboration between universities to
encourage the exchange of reliable and objective information. The visualization of information
and mining to analyze the patterns in the degree projects was carried out by collecting data
from the digital repository of the Universidad Estatal de Manabí, the same one that stores the
degree projects of the Technical Sciences Faculty. This research proposes to know the high
value of the projects of the Information Technology Career with the discovery of knowledge
in a database called (KDD), using analysis tools for data transformation such as: Rapid Miner
and Tableau. It is worth mentioning that there is no centralized database, therefore, the purpose
of this research is the development of a dashboard applying data mining to visualize the
discovery of patterns. The research is descriptive, seeking to collect data directly from its initial
state, work the data in Rapidminer to understand the influence on the behavior of the data and
the resulting patterns. In the development of the proposal, the phases of the kdd process are
observed to show the structured data and know which lines of research the degree projects are
oriented towards; by creating dashboards in Tablaau, creating opportunities for researching in
various areas, and the construction of new knowledge.
KEYWORDS: Dashboard; mining; patterns; kdd; display

TITULO DEL PROYECTO
VISUALIZACIÓN DE INFORMACIÓN Y MINERÍA DE DATOS PARA ANALISIS
DE PATRONES EN LOS PROYECTOS DE TITULACIÓN DE LA FACULTAD DE
CIENCIAS TÉCNICAS EN LA UNESUM

CAPITULO I. ASPECTOS GENERALES
1.1. Introducción
El conocimiento en minería de datos consiste en el análisis exploratorio y modelado de
grandes cantidades de datos, involucra e integra diferentes técnicas en sus diversas disciplinas
como: Data Warehouse, estadística, aprendizaje de máquina, computación de alta performance,
computación evolutiva, reconocimiento de patrones, redes neuronales, visualización de datos,
recuperación de información, procesamiento de imágenes y señales, y análisis de datos
espaciales o temporales.
Los datos almacenados son un tesoro para las organizaciones, es en donde se guardan
las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, además
representan la memoria de la organización.
Implementar el procesamiento de los datos permite analizar factores de influencia en
determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o
agrupar ítems similares, además de obtener secuencias de eventos que provocan
comportamientos específicos, siendo su principal ventaja inferir en comportamientos, modelos,
relaciones y estimaciones de los datos, para poder desarrollar predicciones sobre los mismos,
sin la necesidad de contar con patrones o reglas preestablecidas, permitiendo tomar decisiones
proactivas y basadas en un conocimiento acabado de la información.
La visualización de información y minería para analizar los patrones en los proyectos
de titulación se llevará a cabo mediante la recopilación de datos del repositorio de la Facultad
de Ciencias Técnicas de la Universidad Estatal de Manabí el cual, almacena en su totalidad
los proyectos de titulación de las carreras de Tecnologías de la Información, Telemática e
Ingeniería Civil. El proyecto se propone mediante la utilización de plataformas de análisis que
transforman los datos para la resolución de problemas. Luego de conocer las carreras
pertenecientes a la facultad, se escogió la carrera de Tecnologías de la Información porque

maneja una guía metodológica que cumple con el formato de datos para aplicar minería de
datos y visualización de información
Por tal razón, el paso principal a realizar es la recopilación de los datos de valor en una
matriz de Excel, el cual simplifica la información y acelera el análisis en los programas
escogidos: Tableau como herramienta tecnológica para combinar la búsqueda por bases de
datos con un lenguaje descriptivo para la representación de gráficos. Del mismo modo
Rapidminer atribuye el desarrollo de procesos de análisis mediante el encadenamiento de
operadores a través de un entorno gráfico.
El trabajo de investigación se desarrolla debido a la problemática encontrada, la cual
consiste en que no existe una base de datos centralizada de los proyectos de titulación, es
importante la aplicación de este tipo de procedimientos porque permite la organización de la
información y descubrir las tendencias en todos los procesos a los que se direccionan. Por lo
tanto, este estudio beneficia a los docentes de la carrera conocer una visualización de los datos
mas profunda y poder trabajarlos en miras de mejoras los procesos académicos o direccionar
trabajos de investigación a otras áreas de estudio.
La investigación se encuentra compuesta por cinco capítulos, entre ellos, el
CAPITULO I, nos muestra la introducción del trabajo de investigación, seguido del
planteamiento científico, objetivos, justificación, de tal manera que se pueda obtener una visión
mucho mas amplia del objeto de estudio.
Seguidamente, el CAPITULO II, se compone del marco teorico en el que se expresa
la relación de las dos variables en función de la investigación, antecedentes, fundamentación
teorica y marco conceptual, en este apartado se expone la investigación científica mediante la
revisión literaria y análisis de enfoque teóricosde varios autores fundamentales para esclarecer
el contexto de la investigación.

El CAPITULO III, aborda la metodología aplicada, en el que se detalla el tipo de
investigación, métodos y técnicas utilizadas para la obtención de los datos, también se muestra
los resultados sobre la percepción del encargado de manejar la información de los trabajos de
titulacion y la subida de información al repositorio digital.
Consecuentemente, el CAPITULO IV, evidencia la propuesta en función del análisis
situacional, en el que se expone el procedimiento que se lleva a cabo para el tratamiento de los
datos y la aplicación de minería, obteniendo como resultado un dashboard en el que se
representa la información mas relevante.
En el CAPITULO V, se plantea los aspectos administrativos como el presupuesto para
la ejecución del trabajo de investigación, cronograma de actividades, conclusiones y
recomendaciones.
1.2. Planteamiento Del Problema Científico
En la tecnología actual se manejan grandes cantidades de datos que se perciben como
un elemento principal para extraer un conocimiento nuevo. La minería de datos se transforma
en la unión de métodos y procedimientos para resolver una serie de problemas; se busca obtener
pautas o patrones a partir de los datos recopilados siendo una disciplina práctica que esclarece
dudas y obtiene proyección para la toma de decisiones en base a grandes volúmenes de datos.
El procedimiento de profundizar en los datos para descubrir tendencias es muy
complejo debido que los usuarios necesitan extraer conocimiento de diferentes fuentes; la
minería de datos es un proceso que debe ser interactivo para permitir su enfoque en la búsqueda
de patrones en función de buenos resultados. Los niveles de abstracción juegan un papel
esencial para expresar los patrones descubiertos mediante la extracción de información de
grandes cantidades de datos.
Hoy en día la minería de datos es indispensable para resolver problemáticas de la
cotidianidad; en una pequeña tienda para determinar las ventas que ha tenido un producto

durante un determinado tiempo es importante partir de la propia información de ventas diarias
para en próximos meses organizar el producto y promocionarlo de una manera más eficiente;
lo mismo sucede con las grandes empresas de supermercados las cuales buscan conocer sobre
el comportamiento de compra de sus clientes, hasta determinar información personal de un
individuo sobre sus intereses.
La educación es un trabajo constante para mejorar la eficiencia académica y potenciar
un entorno educativo de calidad que supere las limitaciones tanto de estudiantes y docentes en
las distintas universidades; La minería de datos y la incorporación de las TIC (Tecnologías de
la Información y Comunicación) en la educación, acumulan grandes cantidades de datos que
en lo posterior requieren del tratamiento adecuado para utilizarlos en la toma de decisiones, lo
cual debe generar información valiosa que optimice los datos ya existentes.
En Manabí, la investigación científica, la vinculación con la sociedad y prácticas pre
profesionales, son procesos indispensables para la construcción y aplicación de los
conocimientos adquiridos durante el proceso de enseñanza-aprendizaje para fomentar el
carácter profesional e investigador de los estudiantes. Los proyectos de titulación son parte de
los requerimientos para la obtención de un título de tercer nivel, estos pueden ser de estudio o
de implementación, sin embargo, no existe una visualización de los datos en grandes
volúmenes que permita observar a que líneas de investigación se direccionan.
El sistema de gestión académico de la Universidad Estatal del Sur de Manabí, contiene
un repositorio que genera grandes cantidades de datos; se almacenan todos los proyectos de
titulación de la facultad de Ciencias Técnicas, se encuentran accesibles para cada estudiante,
docente o usuario en general. La información se encuentra pública pero no existe una base de
datos centralizada que muestre los datos de manera estructurada y el descubrimiento de
tendencias en todos los procesos a los que se dirigen los profesionales en formación.

La carrera de Tecnologias de la Informacion, fue la escogida para trabajar con las
grandes cantidades de datos que se almacenan de trabajos de titulacion que ejecutan los
estudiantes, es potencialmente útil estudiar esta información porque muestra una manera
distinta del camino que toma cada uno de los datos y como la representación de ese camino
puede llevar a identificar patrones significativos que aporten positivamente la toma de
decisiones sobre un determinado grupo de estudiantes. La solución que se busca con la presente
investigación es aplicar minería de datos a todos los documentos digitales que se encuentran
subidos en el repositorio, analizarlos, buscar los posibles patrones y elaborar un dashboard que
permita visualizar los hallazgos más importantes, obteniendo así, datos precisos, coherentes y
de alto valor.
El trabajo se realiza para conocer la aplicación de minería de datos en la educación; la
evaluación de patrones de comportamiento y la identificación de líneas de investigación a las
que se direccionan los estudiantes; lo que permitirá a los docentes de la facultad implementar
herramientas educativas que mejoren las experiencias de aprendizaje teórico-práctico y que
reconozcan la diversidad de enfoques para abordar un determinado problema.
1.3 Formulación Del Problema
¿Qué aportes brindará la visualización de información y minería de datos para el análisis de
patrones en los proyectos de titulación de la carrera de Tecnologías de la Información?
1.4. Definición Del Objeto
La investigación presentada tiene el propósito de aplicar el proceso de minería de datos
para descubrir patrones o anomalías en grandes conjuntos de datos, tales como, el repositorio
digital de la UNESUM, en el cual se albergan todos los proyectos de titulación de la facultad
de Ciencias Técnicas, dicho esto, es importante destacar que no son datos estructurados, lo
cual, dificulta conocer las tendencias a las que se direccionan, o datos principales que permitan

obtener un acercamiento más preciso sobre los estudiantes, una vez dado el cumplimiento del
proceso de minería los resultados se representarán mediante la visualización de información.
1.5. Objetivos
1.5.1. Objetivo General
Realizar visualización de información y minería de datos para análisis de patrones en los
proyectos de titulación de la facultad de Ciencias Técnicas en la UNESUM.
1.5.2. Objetivos específicos
✓ Establecer los requerimientos para la visualización de información y minería de datos
para el descubrimiento de patrones en los proyectos de titulación de la facultad de
ciencias técnicas en la UNESUM
✓ Analizar el proceso KDD para aplicarlo en la base de datos en los proyectos de
titulación de la facultad de Ciencias Técnicas en la UNESUM
✓ Elaborar un dashboard con la interpretación de los resultados obtenidos del proceso
KDD en los proyectos de titulación de la facultad de ciencias técnicas en la UNESUM
1.6. Hipótesis
Con la visualización de información y minería de datos mejora significativamente el análisis
de patrones de los proyectos de titulación de la Facultad de Ciencias Técnicas en la UNESUM
1.7. Definición De Características o Variables
La visualización y minería de datos favorece el análisis de patrones en los proyectos de
Titulación de La Facultad de Ciencias Técnicas en la UNESUM
Variable Dependiente:
Análisis de patrones en los proyectos de titulación

Variable Independiente:
Visualización de información y minería de datos
1.8. Justificación
Una de las razones principales para elaborar la investigación es reconocer lo
importancia de la búsqueda de patrones en grandes conjuntos de datos que, de manera rápidano se pueden identificar, pero al realizar un análisis en profundidad se pueden extraer
conocimientos claves para la construcción de modelos o algoritmos que pueden predecir
resultados concretos. Por esta razón, dentro de la investigación se encuentra un enfoque teórico
que ha permitido la comprensión de cómo se realiza el proceso de minería y visualización de
datos.
La minería de datos es un proceso mediante el cual es posible encontrar en grandes
volúmenes de datos, patrones, anomalías y correlacionales, lo que permite predecir resultados
lo que constituye a una diferencia clave en cualquier organización. Con lo antes mencionado,
aplicar minería de datos a los proyectos de titulación permite, interpretar y generar
visualizaciones de conocimiento útil. La ejecución de minería de datos básicamente permite
que se minimice cantidad de datos redundantes y se transforme en objeto de análisis para
mejorar el rendimiento académico y predecir las líneas de investigación a las que se direcciona
el comportamiento del estudiante.
La principal contribución es aplicar minería de datos a los trabajos de Titulación para
extraer y/o analizar datos provenientes de cada trabajo: título del trabajo, año de publicación,
palabras clave, presupuesto y población. A través de la aplicación de técnicas y herramientas
de minería de datos para entender de manera contextualizada los comportamientos de una
población, en efecto, mediante la interpretación de patrones. Tomando como metodología el
proceso de descubrimiento de conocimiento en base de datos (kdd, Knowledge Discovery

in Databases). De manera que se evidencie la evolución de la carrera en los últimos dos años y
mejorar los diferentes procesos de formación del estudiante.
Las innovaciones en los sistemas educativos destacan por introducir nuevas tecnologías
para mejorar los entornos de enseñanza-aprendizaje de modo que genere beneficio en
estudiantes y docentes; el repositorio digital de la UNESUM, almacena todos los trabajos de
titulación, por tanto, este espacio incrementa la cantidad de datos lo cual refleja una
contribución para explorar grandes bases de datos de manera automática.
La investigación tiene como finalidad la elaboración de un dashboard con la
interpretación de los resultados obtenidos del proceso KDD. La viabilidad del proyecto, desde
el punto técnico cuenta con herramientas tecnológicas de versión gratuita, en la estimación del
presupuesto no incluye costos, por tanto, no genera gastos mayores. También se considera el
uso de recursos humanos para la gestión positiva de las tareas realizadas durante la elaboración
del proyecto. Quienes se benefician del trabajo de investigación, es la facultad de Ciencias
Técnicas, considerando, al decano de la facultad, coordinadores de carrera y biblioteca de la
Universidad Estatal del Sur de Manabí.

CAPITULO II: MARCO TEÓRICO
2.1. Antecedentes Investigativos
(Calvache Fernández, Álvarez Vallejo, & Triviño Arbeláez, 2018), De la Universidad
de Quindío, Armenia, Colombia. Demostraron en su investigación “Proceso KDD como apoyo
a las estrategias del proyecto SARA (Sistema de acompañamiento para el rendimiento
académico)” Los altos índices de deserción estudiantil, siendo uno de los principales
problemas; cerca de la mitad de los estudiantes que inician sus estudios no logran concluirlos.
Por lo tanto, el proyecto SARA, aplica el proceso KDD para localizar patrones y predecir casos
de deserción; datos personales, socioeconómicos y académicos. Dicho esto, los factores de
deserción más importantes se sitúan en el ámbito personal y socioeconómico; el núcleo
familiar, integrantes de la familia y fuente de financiación. Finalmente, la minería de datos
permitió el manejo eficiente de sus datos para intervenir en la retención de los estudiantes
brindando la posibilidad de tomar buenas decisiones.
(Mancilla Vela, Leal Gatica, Sánchez Ortiz, & Vidal Silva, 2020), puntualizan en su
investigación “Factores asociados al éxito de los estudiantes en modalidad de aprendizaje en
línea: análisis en minería de datos”, sobre la modalidad de aprendizaje en línea en las que se
establece variables asociadas al éxito o fracaso; los programas a distancia de los estudiantes
son generadores de grandes cantidades de datos, tienen la capacidad de registrar algunas
variables asociadas a su proceso de aprendizaje. Aplicando técnicas de minería de datos, se
obtienen dos partes fundamentales; la construcción de modelos y la detección de patrones. El
método utilizado corresponde al modelo CRISP-DM (proceso cruzado estándar de la industria
para la minería de datos) aplicado a programas de e-learning. Contribuyendo a un mayor
entendimiento en la situación académica final del estudiante, los programas con mayor éxito o
con mayor fracaso.

(Bedregal Alpaca, Tupacyupanqui Jaén, & Cornejo Aparicio, 2020), elaboraron la
investigación “Análisis del rendimiento académico de los estudiantes de ingeniería de
sistemas, posibilidades de deserción y propuestas para su retención”, para conocer sobre el
rezago en los estudios y como afecta en las instituciones educativas y a sus estudiantes; por
ello es importante estudiar la problemática expuesta. El objetivo del trabajo es analizar el
rendimiento académico de cohortes 2011-2016 de la universidad pública de la escuela
profesional de Ingeniería de Sistemas, así mismo, se aplica técnicas de minería de datos para
encontrar patrones en su comportamiento académicos, se emplea la metodología CRISP-DM.
Obteniendo como resultados variables influyentes de acuerdo a la relación de créditos
aprobados. Se concluye no solo tomar datos de sus calificaciones, sino, el avance en la
aprobación de asignaturas.
(Urbina Nájera, Téllez Velázquez, & Cruz Barbosa, 2021) realizaron la investigación
“Patrones que identifican a estudiantes universitarios desertores aplicando minería de datos
educativa”, para presentar las características más importantes permisibles sobre la deserción
universitaria, mediante algoritmos de minería de datos educativa. Se utilizó arboles de decisión
para estudiar datos del periodo 2014-2019, obteniendo una fácil interpretación de no solo
identificar un posible desertor, sino que permite señalar de manera jerárquica, atributos
significativos.
(García González , Sánchez Sánchez, Orozco, & Obredor, 2019), de la Universidad
Simón Bolívar, ejecutaron la investigación “Extracción de conocimiento para la predicción y
análisis de los resultados de la prueba de calidad de la educación superior en Colombia”, para
analizar estrategias y programas con los cuales las Instituciones de Educación trabajan para
adoptar metodologías orientadas a mejorar el desempeño y formación del estudiante. Se
construyo una base de datos utilizando extracción del conocimiento KDD para conocer el
desempeño académico del estudiante en áreas asociadas a contenidos de pruebas Saber Pro.

Como resultado el proceso fue complejo debido al gran volumen de datos recopilados y a su
estructura; sin embargo, los resultados obtenidos son acordes al desempeño de cada estudiante.
(Fernandez Morales & Bonilla Carrión, 2020), realizaron la investigación
“Bibliominería, datos y el proceso de toma de decisiones”, para extraer información de grandes
volúmenes de datos como: préstamos, referencia, adquisiciones, entre otros. Utilizando
herramientas con poco presupuesto y que se pueden utilizar son Orange, Weka, JHepWork,
Knime y Rapidminer. Para finalizar disponen de sistemas transaccionales que automaticen
operaciones día a día los cuales son soportados sobre bases de datos relacionales.
(Jose, 2018), realizó la investigación “Minería de datos aplicada a la detección de
patrones para el análisis de rendimiento académico de los estudiantes de la carrera de
Ingeniería en Sistemas Computacionales de la UniversidadCatólica Santiago de Guayaquil”,
para elaborar un modelo predictivo en beneficio de estudiantes y docentes, cuando ellos se
inscriban en cada semestre indicando cuál es su probabilidad de éxito alerta o fracaso. La
metodología KDD se utilizó como herramienta de extracción de datos en Excel; mostrando
mediante un semáforo 59 pruebas en las que, 16(27,12%) fueron falsos positivos y 6(10,17)
falsos negativos.
(Vanegas, 2019), en la Pontifica Universidad Católica del Ecuador, “Modelo de
minería de datos para la identificación de patrones que influyen en la mora de la cooperativa
de ahorro y crédito San José”, menciona que existe un problema por la dificultad al analizar la
información crediticia e histórica de los socios, por tanto, utiliza la metodología CRISP-DM
para predecir patrones y efectuar la toma de decisiones. La data analizada permitió estudiar
6033 registros de crédito permitiendo generar reportes y predicción.
(Luna & Guzman Arenas, 2020), de Instituto Politécnico Nacional, “Minería de datos
con búsqueda de patrones de comportamiento”, muestra una manera de realizar el

descubrimiento de los datos y utiliza técnica de generalización y sumarización de datos en
cubos de datos. Incluyendo varios tipos de conocimiento; algoritmos matemáticos,
organización de las bases de datos, algoritmos de recuperación, diseños de interfaces de
usuarios y sistemas operativos.
(Grivjalva Arriaga, Freire Avilés, Real Avilés, & Arellano, 2018), de la Universidad
Católica Santiago de Guayaquil. Realizó la investigación “Aplicación de técnicas de minería
de datos para el análisis de la eficiencia académica”, teniendo como objetivo estudiar los
estándares minios para que las Instituciones de Educación Superior cumplan a cabalidad con
su proceso de evaluación y acreditación; uno de ellos es la eficiencia académica, por ello se
determinan los factores de mayor incidencia en la deserción estudiantil mediante la minería de
datos, utilizando de igual manera las técnicas de árboles de decisión y clustering. La aplicación
para el descubrimiento de conocimiento (KDD) permitió obtener que uno de los factores mas
importantes son los bajos promedios obtenidos durante los primeros semestres. Todas las
Universidades de Educación Superior tienen problemas similares o aún mayores, es
fundamental que los sistemas de información para el registro de datos de los estudiantes sean
de ámbito personal, económico y académico con la finalidad de ampliar el campo de estudio y
analizar la información en beneficio de la educación.
2.2 Fundamentación Teórica
2.2.1. Tecnologías de la Información
(Ortí, 2018) Afirma que, TI (Tecnologías de la Información) muestra su desarrollo en
ámbitos de la informática y las telecomunicaciones. El acceso, producción y comunicación de
los datos se representa en varios códigos, dependiendo del texto, imagen o sonido. Sin duda, el
ordenador es el elemento más importante del ser humano para acceder a internet.

(Almenara, 1996) Indica que, establecer “nuevas tecnologías” en la sociedad de la
comunicación e información, produce cambios como en su momento se plasmaron
significativos en la historia de la imprenta y la electrónica; los alcances y efectos proponen
cambios en una estructura social, económica, laboral, jurídica y política. Centran su enfoque
en manipular, almacenar y distribuir datos.
(Sáez, 1983, como se citó en Beer, 2019) menciona que, “tecnologías de la información
se considera aquella que se encarga del manejo y tratamiento de los datos, refiriéndose a un
conjunto de datos; abarca técnicas, dispositivos y métodos que permitan transmitirlos mediante
señales o conocimientos”.
2.2.1.1. Dato
(Santos, 2020) “Representa a un conjunto de caracteres que denotan un significado
claro; puede ser numérico, alfabético o alfanumérico. Responde a la función (objeto, atributo,
valor)”.
(Ramírez, 2018) “Es un conjunto prudente de elementos sobre un hecho real; por lo
general un dato se almacena en una base de datos que se utiliza por una aplicación informática
o programa que permite la ejecución de tareas”.
2.2.1.2. Información
(Mera, 2018) La base de la sociedad actual es la información. Con el paso del tiempo
se manejan grandes volúmenes de información y mediante el ordenador se ejecutan tareas en
el tratamiento de los datos. Es fundamental emplear un sistema de almacenamiento para
guardar y recuperar información que se solicite.
(Terán, 2020) Uno de los principales significados que se asocia a la información es que
se presenta como un conjunto de datos propiamente interrelacionados, los cuales de manera

individual solo describen sus características, pero de manera conjunta se obtiene un significado
el cual proporciona una buena toma de decisiones.
2.2.3. Base de datos
(Gómez Ballester, y otros) Definen “Base de Datos” a los archivos y conjunto de datos
siendo estos correlacionados, recolectados que pueden satisfacer las necesidades de
información en una determinada área en la que existen numerosas bases de datos. También se
conoce como un conjunto de archivos que se dedican a guardar información de manera
complementaria y con la intención de relacionarla.
(UNAM, 2018) Base de datos o también conocido como DB (Data Base en inglés) es
un conjunto de datos que pertenecen a un mismo sentido y son almacenados de manera
sistemática. En este sentido, se puede realizar una similitud con la de una biblioteca debido que
se compone de libros y mucha información.
2.2.3.1. Funcionalidad de una Base de datos
Se denomina un soporte digital que tiene como objetivo almacenar de manera masiva
información de diferente índole en un formato de texto plano. Se utilizan en sistemas que
necesitan de una interacción fluida con la conexión en su aplicativo; almacenar, editar y
eliminar.
(Pisco Gómez, y otros, 2017) Son diseñadas para gestionar grandes cantidades de datos
que más adelante representan una información; implica la definición de estructuras como los
mecanismos que se utilizar para manipular datos. Además, se trabaja la información de manera
que sea fiable a pesar de fallos o caídas de sistema.
2.2.3.2. Características de una base de datos
▪ Posibilita el acceso mediante lenguajes de programación estándar
▪ Permite la elaboración de consultas complejas por medio de comando

▪ Asegura la seguridad de acceso y de su auditaría
▪ Existen varias opciones de multiusuarios bajo claves
▪ Almacena, protege y recupera datos administrados
▪ Autonomía lógica y física de los datos
▪ Bajo índice de repeticiones
▪ Diferentes formatos para depurar y tomar datos de interés en tiempo real
2.2.4. Minería de datos
(Ramírez, 2018) alega que, minería de datos integra un conjunto de áreas que tienen
como objetivo identificar a partir de un conocimiento base, nueva información que aporte a
una correcta toma de decisiones.
Según (Riquelme, Ruiz, & Gilbert, 2010), la minería de datos representa una explosión
de información que en la actualidad es almacenada, debido que los datos no se encuentran
restringidos; como resultado de la mezcla de las técnicas y herramientas para los tipos de datos
no son adecuadas. La tecnología actual necesita del desarrollo de minería de datos para poder
distribuirlos por el mundo.
(Arévalo Cordovilla, 2020) menciona que, esta nueva disciplina de minería de datos se
creó especialmente para llevar a cabo la etapa de extraer información valiosa de un gran
volumen de datos; proporciona también una valiosa inteligencia empresarial e incluso en
estudios científicos y médicos.
2.2.4.1. Importancia de minería de datos
(Totvs Latam, 2022) Menciona que, se trata de un procedimiento automatizado que se
encarga de la búsqueda de patrones en distintos conjuntos de datos que de manera simple el ser
humano no puede comprender o identificar; centra su objetivo en visualizarpatrones
correlaciones que permitan predecir resultados futuros. Es un análisis que se estudia a

profundidad en una base de datos creada para identificar información y construir modelos a
partir de ellas; comprender aspectos que influyen en el comportamiento del ser humano y las
decisiones que toma para generar resultados positivos.
La minería de datos ha permitido la mejora en la toma de decisiones organizativas
mediante el análisis para esclarecer datos. Aplicar las técnicas de minería de datos que
respalden estos análisis la divide principalmente en dos categorías: describir el conjunto de
datos de destino o prever resultados por medio del uso de algoritmos de machine learning.
2.2.4.2. Etapas de minería de datos
(Riquelme, Ruiz, & Gilbert, 2019) La información se extrae del almacenamiento de
todos los datos que también se conoce como base de datos. La minería de datos funciona
mediante etapas, siendo una de las principales la recolección de los datos.
2.2.4.2.1. Extracción de datos
La configuración del software de minería es uno de los principales pasos, el programa
posteriormente empezará a buscar los datos que han sido almacenados. Son sistemas muy
intuitivos que permiten su configuración mediante parámetros con el objetivo de extraer la
información más importante.
2.2.4.2.2. Análisis de los datos
Una vez terminado el proceso de extracción de datos, el programa inicia su análisis de
los datos con el objetivo de transformarlos en una información clara. Luego, se realiza una
comparación de relaciones y patrones mediante un parámetro específico.
2.2.4.2.3. Segmentación de la información
También se conoce como análisis de clasificación, se trata de un modelo de minería de
datos que se centra en la segmentación de la información que se extrajo a través de categorías

seleccionadas. Para lograr el objetivo se emplea un algoritmo informático que se encarga de
extraer datos y luego registrarlos en una nueva categoría que cumpla con lo establecido.
2.2.4.2.4. Técnicas de minería de datos
La minería de datos aporta a una ventaja fundamental de manera que proporciona
información importante y oportuna a la cual no se tendría acceso de manera fácil. De esta
manera se emplean técnicas que en su mayoría van a depender de las necesidades de cada
empresa.
2.2.4.2.5. Seguimiento de patrones
Siendo una de las principales, el seguimiento de patrones implica reconocer y
monitorear las diferentes tendencias en grupos de datos para realizar un análisis inteligente
respecto a los resultados de la empresa; este proceso se puede relacionar con muchas cosas,
desde identificar datos de alto rendimiento a comprender los comportamientos de compra de
clientes.
2.2.4.2.6. Asociación
Implica estudiar las ocurrencias de los atributos conectados, es decir, busca las variables
que se tengan vinculo en función de sus atributos o eventos establecidos. Las reglas de
asociación son útiles para estudiar el comportamiento de su consumidor.
2.2.4.2.7. Clasificación
Se utiliza para derivar datos importantes y metadatos. Es el proceso que se lleva a cabo
para dividir grandes cantidades de datos en categorías objetivas; esta categorización se
determina con un marco de datos; base de datos relacional, base de datos orientada a objetos,
etc.

2.2.4.3. Técnicas de minería de datos
2.2.4.3.1. Detección de valores atípicos
Existen instancias en las que el patrón de datos no genera una comprensión clara de
datos; en esta situación, la técnica de detección de valores atípicos identifica anomalías o
valores en un conjunto de datos para comprender causas especificas e incluso predicciones más
precisas.
2.2.4.3.2. Clustering
De igual manera que la clasificación, es una técnica que consiste en realizar una
agrupación de datos en función a similitudes. Permite el descubrimiento de conocimientos,
detectar anomalías y obtener información interna sobre la estructura de los datos.
2.2.4.3.3. Patrones Secuenciales
Como su nombre lo indica, se enfoca en el descubrimiento de patrones o serie de
eventos de una secuencia. De manera amplia se utiliza en minería de datos transaccionales
debido que tiene numerosas aplicaciones. Incluso pueden ofrecer ayuda a empresas para la
recomendación de artículos relevantes a distintos clientes con la finalidad de maximizar sus
ventas.
2.2.4.3.4. Árbol de decisión
Un árbol de decisión también es considerado una técnica de minería de datos con
enfoque al aprendizaje automático que se ocupa de visualizar las relaciones de modelado en lo
que respecta a entrada y salida mediante el uso de reglas (sí/entonces). De esta manera, con
este enfoque se aprende como la entrada influye en la salida de los datos; suelen estar diseñados
como un diagrama de flujo, de arriba hacia abajo.

2.2.4.3.5. Análisis de regresión
Es una de las técnicas más populares en cuanto aprendizaje automático porque utiliza
la relación lineal entre variables, ayuda a predecir el verdadero valor futuro de las variables.
Esta técnica cuenta con numerosas aplicaciones respecto a pronósticos financieros,
planificación de recursos y toma de decisiones estratégicas.
2.2.4.3.6. Procesamiento de memoria a largo plazo
Cuando se hace referencia a procesamiento de memoria a largo plazo se habla de una
técnica en aprendizaje automático que es utilizado para el análisis de los datos durante períodos
prolongados y permite la identificación de patrones de datos basados en el tiempo, por ejemplo;
datos climáticos.
2.2.4.3.7. Redes Neuronales
Una red neuronal también se conoce como una de las más populares técnicas en los
modelos de aprendizaje automáticos que se utilizan en Inteligencia Artificial, de igual manera
que las neuronas del cerebro buscan identificar las relaciones que existen en los datos. Cuentan
con diferentes capas que permitan el trabajo colaborativo para arrojar resultados con gran
precisión.
2.2.4.4. Metodologías de minería de datos
(Guzmán, 2020) Existen tres metodologías que dominan en el proceso de minería de datos,
aquellas son: KDD, CRISP-DM Y SEMMA.
2.2.4.4.1. KDD (Descubrimiento en base de datos)
(Jima Narváez, 2020) Según Fayyad en 1996 define Knowledge Discovery in Databases como,
kdd o descubrimiento de conocimiento en bases de datos como un proceso no trivial, es decir,
poco común para identificar patrones válidos, novedosos y útiles. En esta definición se
introducen propiedades del conocimiento extraído:

▪ Válido: Los patrones tienen que ser precisos para los nuevos datos y no solo para
aquellos que se han utilizado.
▪ Novedoso: Debe aportar algo que se desconoce totalmente.
▪ Potencialmente útil: Debe tener un beneficio
▪ Comprensible: La información que no es comprensible no aporta conocimiento en
cuanto a su utilidad.
Esta metodología propone cinco fases: selección, preprocesamiento, transformación, minería
de datos y evaluación e implantación. Se trata de un proceso iterativo e interactivo.
2.2.4.4.1.1. Fase de selección
La primera fase corresponde a la de selección cuyo objetivo es identificar las fuentes
de datos y la recopilación incluso la integración de los mismos en un repositorio, el origen de
los datos es muy diverso, puede ser interno o externo a la organización. Si es interno es posible
se considere las bases de datos corporativas, data werehouse o también crear una, para el
problema que se busque esclarecer; (encuestas, entrevistas, generación de atributos a partir de
los ya existentes). En esta fase es importante cuidar de los datos debido que son la materia
prima que va a representar a los modelos de una mejor manera.
2.2.4.4.1.2. Fase de preprocesamiento y limpieza
El propósito de esta fase es obtener un conjunto de datos que incluye todos los atributos
para el problema de estudio en un formato adecuado que cuide de la limpieza, transformación
yselección del subconjunto de datos que se encuentran contenidos en una base para aplicar
dicho proceso de minería de datos; en esta fase se realiza un análisis determinante que se hace
con los datos que tienen poca relevancia o se consideran innecesarios, datos que no se ajustan
al comportamiento normal, perdidos o faltantes.

2.2.4.4.1.3. Fase de transformación
A fin de eliminar ruido de la base de datos y asegurar la calidad respecto al
conocimiento que se obtiene, los datos erróneos son algunos de los problemas que se heredan
de la fase anterior; por ello, se debe identificar de manera clara el origen de los mismos, de
manera que se pueda realizar validación y verificación al momento de transformar los datos,
que consiste en modificar su forma, sea de transformación o derivar nuevos atributos, así
también, cambiar el tipo de dato o rango.
2.2.4.4.1.4. Fase de minería de datos
Esta fase se considera el principal núcleo de todo el proceso porque su objetivo
principal es producir conocimiento realmente útil para que el usuario mediante un modelo tenga
una base minable, un producto de la fase anterior. Dicho de esta manera, describe patrones y
relaciones que se pueden usar para realizar predicciones y mejoren la comprensión de los datos
permitiendo la explicación de escenarios pasados. Contiene también algunos tipos de tareas,
son consideradas como un problema que debe ser resuelto por un algoritmo y se distingue en
dos grupos; en el primero las tareas predictivas(clasificación) y en el segundo las descriptivas
(clustering).
Clasificación: Es una de las tareas más utilizadas porque se enfoca en realizar la clasificación
de un dato dentro de sus clases establecidas en un modelo que se encuentra trabajando.
Clustering: Esta tarea en cambio permite formar grupos que los objetos del mismo grupo que
establecen características similares entre sí y de igual manera son diferentes a los objetos de
otro grupo.
2.2.4.4.1.5. Fase de interpretación y evaluación
Para la aceptación de un modelo de minería de datos es importante medir la calidad de
sus patrones para que pueda obtener resultados el algoritmo aprobado, de este modo, se debe

incluir tres cualidades; preciso, comprensible e intefresante. Permite estimar la relación entre
un atributo dependiente y un atributo independiente.
2.2.4.4.2. SEMMA (Sample, Explore, Modify, Model, Assess)
La propuesta por SAS Institute Inc, en desarrollar esta metodología la define como un
proceso de selección, exploración y modelamiento de enormes cantidades de datos para
descubrir patrones de negocios totalmente desconocidos.
2.2.4.4.3. CRISP – DM (Cross-Industry Standard Process for Data Mining)
Consiste en un método que se ha probado para orientar los trabajos de minería de datos.
De manera que incluye descripciones de las fases normales de un proyecto, todas las tareas que
se deben desarrollar en cada base y una breve explicación de las relaciones entre ellas. También
se considera un modelo estándar abierto del proceso iniciado ya que describe los enfoques más
comunes que se utilizan, siendo un modelo analítico más usado.
2.2.4.4.3.1. Fases de CRISP – DM
Comprensión del negocio
▪ Conocimiento de los objetivos y requerimientos del proyecto´
▪ Identificación del problema de minería de datos
Comprensión de los datos
▪ Alcanzar conjunto inicial de datos
▪ Inspección del conjunto de datos
▪ Establecer las características de calidad de datos
▪ Determinar los resultados iniciales
Preparación de datos
▪ Clasificación de los datos

▪ Saneamiento de datos
Modelamiento
▪ Ejecución de herramientas de minería de datos
Evaluación
▪ Decidir si los resultados se ajustan con los objetivos del negocio
▪ Reconocer los temas de negocio que debieron abordarse
Despliegue
▪ Implantar los modelos resultantes en la práctica
▪ Configuración para minería de datos de forma continua
2.2.4.4.3.2. Características
▪ Permite almacenamiento para experiencia y replicar los proyectos
▪ Permite la planeación y gerencia del proyecto
▪ Usa un factor comodidad para usuarios nuevos
▪ Se maneja con madurez cada una de las fases de la minería de datos
2.2.4.5. Aplicaciones de minería de datos
(Novoseltseva, 2021) Los avances en la última década en potencia y velocidad de
procesamiento han permitido dejar atrás las prácticas manuales a un análisis de datos
automatizado. La minería de datos utiliza metodologías y programas para descubrir relaciones
entre todos sus elementos a estudiar; las empresas aprovechan este proceso y su aprendizaje
automático para mejorar las interpretaciones que se obtengan. Es ampliamente utilizada en
muchas áreas permitiendo el trabajo en conjunto de sus aplicaciones y herramientas para
obtener un conocimiento sólido e íntegro.

2.2.4.5.1. Marketing
Esta área utiliza la minería de datos para la exploración en bases de datos amplias, de
tal manera, busca la segmentación en el mercado. Analiza las relaciones entre parámetros
como; edad, sexo, gustos, etc., en relación a sus clientes. Se posibilita averiguar el
comportamiento de los mismos para direccionar campañas de fidelización personalizadas.
También predice como los usuarios pueden ser propensos a dar de baja un servicio, cuales son
sus intereses al momento de realizar alguna búsqueda y debe incluir un listado de correos
electrónicos para un mayor índice de respuestas.
2.2.4.5.2. La banca
La utilización de la minería de datos en los bancos se usa para una mayor comprensión
de los riesgos del mercado, habitualmente se aplica a las calificaciones crediticias y a los
sistemas inteligentes que mantienen la lucha contra el fraude al analizar transacciones, patrones
de compra, datos financieros y operaciones con tarjeta de sus clientes. Permite conocer mejor
las preferencias y hábitos para la optimización del rendimiento de sus campañas de marketing;
canales de venta y la gestión del cumplimiento normativo.
2.2.4.5.3. Educación
Minería de datos en ámbitos académicos, también se denomina minería de datos
educativa (MDE) o educación basada en datos (EDM), se considera una disciplina que utiliza
para su aplicación algoritmos de análisis de daros en un contexto educativo y beneficia a la
educación al momento de acceder a datos de los estudiantes, predicción de niveles de
rendimiento y en la búsqueda de estudiantes o grupos que necesiten atención adicional.

2.2.4.5.4. Comercio electrónico
En el comercio electrónico utilizan minería de datos para ofrecer ventas adicionales y
cruzadas mediante sus sitios web. Uno de los más conocidos es Amazon, debido que utiliza
técnicas de minería para obtener más clientes en su tienda electrónica.
2.2.4.5.5. Comercio minorista
Los supermercados utilizan patrones de compra de manera conjunta para la
identificación de asociaciones de productos y establecer como colocar los productos en su
respectivo lugar, también detecta las ofertas más valiosas por el cliente y la generación de
aumento de ventas.
2.2.4.5.6. Proveedores de servicios
Los proveedores de servicio, así como los de telefonía y servicios públicos, emplean
minería de datos para descubrir las razones por las que un cliente decide abandonar su empresa.
Por ello analizan datos de facturación, interacción con atención al cliente y los problemas
denominadas quejas presentadas a la empresa para asignar una puntuación probabilística y
ofrecer incentivos.
2.2.4.5.7. Medicina
Extraer datos permite dar paso a los diagnósticos de manera precisa, alcanzar toda la
información de un paciente como; historial médico, examen físico, tratamiento, permite
mostrar al paciente nuevos tratamientos y soluciones; considerando una gestión eficaz y
rentable para identificar riesgos en determinados segmentos de la población y a un mayor
conocimiento de las necesidades del paciente.
2.2.4.5.8.Televisión y radio
Existen redes que aplican minería de datos para interactuar activamente, midiendo
audiencias de tv y radios en línea. Mediante estos sistemas se recopilan y analizan información

anónima de los canales, emisiones y programación respecto a sus visualizaciones. Permite
hacer recomendaciones a espectadores de radio y televisión para comprender mejor su
comportamiento.
2.2.4.6. Software de minería de datos
2.2.4.6.1. Rapidminer Studio
(RapidMiner, 2021) Es una plataforma que lidera en ciencia de datos y el análisis
predictivo. Se utiliza en organizaciones, gobiernos, empresas, etc. Se considera una
herramienta poderosa y una de las más utilizadas, por lo tanto, se recomienda debido que su
sistema de interfaz y programación requieren menor curva de aprendizaje alcanzando mayor
productividad en poco tiempo. El sistema visual es una de sus mayores ventajas porque sin
demasiados conocimientos se puede trabajar en soluciones predictivas en cuanto grandes
volúmenes de datos.
2.2.4.6.2. Teradata
(Teradata, 2019) Teradata Warehouse muestra una solución muy completa que une la
tecnología de base de datos, plataformas hardware que aportan un crecimiento sobre las
necesidades de la empresa, herramientas y aplicaciones del mercado. Es una combinación
integra de experiencia y conocimientos, es diseñada como soporte a la toma de decisiones de
manera que su arquitectura se encuentra paralela y no está sujeta a limitaciones.
2.2.4.6.3. Oracle Data Miner
(Oracle, 2020) Es una interfaz de usuario para descubrir patrones, relaciones e
información oculta de sus datos; contiene algoritmos de minería y análisis de datos. Oracle
Data Miner descarta el movimiento y que los datos se dupliquen; mantiene el mínimo tiempo
de latencia desde los datos que no han sido procesados hasta los datos valiosos, mantiene la
seguridad y la creación de modelos que se requieren dentro del proceso de minería de datos.

Mediante el uso de Oracle Data Miner los usuarios pueden crear modelos descriptivos y
predictivos para:
▪ Pronosticar el comportamiento del cliente
▪ Direccionar a los mejores clientes
▪ Descubrir, segmentos, clústeres y perfiles
▪ Reconocer los riesgos de retención de clientes
▪ Determinar oportunidades de venta
▪ Identificar comportamientos extraños
2.2.4.6.4. Knime
(Knime, 2019) Es perteneciente a una nueva generación de herramientas que se
denominan plataformas de data science y machine learning por gartner. Este tipo de
herramientas han permitido a científicos de datos, analistas o usuarios de negocios interactuar
con los datos, crear y gestionar modelos avanzados. Las funcionalidades principales son:
importación, preparación, exploración, modelado, evaluación y despliegue de datos.
Puntos fuertes:
▪ A través de la interfaz visual la programación de sus aplicaciones es intuitiva y conecta
visualmente nodos que recopilan varias funciones e integra módulos automatizados.
▪ Ofrece extensas funcionalidades con la posibilidad de conectar múltiples fuentes de
datos para unificar datos provenientes de bades de datos, archivos o servicios web.
▪ Cuenta con una versión gratuita para uso personal y una versión de pago para uso de
organizaciones.
2.2.4.6.5. Orange
(Schmitz, 2023) Se define como un software de minería de datos que utiliza código
abierto para visualizar, analizar y modelar datos. Permite crear flujos de trabajo, es capaz de

efectuar tareas como preprocesamiento, clasificación, regresión, clustering, análisis de redes y
visualización. Es compatible con formatos de archivos como CSV, Excel, Sql y otros.
2.2.4.6.6. SAS
(Merino & Dorado Sánchez, 2020) Es una herramienta de minería de datos SAS
Enterprise Miner que es útil para el descubrimiento de nuevas y notables relaciones, patrones
y tendencias para examinar grandes cantidades de datos. Efectuar el proceso de minería de
datos incluye la selección de fuentes de datos y la calidad de los mismos. Se pueden generar
modelos a través de SAS Rapid Predictive, mejora la precisión comparando evaluaciones y
estadísticas de predicción de modelos con varios enfoques.
2.2.4.6.7. Qlik
Admite extraer el valor que se encuentra oculto en los datos que se generan en las
empresas; se trata de una plataforma de inteligencia activa, cuenta con funciones en la nube,
emplea inteligencia artificial y analiza en tiempo real para toma de decisiones fundamentadas
y colaborativas. Al combinar inteligencia artificial con la interacción humana facilita llevar a
cabo la inteligencia aumentada y se consigue a traes de indexación asociativa que generan de
manera automática conocimientos sobre los datos para que puedan ser explorados por usuarios.
2.2.4.6.8. Weka
Software de código abierto que facilita herramientas para preprocesar la
implementación de algunos algoritmos de aprendizaje automático y herramientas de
visualización que puedan efectuar el desarrollo de técnicas de aprendizaje automático. Primero
comienza con datos sin procesar que se han recopilado en el campo. Estos datos contienen
valores nulos e irrelevantes, por lo tanto, utiliza herramientas proporcionadas por Weka para
realizar una limpieza exhaustiva. Luego, guarda los datos en su almacenamiento local para la
aplicación de algoritmos.

2.2.4.6.9. Sisense
(The data Schools, 2023) Es una plataforma que analiza datos, se encuentra diseñada
para ofrecer capacidades avanzadas que permitan a los usuarios tomar decisiones basadas en
una información precisa y oportuna. Los analistas pueden crear reportes de manera rápida,
ofrece funcionalidades que aceleran el proceso de desarrollo e implementación lo que reduce
significativamente el tiempo para obtener resultados.
▪ Integración de datos: conecta y consolida datos de varias fuentes, incluyendo bases de
datos, aplicaciones y servicios de nube.
▪ Visualización de datos: variedad de opciones para visualizar datos: gráficos, tablas,
paneles.
▪ Análisis y exploración de datos: herramientas avanzadas para el descubrimiento de
patrones, tendencias, relaciones ocultas.
▪ Creación de informes: Los usuarios pueden crear informes y dashboards interactivos.
▪ Analítica predictiva: permite realizar pronósticos y modelar escenarios futuros.
▪ Acceso móvil: visualización de datos desde dispositivos móviles.
2.2.5. Visualización de Información
(Gómez, 2018) Es la práctica de representación de datos de un modo visual y
significativa; la visualización de información permite que los usuarios puedan comprender
fácilmente la información de una manera eficaz y poder compartir conocimientos de manera
sencilla con personas no expertas en un determinado tema. Muchas veces las visualizaciones
se crean pensando en la audiencia a la cual se quiera explicar la información, por ello, se
diseñan herramientas y tecnologías con funciones interactivos para fácil manipulación.
(Gómez M. , 2023) Es la traducción de datos cuantitativos representados en un lenguaje
visual para que los usuarios obtengan una mejor comprensión; para efectuar la visualización

de datos se requiere de herramientas y conocimientos para elaborar el diseño, así como el
manejo de sus datos, de modo que se obtenga un resultado objetivo.
2.2.5.1. Importancia de la Visualización de Datos
(Valero Sancho, 2020) Los usuarios dentro de organizaciones actuales se exigen tener
acceso a datos; la representación de datos debe ser en formato fácil para entender de manera
puntual la leyenda de los gráficos. De manera empresarial se necesita una representación de
datos e interacción de forma intuitiva. Las herramientas de visualización permiten a los
responsables de manejar dicha información una buena toma de decisiones para trabajar los
datos con menor dificultad, por lo tanto, se obtiene valor en toda la organización. También se
considera una habilidad clave en la actualidad,