Logo Studenta

Análise de Aproveitamento Acadêmico em Instituto Tecnológico

¡Este material tiene más páginas!

Vista previa del material en texto

TECNOLÓGICO NACIONAL DE MÉXICO
Instituto Tecnológico de La Paz
INSTITUTO TECNOLÓGICO DE LA PAZ
DIVISIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
MAESTŔIA EN SISTEMAS COMPUTACIONALES
ANÁLISIS DEL APROVECHAMIENTO ACADÉMICO DE
LOS ESTUDIANTES DEL INSTITUTO TECNOLÓGICO DE
LA PAZ APLICANDO MODELOS DE MINEŔIA DE DATOS
QUE PARA OBTENER EL GRADO DE
MAESTRO EN SISTEMAS COMPUTACIONALES
PRESENTA:
BLANCA CECILIA ROSAS BURGOIN
DIRECTORES DE TESIS:
MATI. LUIS ARMANDO CARDENAS FLORIDO
LA PAZ, BAJA CALIFORNIA SUR, MÉXICO, DICIEMBRE 2017.
Blvd. Forjadores de B. C. S. #4720, Col. 8 de Oct. 1era. Sección C. P. 23080
La Paz, B. C. S. Conmutador (612) 121-04-24, Fax: (612) 121-12-95
www.itlp.edu.mx
Dedicatoria
Dedico esta tesis principalmente a mis padres, motor indispensable en mi vida. En especial a
mi padre quien no esta más conmigo, por ser quien me inculcó el amor a los libros, por quien
comencé a estudiar mi posgrado, y quien créıa ciegamente en mı́ que lo lograŕıa. Dedico este
trabajo a mi madre que me enseñó a tener siempre la fortaleza para salir adelante, para nunca
rendirme y luchar por mis sueños.
GRACIAS PAPÁS.
i
Agradecimientos
Agradezco a Dios por darme la fuerza necesaria para poder concluir un objetivo más en mi desa-
rrollo profesional. A quienes creyeron en mı́ y me apoyaron incondicionalmente. A mi hermana
Guadalupe por su apoyo en los momentos más dif́ıciles para completar este sueño.
Agradezco Gerardo Olea, un compañero que sin él no hubiera ni empezado con buen paso este
camino.
Agradezco a mi director de tesis M.A.T.I. Luis Armando Cárdenas Florido quien fue parte
fundamental en la redacción de ella, al comité tutorial del cual formaron parte la M.S.C. Iliana
Castro Liera y el M.C. Jesús Antonio Castro.
Agradezco de manera especial a la Coordinadora Iliana, ya que con su apoyo, ejemplo y gúıa,
me fue posible a completar mi tesis.
Agradezco al Instituto Tecnológico de La Paz por permitirme realizar mis estudios de Maestŕıa
en Sistemas Computacionales, a todo el departamento de Estudios de Posgrado y en especial,
a mis maestros que compartieron su conocimiento durante el desarrollo del posgrado.
Agradezco al Consejo Nacional de Ciencia y Tecnoloǵıa por su apoyo económico con el otorga-
miento de una beca para el estudio del posgrado.
ii
Resumen
En este trabajo de tesis, se busca, a través de la aplicación de técnicas de mineŕıa de datos, encon-
trar un modelo de análisis de información que permita determinar los patrones y caracteŕısticas
del comportamiento de las variables que inciden en los ı́ndices del rendimiento académico de los
alumnos del Instituto Tecnológico de La Paz, para poder coadyuvar a la toma de decisiones y
realizar acciones pertinentes.
Para la implantación se utilizó la metodoloǵıa CRISP-DM que estructura el proceso en seis
fases. Se aplicaron los modelos de asociación como Apriori, K-medianas y Máxima Expectación
(EM), para analizar el comportamiento de los estudiantes.
Mediante este proceso fue posible identificar los variables que caracterizan a los casos de repro-
bación y su relación con el desempeño académico, especialmente en los primeros semestres de
la carrera.
iii
Abstract
In this thesis work, it is sought, through the application of data mining techniques, to find
a model of information analysis that allows to determine the patterns and characteristics of
the behavior of the variables that affect the academic performance indexes of the students of
Isntituto Tecnológico La Paz, to be able to contribute to the decision making and take pertinent
actions.
For the implementation, the CRISP-DM methodology was used, which structures the process
into six phases. The association models such as Apriori, K-medians and Maximum Expectation
(EM) were applied to analyze the behavior of the students.
Through this process it was possible to identify the variables that characterize the cases of
failure and its relationship with academic performance, especially in the first semesters of the
career.
iv
Índice general
1. Introducción 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2. Objetivos espećıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Marco teórico 7
2.1. Descripción del seguimiento académico . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Base de datos relacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
v
ÍNDICE GENERAL vi
2.3. Bodega de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Modelos de bases de datos multidimensionales . . . . . . . . . . . . . . . . . . . 9
2.4.1. Tabla de Hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2. Tabla de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.3. Mercados de datos (Data Marts) . . . . . . . . . . . . . . . . . . . . . . 10
2.5. Mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1. Tipos de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.2. Funciones de la mineŕıa de datos. . . . . . . . . . . . . . . . . . . . . . . 13
2.5.3. Técnicas en mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.4. Clasificación mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5.5. Metodoloǵıas de mineŕıa de datos. . . . . . . . . . . . . . . . . . . . . . . 17
3. Diseño de la solución. 24
3.1. Selección de metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2. Comprensión del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Determinación de los objetivos del problema . . . . . . . . . . . . . . . . 25
3.2.2. Evaluación de la situación. . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3. Objetivos de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.4. Evaluación inicial de Funciones y Algoritmos. . . . . . . . . . . . . . . . 27
3.3. Recolección de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.1. Recolección de datos iniciales. . . . . . . . . . . . . . . . . . . . . . . . . 28
ÍNDICE GENERAL vii
3.3.2. Descripción de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1. Seleccionar y verificar los datos. . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2. Limpiar los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.3. Integración de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.4. Dar formato a los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Seleccionar la técnica del modelado. . . . . . . . . . . . . . . . . . . . . . 33
3.5.2. Generar el diseño de pruebas. . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.3. Construcción de los modelos. . . . . . . . . . . . . . . . . . . . . . . . . 363.6. Evaluación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.1. Gráfico de elevación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.2. Validación Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.6.3. Matriz de clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Interpretación de Resultados 59
4.1. Comprensión e interpretación de los resultados obtenidos. . . . . . . . . . . . . . 59
4.2. Evaluar el impacto de los resultados. . . . . . . . . . . . . . . . . . . . . . . . . 65
5. Conclusiones y recomendaciones 67
5.1. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2. Recomendaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
ÍNDICE GENERAL viii
5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A. Diccionario de datos 70
B. Resultados de algoritmo Apriori 75
Referencias 86
Índice de figuras
2.1. cubo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. tareas de mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. clasificacion de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. encuesta CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Fases SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6. Etapas de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7. Fases CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1. Metodoloǵıa Crisp-DM modificada . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2. Tablas de la Base de datos Escolar . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3. Proceso ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Modelo multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5. esctructura Mineŕıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.6. parametros de estructura MD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.7. Datos Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
ix
ÍNDICE DE FIGURAS x
3.8. Columnas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.9. Reglas Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.10. diagrama kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.11. Perfil kmedias prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.12. diagrama kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.13. Perfil kmedias prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.14. Diagrama kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.15. Perfil kmedias prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.16. Diagrama EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.17. Perfil EM prueba1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.18. Diagrama EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.19. Perfil EM prueba2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.20. Diagrama EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.21. Perfil EM prueba3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.22. Gráfico de elevación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.23. Leyenda modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1. Resultado EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. Resultado Clúster1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3. Resultado Clúster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4. Resultado Kmedianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
ÍNDICE DE FIGURAS xi
4.5. Resultado Kmedianas acredito . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.6. Resultado Kmedianas Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7. Resultado Kmedianas Maestro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.8. Resultado Kmedianas Materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.9. Resultado Kmedianas clúster2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.10. Script Consulta SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.1. Tabla Alumnos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.2. Tabla Cardex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.3. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.4. Tabla Personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.5. Tabla Materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.6. Tabla Departamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.7. Tabla Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
A.8. Tabla Carreras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
A.9. Tabla Planes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.10.Tabla Escuelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B.1. Parametros Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
B.2. Reglas Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
B.3. Items Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
B.4. Dependencias Apriori Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . 77
ÍNDICE DE FIGURAS xii
B.5. Reglas Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.6. Items Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.7. Dependencias Apriori Bioqúımica . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.8. Reglas Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.9. Items Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.10.Dependencias Apriori Civil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.11.Reglas Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.12.Items Apriori Electromecanica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
B.13.Reglas Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.14.Items Apriori Gestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.15.Reglas Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B.16.Items Apriori Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B.17.Reglas Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
B.18.Items Apriori Admon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
B.19.Reglas Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
B.20.Items Apriori CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Índice de tablas
3.1. Tabla de resultados de la Validación cruzada. . . . . . . . . . . . . . . . . . . . 51
3.2. Tabla de clasificación modelo Clúster EM. . . . . . . . . . . . . . . . . . . . . . 56
3.3. Tabla de clasificaciónmodelo K-medianas. . . . . . . . . . . . . . . . . . . . . . 57
3.4. Tabla de clasificación modelo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 58
xiii
Caṕıtulo 1
Introducción
La aplicación de técnicas de mineŕıa de datos en el análisis de indicadores y estad́ıstica de
los procesos educativos tiene como objetivo obtener una mejor comprensión del método de
aprendizaje de los estudiantes y de su participación global en el proceso, orientado a la mejora
de la calidad y rentabilidad del sistema educativo.
La deserción, el rezago estudiantil y los bajos ı́ndices de eficiencia terminal se encuentran entre
los problemas más complejos y frecuentes que enfrentan las Instituciones de Educación Superior
del páıs, en la actualidad son reconocidos prácticamente por todas ellas (ANUIES, 2001). En el
sector educativo las técnicas de mineŕıa de datos se han implementado para realizar un estudio
y análisis detallado del comportamiento de los alumnos. Esta nueva área de investigación se
ocupa del desarrollo de métodos para explorar los datos que se dan en el ámbito educativo, aśı
como de la utilización de estos métodos para entender mejor a los estudiantes y los contextos
en que ellos aprenden.
El aprovechamiento académico, aśı como la deserción de los alumnos es una preocupación cons-
tante y uno de los principales objetivos es determinar los múltiples factores que pueden influir
en ellos[7].
Con el objeto de mejorar los ı́ndices de egresados y de titulación, se hace necesario tener un
mecanismo que permita determinar en etapas tempranas, el riesgo de deserción de los alumnos
y que se apliquen medidas para mejorar el rendimiento académico de los estudiantes.
1
1.1. ANTECEDENTES 2
Para contribuir con la solución del problema del desempeño académico, se plantea la aplicación
de técnicas de mineŕıa de datos, para ayudar a comprender cuáles son los posibles factores que
afectan al alumno en su aprovechamiento académico.
Los clasificadores, agrupamiento y reglas de asociación son algoritmos de las técnicas de la
mineŕıa de datos educativa, estos permiten identificar la información oculta para los diferentes
actores dentro de las instituciones educativas.
El desarrollo de las técnicas de la mineŕıa de datos educativa puede darse a partir de modelos
supervisados o no-supervisados, esto es, la mineŕıa de datos supervisada; consiste en utilizar
registros de los resultados que se conocen, por ejemplo, una base de datos de graduaciones
que contienen registros de alumnos que han finalizado sus estudios y de los que aún siguen
inscritos, esto lleva a vincular los patrones de conducta a los historiales académicos u otra
información registrada, de manera que los ejemplos de entrada van acompañados por una clase
o salida correcta. La mineŕıa de datos no-supervisada; (aprendizaje por observación) consiste
en situaciones en las cuales se desconocen los patrones o agrupaciones en particular.
Con la capacidad de almacenamiento de los equipos de cómputo actuales se puede aprovechar
información de los alumnos, utilizando bodegas de datos y aplicando las diferentes técnicas de
mineŕıa de datos, para encontrar patrones en los resultados de los datos relevantes que se pueden
presentar.
En este trabajo se busca identificar las variables que inciden en el aprovechamiento escolar de los
alumnos del Instituto Tecnológico de La Paz, con el fin de identificar a aquellos que presentan
mayor riesgo de fallo o abandono.
1.1. Antecedentes
En el ámbito educativo se realizan trabajos e investigaciones para determinar cuáles son los
factores que afectan al rendimiento académico de los alumnos en diferentes niveles educativos
(ANUIES).Estos estudios están enfocados en determinar cuáles son los factores que más afectan
al rendimiento de los estudiantes (abandono y fracaso).
1.2. DESCRIPCIÓN DEL PROBLEMA 3
La mineŕıa de datos es una de las técnicas que más se utilizan para analizar el desempeño
académico en los estudiantes y se ha aplica en la educación para la obtención de modelos,
tareas, métodos y algoritmos para la exploración de datos y tiene como función encontrar,
analizar patrones que caractericen los comportamientos en base a sus logros, evaluaciones y el
dominio de contenido de conocimiento que tienen los alumnos[1].
Se ha intentado, a partir de ciertos estudios y usando distintas metodoloǵıas, identificar el
proceso de un alumno con riesgo de fracaso escolar [3]. Una visión general de las técnicas de
mineŕıa de datos que se han utilizado para predecir el rendimiento de los estudiantes[9]. Donde
se analiza información académica con el objetivo de identificar los factores que influyen en el
desempeño académico del estudiante[10].
Algunos estudios han encontrado patrones ocultos de acuerdo a la clasificación de los estu-
diantes en base a sus caracteŕısticas demográficas y académicas[6]. Otros trabajos toman en
cuenta factores socioeconómicos, factores familiares[5] [7]. Sea identificado que existe una rela-
ción importante entre el desempeño académico y los casos de deserción escolar[4]. Los factores
predominantes académicos, son especialmente un promedio bajo y la pérdida de materias en los
primeros semestres de la carrera [9]. También se encontró que las notas anteriormente obtenidas
por los estudiantes son un factor importante para predecir el desempeño académico [10].
El trabajo de análisis e investigación nos sirve para determinar cuáles son los factores que afectan
al rendimiento académico de los alumnos y ayudar a los estudiantes con bajo rendimiento, a
evaluar el curso o módulo idóneo, y adoptar las intervenciones necesarias para aumentar el
rendimiento académico de los estudiantes.
1.2. Descripción del problema
En el Instituto Tecnológico de la Paz, existe un alto ı́ndice de reprobación y deserción escolar.
Resulta evidente que abordar el tema del rendimiento académico o su contraparte, el fracaso
escolar, no puede concebirse desde una perspectiva unilateral. Su condición multifactorial por
ende su complejidad, alentó la realización de esta investigación; qué variables se asocian al
1.3. OBJETIVOS 4
rendimiento académico de alumnos que es en el Instituto Tecnológico de la Paz, cuáles son
los patrones de comportamiento que presenta la materia en que se da el ı́ndice más alto de
reprobación.
Con el incremento del volumen de información, se incrementa la dificultad de corroborar los
altos ı́ndices de reprobación y de deserción, lo cual hace más complejo el análisis de los mismos
por lo que no se tienen las acciones necesarias para determinar las causas que los promueven.
Para conocer el aprovechamiento académico de los alumnos, cada coordinador académico es
el que, por medio de reportes tabulares, analiza los ı́ndices de reprobación. Este estudio solo
realiza simples análisis de la información basados en métodos estad́ısticos. La complejidad al
corroborar los distintos reportes, donde el volumen de la información es cada vez mayor, hace
más dif́ıcil identificar las variables que inciden en el mismo, aśı como identificar los patrones
de comportamiento que estos tienen. Lo anterior complica conocer de manera clara las posibles
causas que lo ocasionan, dificultando la labor del personal docente y administrativo para llevar
a cabo un adecuado seguimiento académico de los alumnos.
El principal objetivo es construir un modelo de mineŕıa de datos para el análisis relacionado
con el aprovechamiento académico, que permita identificar las variables y los múltiples factores
que pueden influir en este.
1.3. Objetivos
1.3.1. Objetivo general
Construir un modelo de mineŕıa de datos para la obtención de patrones de comportamiento
relacionados con el aprovechamiento académico de los alumnos en el Instituto Tecnológico de
La Paz.
1.4. JUSTIFICACIÓN 5
1.3.2. Objetivos espećıficos
Análisisy diseño de una bodega de datos, con la base de datos de los alumnos del ITLP,
aplicando técnicas de ETL y Data Warehouse.
Análisis e identificación de variables e indicadores que influyen en el aprovechamiento
escolar.
Análisis y selección de los algoritmos de mineŕıa de datos para la prueba de las hipótesis.
Análisis y desarrollo de un modelo de mineŕıa de datos.
Selección y aplicación de procesos de búsqueda de patrones.
Determinar las variables que afectan el desempeño académico de los alumnos.
1.4. Justificación
En el Instituto Tecnológico de la Paz, existe un alto ı́ndice de reprobación y de deserción
escolar. El alto volumen de la información necesaria para llevar un análisis del aprovechamiento
académico de cada alumno, dificulta la labor del personal de poder identificar a tiempo. Las
variables o los factores que afectan el rendimiento de los alumnos en cuanto a sus calificaciones,
por lo que los docentes y personal administrativo poco pueden hacer para detectar a los alumnos
con bajo rendimiento.
En este trabajo se pretende saber cuáles son las caracteŕısticas y patrones de comporta-
miento que provocan el bajo rendimiento escolar del alumno en esta institución, imple-
mentando técnicas de mineŕıa de datos.
Obtener un indicador que permita identificar a los alumnos con mayor riesgo de fallo o
abandono del instituto, aśı como los diferentes factores que puedan estar influyendo. Este
indicador servirá de apoyo en el seguimiento del aprovechamiento escolar, y para establecer
estrategias necesarias para disminuir el bajo rendimiento académico.
1.5. ALCANCES Y LIMITACIONES 6
1.5. Alcances y Limitaciones
1.5.1. Alcances
Generar modelos de mineŕıa de datos que se puedan aplicar al aprovechamiento académico de
los alumnos del Instituto Tecnológico de la Paz.
1.5.2. Limitaciones
• La base de datos con la que cuenta el ITLP no contiene información o datos Socioeconómicos
Correctos o vigentes.
• La base de datos con que se realizará la investigación, es la correspondiente a los peŕıodos
del 2006 al 2015, donde vienen comprendidas todas las materias de las nueve carreras a nivel
licenciatura con que cuenta el Instituto Tecnológico de La Paz.
1.6. Hipotesis
Con la base de datos del ITLP y la construcción de un modelo de mineŕıa de datos, podremos
identificar los factores que intervienen en el ı́ndice de reprobación escolar de los alumnos del
Instituto Tecnológico de la Paz.
Caṕıtulo 2
Marco teórico
2.1. Descripción del seguimiento académico
El seguimiento académico que se le da a cada alumno del Instituto Tecnológico de La Paz es
individual y cada coordinador académico es quien lo lleva a cabo. Cada coordinador tiene acceso
a tres tipos de reportes, los cuales son:
Reporte de reprobación por materia.
Reporte de reprobación por carrera.
Reporte de reprobación por ciclo escolar (primer periodo, segundo periodo ó ambos)
Estos reportes son generados en Excel, y en ellos se muestra: año, periodo, especialidad, la
materia, el grupo, el maestro, el número de alumnos inscritos, cuantos reprobaron.
Se invita a los alumnos para que revisen su historial académico (Kardex), y en caso de contar
una o varias materias reprobadas, deberán acudir con su coordinador de carrera, para que les
oriente en la solución de su problema.
El Instituto Tecnológico de La Paz cuenta con un programa de asesoŕıas, aunque estas son
voluntarias para los alumnos. Cuando el alumno presenta una o varias materias reprobadas,
7
2.2. BASE DE DATOS RELACIONAL 8
debe de acudir con su coordinador para que esté vea si existe la posibilidad de abrir un grupo
especial, la cual va a depender de la cantidad de alumnos que soliciten la misma materia, ya
que para abrir los grupos especiales se necesita un mı́nimo de 15 alumnos. Además, se cuenta
con los cursos de verano, en los cuales el cupo mı́nimo es de 20 alumnos. A diferencia de los
grupos especiales, los cursos de verano tienen costo extra para el estudiante, ya que se contrata
al docente que impartirá la clase.
2.2. Base de datos relacional
Es una colección de relaciones(tablas). Cada tabla consta de un conjunto de atributos (columnas
o campos) y puede contener un gran número de tuplas (registros o columnas), las cuales repre-
sentan un objeto y se caracterizan por poseer una clave única o primaria que los identifica[8].
2.3. Bodega de Datos
En 1997 William H. Inmon define una bodega de datos o Data Warehouse, como una colección
de datos integrados orientados a temas, no-volátiles y variables en el tiempo, organizados para
soportar necesidades empresariales. Según esta definición, es un sistema de información donde
los datos de una empresa son recolectados, organizados y agrupados con respecto a los hechos o
las actividades del negocio. Además, el uso del atributo tiempo permite mantener y referenciar
información tanto histórica como reciente, y es no volátil, porque después de que los datos son
cargados a la bodega, los cambios sobre ellos son poco frecuentes y se pueden mantener por
largos peŕıodos de tiempo .
La caracteŕıstica más importante de la bodega de datos es la integración. Datos tomados de
diferentes fuentes, cargados en el almacén de datos. Los datos capturados serán transformados,
limpiados, reorganizados, y resumidos.
2.4. MODELOS DE BASES DE DATOS MULTIDIMENSIONALES 9
2.4. Modelos de bases de datos multidimensionales
Es una técnica de diseño que busca presentar los datos en un estándar, que permita una recu-
peración adecuada de éstos. Los elementos básicos del modelo multidimensional son las tablas
y los esquemas.
La información se representa como matrices multidimensionales, cuadros de múltiples entradas
o funciones de varias variables sobre conjuntos finitos. Cada una de estas matrices se denomina
Cubo. A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le llama
Medida. A los elementos del producto cartesiano de los ejes (dimensiones) se le llama Coorde-
nadas. Un hipercubo, por tanto, deberá ser reestructurado cada vez que se le agreguen datos
o se modifiquen los ya existentes, ya que la información no está en tablas, sino organizada de
manera dimensional.
2.4.1. Tabla de Hechos
Corresponde a lo que se desea medir a partir de los datos presentes en el Sistema. Es el objeto a
analizar, además posee atributos llamados atributos de hechos o śıntesis, estos atributos son de
tipo cuantitativo, cuyos valores (cantidades) se obtienen, generalmente por aplicación de una
función estad́ıstica que resume un conjunto de valores en un único valor.
2.4.2. Tabla de dimensiones
La dimensión de un hecho determina la granularidad con que el hecho podrá ser analizado. Las
tablas de dimensiones representan cada uno de los ejes en un espacio multidimensional. Como
todas las tablas, también poseen atributos llamados dimensión o de clasificación, los que son de
tipo cualitativo (sus valores son modalidades) que suministran el contexto en que se obtienen las
medidas en un esquema de hecho. Las dimensiones poseen jerarqúıas, que son varios atributos
unidos mediante una relación de tipo jerárquico. Por ejemplo, la dimensión tiempo puede tener
niveles d́ıa, mes y año.
2.5. MINERÍA DE DATOS 10
2.4.3. Mercados de datos (Data Marts)
Un cubo multidimensional o cubo, representa o convierte los datos planos que se encuentran en
filas y columnas, en una matriz de N dimensiones, como se muestra en la figura 2.1.
Los objetos más importantes que se pueden incluir en un cubo multidimensional son los si-
guientes: Los indicadores o sumas que se efectúan sobre algún hecho pertenecientes a una tabla
de hechos, los atributos (Campos o criterios de análisis de las tablas de dimensiones) y las
jerarqúıas (relaciones lógicas entre dos o más atributos)[11].
Figura 2.1: Ejemplo de un cubo multidimensional.
2.5. Mineŕıa de datos
La mineŕıa de datos es unconjunto de técnicas y herramientas aplicadas al proceso no trivial
de extraer y presentar conocimiento impĺıcito, previamente desconocido, potencialmente útil y
humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de
forma automatizada tendencias y comportamientos.
La mineŕıa de datos tiene como objetivo analizar los datos para extraer conocimiento. Este
conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y (pre-
viamente) desconocidos, o bien en forma de una descripción más concisa (un resumen de los
mismos). Estas relaciones constituyen el modelo de los datos analizados. Existen muchas formas
2.5. MINERÍA DE DATOS 11
de representar modelos (predictivos y descriptivos) y cada una determina el tipo de técnica que
puede usarse para inferirlos.
Existen términos que se utilizan como sinónimos de la mineŕıa de datos, y uno de ellos es el
de la extracción o “descubrimiento de conocimiento en base de datos” (Knowledge Discovery in
Databases, KDD).
La mineŕıa de datos es una fase del proceso completo de descubrimiento de conocimiento que
involucra varios pasos:
1 Entender el dominio de aplicación, el conocimiento relevante a utilizar y las metas del usuario.
2 Seleccionar un conjunto de datos en donde realizar el proceso de descubrimiento.
3 Limpiar y pre-procesar los datos, diseñando una estrategia adecuada para manejar ruido,
valores incompletos, valores fuera de rango, valores inconsistentes, etc.
4 Seleccionar la tarea de descubrimiento a realizar. Por ejemplo: clasificación, agrupamiento o
“clustering”, reglas de asociación, etc.
5 Seleccionar los algoritmos a utilizar.
6 Transformar los datos al formato requerido por el algoritmo espećıfico de explotación de datos,
hallando los atributos útiles, reduciendo las dimensiones de los datos, etc.
7 Llevar a cabo el procesamiento de mineŕıa de datos para encontrar patrones interesantes.
8 Evaluar los patrones descubiertos y presentación de los mismos mediante técnicas de visua-
lización. Quizás sea necesario eliminar patrones redundantes o no interesantes, o se necesite
repetir algún paso anterior con otros datos, con otros algoritmos, con otras metas o con otras
estrategias
9 Utilizar el conocimiento descubierto, incorporándolo dentro de un sistema o simplemente para
almacenarlo y reportarlo a las personas interesadas.
2.5. MINERÍA DE DATOS 12
2.5.1. Tipos de mineŕıa de datos
Modelos predictivos.
Pretenden estimar valores futuros o desconocidos de variables de interés, que denominamos
variables objetivo o dependientes, usando otras variables o campos de la base de datos,
a las que nos referiremos como variables independientes o predictivas. Entre las tareas
predictivas encontramos la clasificación y la regresión[8].
Modelos descriptivos.
Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las
propiedades de los datos examinados, no para predecir nuevos datos. Entre las tareas des-
criptivas está el agrupamiento (clustering), las reglas de asociación, las reglas de asociación
secuenciales y las correlaciones[8].
Figura 2.2: Tareas o técnicas.
2.5. MINERÍA DE DATOS 13
En la figura 2.2, información sacada de [8]se muestra una tabla con algunas tareas y algunas
técnicas o algoritmos que pueden aplicarse a los modelos predictivos y descriptivos.
2.5.2. Funciones de la mineŕıa de datos.
Las funciones de mineŕıa de datos se dividen en dos categoŕıas, supervisadas y no supervisadas.
Mineŕıa de datos supervisada.
El aprendizaje supervisado es también conocido como aprendizaje dirigido. El proceso
de aprendizaje es dirigido por un atributo u objetivo dependiente previamente conoci-
do. El aprendizaje supervisado generalmente resulta en modelos predictivos. Siendo este
el contraste para el aprendizaje no supervisado, donde la meta es la detección de patrones.
La construcción de un modelo supervisado involucra el entrenamiento, un proceso me-
diante el cual el software analiza muchos casos donde el valor objetivo ya es conocido.
En el proceso de entrenamiento, el modelo “aprende” la lógica de hacer la predicción. Por
ejemplo, un modelo que busca identificar los clientes que probablemente respondan a una
promoción, debe ser entrenado para que analice las caracteŕısticas de muchos clientes que
ya se sabe que respondieron o no respondieron a una promoción en el pasado [2].
Mineŕıa de datos no supervisada.
El aprendizaje no supervisado es no dirigido. No hay distinción entre atributos depen-
dientes e independientes. Es decir, no hay un resultado previamente conocido que guie al
algoritmo en la construcción del modelo. Por lo tanto, la mineŕıa de datos no supervisada
puede ser usada para propósitos descriptivos. Aunque también puede ser usada para hacer
predicciones [2].
2.5. MINERÍA DE DATOS 14
2.5.3. Técnicas en mineŕıa de datos
Los hay de dos tipos de técnicas en función de si se obtiene un modelo o no: retardados y
anticipados. Los métodos sin modelo y con modelo reciben generalmente el nombre de métodos
retardados o perezosos (lazzy) y métodos anticipativos o impacientes (eager).
1 Métodos retardados:
El método responde sólo cuando es requerido.
No se construye un modelo.
La optimización es local.
Los datos de entrada deben preservarse para toda predicción.
Si hay una gran cantidad de datos el cálculo de cada instancia nueva es costoso.
No se requiere entrenar al modelo.
Algunas opciones son: Vecinos más próximos, regresión lineal.
2 Métodos anticipados:
Se obtiene un modelo a partir de los datos de entrada.
Los datos de entrada no son necesarios para responder a las nuevas instancias.
La optimización es global.
El tiempo de entrenamiento es grande.
Puede responder eficientemente a las nuevas instancias.
Algunos casos donde el modelo es claro son:
Reglas difusas, arboles de decisión.
Sistemas basados en reglas.
En la figura 2.3, se muestra algunos algoritmos de acuerdo a las técnicas[8]:
2.5. MINERÍA DE DATOS 15
Figura 2.3: Clasificación de métodos.
2.5.4. Clasificación mineŕıa de datos
Las principales técnicas de mineŕıa de datos se suelen clasificar según su tarea de descubrimiento
en:
Agrupación.
La agrupación o clustering es la tarea descriptiva y consiste en obtener grupos “natura-
les” a partir de los datos. Los datos son agrupados basándose en el principio de maximizar
la similitud entre los elementos de un grupo minimizando la similitud entre los distintos
grupos. Al agrupamiento se le suele llamar segmentación, ya que parten o segmenta los
datos en grupos que pueden ser o no disjuntos [14]. Dos de los algoritmos de clustering
más utilizados son SELF ORGANIZING MAPS (SOM) y K-MEANS[8].
Algoritmo de agrupación EM:
Refina de forma iteractiva un modelo de clústeres inicial para ajustar los datos y deter-
mina la probabilidad de que un punto de datos exista en un clúster.El algoritmo EM,
procede en dos pasos que se repiten de forma iterativa:
2.5. MINERÍA DE DATOS 16
1 Expectación Utiliza los valores de los parámetros, iniciales o proporcionados por el
paso Maximización , obteniendo diferentes formas de la FDP (Función de Densidad
de Probabilidad) buscada. La función usada para determinar el ajuste es el logaritmo
de la probabilidad de los datos dado el modelo.
2 Maximización Obtiene nuevos valores de los parámetros a partir de los datos propor-
cionados.
Después de una serie de iteraciones, el algoritmo EM tiende a un máximo local. Finalmen-
te se obtendrá un conjunto de clústeres que agrupan el conjunto de proyectos original.
Clasificación.
Se utiliza para predecir la clase de nuevas instancias (registro en la base de datos) de las
que se desconoce la clase. El objetivo del algoritmo es maximizar la razón de precisión
de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las
prediccionescorrectas y el número total de predicciones (correctas e incorrectas) [8].
Los algoritmos mayormente utilizados para las tareas de clasificación son los algoritmos
de inducción. Uno de los enfoques más utilizados en este tipo de algoritmos son los arboles
de decisión.
Reglas de asociación.
Tienen por objetivo identificar relaciones no expĺıcitas entre atributos categóricos. Pueden
ser de muchas formas, aunque la formulación más común es del estilo “si el atributo X
toma un valor d entonces el atributo Y toma el valor de b”. Las reglas de asociación no
implican una relación causa-efecto, es decir, puede o no existir una causa para que los
datos estén asociados. Este tipo se utiliza frecuentemente en el análisis de la cesta de la
compra, para identificar productos que son frecuentemente comprados juntos[8].
Existen varios algoritmos que realizan el descubrimiento de reglas de asociación, uno de
los más utilizados es APRIORI. Cada una de las tareas, requiere métodos, técnicas o
algoritmos para resolverlas.
2.5. MINERÍA DE DATOS 17
2.5.5. Metodoloǵıas de mineŕıa de datos.
Las metodoloǵıas de mineŕıa de datos nos permiten llevar a cabo el proceso de forma sistemáti-
ca y estructurada para obtener resultados exitosos. La utilización de una metodoloǵıa facilita
la planeación y dirección del proyecto, lo que nos permite realizar un mejor seguimiento del
mismo. En la figura 2.4 se observan las principales metodoloǵıas que se pueden emplear para la
elaboración de la presente investigación.
Figura 2.4: Encuesta realizada por KDnuggets en el año 2007
Las principales metodoloǵıas de planificación de proyectos de mineŕıa de datos son:
2.5. MINERÍA DE DATOS 18
Metodoloǵıa SEMMA.
Es una metodoloǵıa de mineŕıa de datos desarrollada por SAS (Statical Analysis System).
Su nombre corresponde a las iniciales de sus cinco fases principales y se define como “el
proceso de selección, exploración y modelado de grandes volúmenes de datos para descubrir
patrones de negocio desconocidos. Las cinco fases básicas del proceso: Sample (Muestreo),
Explore (Exploración), Modify (Modificación), Model (Modelado), Assess (Valoración),
las cuales se muestran en la figura 2.5.
Figura 2.5: Fases metodoloǵıa SEMMA
La metodoloǵıa SEMMA se encuentra enfocada especialmente en aspectos técnicos, ex-
cluyendo actividades de análisis y comprensión del problema que se está abordando. Fue
propuesta especialmente para trabajar con el software de mineŕıa de datos de la compañ́ıa
SAS. Este producto organiza sus herramientas (llamadas “nodos”) en base a las distintas
fases que componen la metodoloǵıa[? ].
1 Sample(Extracción de una muestra representativa).
En esta primera fase de la metodoloǵıa, se realiza la extracción de un conjunto de
datos que sean una buena representación de la población a analizar, esto se hace con
el objetivo de facilitar los procesos de minado sobre los datos, reduciendo los tiempos
que se necesita para determinar la información valiosa para el negocio.
2 Explore (Exploración de los datos en la muestra).
En esta fase, se hace un recorrido a través de los datos extráıdos en la muestra para
detectar, identificar y eliminar datos anómalos, ayudando a refinar los procesos de
descubrimiento de información en fases siguientes del proceso.
2.5. MINERÍA DE DATOS 19
En este punto del proceso, la exploración se puede realizar a través de medios vi-
suales, aunque muchas veces no es suficiente este método, es por eso, que además de
la visualización se pueden manejar diferentes técnicas estad́ısticas como análisis de
factores, análisis de correspondencias, entre otros.
3 Modify (Modificación de los datos).
Esta modificación de los datos se puede realizar creando, seleccionando y transfor-
mando las variables en las cuales se va a enfocar el proceso de selección del modelo.
Muchas veces se tendrá la necesidad de realizar modificaciones cuando los datos que
se están analizando cambien. Esto se debe a que el entorno en el que se trabaja la
mineŕıa de datos es dinámico e iterativo.
4 Model (Modelación de los datos).
En esta fase, las herramientas de software se encargan de realizar una búsqueda com-
pleta de combinaciones de datos que juntos predecirán de una manera confiable los
resultados buscados. Es en esta parte donde las técnicas y métodos de mineŕıa de da-
tos entran a jugar un papel importante para la solución de los problemas que fueron
identificados al iniciar el proyecto de mineŕıa de datos.
5 Assess (Evaluación de los datos obtenidos).
Después de que la fase de modelación presente los resultados obtenidos de la aplica-
ción de los métodos de mineŕıa de datos al conjunto de datos. Se deberá realizar un
análisis de los resultados para ver si estos fueron exitosos de acuerdo a las entradas
que se tuvieron para analizar el problema.
Una buena práctica para identificar si los resultados con el modelo creado son los
esperados, es aplicar este modelo a una porción de datos diferente. Si el modelo
funciona correctamente para esta muestra y para la muestra utilizada para el proce-
so de creación del modelo, se tiene una buena probabilidad de tener un modelo valido.
2.5. MINERÍA DE DATOS 20
Metodoloǵıa KDD.(Knowledge Discovery in Databases)
El proceso de extracción de conocimiento (siglas en ingles KDD), consiste en extraer o
identificar lo que se considera como conocimiento de acuerdo a la especificación de ciertos
parámetros, usando una base de datos. Esta metodoloǵıa consiste en cinco etapas, las
cuales se muestran en la figura 2.6. y son:
1. Selección de datos.
En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar.
Es la etapa donde los datos relevantes para el análisis son extráıdos desde la o las
fuentes de datos.
2. Pre-procesamiento.
Esta etapa consiste en la preparación y limpieza de los datos extráıdos desde las
distintas fuentes de datos en una forma manejable, necesaria para las fases poste-
riores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o
en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una
estructura de datos adecuada para su posterior transformación.
3. Transformación.
Consiste en el tratamiento preliminar de los datos, transformación y generación de
nuevas variables a partir de las ya existentes con una estructura de datos apropiada.
Aqúı se realizan operaciones de agregación o normalización, consolidando los datos
de una forma necesaria para la fase siguiente.
4. Mineŕıa de datos.
Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son apli-
cados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
2.5. MINERÍA DE DATOS 21
5. Interpretación y Evaluación.
Se identifican los patrones obtenidos y que son realmente interesantes, basándose en
algunas medidas y se realiza una evaluación de los resultados obtenidos.
Figura 2.6: Etapas del proceso KDD
Metodoloǵıa CRISP-DM.
La metodoloǵıa CRISP–DM, fue creada por el grupo de empresas SPSS, NCR y Daimer
Chrysler en el año 2000, y es una gúıa de referencia que más se utiliza en el desarrollo de
proyectos de mineŕıa de datos.
Su proceso se estructura en seis fases: Comprensión del negocio, Comprensión de los datos,
Preparación de los datos, Modelado, Evaluación e Implantación. La figura 2.7. muestra
las fases que la componen y cómo interactúan unas con otras.
La sucesión de fases es flexible y se componen en varias tareas generales de segundo ni-
vel. Las tareas generales se proyectan a tareas espećıficas, las cuales son una gúıa para
determinar qué actividades desarrollar en cada etapa. Es decir, CRISP-DM establece un
conjunto de tareas y actividades para cada fase del proyecto [15].Fases de la metodoloǵıa CRISP-DM:
2.5. MINERÍA DE DATOS 22
Figura 2.7: Metodoloǵıa CRISP-DM.
1 Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técni-
ca):
• Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios
de éxito).
• Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,
terminoloǵıas propias del negocio).
• Establecimiento de los objetivos de la mineŕıa de datos (objetivos y criterios de
éxito).
• Generación del plan del proyecto (plan, herramientas, equipo y técnicas).
2 Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos
del negocio):
• Recopilación inicial de datos.
• Descripción de los datos.
• Exploración de los datos.
• Verificación de calidad de datos.
3 Preparación de los datos (Obtener la vista minable o dataset):
2.5. MINERÍA DE DATOS 23
• Selección de los datos.
• Limpieza de datos.
• Construcción de datos.
• Integración de datos.
• Formateo de datos.
4 Modelado (Aplicar las técnicas de mineŕıa de datos a los dataset):
• Selección de la técnica de modelado.
• Diseño de la evaluación.
• Construcción del modelo.
• Evaluación del modelo.
5 Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las
necesidades del negocio):
• Evaluación de resultados.
• Revisar el proceso.
• Establecimiento de los siguientes pasos o acciones.
6 Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de
decisiones de la organización):
• Planificación de despliegue.
• Planificación de la monitorización y del mantenimiento.
• Generación de informe final.
• Revisión del proyecto.
Caṕıtulo 3
Diseño de la solución.
3.1. Selección de metodoloǵıa
Para la elección de la metodoloǵıa se hizo con base a la comparación de las metodoloǵıas
existentes. Para realizar este proyecto, la metodoloǵıa CRISP-DM, es la adecuada ya que es
más flexible a la hora de seguir las distintas fases.
La metodoloǵıa CRISP-DM tienen un conjunto de actividades ordenadas en seis fases, algunas
son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las
fases anteriores, por lo que implementamos en la fase de evaluación, poder regresar al modelado
de los datos, y que nos permitiera corregir o adecuar los modelos para alcanzar los objetivos
finales del proyecto, quedando como resultado la figura 3.1, en la que se observa la ĺınea que se
agregó en la fase de evaluación y que nos permite regresar a la fase de modelado.
24
3.2. COMPRENSIÓN DEL PROBLEMA 25
Figura 3.1: Metodoloǵıa CRISP-DM modificada
3.2. Comprensión del problema
3.2.1. Determinación de los objetivos del problema
3.2.1.1. Contexto.
Este punto es importante para comprender el problema y lo que se busca obtener. Por lo tanto,
lo primero que se debe hacer, es registrar toda la información conocida al respecto.
Con el objeto de buscar los factores en el desempeño académico de los alumnos del Instituto
Tecnológico de la Paz, la principal fuente de datos para llevar acabo está investigación la consti-
tuyen los registros históricos de la base de datos académica, registrados del nivel de licenciatura,
correspondientes a los periodos 2006 al 2015.
3.2.1.2. Objetivos.
Los objetivos son:
Cumplir con los contenidos de los planes y Programas de estudio, alcanzando altos ni-
3.2. COMPRENSIÓN DEL PROBLEMA 26
veles en el ı́ndice de titulados, además de brindar clases de calidad para la formación de
profesionistas de excelencia, capaces de responder de manera efectiva y espećıfica a las
necesidades regionales, con calidad, productividad y una visión nacional e internacional.
Fomentar la participación en actividades académicas, culturales y deportivas (Concursos
de Ciencias Básicas, Creatividad, Emprendedores: Actividades Deportivas y Culturales).
3.2.1.3. Criterios de exito.
Al cumplir con los objetivos podremos identificar patrones de comportamiento en el aprove-
chamiento académico de los alumnos del Instituto, para determinar cuáles alumnos necesitarán
más apoyo o establecer algún seguimiento académico, que mejore su desempeño académico.
3.2.2. Evaluación de la situación.
El Instituto Tecnológico de la Paz cuenta con las herramientas necesarias para el desarrollo
de este proyecto, además de contar con un sistema de bases de datos que permite aplicar las
herramientas de mineŕıa de datos, aśı como un sistema para analizar la información.
Las pruebas de los modelos de mineŕıa de datos se realizarán dentro del Instituto Tecnológico
de La Paz en el área de Posgrado, donde cuenta con servidores y software necesarios para la
aplicación de las diversas técnicas de mineŕıa de datos.
Se diseñó y desarrollo una bodega de datos mediante el cual se generan cubos multidimensionales
para consultas directas.
Para realizar las pruebas e implementación de los modelos de mineŕıa de datos se tiene la opción
de utilizar una versión para investigación de SQL Server 2012 con licencia.
3.2. COMPRENSIÓN DEL PROBLEMA 27
3.2.3. Objetivos de mineŕıa de datos
Implementar un modelo de mineŕıa de datos que nos ayude a agrupar y asociar las variables de
los alumnos en que muestren posibles tendencias o patrones de comportamiento relacionadas
con su desempeño académico.
Para garantizar el éxito del objetivo mencionado, se realizará un plan de acuerdo a la metodo-
loǵıa en la que se definirán las funciones de mineŕıa de datos a utilizar.
3.2.4. Evaluación inicial de Funciones y Algoritmos.
3.2.4.1. Técnicas de Mineŕıa de Datos.
Para llevar a cabo el proyecto se utilizó la herramienta SQL Server 2012 de Microsoft, donde se
comparan los siguientes algoritmos:
Reglas de Asociación.
Los modelos de asociación se generan basándose en conjuntos de datos que contienen
identificadores para casos individuales y para los elementos que contienen los casos. Un
grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de
asociación se compone de una serie de conjuntos de elementos y de las reglas que describen
cómo estos elementos se agrupan dentro de los casos[2].
Para efectos de la realización del proyecto, este algoritmo es de utilidad ya que podemos
identificar los elementos de asociación entre los alumnos que reprobaron o aprobaron, en
determinada materia, es decir, identificar lo que tienen en común cada uno de ellos con el
resto de los registros que cumplen con el parámetro deseado.
Algoritmo de Clústeres.
El algoritmo de agrupamiento de Microsoft es un algoritmo de segmentación que itera en
los casos de un conjunto de datos para agruparlos en grupos que contengan caracteŕısticas
3.3. RECOLECCIÓN DE LOS DATOS 28
similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de
anomaĺıas en los datos y la creación de predicciones[2].
La aplicación de este algoritmo nos permite agrupar y clasificar a los alumnos que repro-
baron cierta materia, y segmentarlos de acuerdo a la coincidencia en diferentes parámetros
e ir formando diversos grupos de los mismos, además de crear relaciones entre cada uno
de los alumnos que integran el grupo.
3.3. Recolección de los datos
3.3.1. Recolección de datos iniciales.
En esta etapa se recolectaron los datos de los alumnos del Instituto Tecnológico de La Paz,
que se van a cargar al modelo de mineŕıa de datos. Se hace uso de las herramientas para la
visualización y/o manipulación de los datos de origen.
La base de datos del Instituto Tecnológico de la Paz está desarrollada o generada en MySQL,
para la realización de nuestro proyecto fue necesario exportarla a SQL Server mediante el uso
de la herramienta llamada SQL Server Migration Assistant for MySql, ya que SQL Server tiene
Herramientas para el uso y creación de modelos Multidimensionales.
Este proyectose basa en una bodega de datos que previamente se construyó y validó en SQL
Server 2012.
El origen de los datos está dividido por una tabla de hechos que se generó a partir de una tabla
llamada Kardex, con sus tablas relacionadas que son: alumnos, materias, grupos, maestros,
especialidades.
3.3.2. Descripción de los datos.
En esta etapa se generó un reporte con las propiedades de las tablas y el formato de los datos, aśı
como la cantidad de registros y campos de cada tabla que se utilizarán para nuestro proyecto.
3.4. PREPARACIÓN DE LOS DATOS 29
La base de datos llamada “escolar” es con la que se trabaja en el proyecto. Cuenta con 535671
registros históricos de las notas de los 19766 alumnos en el Instituto Tecnológico de La Paz,
cuenta con 79 tablas, que se muestran en la figura 3.2.
Figura 3.2: Tablas con que cuenta la base de datos escolar.
Las tablas que se requieren para el análisis del proyecto se detallan en el anexo A.
3.4. Preparación de los datos
En esta fase se llevan a cabo todas las tareas para construir una bodega de datos que serán utili-
zados en las herramientas de modelado, donde se llevó el proceso de extracción, transformación
y carga (ETL). Las cuales son ejecutadas en múltiples oportunidades y sin orden e incluyen
selección de tablas, registros y atributos, aśı como la transformación y limpieza de datos para
las herramientas de modelado.
3.4. PREPARACIÓN DE LOS DATOS 30
3.4.1. Seleccionar y verificar los datos.
Para este proyecto solo se va a utilizar un origen de datos y en el cual se seleccionaron 9 de
las 79 tablas con que cuenta la base de datos “escolar”, que nos serv́ıan para el desarrollo de
nuestro proyecto. Las tablas seleccionadas son:
Tablas seleccionadas
Tabla Registros
Kardex 535,671
Alumnos 19,766
Materias 3,316
Grupos 22,106
Personal 206
Especialidades 47
Planes 81
Escuelas 70
Departamentos 26
Se verificó que los datos de la base de datos, no hubiera incongruencias y se validó que los
registros de las materias de los alumnos que están dados de alta en la tabla Kardex, existieran
sus registros en las tablas de alumnos.
3.4.2. Limpiar los datos.
En esta fase se unificaron criterios para empezar el proceso ETL propiamente dicho. Es impor-
tante tener la información consolidada, es decir, todos los datos sean correctos y tener una sola
visión para todos los usuarios.
3.4. PREPARACIÓN DE LOS DATOS 31
Además, se removieron los valores inconsistentes y se usaron los mismos valores estándar para
todos los datos. También se debe mencionar que estos datos están siendo utilizados para mostrar
información mediante cubos multidimensionales y son cien por ciento confiables, homogéneos y
sin datos nulos.
3.4.3. Integración de los datos.
En este proyecto fue necesario integrar la clave de maestro y de especialidad a la tabla de
Kardex, ya que desde esta tabla no se pod́ıa obtener los datos relacionados del maestro que
impartió la materia al alumno, aśı como la especialidad del alumno. Por lo tanto, de acuerdo
a su clave, se obtuvo e integró el nombre del maestro que impartió la materia, aśı como a la
especialidad a la que pertenece el alumno.
Se agregaron nuevos campos, como es el de ‘curso’, ‘acredito’, y ‘rangocalificación’, los cuales
son las claves para acceder a sus respectivas tablas, que fueron creadas a partir de los datos que
se encuentran en la tabla Kardex.
Para llevar a cabo el proceso de ETL (Extracción, Transformación y Carga), se hizo uso de la
herramienta de Microsoft Visual Studio 2010, quedando como resultado el siguiente proyecto
que se muestra en la figura 3.3.
3.4.4. Dar formato a los datos.
En este punto, la metodoloǵıa nos indica la posibilidad de verificar o dar nuevamente formato
a la tabla de datos que va ser la entrada del modelo de mineŕıa de datos. Revisar los últimos
cambios que se hicieron y/o reorganizar las columnas de la tabla. Todo esto con la finalidad de
preparar el origen de datos para lo que será la siguiente etapa de la metodoloǵıa, la etapa de
modelado de los datos.
En este caso se hizo una verificación de los cambios descritos anteriormente, validando que
hayan sido correctos. El resultado del paso anterior, nos queda un modelo multidimensional que
3.5. MODELADO 32
Figura 3.3: Modulo del Proceso ETL en SQL Server 2012.
se muestra en la figura 3.4., y que es la base para la construcción de nuestro almacén de datos.
3.5. Modelado
De acuerdo a las tareas que se deben seguir en la metodoloǵıa CRISP-DM, sigue la etapa del
modelado, la cual establece que dentro de las tareas a seguir son: seleccionar la técnica que se
va a utilizar, generar el diseño de pruebas, la construcción del modelo (definir sus parámetros,
modelos y su descripción) y por último la evaluación del mismo, en la cual se confirma o se
modifican los parámetros.
3.5. MODELADO 33
Figura 3.4: Modelo multidimensional tipo constelación.
3.5.1. Seleccionar la técnica del modelado.
En esta actividad, se da el primer paso del modelado en el cual se selecciona la técnica o
algoritmo que se va a utilizar.
3.5.1.1. Técnica del modelado.
Las técnicas o algoritmos que se seleccionaron después de un análisis de la información y en base
al objetivo de nuestra investigación, se concluyó que son los que generan modelos descriptivos,
que nos sirven para identificar patrones que expliquen o resuman los datos, es decir, para explorar
las propiedades de los datos examinados, no para predecir nuevos datos.
Los algoritmos para realizar nuestras pruebas son: la técnica de reglas de asociación con el
algoritmo A priori, y la técnica de agrupamiento con los algoritmos de clústeres K-Medias y
EM (Máxima Expectación).
Se decidió por que son técnicas que nos permiten analizar la información histórica, y que nos
3.5. MODELADO 34
ayudan a encontrar patrones que describan la información, además permiten establecer relevan-
cia de factores y si aquélla es positiva o negativa respecto a otro factor o variable a estudiar.
3.5.2. Generar el diseño de pruebas.
Para construir el modelo, primero se generó un mecanismo para poder probar su calidad y
veracidad. Primero se estableció la estructura de mineŕıa de datos en la que se define los datos
a partir de la cual se generan los modelos de mineŕıa de datos y que se muestra en la figura 3.5.
En la estructura se especifica el origen de los datos, el número y el tipo de columnas. Una
misma estructura de mineŕıa de datos puede admitir varios modelos de mineŕıa de datos que
compartan el mismo dominio.
Figura 3.5: Estructura de mineŕıa de datos
En la figura 3.6 Se presenta los parámetros asociados para la base de datos de alumnos.
HoldoutMaxCases = 0;
Especifica el porcentaje máximo de casos en el origen de datos que se van a usar en la
partición de exclusión que contiene el conjunto de pruebas para la estructura de mineŕıa
de datos DWEscolar. Los casos restantes en el conjunto de datos se usan para el entre-
namiento. El valor cero indica que no hay ningún ĺımite con respecto al número de casos
que se pueden considerar como el conjunto de pruebas.
3.5. MODELADO 35
Figura 3.6: Parametros de la estructura de mineŕıa de datos DWEscolar
HoldoutMaxPercent = 30;
Especifica el porcentaje máximo de casos de exclusión para la estructura de mineŕıa de
datos DWEscolar. Los casos restantes se usan para aprendizaje.
Ya que se estableció la estructura de mineŕıa de datos, se procede a definir los modelos que se
llevaran a cabo para la presente investigación, los cuales son: asociación A priori, De agrupa-
miento (K-medias y EM).
Para poder llevar a cabo el análisis en menor tiempo, se tomó como objeto de estudio los datos
correspondientes a los alumnos de la carrera de Ingenieŕıa en Sistemas Computacionales. Las
pruebas para el modelo que se utilizaron para analizar la calidad y el porcentaje de error, se
establecieron de la siguiente manera:1 Se tomó como objeto de estudio solo los datos correspondientes a los alumnos de la Especia-
lidad de Ingenieŕıa en Sistemas computacionales con 26,658 registros.
2 Se realizan pruebas con las siguientes variables de entrada: alumno, maestro, materia, es-
pecialidad, curso, tiempo y semestre. Para la variable predictiva se seleccionó la variable Id
Acredito.
3.5. MODELADO 36
3 Posteriormente se validan los resultados y se ajustan los parámetros del algoritmo.
3.5.3. Construcción de los modelos.
Dado que se estableció la técnica de modelado y se diseñó el modelo de pruebas, se procede a rea-
lizar la construcción del modelo. La implementación y ejecución de los algoritmos seleccionados,
se describen a continuación:
3.5.3.1. Algoritmo de Asociación A priori.
Prueba #1. Como primera prueba se especificó el contenido y el tipo de datos de entrada,
como se muestra en la figura 3.7.
Figura 3.7: Tipo de datos de las columnas del algoritmo A priori.
3.5. MODELADO 37
Como paso siguiente se especificó las columnas de entrada de datos, aśı como la columna o
variable para la predicción que se usarán en la aplicación del análisis y las cuales se muestran
en la figura 3.8.
Figura 3.8: Columnas a analizar del algoritmo A priori.
Una vez que se estableció una probabilidad mı́nima de 80 % y un soporte mı́nimo de 67 %,
se llevó acabo el primer análisis con la anterior configuración de variables de entrada y la va-
riable de predicción, se generó las siguientes reglas de asociación que se muestran en la figura 3.9.
Se muestra que hay una asociación fuerte de las materias con los alumnos, y nos indican las
materias que tienen mayor incidencia en el nivel de reprobación en la carrera de ingenieŕıa en
sistemas computacionales.
3.5. MODELADO 38
Figura 3.9: Reglas generadas en la ejecución del algoritmo A priori.
Como segundo análisis se aplicó el algoritmo de asociación A priori a las siguientes carreras:
Arquitectura
Ingenieŕıa Civil
Ingenieŕıa Bioqúımica
Ingenieŕıa en Gestión Empresarial
Ingenieŕıa Electromecánica
Ingenieŕıa Industrial
Licenciatura en Administración
Contador Público
Los resultados de cada una se muestran en el anexo B.
Prueba #3.
Como tercer análisis se aplicó el algoritmo de asociación A priori a todo el conjunto de datos
contenidos en la bodega de datos DWEscolar, y que comprende las 9 especialidades (carreras)
que ofrece el Instituto.
3.5. MODELADO 39
Como resultado se observó que no mostraba información clara al asociar los conjuntos de los
elementos y en la generación de reglas que nos permitieran identificar los elementos de asociación
entre los alumnos que reprobaron o aprobaron en determinada materia.
3.5.3.2. Algoritmo de agrupamiento K-medianas.
Prueba #1.
La primera prueba se aplicó el algoritmo de clústeres de Microsoft, dicho algoritmo nos pro-
porciona dos diferentes métodos para crear clústeres, el primero es el K-medianas, el cual es
un método en los que los datos pueden pertenecer a un solo clúster y en el que se calcula una
probabilidad de pertenencia de cada punto de datos a ese clúster. El algoritmo K-medianas
cuenta con dos métodos: escalable, donde solo se usa en los primeros 50000 casos y no escalable,
donde se aplica a todos los datos de nuestro modelo.
Como primera prueba se estableció las columnas de entradas de los datos (IdAlumno, IdMa-
teria, IdMaestro, IdCurso), aśı como la variable de predicción (IdAcredito). Los valores de los
parámetros utilizados en el algoritmo de clúster que establecimos para seleccionar el K-medianas
escalable (CLUSTERING METHOD=3) y el número de clúster (CLUSTER COUNT=7).
Figura 3.10: Diagrama de clúster obtenido en la prueba #1 del algoritmo K-medianas.
3.5. MODELADO 40
Una vez que se realizó el primer análisis con el algoritmo seleccionado, se generó un diagrama de
grupos como se muestra en la figura 3.10, los conjuntos generados muestran información a partir
de las variables de entrada, y nos indican que son muy similares en los niveles de probabilidad
de la desviación t́ıpica de las distancias de cada uno de ellos.
Como resultado también se generó un resumen de los perfiles de grupos, que se muestra en la
figura 3.11. y muestra que las variables curso, materia y maestro, tienen relación en el aprove-
chamiento académico de los alumnos.
Figura 3.11: Perfil de clúster obtenido en la prueba #1 del algoritmo K-medianas.
Los resultados de este primer análisis, es que las variables, materia y maestro tienen una fuerte
relación en la aprobación y reprobación de los alumnos, sin embargo, para determinar con mayor
precisión el grado de influencia de cada variable se procede a ejecutar una segunda prueba.
Prueba #2
Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el
mismo método de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero
modificamos el número de grupos (CLUSTER COUNT) por un valor de 5.
Se modificó el número de grupos, ya que se busca que agrupe en un conjunto de datos de acuerdo
3.5. MODELADO 41
al estado de predicción, que son acredito o no.
Una vez que se llevó acabo el análisis con el algoritmo seleccionado, se generó un nuevo diagrama
de grupos como se muestra en la figura 3.12. Observamos que el diagrama resultante muestra
información más clara y que los grupos generados, tienen una densidad muy similar, es decir
que los v́ınculos son más fuertes al agrupar las variables, e indican que es similar en la mayoŕıa
de ellos.
Figura 3.12: Diagrama de clúster obtenido en la prueba #2 del algoritmo K-medianas.
Figura 3.13: Perfil de clúster obtenido en la prueba #2 del algoritmo K-medianas.
El resultado que se observó al generar los perfiles del grupo se muestran en la figura 3.13, se
puede apreciar que los grupos generados no se distingue una diferencia.
3.5. MODELADO 42
Prueba #3
Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el
mismo método de agrupamiento, el K-Medianas escalable (CLUSTERING METHOD=3), pero
modificamos el número de grupos (CLUSTER COUNT) por un valor de 2.
Una vez que se llevó acabo el análisis con el algoritmo seleccionado, se generó un nuevo diagrama
de grupos como se muestra en la figura 3.14. Observamos que el diagrama resultante muestra
información más clara y que los grupos generados, es decir que los v́ınculos son más fuertes al
agrupar las variables.
Figura 3.14: Diagrama de clúster obtenido en la prueba #3 del algoritmo K-medianas.
El resultado que se observó al generar los perfiles del grupo se muestran en la figura 3.15, se
puede apreciar que los grupos generados ya muestra información clara y precisa. Por lo tanto, ya
se pueden identificar las tendencias o patrones de comportamiento entre los grupos generados.
3.5.3.3. Algoritmo de agrupamiento Máxima Expectación (EM).
Prueba #1.
Como primera prueba se estableció las columnas de entradas de los datos (IdAlumno, IdMateria,
IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito).
3.5. MODELADO 43
Figura 3.15: Perfil de clúster obtenido en la prueba #3 del algoritmo K-medianas.
Los valores de los parámetros utilizados en el algoritmo de clúster que establecimos para
seleccionar el EM escalable (CLUSTERING METHOD=1) y el número de clúster (CLUS-
TER COUNT=7).
Figura 3.16: Diagrama de clúster obtenido en la prueba #1 del algoritmo EM.
Una vez que se realizó el primer análisis con el algoritmo seleccionado, se generó un diagrama
de grupos como se muestra en la figura 3.16, los conjuntos generados muestran información a
partir de las variables de entrada.
3.5. MODELADO 44
Figura 3.17: Perfil de clúster obtenidoen la prueba #1 del algoritmo EM.
Como resultado también se generó un resumen de los perfiles de grupos, que se muestra en la
figura 3.17. y muestra que las variables curso, materia y maestro, tienen relación en el aprove-
chamiento académico de los alumnos.
Como resultado no se puede apreciar un agrupamiento claro de los alumnos que aprobaron y
los que reprobaron.
Prueba #2
Como segunda prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el
mismo método de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-
camos el número de grupos (CLUSTER COUNT) por un valor de 5.
Una vez que se llevó acabo el segundo análisis, generó un nuevo diagrama de grupos como se
muestra en la figura 3.18. Observamos que el diagrama resultante muestra información más
clara y que los grupos generados, tienen una densidad muy similar, es decir que los v́ınculos son
más fuertes al agrupar las variables, e indican que es similar en la mayoŕıa de ellos.
En la figura 3.19. Se muestra el resumen de los perfiles de los clústeres generados en el análisis
de la información.
3.5. MODELADO 45
Figura 3.18: Diagrama de clúster obtenido en la prueba #2 del algoritmo EM.
Figura 3.19: Perfil de clúster obtenido en la prueba #2 del algoritmo EM.
3.5. MODELADO 46
Prueba #3
Como tercera prueba, se establecieron las columnas de entradas de los datos (IdAlumno, Id-
Materia, IdMaestro, IdCurso), aśı como la variable de predicción (Id Acredito). Se seleccionó el
mismo método de agrupamiento, el EM escalable (CLUSTERING METHOD=1), pero modifi-
camos el número de grupos (CLUSTER COUNT) por un valor de 2.
Realizado el tercer análisis se generó un nuevo diagrama de grupos, como se muestra en la figura
3.20. El diagrama resultante nos da información de los grupos generados, pero observamos que
los grupos tienen una densidad muy similar.
Figura 3.20: Diagrama de clúster obtenido en la prueba #3 del algoritmo EM.
Figura 3.21: Perfil de clúster obtenido en la prueba #3 del algoritmo EM.
Como se puede observar en la figura 3.21, los perfiles de grupos resultantes no muestran infor-
mación clara, ya que siguen existiendo similitudes entre ellos.
3.6. EVALUACIÓN DEL MODELO. 47
3.6. Evaluación del modelo.
Llegados a esta fase, cabe preguntarse cómo saber śı los modelos son suficientemente válidos
para nuestros propósitos. Para ello, existen varios métodos para evaluar la calidad de un modelo
a partir de datos reales.
3.6.1. Gráfico de elevación.
Un Gráfico de mejora respecto al modelo predictivo representa gráficamente la mejora que
proporciona un modelo de mineŕıa de datos en comparación con una estimación aleatoria, y
mide el cambio en términos de puntuación de la mejora respecto al modelo predictivo. Al
comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del
conjunto de datos y para los distintos modelos, puede determinar cuál es el mejor modelo y qué
porcentaje de casos del conjunto de datos se beneficiaŕıa de aplicar las predicciones del modelo.
Con un gráfico de mejora respecto al modelo predictivo, puede comparar la precisión de las
predicciones para varios modelos que tienen el mismo atributo de predicción. También puede
evaluar la exactitud de la predicción para un único resultado (un único valor del atributo de
predicción) o para todos los resultados (todos los valores del atributo especificado).
El gráfico de elevación para los modelos en estudio, se muestra en la figura 3.22. Acredito =
1 (Reprobado), el atributo de destino es (Acredito) y el valor de destino es 1 (Reprobado), lo
que representa que el estudiante es probable que repruebe. El gráfico de elevación muestra la
mejora que el modelo proporciona al identificar a los alumnos que es probable que reprueben.
El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para
comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.
La ĺınea recta diagonal, mostrada aqúı en gris representa los resultados de la estimación aleatoria
y es la ĺınea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo
que agrega a un gráfico de mejora respecto al modelo predictivo, obtiene dos ĺıneas adicionales:
una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos,
si pudiera crear un modelo que siempre predijera perfectamente; y la segunda ĺınea muestra la
3.6. EVALUACIÓN DEL MODELO. 48
Figura 3.22: Gráfico de elevación de los modelos de estudio.
mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.
La ĺınea ideal para el modelo filtrado se muestra en rosa y la ĺınea para la elevación real en
morado. Puede deducir del gráfico que la ĺınea ideal alcanza el máximo cerca del 30 por ciento,
lo que significa que, si tuviera un modelo perfecto, podŕıa llegar al 100 por ciento de los alumnos
reprobados únicamente al 30 por ciento de la población total. La elevación real para el modelo
filtrado al destinarse al 30 por ciento de la población está entre el 60 y el 70 por ciento, lo que
significa que se podŕıa llegar al 60 ó 70 por ciento de los alumnos de destino no acreditando al
30 por ciento de la población total de alumnos.
la población total. La elevación real para el modelo filtrado al destinarse al 30 por ciento de
la población está entre el 60 y el 70 por ciento, lo que significa que se podŕıa llegar al 60 ó 70
por ciento de los alumnos de destino no acreditando al 30 por ciento de la población total de
alumnos.
En la figura 3.23. muestra los valores de probabilidad de predicción de cada uno de los modelos
e indica el valor que representa el indicio necesario para incluir un estudiante entre los casos con
probabilidad de reprobar. En estos resultados se puede observar que, cuando se mide el 40 por
ciento de todos los casos, el modelo K-mediana puede predecir el comportamiento de alumnos
reprobados en el 60 % de la población destino.
3.6. EVALUACIÓN DEL MODELO. 49
Figura 3.23: Leyenda de elevación de los modelos de estudio.
El valor de Probabilidad de predicción representa el umbral necesario para incluir un alumno
entre los casos con probabilidad de reprobar.
El valor de Puntuación ayuda a comparar los modelos calculando la efectividad del modelo a
través de una población normalizada. Una mayor puntuación es mejor, de modo que en este
caso se podŕıa decidir que seleccionar a los alumnos con el modelo K-medianas es la estrategia
más eficiente con un puntaje de 0.70, siguiendo el modelo EM con 0.66 y el modelo A priori con
0.61.
3.6.2. Validación Cruzada.
Uno de los métodos es la validación cruzada que se usa después de crear una estructura de
mineŕıa de datos y los modelos de mineŕıa de datos relacionados para determinar la validez del
modelo. La validación cruzada tiene las aplicaciones siguientes:
Validar la solidez de un modelo de mineŕıa de datos determinado.
Evaluar varios modelos de una instrucción única.
Generar varios modelos e identificar a continuación el mejor modelo basándose en es-
tad́ısticas.
La validación cruzada es un método establecido para evaluar la exactitud de los modelos de
mineŕıa de datos. La validación cruzada divide sucesivamente los datos de la estructura de
3.6. EVALUACIÓN DEL MODELO. 50
mineŕıa de datos en subconjuntos, genera modelos en los subconjuntos y mide la exactitud del
modelo para cada partición.
Además, la información básica acerca del número de plegamientos en los datos y de la cantidad
de datos en cada plegamiento, Analysis Services muestra un conjunto de métricas sobre cada
modelo, clasificadas por tipo. A continuación, se muestra una lista con las pruebas y las métricas,
junto con una

Continuar navegando

Materiales relacionados