Logo Studenta

Taller de clusters

¡Estudia con miles de materiales!

Vista previa del material en texto

TALLER DE CLUSTERING 
 
 
 
1era parte(60%): Análisis de logs de un Aula Virtual. 
1. Utilice el filtro no supervisado NumericToNominal aplique y verifique que todos los 
datos queden como nominales. 
2. Utilizando el algoritmo EM (Esperanza Maximización) analice la muestra de datos 
modificando los parámetros: Número de semilla, cantidad de cluster (no utilice 
numCluster=-1 ¿Qué significa?) y cantidad máxima de iteraciones. Haga un total de 
7 pruebas con parámetros distintos. Anote el valor del log-likehood. En una tabla de 
cálculo realice la relación de cada valor log-likehood con los respectivos parámetros. 
A partir del valor del log-likehood ¿Cuál conjunto de parámetros obtuvo la mejor 
respuesta? 
 
Si numCluster es-1, lo que hace es seleccionar automáticamente el número de 
clusters mediante validación cruzada. 
 
 
 
No. Prueba 1 2 3 4 5 6 7 
Número de 
semilla: 
20 40 60 80 100 120 140 
Cantidad de 
cluster: 
2 3 4 5 6 7 8 
Cantidad 
máxima de 
iteraciones: 
100 200 300 400 500 600 700 
log-likehood: -
14.9096
6 
-
14.5904
8 
-
14.5232
8 
-
14.3411
4 
-14.307 -
14.2648
5 
-
14.3459
1 
 
 
R- El conjunto de parámetros que obtuvo la mejor respuesta fue para la para la 
sexta, ya que esta posee el log-likehood con mayor probabilidad que el resto con un 
valor de -14.26485. Como podemos observar para esta sucesión de pruebas 
mientras vamos aumentando el valor de los parámetros, mejor era el ajuste para el 
modelo. 
 
 
 
3. Utilizando el algoritmo Simple K-Medias realice otras 7 pruebas a la muestra de 
datos cambiando los mismos parámetros del punto anterior al algoritmo. Esta vez 
realice la relación en una hoja de cálculo de los parámetros con el dato “suma de los 
errores cuadrados”. ¿Cuál conjunto de parámetros obtuvo la mejor respuesta? 
 
 
 
No. Prueba 1 2 3 4 5 6 7 
Número de semilla: 25 50 75 100 125 150 175 
Cantidad de 
cluster: 
2 3 4 6 8 10 12 
Cantidad máxima 
de iteraciones: 
150 300 450 600 750 900 1050 
Within cluster 
sum of squared 
errors: 
99244.
0 
90326.
0 
 
90123.
0 
84639.
0 
79632.
0 
80270.
0 
75956.
0 
 
R- El conjunto de parámetros que obtuvo la mejor respuesta fue en la prueba 
número 7, ya que esta tuvo una suma de los errores cuadrados de 75956.0 y puesto 
que cuanto menor sea este valor mejor será la respuesta, dándonos a entender lo 
compacto que puede estar un cluster. 
 
4. ¿Cuál algoritmo demoró más? ¿A qué se deberá la diferencia? 
R\ El algoritmo de maximización de expectativas (EM) tardó más que el algoritmo 
simple de K-Means. Esto se debe a que el algoritmo K-Means simple sólo calcula la 
distancia entre un punto y el centro de un grupo. Por tanto, el cálculo es 
insignificante en comparación con el algoritmo EM, que utiliza una distribución 
gaussiana para cada grupo, calcula la probabilidad de que cada dato pertenezca a 
un grupo concreto y realiza varias iteraciones intentando maximizar esta 
probabilidad. Con un gran número de parámetros que hay que estimar, es posible 
que el algoritmo EM sea más lento a la hora de converger a la solución correcta. 
 
Traducción realizada con la versión gratuita del traductor 
www.DeepL.com/Translator 
 
5. Eligiendo los mejores parámetros para el algoritmo EM, grafique mediante 
histogramas los resultados. 
6. Revise las gráficas y a partir de estas saque sus propias conclusiones sobre las 
características distintivas de cada clúster. Elabore un pequeño texto con sus 
conclusiones de la práctica. 
a. Clusters – Días de la semana. 
 
En este histograma podemos analizar que mayormente los días de la semana 
son más clasificados en el primer cluster, pero de este destaca más el día 3 lo 
que significa que hay mayor posibilidad de que las instancias con ese 
parámetro sean agrupadas en el primer cluster. Otra cosa que se puede 
apreciar es que el cuarto cluster tiene la probabilidad más alta de agrupar los 
días 4, ya que en la gráfica es identificable esta única columna. 
 
b. Clusters – Horas. 
 
En este histograma presentamos similitudes respecto a la probabilidad que 
tienen las instancias de agruparse en determinados clusters, podemos ver que 
en el primer cluster existe la mayor probabilidad que se agrupen ciertas horas, 
a diferencia de los otros. Podemos observar que en el cuarto cluster 
predominan más dos horas que son 9 y 15, lo que indica que instancias con 
estas mismas características pueden ser encontradas en este cluster. 
 
c.Clusters – Genero. 
 
En este histograma hay una particularidad y es que en la mayoría de los cluster 
el género F tiene más probabilidades respecto al género M, exceptuando el 
tercer cluster donde hay probabilidad de que se agrupen los genero M. 
También es apreciable ver que en el primer cluster es donde ambos 
parámetros tienen mayor probabilidad respecto a los otros, siendo más 
probable que en este cluster se clasifiquen las instancias de género M. 
 
d. Grafique los 10 programas principales de cada cluster. Haga una gráfica 
para cada clúster. 
 
Primer Cluster. 
 
Del histograma del primer cluster podemos concluir que este tiene una mayor 
probabilidad de clasificar o agrupar las instancias que pertenecen al programa 
de INGENIERÍA QUÍMICA. 
 
Segundo Cluster. 
 
Para el histograma del segundo cluster podemos concluir que se agrupan 
mayormente las instancias que pertenecen a CONTADURÍA PÚBLICA, ya que 
es el programa que tiene mayor probabilidad de ser clasificado en el segundo 
cluster. 
 
Tercer Cluster. 
 
Podemos ver que en este cluster tenderán a agruparse las instancias que 
pertenecen al programa de TEC. CINE Y TELEVISIÓN. 
 
Cuarto Cluster. 
 
En este cluster podemos ver que la probabilidad de agrupar las instancias es 
bajo, en este cluster DISEÑO GRÁFICO es el programa que más se puede 
encontrar. 
 
Quinto Cluster. 
 
Del quinto cluster se puede concluir que clasificará la mayoría de instancias de 
DISEÑO INDUSTRIAL debido a que cuenta con la mayor probabilidad de 
clasificación. 
 
Sexto Cluster. 
 
Al igual que en el cuarto cluster, en este se analiza que se agruparán 
mayormente instancias que tenga como programa DISEÑO GRÁFICO, pero 
se diferencia en que en este sexto cluster tiene una probabilidad mayor. 
 
Séptimo Cluster. 
 
Por último, en este cluster el programa de PUBLICIDAD es el que tiene mayor 
probabilidad, lo que indica que se encontrarán más instancias pertenecientes 
a este programa. 
 
7. Finalmente realice un análisis de los datos con el parámetro numCluster=-1. ¿Por 
qué tarda tanto? Cancele la prueba si la iteración dura más de cinco minutos. 
 
R- La prueba se canceló ya que estaba tardando más de cinco minutos, debido al 
gran número de instancias y de generar automáticamente el número óptimo de 
clusters mediante validación cruzada para el modelo este algoritmo tarda tanto. 
 
 
2da parte (40%) Cluster Conceptual. 
 
A continuación una breve descripción de este algoritmo en WEKA: o acuity (100) 
Indica la mínima varianza permitida en un cluster o cutoff (0) Factor de poda. Indica 
la mejora en utilidad mínima por una subdivisión para que se permita llevar a cabo. 
La implementación de COBWEB en WEKA es similar al algoritmo de K medias. 
Algunas características de esta implementación son: 
• Se permiten atributos numéricos y simbólicos. 
• La semilla para obtener números aleatorios es fija e igual a 42. 
• Permite pesos asociados a cada ejemplo. 
 
Realmente el valor de cutoff es 0.01×1 (2 π ). En el caso de que el ejemplo que se 
desea clasificar genere, en un nodo determinado, un CU menor al cutoff, se eliminan 
los hijos del nodo (poda). Usted debe usar la sgte base de datos para realizar 
distintos procesos de clustering (por ejemplo usando diversas acuity y cutoff) 
aplicando COBWEB: http://archive.ics.uci.edu/ml/datasets/Student+Performance 
 
CUIDADO: Se espera que en este punto usted aporte tanto como sele ocurra para 
configurar los distintos proceso de clustering Tenga cuidado con los datos 
numéricos de esta base de datos quizás sea necesario preprocesar. 
 
- Como primer paso fue necesario normalizar los datos de tipo numérico 
 
 
N. Pruebas 1 2 3 
acuity 1.0 1.5 2.0 
cutoff 0.0056418958354
77563 
0.0112837916709
55126 
0.0169256875064
3269 
 
Los parámetros por defecto del algoritmo dieron como resultado 
 
Ya que el número de clusters es grande, los valores de cutoff deben aumentarse 
para obtener resultados favorables, pero los resultados no presentaron ningún 
cambio para ningún número de fusiones, divisiones o conglomerados. Esto se debe 
a la elevada varianza de los datos.

Continuar navegando

Contenido elegido para ti

111 pag.
estadistica-basica-con-R

User badge image

Contenidos Diversos

73 pag.
Cuaderno Maca Ossa

User badge image

Estudiando Ingenieria

181 pag.
nmr13

Escuela Universidad Nacional

User badge image

Diana Milena Bastidas

42 pag.
11398-Estadistica_Apuntes_Previos

Vicente Riva Palacio

User badge image

Karelys Reyes