Taller de clusters

Ciencia de Datos

•

SIN SIGLA

Yong Goh

8/7/2023

¡Estudia con miles de materiales!

Vista previa del material en texto

TALLER DE CLUSTERING

1era parte(60%): Análisis de logs de un Aula Virtual.
1. Utilice el filtro no supervisado NumericToNominal aplique y verifique que todos los
datos queden como nominales.
2. Utilizando el algoritmo EM (Esperanza Maximización) analice la muestra de datos
modificando los parámetros: Número de semilla, cantidad de cluster (no utilice
numCluster=-1 ¿Qué significa?) y cantidad máxima de iteraciones. Haga un total de
7 pruebas con parámetros distintos. Anote el valor del log-likehood. En una tabla de
cálculo realice la relación de cada valor log-likehood con los respectivos parámetros.
A partir del valor del log-likehood ¿Cuál conjunto de parámetros obtuvo la mejor
respuesta?

Si numCluster es-1, lo que hace es seleccionar automáticamente el número de
clusters mediante validación cruzada.

No. Prueba 1 2 3 4 5 6 7
Número de
semilla:
20 40 60 80 100 120 140
Cantidad de
cluster:
2 3 4 5 6 7 8
Cantidad
máxima de
iteraciones:
100 200 300 400 500 600 700
log-likehood: -
14.9096
6
-
14.5904
8
-
14.5232
8
-
14.3411
4
-14.307 -
14.2648
5
-
14.3459
1

R- El conjunto de parámetros que obtuvo la mejor respuesta fue para la para la
sexta, ya que esta posee el log-likehood con mayor probabilidad que el resto con un
valor de -14.26485. Como podemos observar para esta sucesión de pruebas
mientras vamos aumentando el valor de los parámetros, mejor era el ajuste para el
modelo.

3. Utilizando el algoritmo Simple K-Medias realice otras 7 pruebas a la muestra de
datos cambiando los mismos parámetros del punto anterior al algoritmo. Esta vez
realice la relación en una hoja de cálculo de los parámetros con el dato “suma de los
errores cuadrados”. ¿Cuál conjunto de parámetros obtuvo la mejor respuesta?

No. Prueba 1 2 3 4 5 6 7
Número de semilla: 25 50 75 100 125 150 175
Cantidad de
cluster:
2 3 4 6 8 10 12
Cantidad máxima
de iteraciones:
150 300 450 600 750 900 1050
Within cluster
sum of squared
errors:
99244.
0
90326.
0

90123.
0
84639.
0
79632.
0
80270.
0
75956.
0

R- El conjunto de parámetros que obtuvo la mejor respuesta fue en la prueba
número 7, ya que esta tuvo una suma de los errores cuadrados de 75956.0 y puesto
que cuanto menor sea este valor mejor será la respuesta, dándonos a entender lo
compacto que puede estar un cluster.

4. ¿Cuál algoritmo demoró más? ¿A qué se deberá la diferencia?
R\ El algoritmo de maximización de expectativas (EM) tardó más que el algoritmo
simple de K-Means. Esto se debe a que el algoritmo K-Means simple sólo calcula la
distancia entre un punto y el centro de un grupo. Por tanto, el cálculo es
insignificante en comparación con el algoritmo EM, que utiliza una distribución
gaussiana para cada grupo, calcula la probabilidad de que cada dato pertenezca a
un grupo concreto y realiza varias iteraciones intentando maximizar esta
probabilidad. Con un gran número de parámetros que hay que estimar, es posible
que el algoritmo EM sea más lento a la hora de converger a la solución correcta.

Traducción realizada con la versión gratuita del traductor
www.DeepL.com/Translator

5. Eligiendo los mejores parámetros para el algoritmo EM, grafique mediante
histogramas los resultados.
6. Revise las gráficas y a partir de estas saque sus propias conclusiones sobre las
características distintivas de cada clúster. Elabore un pequeño texto con sus
conclusiones de la práctica.
a. Clusters – Días de la semana.

En este histograma podemos analizar que mayormente los días de la semana
son más clasificados en el primer cluster, pero de este destaca más el día 3 lo
que significa que hay mayor posibilidad de que las instancias con ese
parámetro sean agrupadas en el primer cluster. Otra cosa que se puede
apreciar es que el cuarto cluster tiene la probabilidad más alta de agrupar los
días 4, ya que en la gráfica es identificable esta única columna.

b. Clusters – Horas.

En este histograma presentamos similitudes respecto a la probabilidad que
tienen las instancias de agruparse en determinados clusters, podemos ver que
en el primer cluster existe la mayor probabilidad que se agrupen ciertas horas,
a diferencia de los otros. Podemos observar que en el cuarto cluster
predominan más dos horas que son 9 y 15, lo que indica que instancias con
estas mismas características pueden ser encontradas en este cluster.

c.Clusters – Genero.

En este histograma hay una particularidad y es que en la mayoría de los cluster
el género F tiene más probabilidades respecto al género M, exceptuando el
tercer cluster donde hay probabilidad de que se agrupen los genero M.
También es apreciable ver que en el primer cluster es donde ambos
parámetros tienen mayor probabilidad respecto a los otros, siendo más
probable que en este cluster se clasifiquen las instancias de género M.

d. Grafique los 10 programas principales de cada cluster. Haga una gráfica
para cada clúster.

Primer Cluster.

Del histograma del primer cluster podemos concluir que este tiene una mayor
probabilidad de clasificar o agrupar las instancias que pertenecen al programa
de INGENIERÍA QUÍMICA.

Segundo Cluster.

Para el histograma del segundo cluster podemos concluir que se agrupan
mayormente las instancias que pertenecen a CONTADURÍA PÚBLICA, ya que
es el programa que tiene mayor probabilidad de ser clasificado en el segundo
cluster.

Tercer Cluster.

Podemos ver que en este cluster tenderán a agruparse las instancias que
pertenecen al programa de TEC. CINE Y TELEVISIÓN.

Cuarto Cluster.

En este cluster podemos ver que la probabilidad de agrupar las instancias es
bajo, en este cluster DISEÑO GRÁFICO es el programa que más se puede
encontrar.

Quinto Cluster.

Del quinto cluster se puede concluir que clasificará la mayoría de instancias de
DISEÑO INDUSTRIAL debido a que cuenta con la mayor probabilidad de
clasificación.

Sexto Cluster.

Al igual que en el cuarto cluster, en este se analiza que se agruparán
mayormente instancias que tenga como programa DISEÑO GRÁFICO, pero
se diferencia en que en este sexto cluster tiene una probabilidad mayor.

Séptimo Cluster.

Por último, en este cluster el programa de PUBLICIDAD es el que tiene mayor
probabilidad, lo que indica que se encontrarán más instancias pertenecientes
a este programa.

7. Finalmente realice un análisis de los datos con el parámetro numCluster=-1. ¿Por
qué tarda tanto? Cancele la prueba si la iteración dura más de cinco minutos.

R- La prueba se canceló ya que estaba tardando más de cinco minutos, debido al
gran número de instancias y de generar automáticamente el número óptimo de
clusters mediante validación cruzada para el modelo este algoritmo tarda tanto.

2da parte (40%) Cluster Conceptual.

A continuación una breve descripción de este algoritmo en WEKA: o acuity (100)
Indica la mínima varianza permitida en un cluster o cutoff (0) Factor de poda. Indica
la mejora en utilidad mínima por una subdivisión para que se permita llevar a cabo.
La implementación de COBWEB en WEKA es similar al algoritmo de K medias.
Algunas características de esta implementación son:
• Se permiten atributos numéricos y simbólicos.
• La semilla para obtener números aleatorios es fija e igual a 42.
• Permite pesos asociados a cada ejemplo.

Realmente el valor de cutoff es 0.01×1 (2 π ). En el caso de que el ejemplo que se
desea clasificar genere, en un nodo determinado, un CU menor al cutoff, se eliminan
los hijos del nodo (poda). Usted debe usar la sgte base de datos para realizar
distintos procesos de clustering (por ejemplo usando diversas acuity y cutoff)
aplicando COBWEB: http://archive.ics.uci.edu/ml/datasets/Student+Performance

CUIDADO: Se espera que en este punto usted aporte tanto como sele ocurra para
configurar los distintos proceso de clustering Tenga cuidado con los datos
numéricos de esta base de datos quizás sea necesario preprocesar.

- Como primer paso fue necesario normalizar los datos de tipo numérico

N. Pruebas 1 2 3
acuity 1.0 1.5 2.0
cutoff 0.0056418958354
77563
0.0112837916709
55126
0.0169256875064
3269

Los parámetros por defecto del algoritmo dieron como resultado

Ya que el número de clusters es grande, los valores de cutoff deben aumentarse
para obtener resultados favorables, pero los resultados no presentaron ningún
cambio para ningún número de fusiones, divisiones o conglomerados. Esto se debe
a la elevada varianza de los datos.