Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
TALLER DE CLUSTERING 1era parte(60%): Análisis de logs de un Aula Virtual. 1. Utilice el filtro no supervisado NumericToNominal aplique y verifique que todos los datos queden como nominales. 2. Utilizando el algoritmo EM (Esperanza Maximización) analice la muestra de datos modificando los parámetros: Número de semilla, cantidad de cluster (no utilice numCluster=-1 ¿Qué significa?) y cantidad máxima de iteraciones. Haga un total de 7 pruebas con parámetros distintos. Anote el valor del log-likehood. En una tabla de cálculo realice la relación de cada valor log-likehood con los respectivos parámetros. A partir del valor del log-likehood ¿Cuál conjunto de parámetros obtuvo la mejor respuesta? Si numCluster es-1, lo que hace es seleccionar automáticamente el número de clusters mediante validación cruzada. No. Prueba 1 2 3 4 5 6 7 Número de semilla: 20 40 60 80 100 120 140 Cantidad de cluster: 2 3 4 5 6 7 8 Cantidad máxima de iteraciones: 100 200 300 400 500 600 700 log-likehood: - 14.9096 6 - 14.5904 8 - 14.5232 8 - 14.3411 4 -14.307 - 14.2648 5 - 14.3459 1 R- El conjunto de parámetros que obtuvo la mejor respuesta fue para la para la sexta, ya que esta posee el log-likehood con mayor probabilidad que el resto con un valor de -14.26485. Como podemos observar para esta sucesión de pruebas mientras vamos aumentando el valor de los parámetros, mejor era el ajuste para el modelo. 3. Utilizando el algoritmo Simple K-Medias realice otras 7 pruebas a la muestra de datos cambiando los mismos parámetros del punto anterior al algoritmo. Esta vez realice la relación en una hoja de cálculo de los parámetros con el dato “suma de los errores cuadrados”. ¿Cuál conjunto de parámetros obtuvo la mejor respuesta? No. Prueba 1 2 3 4 5 6 7 Número de semilla: 25 50 75 100 125 150 175 Cantidad de cluster: 2 3 4 6 8 10 12 Cantidad máxima de iteraciones: 150 300 450 600 750 900 1050 Within cluster sum of squared errors: 99244. 0 90326. 0 90123. 0 84639. 0 79632. 0 80270. 0 75956. 0 R- El conjunto de parámetros que obtuvo la mejor respuesta fue en la prueba número 7, ya que esta tuvo una suma de los errores cuadrados de 75956.0 y puesto que cuanto menor sea este valor mejor será la respuesta, dándonos a entender lo compacto que puede estar un cluster. 4. ¿Cuál algoritmo demoró más? ¿A qué se deberá la diferencia? R\ El algoritmo de maximización de expectativas (EM) tardó más que el algoritmo simple de K-Means. Esto se debe a que el algoritmo K-Means simple sólo calcula la distancia entre un punto y el centro de un grupo. Por tanto, el cálculo es insignificante en comparación con el algoritmo EM, que utiliza una distribución gaussiana para cada grupo, calcula la probabilidad de que cada dato pertenezca a un grupo concreto y realiza varias iteraciones intentando maximizar esta probabilidad. Con un gran número de parámetros que hay que estimar, es posible que el algoritmo EM sea más lento a la hora de converger a la solución correcta. Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator 5. Eligiendo los mejores parámetros para el algoritmo EM, grafique mediante histogramas los resultados. 6. Revise las gráficas y a partir de estas saque sus propias conclusiones sobre las características distintivas de cada clúster. Elabore un pequeño texto con sus conclusiones de la práctica. a. Clusters – Días de la semana. En este histograma podemos analizar que mayormente los días de la semana son más clasificados en el primer cluster, pero de este destaca más el día 3 lo que significa que hay mayor posibilidad de que las instancias con ese parámetro sean agrupadas en el primer cluster. Otra cosa que se puede apreciar es que el cuarto cluster tiene la probabilidad más alta de agrupar los días 4, ya que en la gráfica es identificable esta única columna. b. Clusters – Horas. En este histograma presentamos similitudes respecto a la probabilidad que tienen las instancias de agruparse en determinados clusters, podemos ver que en el primer cluster existe la mayor probabilidad que se agrupen ciertas horas, a diferencia de los otros. Podemos observar que en el cuarto cluster predominan más dos horas que son 9 y 15, lo que indica que instancias con estas mismas características pueden ser encontradas en este cluster. c.Clusters – Genero. En este histograma hay una particularidad y es que en la mayoría de los cluster el género F tiene más probabilidades respecto al género M, exceptuando el tercer cluster donde hay probabilidad de que se agrupen los genero M. También es apreciable ver que en el primer cluster es donde ambos parámetros tienen mayor probabilidad respecto a los otros, siendo más probable que en este cluster se clasifiquen las instancias de género M. d. Grafique los 10 programas principales de cada cluster. Haga una gráfica para cada clúster. Primer Cluster. Del histograma del primer cluster podemos concluir que este tiene una mayor probabilidad de clasificar o agrupar las instancias que pertenecen al programa de INGENIERÍA QUÍMICA. Segundo Cluster. Para el histograma del segundo cluster podemos concluir que se agrupan mayormente las instancias que pertenecen a CONTADURÍA PÚBLICA, ya que es el programa que tiene mayor probabilidad de ser clasificado en el segundo cluster. Tercer Cluster. Podemos ver que en este cluster tenderán a agruparse las instancias que pertenecen al programa de TEC. CINE Y TELEVISIÓN. Cuarto Cluster. En este cluster podemos ver que la probabilidad de agrupar las instancias es bajo, en este cluster DISEÑO GRÁFICO es el programa que más se puede encontrar. Quinto Cluster. Del quinto cluster se puede concluir que clasificará la mayoría de instancias de DISEÑO INDUSTRIAL debido a que cuenta con la mayor probabilidad de clasificación. Sexto Cluster. Al igual que en el cuarto cluster, en este se analiza que se agruparán mayormente instancias que tenga como programa DISEÑO GRÁFICO, pero se diferencia en que en este sexto cluster tiene una probabilidad mayor. Séptimo Cluster. Por último, en este cluster el programa de PUBLICIDAD es el que tiene mayor probabilidad, lo que indica que se encontrarán más instancias pertenecientes a este programa. 7. Finalmente realice un análisis de los datos con el parámetro numCluster=-1. ¿Por qué tarda tanto? Cancele la prueba si la iteración dura más de cinco minutos. R- La prueba se canceló ya que estaba tardando más de cinco minutos, debido al gran número de instancias y de generar automáticamente el número óptimo de clusters mediante validación cruzada para el modelo este algoritmo tarda tanto. 2da parte (40%) Cluster Conceptual. A continuación una breve descripción de este algoritmo en WEKA: o acuity (100) Indica la mínima varianza permitida en un cluster o cutoff (0) Factor de poda. Indica la mejora en utilidad mínima por una subdivisión para que se permita llevar a cabo. La implementación de COBWEB en WEKA es similar al algoritmo de K medias. Algunas características de esta implementación son: • Se permiten atributos numéricos y simbólicos. • La semilla para obtener números aleatorios es fija e igual a 42. • Permite pesos asociados a cada ejemplo. Realmente el valor de cutoff es 0.01×1 (2 π ). En el caso de que el ejemplo que se desea clasificar genere, en un nodo determinado, un CU menor al cutoff, se eliminan los hijos del nodo (poda). Usted debe usar la sgte base de datos para realizar distintos procesos de clustering (por ejemplo usando diversas acuity y cutoff) aplicando COBWEB: http://archive.ics.uci.edu/ml/datasets/Student+Performance CUIDADO: Se espera que en este punto usted aporte tanto como sele ocurra para configurar los distintos proceso de clustering Tenga cuidado con los datos numéricos de esta base de datos quizás sea necesario preprocesar. - Como primer paso fue necesario normalizar los datos de tipo numérico N. Pruebas 1 2 3 acuity 1.0 1.5 2.0 cutoff 0.0056418958354 77563 0.0112837916709 55126 0.0169256875064 3269 Los parámetros por defecto del algoritmo dieron como resultado Ya que el número de clusters es grande, los valores de cutoff deben aumentarse para obtener resultados favorables, pero los resultados no presentaron ningún cambio para ningún número de fusiones, divisiones o conglomerados. Esto se debe a la elevada varianza de los datos.
Contenidos Diversos
Estudiando Ingenieria
Compartir