Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Página 1 de 8 “Clustering en BigML” Página 2 de 8 Clustering en BigML Vamos a utilizar la técnica de Machine Learning, Clustering, para organizar nuestros datos en grupos de casos (instancias) similares entre ellos pero distintos de los demás. Utilizaremos un nuevo ejemplo de datos que contiene instancias de pacientes que son o no diabéticos, según unos parámetros como su índice de glucosa, masa corporal, presión arterial, número de embarazos y edad. Ya hemos generado el dataset y nos gustaría, en principio, aplicar la técnica Clustering para ver los grupos que genera BigML de forma automática. Hacemos clic sobre CLUSTER. El clúster agrupa los datos utilizando un algoritmo llamado G‐ Means. Y aparece la siguiente pantalla. Lo que hace el algoritmo es calcular la distancia entre los valores de los atributos que se encuentran en las filas de nuestro dataset y decidir cuáles están más cerca entre sí y cuáles más lejos de las demás. Si la distancia es menor, los datos son más similares y se agruparán en el mismo clúster. Página 3 de 8 Observa que se han creado distintos círculos de colores. Si nos situamos sobre ellos puedes ver la información sobre el centroide, para este clúster, a la derecha de pantalla. El punto central del grupo, centroide, es el centro geométrico del grupo de instancias en ese espacio. Para mantener esta información en pantalla tan sólo debes pulsar la tecla Mayúsculas (Shift) y hacer clic sobre el grupo. El tamaño de cada círculo es proporcional al número de instancias en ese grupo, por lo que el grupo 1 más grande tiene 683 instancias, mientras que el grupo 8 más pequeño solo tiene 35. Página 4 de 8 Se puede cambiar el círculo definido como central haciendo clic sobre cualquier otro círculo del grupo. Cuanto más compactos y lejanos estén los grupos, mejor será su definición. Hasta ahora el programa ha decidido de forma automática los grupos de nuestro dataset pero ¿podemos definir nosotros el número de agrupaciones? En efecto, tenemos que abrir el panel de configuración y seleccionar k=2 para crear dos grupos, los pacientes diabéticos y los que no lo son. Página 5 de 8 También marcaremos el botón de modelado de clúster para ver las propiedades que definen la pertenencia a estos grupos. Página 6 de 8 Al crear los clúster vemos que hemos podido clasificar nuestros datos en dos grupos diferenciados, los pacientes que no son diabéticos (círculo de color naranja) y los que sí lo son (círculo de color azul). A partir de aquí podemos crear un dataset con los datos del grupo seleccionado o generar un árbol de decisión para hacer predicciones con él. Página 7 de 8 Página 8 de 8
Compartir