Logo Studenta

04_Clustering .Aplicacion de datos en Big Data.

¡Estudia con miles de materiales!

Vista previa del material en texto

Página 1 de 8 
 
“Clustering en BigML” 
 
 
 
 
Página 2 de 8 
Clustering en BigML 
Vamos a utilizar la técnica de Machine Learning, Clustering, para organizar nuestros datos en 
grupos de casos (instancias) similares entre ellos pero distintos de los demás. 
Utilizaremos un nuevo ejemplo de datos que contiene instancias de pacientes que son o no 
diabéticos, según unos parámetros como su índice de glucosa, masa corporal, presión arterial, 
número de embarazos y edad. 
Ya hemos generado el dataset y nos gustaría, en principio, aplicar la técnica Clustering para ver 
los grupos que genera BigML de forma automática. 
Hacemos clic sobre CLUSTER. El clúster agrupa los datos utilizando un algoritmo llamado G‐
Means.  
 
 
Y aparece la siguiente pantalla.  
 
Lo que hace el algoritmo es calcular la distancia entre los valores de los atributos que se 
encuentran en las filas de nuestro dataset y decidir cuáles están más cerca entre sí y cuáles 
más lejos de las demás. Si la distancia es menor, los datos son más similares y se agruparán en 
el mismo clúster. 
 
 
Página 3 de 8 
 
Observa que se han creado distintos círculos de colores. Si nos situamos sobre ellos puedes ver 
la información sobre el centroide, para este clúster, a la derecha de pantalla. El punto central 
del grupo, centroide, es el centro geométrico del grupo de instancias en ese espacio. 
 
Para mantener esta información en pantalla tan sólo debes pulsar la tecla Mayúsculas (Shift) y 
hacer clic sobre el grupo.  
El tamaño de cada círculo es proporcional al número de instancias en ese grupo, por lo que el 
grupo 1 más grande tiene 683 instancias, mientras que el grupo 8 más pequeño solo tiene 35. 
 
Página 4 de 8 
 
 
Se puede cambiar el círculo definido como central haciendo clic sobre cualquier otro círculo 
del grupo. Cuanto más compactos y lejanos estén los grupos, mejor será su definición. 
 
Hasta ahora el programa ha decidido de forma automática los grupos de nuestro dataset pero 
¿podemos definir nosotros el número de agrupaciones? 
En efecto, tenemos que abrir el panel de configuración y seleccionar k=2 para crear dos 
grupos, los pacientes diabéticos y los que no lo son. 
 
Página 5 de 8 
 
 
También marcaremos el botón de modelado de clúster para ver las propiedades que definen la 
pertenencia a estos grupos. 
 
 
   
 
Página 6 de 8 
Al crear los clúster vemos que hemos podido clasificar nuestros datos en dos grupos 
diferenciados, los pacientes que no son diabéticos (círculo de color naranja) y los que sí lo son 
(círculo de color azul).  
 
 
A partir de aquí podemos crear un dataset con los datos del grupo seleccionado o generar un 
árbol de decisión para hacer predicciones con él. 
 
Página 7 de 8 
 
 
 
   
 
Página 8 de 8

Continuar navegando