Logo Studenta

Ana_lisis de Agrupamiento

¡Estudia con miles de materiales!

Vista previa del material en texto

ANALISIS DE AGRUPAMIENTO “CLUSTER”
Es una técnica para agrupar individuos u objetos en grupos desconocidos.
El número y las características de los grupos derivados de los datos no son conocidos antes del análisis (diferencia con el análisis discriminante).
Meta de los marketeros: 
Identificar a segmentos de consumidores similares de manera a que puedan desarrollarse y adaptarse a cada segmento. 
Ejemplo: Agrupar a los clientes con base en los beneficios del producto que buscan.
Cada segmento tal vez tenga necesidades distintas de productos y tal vez responda de manera diferente a los enfoques publicitarios.
Pasos para la realización del análisis de agrupamiento:
1) Definición del problema
2) Decisión acerca de una medida de similitud apropiada
3) Decisión acerca de cómo agrupar a los objetos
4) Decisión sobre el número de agrupamientos
5) Interpretar, describir y validar los grupos.
Definición del problema
Interés en agrupar a los individuos con base en su similitud.
Medidas de similitud
Los objetos similares se agrupan juntos (en base a alguna clase de medida de similitud o falta de similitud) y aquellos que están bastante separados se colocan en agrupamientos distintos.
Las medidas utilizadas para el análisis de agrupamiento son:
Medidas de distancia (la más utilizada es la distancia euclidiana).
Como las variables en una matriz de datos se miden en diferentes unidades, cada variable va a ser estandarizada a una media 0 y una desviación estándar unitaria.
La estandarización puede eliminar la influencia de la unidad de medida, y también puede reducir las diferencias entre grupos sobre variables que pueden mejorar discriminar a los agrupamientos.
Una desventaja es que las variables con grandes diferencias en tamaños y grandes desviaciones estándar pueden esencialmente dificultar los efectos de otras variables con tamaños absolutos y desviaciones estándar más pequeñas.
Coeficientes de correlación
Un problema importante es su sensibilidad al patrón de altas y bajas entre las variables a costas de la magnitud de diferencias entre las variables. 
Coeficientes de asociación
Los coeficientes de asociación se emplean para establecer similitud entre objetos cuando se usan variables binarias (1-0).
Enfoque para el agrupamiento 
Existen don enfoques para el agrupamiento: Jerárquico y No Jerárquico.
Enfoque Jerárquico:
Enfoque “Descendente”: Puede comenzar con todos los objetos en un agrupamiento y dividirlos y subdividirlos hasta que todos los objetos estén en su propio agrupamiento de un solo objeto.
Enfoque “Ascendente”: Puede comenzar con cada objeto en su propio agrupamiento (de un solo objeto) y combinar agrupamientos sistemáticamente hasta que todos los objetos estén en un agrupamiento.
Ventajas: Fácil de leer e interpretar.
Desventaja: Es inestable y poco confiable, es decir que la primera combinación o separación de objetos, que puede basarse en una pequeña diferencia en el criterio, restringirá al resto del análisis. 
Enfoque No Jerárquico:
Permite que los objetos abandonen un agrupamiento y se unan a otro a medida que se están formando los agrupamientos.
Ventajas: Tiende a ser más confiable.
Desventaja: La seria de agrupamiento es generalmente un desorden y muy difícil de interpretar, por lo tanto puede ser muy difícil trabajar con él.
Ambos enfoque pueden ser usados en secuencia:
Primeramente con un Enfoque Jerárquico se identifica un número de agrupamientos y cualquier elemento externo o alejado, y se obtienen centros de agrupamientos.
Los elementos externos o alejados se eliminan y se usa un Enfoque No Jerárquico cuyas entradas son el número de agrupamientos y los centros de agrupamientos obtenidos del enfoque jerárquico.
Los meritos de ambos enfoques se combinan y en consecuencia los resultados deberán ser mejores.
Existen varios métodos para agrupar objetos en agrupamientos en ambos enfoques:
Agrupamiento Jerárquico:
· Enlace único: Es un procedimiento que se basa en la distancia más corta, es decir que encuentra los dos objetos o individuos separados por la distancia más corta y los coloca en el primer agrupamiento, y así sucesivamente y el proceso continúa hasta que los objetos o individuos estén en un agrupamiento. 
	
· Enlace Completo: El procedimiento es similar al anterior, excepto que el criterio de agrupamiento se basa en la distancia más larga. 
· Enlace Promedio: Comienza igual que los dos anteriores, pero el criterio de agrupamiento es la distancia promedio desde los individuos en un agrupamiento hasta los individuos en otro.
· Método de Ward: Se basa en la pérdida de información que resulta de agrupar objetos o individuos en agrupamientos, medida por la suma total de desviaciones al cuadrado de cada objeto con respecto a la media del agrupamiento a cual esta asignando el objeto. A medida que se forman más agrupamientos, aumenta la suma total de las desviaciones al cuadrado.
· Método de los Centroides: Se mide la distancia entre los centroides de los grupos (el centroide es el punto cuyas coordenadas con las medias de todas las observaciones en el agrupamiento).
Agrupamiento No Jerárquico:
· Umbral Secuencial: Se selecciona un centro de agrupamientos y se agrupan todos los objetos dentro de un valor de umbral especificado previamente. Luego se selecciona un nuevo centro de agrupamientos y el proceso se repite para los objetos que no están en agrupamientos, y así sucesivamente.
· Umbral Paralelo: Es similar al anterior, excepto que aquí se seleccionan simultáneamente varios centros de agrupamientos, y los objetos dentro del nivel de umbral se asignan al centro más cercano y luego se pueden ajustar los niveles de umbrales para admitir menos o mas objetos al agrupamiento.
· Optimización: Modifica los dos procedimientos anteriores en que los objetos pueden reasignarse posteriormente a agrupamientos, optimizando alguna medida general de criterio, como la distancia promedio dentro de los agrupamientos para un numero dado de agrupamientos.
Cómo determinar el número apropiado de agrupamientos:
· El analista puede especificar por adelantado el numero de agrupamientos
· El analista puede especificar el nivel de agrupamientos con respecto al criterio de agrupamiento.
· Determinar el número de agrupamientos a partir del patrón de agrupamientos que genere el programa.
· La razón de la varianza total dentro de los grupos a la varianza entre grupos puede graficarse contra el número de agrupamientos.
Mini Resumen del Análisis de Agrupamiento
Aplicación: Se emplea para agrupar variables, objetos o personas. 
Entrada:
Cualquier medida válida de similitud entre los objetos, como las correlaciones. 
También es posible emplear como entrada el número de agrupamientos o el nivel de agrupamiento.
Salida: 
Es una agrupación de objetos en clusters. 
Asociado con cada conjunto de agrupamientos, estará el valor del criterio de agrupamiento.
Supuestos claves: 
La medida básica de similitud sobre la cual se basa el agrupamiento es una medida valida de la similitud entre los objetos. 
Existe una justificación teórica para estructurar los objetos en agrupamientos.
Limitaciones: 
Es difícil evaluar la calidad de los resultados del agrupamiento, ya que no existen pruebas estadísticas para validar la información de salida.

Otros materiales