Logo Studenta

Guía de trabajo SPSS_Tipologías (jerárquico)

¡Este material tiene más páginas!

Vista previa del material en texto

Guía de trabajo SPSS
Análisis de Tipologías (método 
jerárquico)
Material de ayudantía
Estadística IV – 2012 
Facultad de Ciencias Sociales – Universidad de Chile
Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos
RESUMEN: ANÁLISIS DE TIPOLOGÍAS
Método jerárquico
El análisis de tipologías es un conjunto de procedimientos utilizados para agrupar casos o variables 
en función de un conjunto de variables de clasificación. 
Los tipos de clasificación en el análisis de tipologías son variados, pero los más usados son dos. Por 
una parte, está el método de optimización, que opera dividiendo el conjunto de casos mediante la 
aplicación de un algoritmo que optimiza una medida numérica que indica la solución adecuada. 
Por otra, están los métodos jerárquicos, que operan paso a paso, mediante un proceso que replica 
la estructura de un árbol y forma un rango completo de soluciones. Son jerárquicos en la medida 
que cada operación realizada es definitiva y por tanto, en cada una de las diversas etapas de 
produce la unión o división de los casos. Cada nueva etapa, va generando una “rama” del “árbol” 
de los procedimientos jerárquicos. 
Dentro de los jerárquicos, podemos distinguir entre los aglomerativos y los divisivos. Dentro de 
los procedimientos jerárquicos aglomerativos, se considera en principio a cada caso como un 
grupo (esto es posible de ver en el diagrama de témpanos) y en etapas sucesivas se van uniendo 
casos entre si, y por tanto, se considera como un proceso “ascendente”. Por el contrario, los 
divisivos, se realizan descendiendo desde la muestra considerada como un grupo independiente al 
cual, en las diversas etapas se van generando grupos menores y finaliza cuando cada caso es un 
grupo independiente.
Por último, dentro de las jerárquicas aglomerativas, hay diversas formas de agrupar. Todas éstas 
consideran la matriz de distancias para clasificar los casos en los grupos a formar. Está la técnica 
del centroide o average linkage, en donde se calcula el centroide de cada grupo y se le asignan 
casos según la distancia respecto al mismo. Los otros dos más usados mecanismos de 
aglomeración, son el complete linkage o vecino más lejano y el simple linkage o vecino más 
cercano. En el primero, la distancia entre los grupos esta definida por la distancia entre los pares 
de casos más lejanos; en el segundo, la distancia se entenderá como la distancia existente entre 
los miembros más próximos de cada grupo.
Usos: 
• Establecer tipologías según el comportamiento de los sujetos en variables asociadas a un 
tema o área de estudio.
• Buscar esquemas conceptuales útiles para agrupar a sujetos.
• Generar o contrastar hipótesis de investigación, verificando tipologías construidas en 
forma teórica o lógica.
• Reducir la información contenida en un grupo de variables
• Generar estratos en teoría de muestras
• Identificar nuevas relaciones entre las variables
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Condiciones:
a) Tamaño de la muestra: menos de 200 casos
b) Variables admitidas: escalares / ordinales / dicotómicas. Se recomienda que las variables 
utilizadas tengan el mismo nivel de medida, porque en esta técnica la estandarización reduce la 
potencia de la variable que más discrimina.
c) Representatividad: la muestra debe ser representativa, debido a que esta técnica no considera 
procedimientos de inferencia al universo.
EJERCICIO DE APLICACIÓN
0. DISPONER LA BASE DE DATOS
La base de datos utilizada en el ejercicio es de los resultados del SIMCE del año 2002, donde se ven 
los resultados promedio de las tres pruebas (Matemáticas, Lenguaje y Comunicación, y 
Comprensión del Medio) en 96 colegios a lo largo de Chile.
La pregunta que guía este ejercicio es ¿Cómo se clasifican los colegios a partir de los resultados en 
la prueba SIMCE, aplicada en el año 2002? El objetivo del ejemplo es clasificar a los colegios en 
conglomerados (cluster) con características similares. Buscamos así generar tipologías colegios a 
partir de sus puntajes.
0.a. Variables a utilizar 
Las variables que vamos a usar son de carácter cuantitativo, y son len02, mat02, com02, que se 
refieren al puntaje obtenido en las pruebas de Lenguaje, Matemáticas y Comprensión del Medio, 
respectivamente.
Los colegios son los casos a ser clasificados, y con el fin de que en las salidas computacionales cada 
colegio pueda ser distinguido, la variable Escuela es ingresada como variable nominal, siendo sus 
categorías los nombres de los distintos colegios.
0.b. Análisis de casos perdidos
Siempre revisar las categorías de respuesta a las variables (no es el caso de este ejercicio, pero 
podría suceder que tengamos que marcar como perdido alguna categoría de respuesta –como por 
ejemplo “No sabe/No contesta”-). Por otra parte, como se señaló anteriormente, este tipo de 
tipologías (jerárquica) se utiliza cuando hay muestras pequeñas, por tanto se verifica que la 
cantidad de casos perdidos no impida hacer el análisis, para ello vamos a:
Analizar → Estadísticos descriptivos → Frecuencias: 
Incluir variables 
 Mostrar tablas de Frecuencia
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
Estadísticos
Lenguaje 2002
Matemáticas 
2002
Comprensión 
del medio 2002
N Válidos 96 96 96
Perdidos 0 0 0
La tabla muestra los valores válidos y perdidos. Como es posible apreciar, no existen valores 
perdidos, por lo que es posible realizar el análisis sin problemas.
0.c. Análisis de casos atípicos
Otro análisis previo a la aplicación de la técnica multivariable es, cuando se trabaja con pocos 
casos, revisar que no existan casos atípicos, esto es, con valores muy distintos del resto de los 
casos. Al buscar establecer conglomerados, los casos atípicos pueden conformar 
conglomerados donde son el caso único. Por ello vamos a:
Analizar → Tablas → Tablas personalizadas
En Filas de la tabla hay que arrastrar la variable Escuela (que la estamos usando como etiqueta), y 
a las Columnas hay que arrastrar las tres variables utilizadas para el análisis, es decir, len02, mat02 
y com02. Arriba del recuadro, seleccionaremos la modalidad de tabla Compacta.
 Definir: Estadísticos de resumen. Media
El resto de las opciones (como estadísticos de resumen, posición de categorías) dejarla como 
vienen por defecto.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
Lenguaje 
2002
Matemáticas 
2002
Comprensión del 
medio 2002
Media Media Media
escuela AGUSTO WINTER P-348 173 180 196
ALTO CHELLE P-74 185 191 201
AMUL KEWUN P-22 235 194 224
ANTONIO LADINO G-459 222 207 230
BARTOLO LLANCALEO G- 440 231 234 245
BUTALELBUN (TRAPA TRAPA) 171 190 197
CALOF G-455 218 214 219
CARIQUIMA, ESC. COMPLETA D-66 196 200 220
CASA DE PIEDRA G-439 212 207 224
CAUÑICU 258 209 267
CHACUIVI 223 193 178
CHAPOD 171 187 205
CHILLIMAPU 239 249 254
CHOMIO 202 189 185
COI COI G-554 220 193 206
COLEGIO FORESTAL "QUILACAHUIN" 279 282 277
COLLICO RANCO F-442 200 195 198
DAGOBERTO GODOY P-353 210 227 214
DIEGO PORTALES 171 173 178
ERNESTO WILHEM P-298 199 188 170
ESC. PARTICULAR Nº 171 "MISIÓN SAN 
JUAN"
240 229 245
ESC. RURAL "ILIHUE" 237 235 243
ESCUELA BÁSICA FRONTERIZA COLCHANE 
E-50
192 181 196
ESCUELA BÁSICA DE CAMIÑA F-62 221 239 243
ESCUELA BÁSICA FRONTERIZA DE 
TARAPACÁ F-106 (INTI PACHA MARKA)
204 205 228
ESCUELA BÁSICA HUENTEN P-21 207 265 213
ESCUELA BÁSICA SAN PEDRO DE ATACAMA 
E-26
234 232 234
ESCUELA BÁSICA TOCONAO E-21 262 272 261
ESCUELA CHANCO G-171 195 196 195
ESCUELA DE CONCENTRACIÓN 195 195 185Para hacer más sencillo el análisis de los casos, marcamos con color celeste el caso con menores 
valores y el caso con mayores valores. Vemos que la diferencia de puntaje llega a ser en la variable 
mat02 de casi 90 puntos. Es necesario decidir qué hacer con estos dos casos: dejarlos y hacer el 
análisis o eliminarlos. Optamos por dejarlos, porque si bien existe una diferencia considerable, no 
se pueden considerar atípicos en cuanto los valores de los demás casos no son muy distintos de 
los valores marcados como extremos.
0.d. Estandarización
Un tema importante en el análisis de tipologías es la estandarización. En principio, una de las 
condiciones de aplicación de la técnica es la similaridad en la unidad de medida de las variables a 
incluir en el modelo. Para comprobar de manera estadística si es necesario recurrir a la 
estandarización entramos a:
Analizar → Estadísticos descriptivos → Descriptivos
 Mínimo
 Máximo
 Media
 Desviación estándar
 Varianza
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza
Lenguaje 2002 96 151 279 212.72 26.647 710.078
Matemáticas 2002 96 155 287 209.66 27.049 731.660
Comprensión del medio 
2002
96 156 280 214.99 28.638 820.116
N válido (según lista) 96
En este caso hemos seleccionado para incluir en el modelo variables con similar 
unidad de medida, por lo cual no necesitamos estandarizar los puntajes de las 
variables. Además vemos en la tabla de descriptivos, que se tiene que el mínimo 
bordea los 150 puntos y el máximo, 280, y como vimos anteriormente, las distintas 
pruebas tienes el mismo número de casos (N=96).
1. ANÁLISIS DE TIPOLOGÍAS
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Analizar → Clasificar → Conglomerados Jerárquicos
La ventana que obtenemos es muy similar a la del método de optimización, sólo que con algunas 
modificaciones. También debemos definir las variables a incluir en la clasificación de los casos y 
una variable de etiqueta. En este caso, incluimos todas las variables (len02, mat02 y com02) y la 
variable “escuela” como etiqueta: 
La primera decisión que debe hacerse es si crear conglomerados de casos o de variables. En este 
caso lo que queremos hacer es clasificar casos (colegios) y no variables. 
→ Estadísticos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Historial de conglomeración 
 Matriz de distancias
Además, como se trata de un análisis jerárquico, el programa da la posibilidad de elegir una 
solución única de conglomerados o un rango de soluciones. En el primer caso el investigador debe 
definir el número de conglomerados que quiere que el programa forme, y en el segundo, puede 
definir un rango de soluciones distintas. Eligiendo esta opción, obtendremos varias soluciones, 
pudiendo elegir luego la que parezca más apropiada. Pediremos las soluciones desde 2 a 6 
conglomerados, para así poder decidir teniendo varias alternativas.
→ Gráficos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 Dendograma
 Gráfico de témpanos
Se pueden pedir todos los Gráficos de Témpanos (de todas las posibles soluciones) o sólo algunos 
(en un rango). En este caso pedimos el Dendograma y todos los Gráficos de Témpanos. También se 
da la opción de pedirlos vertical u horizontalmente. Elegimos la opción vertical.
→ Método
 Método de conglomeración: vinculación inter-grupos
 Medida: intervalo, distancia euclídea al cuadrado
Primero, hay que decidir el Método de aglomeración va a utilizar el programa. Esto tiene que ver 
con el criterio según el cual dos casos son unidos en cada paso. En este caso escogemos el 
procedimiento de encadenamiento medio entre grupos, cuyo criterio de aglomeración es definido 
por la distancia media de todos los casos de un conglomerado respecto a la media de todos los 
casos de otro conglomerado. Según algunos autores, este método se encuentra sesgado, en 
cuanto produce conglomerados con similares varianzas. Existe la posibilidad de aplicar más de un 
método de aglomeración para 
luego comparar los resultados. 
Luego es necesario decidir la 
medida a utilizar. Es 
importante observar que 
existen distintas medidas 
según el nivel de medida de 
las variables. De esta forma 
podemos trabajar con datos 
medidos a intervalo, datos 
como frecuencias y datos 
binarios. En este caso se 
trabaja con datos 
cuantitativos, por lo que se 
elige Intervalo. Además, 
existen distintas formas de 
medir distancias. La distancia 
seleccionada es la distancia 
euclídea al cuadrado1, que se encuentra predefinida. 
1
1
 La distancia euclídea al cuadrado corresponde a la suma de las diferencias entre los casos al 
cuadrado; de modo tal que la distancia entre los puntos a y b se definiría por la siguiente 
expresión: Distancia (a,b) = Σ (ai – bi)2.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
El programa también da la opción de transformar los valores, vale decir, estandarizarlos. Esta es 
una opción cuando los datos se encuentran en medidas muy distintas. Sin embargo, la 
estandarización puede producir efectos no deseados, como se mencionó anteriormente. En este 
caso no es necesario estandarizar. También está la opción de transformar las medidas, por 
ejemplo, utilizando solamente valores absolutos o cambiándole el signo a estos, que en este caso 
no utilizaremos.
→ Guardar
Por último, es posible guardar una o más soluciones de pertenencia a conglomerados en una 
nueva columna en nuestra base de datos. En este caso decidimos guardar la solución de 3 
conglomerados para utilizar esta información luego en la caracterización de los conglomerados. 
Esta decisión se toma ya habiendo revisado las distintas alternativas de aglomeración posibles. 
También da la posibilidad de guardar más que una solución de conglomerados (por ejemplo, 
podríamos guardar las soluciones de 2 a 6 conglomerados, para tener el rango de soluciones que 
pedimos al principio, transformadas en variables).
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
CLUSTER len02 mat02 com02
/METHOD BAVERAGE
/MEASURE=SEUCLID
/ID=escuela
/PRINT SCHEDULE CLUSTER(2,6)
/PRINT DISTANCE
/PLOT DENDROGRAM HICICLE
/SAVE CLUSTER(3).
2. RESULTADOS
Conglomerados jerárquicos
Resumen del procesamiento de los casosa
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
96 100.0 0 .0 96 100.0
a. Vinculación promedio (Inter-grupos)
Al hacer correr la sintaxis, se crea una variable nueva al final de la base de datos. En este caso, 
nuestra variable se llama Average Linkage (Between groups), en referencia a la técnica de 
aglomeración que decidimos utilizar.
La primera tabla hace referencia a los casos válidos y los casos perdidos, del total de casos: no hay 
datos perdidos, por lo que los casos válidos constituyen el 100%.
La tabla que viene a continuación será presentada sólo en parte, ya que por su tamaño sería 
imposible mostrarla entera. De todas formas, es suficiente para interpretarla:
Matriz de distancia
Maureen
Resaltar
Maureen
Resaltar
Esta matriz presenta las distancias de cada caso respecto a los demás: la diagonal está compuesta 
por ceros, ya que la distancia de un caso respecto a si mismo es cero. Esta tabla solo sirve para 
tener una visión general de las similaridades, donde valores altos muestran gran diferencia entre 
los casos, mientras que los valores pequeños muestran cercanía. Vemos por ejemplo que la 
escuela Chapod tiene poca similitud con la escuela Inalafquén, ya que la distancia entre ambas es 
muy grande, mientras que la escuela Agusto Winter es muy similar con la escuela San Martín de 
Porres.
Vinculación promedio (Inter-grupos)
El título hace referencia al procedimiento aglomerativoescogido. En este caso, el procedimiento 
de encadenamiento medio entre los grupos, y en la siguiente tabla (historial de conglomeración) 
se muestra las etapas en las que los casos fueron combinados en un mismo conglomerado 
(recordando que los casos se van uniendo en etapas). En cada etapa un caso o un conglomerado 
es unido a otro según el criterio y la medida de distancia seleccionados.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Historial de conglomeración
Etapa
Conglomerado que se combina
Coeficientes
Etapa en la que el conglomerado 
aparece por primera vez
Próxima etapaConglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
dimen
sion0
1 30 33 3.000 0 0 13
2 69 70 6.000 0 0 6
3 64 67 6.000 0 0 22
4 44 49 10.000 0 0 32
5 72 76 13.000 0 0 12
6 69 73 16.000 2 0 42
7 50 51 17.000 0 0 41
8 60 62 21.000 0 0 40
9 7 10 21.000 0 0 17
10 82 84 27.000 0 0 55
11 4 9 29.000 0 0 35
12 72 77 34.500 5 0 24
13 30 41 39.500 1 0 18
14 71 81 41.000 0 0 26
15 54 56 53.000 0 0 40
16 39 46 53.000 0 0 34
17 7 12 55.500 9 0 50
18 30 35 57.667 13 0 29
19 32 40 61.000 0 0 47
20 78 80 73.000 0 0 42
21 5 6 73.000 0 0 50
22 63 64 74.000 0 3 36
23 34 36 74.000 0 0 39
24 65 72 75.000 0 12 48
25 53 55 75.000 0 0 46
26 71 85 77.500 14 0 33
27 38 47 84.000 0 0 46
28 23 27 86.000 0 0 49
29 25 30 90.750 0 18 57
30 48 58 94.000 0 0 56
31 15 21 94.000 0 0 61
32 37 44 96.000 0 4 41
33 71 79 97.000 26 0 62
34 28 39 111.500 0 16 52
35 4 11 114.500 11 0 63
36 63 74 117.000 22 0 64
37 16 17 117.000 0 0 51
38 2 8 118.000 0 0 74
39 29 34 125.000 0 23 45
40 54 60 141.500 15 8 58
41 37 50 150.167 32 7 56
42 69 78 167.833 6 20 48
43 95 96 171.000 0 0 59
44 87 88 178.000 0 0 76
45 24 29 183.333 0 39 57
46 38 53 184.500 27 25 58
47 26 32 187.500 0 19 70
48 65 69 188.750 24 42 68
49 18 23 199.000 0 28 77
En este caso, observamos que en el primer paso se unen los casos 30 y 33. El coeficiente hace 
referencia a la distancia entre estos casos, y al ser los casos 30 y 33 los que tienen el menor 
coeficiente, son unidos antes que otros. En la segunda etapa se unen los casos 69 y 70, y en la 
sexta etapa este conglomerado (denominado por el caso menor, en este caso, el 69) se une con el 
caso 73. Este procedimiento sigue hasta que todos los casos están agrupados, por lo que es 
necesario observar los coeficientes, los que permiten definir en qué momento parar la 
aglomeración (de agrupar). 
Recordemos que este procedimiento genera todos los resultados posibles (desde el caso en el que 
cada caso es un conglomerado por si mismo, hasta el caso en el que todos los casos se encuentran 
en un mismo conglomerado). Es por eso que observar los coeficientes resulta necesario, ya que 
permite ver en qué etapa la distancia entre casos o conglomerados es demasiado grande, siendo 
este punto donde se debe parar la aglomeración. En este caso vemos, por ejemplo, que entre la 
etapa 1, donde se unen los casos 30 y 33, y la etapa 13, donde al conglomerado 30 se le une el 
caso 41, la distancia pasa de unos 3.000 a 39.500, por lo que podemos afirmar, que al unir el caso 
los casos 30, 33 al 41, la distancia dentro de los conglomerados aumenta bastante, generando 
conglomerados menos homogéneos. 
La columna que sigue muestra el paso en el que cada caso aparece por primera vez. La última 
columna muestra la etapa en la que aparecerá próximamente. Estos datos permiten ver con más 
detalle cómo se fue produciendo el procedimiento de aglomeración.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Conglomerado de pertenencia
Caso 6 
conglomerados
5 
conglomerados
4 
conglomerados
3 
conglomerados
2 
conglomerados
1:INALAFQUEN G-445 1 1 1 1 1
2:QUEPUCA RALCO 1 1 1 1 1
3:ESCUELA RURAL "ILLAHUAPI" 2 2 1 1 1
4:DIEGO PORTALES 1 1 1 1 1
5:CHAPOD 2 2 1 1 1
6:BUTALELBUN (TRAPA TRAPA) 2 2 1 1 1
7:SAN MARTIN DE PORRES 2 2 1 1 1
8:HUAPI P-11 1 1 1 1 1
9:RUCA COMCHE P-309 1 1 1 1 1
10:AGUSTO WINTER P-348 2 2 1 1 1
11:ESMERALDA 1 1 1 1 1
12:REPOCURA P-43 2 2 1 1 1
13:PICHI LONCOYAN P-13 1 1 1 1 1
14:ESCUELA RURAL "LAGO 
NELTUME" 
2 2 1 1 1
15:RALCO LEPOY G-1181 2 2 1 1 1
16:SOL NACIENTE P-33 2 2 1 1 1
17:ALTO CHELLE P-74 2 2 1 1 1
18:ESCUELA REDUCCIÓN 
TEMULEMU G-181 
2 2 1 1 1
19:TRANGOL G-214 2 2 1 1 1
20:ESCUELA RURAL 
"PURREHUIN" 
2 2 1 1 1
21:ÑIERECO F-285 2 2 1 1 1
22:ESCUELA BÁSICA 
FRONTERIZA COLCHANE E-50 
2 2 1 1 1
23:NUEVA RUCATRARO P-219 2 2 1 1 1
24:ESCUELA DE 
CONCENTRACIÓN 
FRONTERIZA RALCO E-970 
2 2 1 1 1
25:ESCUELA CHANCO G-171 2 2 1 1 1
26:CARIQUIMA, ESC. 
COMPLETA D-66 
2 2 1 1 1
27:ERNESTO WILHEM P-298 2 2 1 1 1
28:HUITRANLEBU G-64 2 2 1 1 1
29:ESCUELA RURAL 
"REDUCCIÓN ANTILHUE" 
2 2 1 1 1
30:COLLICO RANCO F-442 2 2 1 1 1
31:QUILACURA P-8 3 3 2 2 1
32:ESCUELA PARTICULAR Nº 
269 "CHAMILCO" 
2 2 1 1 1
33:SAN MIGUEL P-237 2 2 1 1 1
34:SAN GASTÓN P-320 2 2 1 1 1
35:GABRIELA MISTRAL P-511 2 2 1 1 1
36:CHOMIO 2 2 1 1 1
37:SANTA MARIA P-287 2 2 1 1 1
38:ESCUELA BÁSICA 
FRONTERIZA DE TARAPACÁ F-
106 (INTI PACHA MARKA) 
3 3 2 2 1
39:JOSÉ MARIANO CAMPOS 
MENCHACA G-802 
2 2 1 1 1
40:ESCUELA RURAL 
"PICHILAFQUENMAPU" 
2 2 1 1 1
41:MIGUEL HUENTELEN Nº 183 2 2 1 1 1
42:PANGUECO G-334 2 2 1 1 1
43:ESCUELA BÁSICA HUENTEN 
P-21 
4 4 3 2 1
44:SAN SEBASTIÁN P-1 2 2 1 1 1
45:DAGOBERTO GODOY P-353 3 3 2 2 1
La tabla de Conglomerado de pertenencia muestra todas las soluciones que fueron pedidas, en 
este caso habíamos pedido las soluciones de 2 a 6 conglomerados. Esta es una buena forma de 
comparar las soluciones para decidir cual parece más adecuada. Por ejemplo, en la solución de 2 
conglomerados, el conglomerado 1 está compuesto por 91 colegios y el segundo por sólo 5. En 
cambio, en la solución de 4 conglomerados, el conglomerado 1 sólo 50 casos, el 2 tiene 40 casos, 
el 3 sólo 1 caso, y el 4 tiene 5 casos. Ahora es posible ir interpretando los resultados, observando 
los conglomerados que se van uniendo. Vemos por ejemplo, que en las 5 soluciones, la escuela 
rural Ignao, San Antonio de Millelche, la escuela rural Bahía Mansa, la escuela rural Riachuelo, 
Cauñicu y Santa Isabel P-30 quedan juntas, por lo tanto, podemos afirmar que son parecidas. 
Gráfico de témpanos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
El Gráfico de témpanos nos muestra todas las posibles soluciones, es decir, la cantidad de 
conglomerados. En el caso de trabajar con 1 conglomerado, todos los casos se encuentran juntos 
(no hay espacios). En cambio en el caso de trabajar con, por ejemplo, 5 conglomerados, la 
Universidad de Atacama queda sola, la Universidad Católica de Valparaíso queda con la 
Universidad Técnica Federico Santa María, etc. Es un gráfico útil para ver cómo, etapa por etapa 
(hasta la etapa 95), los casos o conglomerados se van uniendo entre sí. Además, permite observar 
todas las soluciones para así poder decidir cual es la mejor de ellas. 
El Dendograma es otra forma de ver las etapas de manera gráfica. Representa, además, de manera 
muy clara, la forma arbórea de este procedimiento de aglomeración, mostrando el patrón de 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
agrupación. La línea superior representa la distancia, por lo que líneas largas significan gran 
distancia entre los casos. 
En este caso vemos que la mayor distancia se encuentra al unir los primeros 93 colegios con los 
restantes 3. En cambio, existe muy poca distancia entre, por ejemplo, la escuela San Miguel y 
Gabriela Mistral. Este gráfico es útil ya que permite al investigador, no solo ver como se fueron 
aglomerando, sino a su vez, revisar las distancias existentes para cada aglomeración. Parece 
evidente que unir los primeros 93 colegios con los últimos 3 produciría una importante bajaen la 
homogeneidad de los conglomerados, ya que la distancia entre el primero y el segundo es muy 
alta. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3. CARACTERIZACIÓN DE LOS CONGLOMERADOS
Una vez generada la tipología, en la vista de variables de nuestra base de datos aparecerá una 
nueva variable, como se mencionó anteriormente. Utilizando esta variable podemos caracterizar 
los grupos construidos.
Una primera forma de hacerlo es comparar los promedios de los grupos, para ello vamos a 
Analizar Comparar Medias Medias.
En la ventana recién abierta, seleccionamos las variables que utilizamos para construir la tipología 
(len02, mat02, com02) como variables dependientes, y como variable independiente elegimos a la 
nueva variable generada por la técnica, esto es, Average Linkage (Between groups).
En opciones, podemos seleccionar todos los estadísticos que queramos para caracterizar los 
grupos. En este caso seleccionamos solamente la media.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 PEGAR
 Sintaxis. PLAY
La salida titulada “Informe” nos permite observar los promedios en cada grupo para cada variable.
Informe
Media
Average Linkage 
(Between Groups) Lenguaje 2002
Matemáticas 
2002
Comprensión 
del medio 2002
1 193.04 191.58 193.02
2 230.61 223.34 234.54
3 262.80 278.20 274.40
Total 212.72 209.66 214.99
Interesa observar esta tabla para ver si los conglomerados son realmente distintos entre sí, y, 
además, para caracterizar cada conglomerado. Por ejemplo, en la prueba de Lenguaje, vemos que 
el conglomerado 1 tiene un promedio de 193,04 puntos, bastante distinto a la media de 230,61 
del conglomerado 2 y a la de 262,8 puntos del conglomerado 3. Observando las medias de los 
conglomerados en cada variable podríamos pasar a etiquetar cada conglomerado con un nombre 
que dé cuenta de estas características. 
En este caso, observamos que el grupo 1 es aquel que tiene menores puntajes en los tres módulos 
de la prueba SIMCE. En el segundo grupo se tiene los valores medios, mientras el tercer grupo 
tiene los valores altos, es decir, agrupa a los colegios que tienen mejores puntajes promedio en los 
módulos de la prueba SIMCE.
Una segunda forma para comparar los grupos es a través de un gráfico de barras, por lo que 
vamos a:
 Gráficos cuadros de diálogos antiguos barras
En la ventana recién abierta seleccionamos “Agrupado” y pedimos como dato “resúmenes para 
distintas variables”. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Definir
• Bajo “las barras representan” incluimos las variables que utilizamos para el análisis (len02, 
mat02, com02)
• Bajo el título “Eje de categoría” incluimos la variable generada por el análisis de tipología 
que nos indica el conglomerado de pertenencia.
Maureen
Resaltar
Maureen
Resaltar
Aquí debemos decidir que hacer con los casos perdidos. Nuevamente tenemos la opción de excluir 
los casos que tengan algún valor perdido (Excluir casos según lista) o hacerlo variable por variable 
(Excluir casos variables por variables). También da la opción de mostrar los grupos definidos por 
los valores perdidos. En este caso no tenemos casos perdidos. 
ContinuarPEGAR PLAY.
Este gráfico nos permite observar y caracterizar los conglomerados, según sus medias en cada 
variable. Por ejemplo, vemos que la media del conglomerado 1 en las tres variables es bastante 
menor que las medias de los otros conglomerados. También podemos apreciar lo similar que 
resultan los promedios de cada prueba al interior de un grupo. Podemos analizar así cada 
conglomerado y, si es que se quiere, ponerle un nombre a cada conglomerado para así hacer una 
caracterización de tipos de universidades. 
Un punto importante que surge al decidir la cantidad de conglomerados a utilizar, es cómo se van 
a caracterizar efectivamente dichos conglomerados. Para efectos de la elaboración de un informe, 
lo importante, junto a la demostración del uso adecuado de la técnica, y las respectivas 
justificaciones de las decisiones tomadas, es realizar al final, a modo de conclusión, una 
descripción de los conglomerados y posibles explicaciones a ciertos hechos observados, así 
también como otorgar un nombre tentativo a cada conglomerado que los caracterice.
Maureen
Resaltar
Maureen
Resaltar
	Guía de trabajo SPSS

Continuar navegando