Guía de trabajo SPSS_Tipologías (jerárquico)

•

Outros

Aprendiendo Juntos

13/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

101.499 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Guía de trabajo SPSS
Análisis de Tipologías (método
jerárquico)
Material de ayudantía
Estadística IV – 2012
Facultad de Ciencias Sociales – Universidad de Chile
Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos
RESUMEN: ANÁLISIS DE TIPOLOGÍAS
Método jerárquico
El análisis de tipologías es un conjunto de procedimientos utilizados para agrupar casos o variables
en función de un conjunto de variables de clasificación.
Los tipos de clasificación en el análisis de tipologías son variados, pero los más usados son dos. Por
una parte, está el método de optimización, que opera dividiendo el conjunto de casos mediante la
aplicación de un algoritmo que optimiza una medida numérica que indica la solución adecuada.
Por otra, están los métodos jerárquicos, que operan paso a paso, mediante un proceso que replica
la estructura de un árbol y forma un rango completo de soluciones. Son jerárquicos en la medida
que cada operación realizada es definitiva y por tanto, en cada una de las diversas etapas de
produce la unión o división de los casos. Cada nueva etapa, va generando una “rama” del “árbol”
de los procedimientos jerárquicos.
Dentro de los jerárquicos, podemos distinguir entre los aglomerativos y los divisivos. Dentro de
los procedimientos jerárquicos aglomerativos, se considera en principio a cada caso como un
grupo (esto es posible de ver en el diagrama de témpanos) y en etapas sucesivas se van uniendo
casos entre si, y por tanto, se considera como un proceso “ascendente”. Por el contrario, los
divisivos, se realizan descendiendo desde la muestra considerada como un grupo independiente al
cual, en las diversas etapas se van generando grupos menores y finaliza cuando cada caso es un
grupo independiente.
Por último, dentro de las jerárquicas aglomerativas, hay diversas formas de agrupar. Todas éstas
consideran la matriz de distancias para clasificar los casos en los grupos a formar. Está la técnica
del centroide o average linkage, en donde se calcula el centroide de cada grupo y se le asignan
casos según la distancia respecto al mismo. Los otros dos más usados mecanismos de
aglomeración, son el complete linkage o vecino más lejano y el simple linkage o vecino más
cercano. En el primero, la distancia entre los grupos esta definida por la distancia entre los pares
de casos más lejanos; en el segundo, la distancia se entenderá como la distancia existente entre
los miembros más próximos de cada grupo.
Usos:
• Establecer tipologías según el comportamiento de los sujetos en variables asociadas a un
tema o área de estudio.
• Buscar esquemas conceptuales útiles para agrupar a sujetos.
• Generar o contrastar hipótesis de investigación, verificando tipologías construidas en
forma teórica o lógica.
• Reducir la información contenida en un grupo de variables
• Generar estratos en teoría de muestras
• Identificar nuevas relaciones entre las variables
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Condiciones:
a) Tamaño de la muestra: menos de 200 casos
b) Variables admitidas: escalares / ordinales / dicotómicas. Se recomienda que las variables
utilizadas tengan el mismo nivel de medida, porque en esta técnica la estandarización reduce la
potencia de la variable que más discrimina.
c) Representatividad: la muestra debe ser representativa, debido a que esta técnica no considera
procedimientos de inferencia al universo.
EJERCICIO DE APLICACIÓN
0. DISPONER LA BASE DE DATOS
La base de datos utilizada en el ejercicio es de los resultados del SIMCE del año 2002, donde se ven
los resultados promedio de las tres pruebas (Matemáticas, Lenguaje y Comunicación, y
Comprensión del Medio) en 96 colegios a lo largo de Chile.
La pregunta que guía este ejercicio es ¿Cómo se clasifican los colegios a partir de los resultados en
la prueba SIMCE, aplicada en el año 2002? El objetivo del ejemplo es clasificar a los colegios en
conglomerados (cluster) con características similares. Buscamos así generar tipologías colegios a
partir de sus puntajes.
0.a. Variables a utilizar
Las variables que vamos a usar son de carácter cuantitativo, y son len02, mat02, com02, que se
refieren al puntaje obtenido en las pruebas de Lenguaje, Matemáticas y Comprensión del Medio,
respectivamente.
Los colegios son los casos a ser clasificados, y con el fin de que en las salidas computacionales cada
colegio pueda ser distinguido, la variable Escuela es ingresada como variable nominal, siendo sus
categorías los nombres de los distintos colegios.
0.b. Análisis de casos perdidos
Siempre revisar las categorías de respuesta a las variables (no es el caso de este ejercicio, pero
podría suceder que tengamos que marcar como perdido alguna categoría de respuesta –como por
ejemplo “No sabe/No contesta”-). Por otra parte, como se señaló anteriormente, este tipo de
tipologías (jerárquica) se utiliza cuando hay muestras pequeñas, por tanto se verifica que la
cantidad de casos perdidos no impida hacer el análisis, para ello vamos a:
Analizar → Estadísticos descriptivos → Frecuencias:
Incluir variables
 Mostrar tablas de Frecuencia
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
Estadísticos
Lenguaje 2002
Matemáticas
2002
Comprensión
del medio 2002
N Válidos 96 96 96
Perdidos 0 0 0
La tabla muestra los valores válidos y perdidos. Como es posible apreciar, no existen valores
perdidos, por lo que es posible realizar el análisis sin problemas.
0.c. Análisis de casos atípicos
Otro análisis previo a la aplicación de la técnica multivariable es, cuando se trabaja con pocos
casos, revisar que no existan casos atípicos, esto es, con valores muy distintos del resto de los
casos. Al buscar establecer conglomerados, los casos atípicos pueden conformar
conglomerados donde son el caso único. Por ello vamos a:
Analizar → Tablas → Tablas personalizadas
En Filas de la tabla hay que arrastrar la variable Escuela (que la estamos usando como etiqueta), y
a las Columnas hay que arrastrar las tres variables utilizadas para el análisis, es decir, len02, mat02
y com02. Arriba del recuadro, seleccionaremos la modalidad de tabla Compacta.
 Definir: Estadísticos de resumen. Media
El resto de las opciones (como estadísticos de resumen, posición de categorías) dejarla como
vienen por defecto.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
Lenguaje
2002
Matemáticas
2002
Comprensión del
medio 2002
Media Media Media
escuela AGUSTO WINTER P-348 173 180 196
ALTO CHELLE P-74 185 191 201
AMUL KEWUN P-22 235 194 224
ANTONIO LADINO G-459 222 207 230
BARTOLO LLANCALEO G- 440 231 234 245
BUTALELBUN (TRAPA TRAPA) 171 190 197
CALOF G-455 218 214 219
CARIQUIMA, ESC. COMPLETA D-66 196 200 220
CASA DE PIEDRA G-439 212 207 224
CAUÑICU 258 209 267
CHACUIVI 223 193 178
CHAPOD 171 187 205
CHILLIMAPU 239 249 254
CHOMIO 202 189 185
COI COI G-554 220 193 206
COLEGIO FORESTAL "QUILACAHUIN" 279 282 277
COLLICO RANCO F-442 200 195 198
DAGOBERTO GODOY P-353 210 227 214
DIEGO PORTALES 171 173 178
ERNESTO WILHEM P-298 199 188 170
ESC. PARTICULAR Nº 171 "MISIÓN SAN
JUAN"
240 229 245
ESC. RURAL "ILIHUE" 237 235 243
ESCUELA BÁSICA FRONTERIZA COLCHANE
E-50
192 181 196
ESCUELA BÁSICA DE CAMIÑA F-62 221 239 243
ESCUELA BÁSICA FRONTERIZA DE
TARAPACÁ F-106 (INTI PACHA MARKA)
204 205 228
ESCUELA BÁSICA HUENTEN P-21 207 265 213
ESCUELA BÁSICA SAN PEDRO DE ATACAMA
E-26
234 232 234
ESCUELA BÁSICA TOCONAO E-21 262 272 261
ESCUELA CHANCO G-171 195 196 195
ESCUELA DE CONCENTRACIÓN 195 195 185Para hacer más sencillo el análisis de los casos, marcamos con color celeste el caso con menores
valores y el caso con mayores valores. Vemos que la diferencia de puntaje llega a ser en la variable
mat02 de casi 90 puntos. Es necesario decidir qué hacer con estos dos casos: dejarlos y hacer el
análisis o eliminarlos. Optamos por dejarlos, porque si bien existe una diferencia considerable, no
se pueden considerar atípicos en cuanto los valores de los demás casos no son muy distintos de
los valores marcados como extremos.
0.d. Estandarización
Un tema importante en el análisis de tipologías es la estandarización. En principio, una de las
condiciones de aplicación de la técnica es la similaridad en la unidad de medida de las variables a
incluir en el modelo. Para comprobar de manera estadística si es necesario recurrir a la
estandarización entramos a:
Analizar → Estadísticos descriptivos → Descriptivos
 Mínimo
 Máximo
 Media
 Desviación estándar
 Varianza
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza
Lenguaje 2002 96 151 279 212.72 26.647 710.078
Matemáticas 2002 96 155 287 209.66 27.049 731.660
Comprensión del medio
2002
96 156 280 214.99 28.638 820.116
N válido (según lista) 96
En este caso hemos seleccionado para incluir en el modelo variables con similar
unidad de medida, por lo cual no necesitamos estandarizar los puntajes de las
variables. Además vemos en la tabla de descriptivos, que se tiene que el mínimo
bordea los 150 puntos y el máximo, 280, y como vimos anteriormente, las distintas
pruebas tienes el mismo número de casos (N=96).
1. ANÁLISIS DE TIPOLOGÍAS
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Analizar → Clasificar → Conglomerados Jerárquicos
La ventana que obtenemos es muy similar a la del método de optimización, sólo que con algunas
modificaciones. También debemos definir las variables a incluir en la clasificación de los casos y
una variable de etiqueta. En este caso, incluimos todas las variables (len02, mat02 y com02) y la
variable “escuela” como etiqueta:
La primera decisión que debe hacerse es si crear conglomerados de casos o de variables. En este
caso lo que queremos hacer es clasificar casos (colegios) y no variables.
→ Estadísticos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Historial de conglomeración
 Matriz de distancias
Además, como se trata de un análisis jerárquico, el programa da la posibilidad de elegir una
solución única de conglomerados o un rango de soluciones. En el primer caso el investigador debe
definir el número de conglomerados que quiere que el programa forme, y en el segundo, puede
definir un rango de soluciones distintas. Eligiendo esta opción, obtendremos varias soluciones,
pudiendo elegir luego la que parezca más apropiada. Pediremos las soluciones desde 2 a 6
conglomerados, para así poder decidir teniendo varias alternativas.
→ Gráficos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 Dendograma
 Gráfico de témpanos
Se pueden pedir todos los Gráficos de Témpanos (de todas las posibles soluciones) o sólo algunos
(en un rango). En este caso pedimos el Dendograma y todos los Gráficos de Témpanos. También se
da la opción de pedirlos vertical u horizontalmente. Elegimos la opción vertical.
→ Método
 Método de conglomeración: vinculación inter-grupos
 Medida: intervalo, distancia euclídea al cuadrado
Primero, hay que decidir el Método de aglomeración va a utilizar el programa. Esto tiene que ver
con el criterio según el cual dos casos son unidos en cada paso. En este caso escogemos el
procedimiento de encadenamiento medio entre grupos, cuyo criterio de aglomeración es definido
por la distancia media de todos los casos de un conglomerado respecto a la media de todos los
casos de otro conglomerado. Según algunos autores, este método se encuentra sesgado, en
cuanto produce conglomerados con similares varianzas. Existe la posibilidad de aplicar más de un
método de aglomeración para
luego comparar los resultados.
Luego es necesario decidir la
medida a utilizar. Es
importante observar que
existen distintas medidas
según el nivel de medida de
las variables. De esta forma
podemos trabajar con datos
medidos a intervalo, datos
como frecuencias y datos
binarios. En este caso se
trabaja con datos
cuantitativos, por lo que se
elige Intervalo. Además,
existen distintas formas de
medir distancias. La distancia
seleccionada es la distancia
euclídea al cuadrado1, que se encuentra predefinida.
1
1
La distancia euclídea al cuadrado corresponde a la suma de las diferencias entre los casos al
cuadrado; de modo tal que la distancia entre los puntos a y b se definiría por la siguiente
expresión: Distancia (a,b) = Σ (ai – bi)2.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
El programa también da la opción de transformar los valores, vale decir, estandarizarlos. Esta es
una opción cuando los datos se encuentran en medidas muy distintas. Sin embargo, la
estandarización puede producir efectos no deseados, como se mencionó anteriormente. En este
caso no es necesario estandarizar. También está la opción de transformar las medidas, por
ejemplo, utilizando solamente valores absolutos o cambiándole el signo a estos, que en este caso
no utilizaremos.
→ Guardar
Por último, es posible guardar una o más soluciones de pertenencia a conglomerados en una
nueva columna en nuestra base de datos. En este caso decidimos guardar la solución de 3
conglomerados para utilizar esta información luego en la caracterización de los conglomerados.
Esta decisión se toma ya habiendo revisado las distintas alternativas de aglomeración posibles.
También da la posibilidad de guardar más que una solución de conglomerados (por ejemplo,
podríamos guardar las soluciones de 2 a 6 conglomerados, para tener el rango de soluciones que
pedimos al principio, transformadas en variables).
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
→ Pegar. PLAY en la sintaxis.
CLUSTER len02 mat02 com02
/METHOD BAVERAGE
/MEASURE=SEUCLID
/ID=escuela
/PRINT SCHEDULE CLUSTER(2,6)
/PRINT DISTANCE
/PLOT DENDROGRAM HICICLE
/SAVE CLUSTER(3).
2. RESULTADOS
Conglomerados jerárquicos
Resumen del procesamiento de los casosa
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
96 100.0 0 .0 96 100.0
a. Vinculación promedio (Inter-grupos)
Al hacer correr la sintaxis, se crea una variable nueva al final de la base de datos. En este caso,
nuestra variable se llama Average Linkage (Between groups), en referencia a la técnica de
aglomeración que decidimos utilizar.
La primera tabla hace referencia a los casos válidos y los casos perdidos, del total de casos: no hay
datos perdidos, por lo que los casos válidos constituyen el 100%.
La tabla que viene a continuación será presentada sólo en parte, ya que por su tamaño sería
imposible mostrarla entera. De todas formas, es suficiente para interpretarla:
Matriz de distancia
Maureen
Resaltar
Maureen
Resaltar
Esta matriz presenta las distancias de cada caso respecto a los demás: la diagonal está compuesta
por ceros, ya que la distancia de un caso respecto a si mismo es cero. Esta tabla solo sirve para
tener una visión general de las similaridades, donde valores altos muestran gran diferencia entre
los casos, mientras que los valores pequeños muestran cercanía. Vemos por ejemplo que la
escuela Chapod tiene poca similitud con la escuela Inalafquén, ya que la distancia entre ambas es
muy grande, mientras que la escuela Agusto Winter es muy similar con la escuela San Martín de
Porres.
Vinculación promedio (Inter-grupos)
El título hace referencia al procedimiento aglomerativoescogido. En este caso, el procedimiento
de encadenamiento medio entre los grupos, y en la siguiente tabla (historial de conglomeración)
se muestra las etapas en las que los casos fueron combinados en un mismo conglomerado
(recordando que los casos se van uniendo en etapas). En cada etapa un caso o un conglomerado
es unido a otro según el criterio y la medida de distancia seleccionados.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Historial de conglomeración
Etapa
Conglomerado que se combina
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Próxima etapaConglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
dimen
sion0
1 30 33 3.000 0 0 13
2 69 70 6.000 0 0 6
3 64 67 6.000 0 0 22
4 44 49 10.000 0 0 32
5 72 76 13.000 0 0 12
6 69 73 16.000 2 0 42
7 50 51 17.000 0 0 41
8 60 62 21.000 0 0 40
9 7 10 21.000 0 0 17
10 82 84 27.000 0 0 55
11 4 9 29.000 0 0 35
12 72 77 34.500 5 0 24
13 30 41 39.500 1 0 18
14 71 81 41.000 0 0 26
15 54 56 53.000 0 0 40
16 39 46 53.000 0 0 34
17 7 12 55.500 9 0 50
18 30 35 57.667 13 0 29
19 32 40 61.000 0 0 47
20 78 80 73.000 0 0 42
21 5 6 73.000 0 0 50
22 63 64 74.000 0 3 36
23 34 36 74.000 0 0 39
24 65 72 75.000 0 12 48
25 53 55 75.000 0 0 46
26 71 85 77.500 14 0 33
27 38 47 84.000 0 0 46
28 23 27 86.000 0 0 49
29 25 30 90.750 0 18 57
30 48 58 94.000 0 0 56
31 15 21 94.000 0 0 61
32 37 44 96.000 0 4 41
33 71 79 97.000 26 0 62
34 28 39 111.500 0 16 52
35 4 11 114.500 11 0 63
36 63 74 117.000 22 0 64
37 16 17 117.000 0 0 51
38 2 8 118.000 0 0 74
39 29 34 125.000 0 23 45
40 54 60 141.500 15 8 58
41 37 50 150.167 32 7 56
42 69 78 167.833 6 20 48
43 95 96 171.000 0 0 59
44 87 88 178.000 0 0 76
45 24 29 183.333 0 39 57
46 38 53 184.500 27 25 58
47 26 32 187.500 0 19 70
48 65 69 188.750 24 42 68
49 18 23 199.000 0 28 77
En este caso, observamos que en el primer paso se unen los casos 30 y 33. El coeficiente hace
referencia a la distancia entre estos casos, y al ser los casos 30 y 33 los que tienen el menor
coeficiente, son unidos antes que otros. En la segunda etapa se unen los casos 69 y 70, y en la
sexta etapa este conglomerado (denominado por el caso menor, en este caso, el 69) se une con el
caso 73. Este procedimiento sigue hasta que todos los casos están agrupados, por lo que es
necesario observar los coeficientes, los que permiten definir en qué momento parar la
aglomeración (de agrupar).
Recordemos que este procedimiento genera todos los resultados posibles (desde el caso en el que
cada caso es un conglomerado por si mismo, hasta el caso en el que todos los casos se encuentran
en un mismo conglomerado). Es por eso que observar los coeficientes resulta necesario, ya que
permite ver en qué etapa la distancia entre casos o conglomerados es demasiado grande, siendo
este punto donde se debe parar la aglomeración. En este caso vemos, por ejemplo, que entre la
etapa 1, donde se unen los casos 30 y 33, y la etapa 13, donde al conglomerado 30 se le une el
caso 41, la distancia pasa de unos 3.000 a 39.500, por lo que podemos afirmar, que al unir el caso
los casos 30, 33 al 41, la distancia dentro de los conglomerados aumenta bastante, generando
conglomerados menos homogéneos.
La columna que sigue muestra el paso en el que cada caso aparece por primera vez. La última
columna muestra la etapa en la que aparecerá próximamente. Estos datos permiten ver con más
detalle cómo se fue produciendo el procedimiento de aglomeración.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Conglomerado de pertenencia
Caso 6
conglomerados
5
conglomerados
4
conglomerados
3
conglomerados
2
conglomerados
1:INALAFQUEN G-445 1 1 1 1 1
2:QUEPUCA RALCO 1 1 1 1 1
3:ESCUELA RURAL "ILLAHUAPI" 2 2 1 1 1
4:DIEGO PORTALES 1 1 1 1 1
5:CHAPOD 2 2 1 1 1
6:BUTALELBUN (TRAPA TRAPA) 2 2 1 1 1
7:SAN MARTIN DE PORRES 2 2 1 1 1
8:HUAPI P-11 1 1 1 1 1
9:RUCA COMCHE P-309 1 1 1 1 1
10:AGUSTO WINTER P-348 2 2 1 1 1
11:ESMERALDA 1 1 1 1 1
12:REPOCURA P-43 2 2 1 1 1
13:PICHI LONCOYAN P-13 1 1 1 1 1
14:ESCUELA RURAL "LAGO
NELTUME"
2 2 1 1 1
15:RALCO LEPOY G-1181 2 2 1 1 1
16:SOL NACIENTE P-33 2 2 1 1 1
17:ALTO CHELLE P-74 2 2 1 1 1
18:ESCUELA REDUCCIÓN
TEMULEMU G-181
2 2 1 1 1
19:TRANGOL G-214 2 2 1 1 1
20:ESCUELA RURAL
"PURREHUIN"
2 2 1 1 1
21:ÑIERECO F-285 2 2 1 1 1
22:ESCUELA BÁSICA
FRONTERIZA COLCHANE E-50
2 2 1 1 1
23:NUEVA RUCATRARO P-219 2 2 1 1 1
24:ESCUELA DE
CONCENTRACIÓN
FRONTERIZA RALCO E-970
2 2 1 1 1
25:ESCUELA CHANCO G-171 2 2 1 1 1
26:CARIQUIMA, ESC.
COMPLETA D-66
2 2 1 1 1
27:ERNESTO WILHEM P-298 2 2 1 1 1
28:HUITRANLEBU G-64 2 2 1 1 1
29:ESCUELA RURAL
"REDUCCIÓN ANTILHUE"
2 2 1 1 1
30:COLLICO RANCO F-442 2 2 1 1 1
31:QUILACURA P-8 3 3 2 2 1
32:ESCUELA PARTICULAR Nº
269 "CHAMILCO"
2 2 1 1 1
33:SAN MIGUEL P-237 2 2 1 1 1
34:SAN GASTÓN P-320 2 2 1 1 1
35:GABRIELA MISTRAL P-511 2 2 1 1 1
36:CHOMIO 2 2 1 1 1
37:SANTA MARIA P-287 2 2 1 1 1
38:ESCUELA BÁSICA
FRONTERIZA DE TARAPACÁ F-
106 (INTI PACHA MARKA)
3 3 2 2 1
39:JOSÉ MARIANO CAMPOS
MENCHACA G-802
2 2 1 1 1
40:ESCUELA RURAL
"PICHILAFQUENMAPU"
2 2 1 1 1
41:MIGUEL HUENTELEN Nº 183 2 2 1 1 1
42:PANGUECO G-334 2 2 1 1 1
43:ESCUELA BÁSICA HUENTEN
P-21
4 4 3 2 1
44:SAN SEBASTIÁN P-1 2 2 1 1 1
45:DAGOBERTO GODOY P-353 3 3 2 2 1
La tabla de Conglomerado de pertenencia muestra todas las soluciones que fueron pedidas, en
este caso habíamos pedido las soluciones de 2 a 6 conglomerados. Esta es una buena forma de
comparar las soluciones para decidir cual parece más adecuada. Por ejemplo, en la solución de 2
conglomerados, el conglomerado 1 está compuesto por 91 colegios y el segundo por sólo 5. En
cambio, en la solución de 4 conglomerados, el conglomerado 1 sólo 50 casos, el 2 tiene 40 casos,
el 3 sólo 1 caso, y el 4 tiene 5 casos. Ahora es posible ir interpretando los resultados, observando
los conglomerados que se van uniendo. Vemos por ejemplo, que en las 5 soluciones, la escuela
rural Ignao, San Antonio de Millelche, la escuela rural Bahía Mansa, la escuela rural Riachuelo,
Cauñicu y Santa Isabel P-30 quedan juntas, por lo tanto, podemos afirmar que son parecidas.
Gráfico de témpanos
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
El Gráfico de témpanos nos muestra todas las posibles soluciones, es decir, la cantidad de
conglomerados. En el caso de trabajar con 1 conglomerado, todos los casos se encuentran juntos
(no hay espacios). En cambio en el caso de trabajar con, por ejemplo, 5 conglomerados, la
Universidad de Atacama queda sola, la Universidad Católica de Valparaíso queda con la
Universidad Técnica Federico Santa María, etc. Es un gráfico útil para ver cómo, etapa por etapa
(hasta la etapa 95), los casos o conglomerados se van uniendo entre sí. Además, permite observar
todas las soluciones para así poder decidir cual es la mejor de ellas.
El Dendograma es otra forma de ver las etapas de manera gráfica. Representa, además, de manera
muy clara, la forma arbórea de este procedimiento de aglomeración, mostrando el patrón de
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
agrupación. La línea superior representa la distancia, por lo que líneas largas significan gran
distancia entre los casos.
En este caso vemos que la mayor distancia se encuentra al unir los primeros 93 colegios con los
restantes 3. En cambio, existe muy poca distancia entre, por ejemplo, la escuela San Miguel y
Gabriela Mistral. Este gráfico es útil ya que permite al investigador, no solo ver como se fueron
aglomerando, sino a su vez, revisar las distancias existentes para cada aglomeración. Parece
evidente que unir los primeros 93 colegios con los últimos 3 produciría una importante bajaen la
homogeneidad de los conglomerados, ya que la distancia entre el primero y el segundo es muy
alta.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3. CARACTERIZACIÓN DE LOS CONGLOMERADOS
Una vez generada la tipología, en la vista de variables de nuestra base de datos aparecerá una
nueva variable, como se mencionó anteriormente. Utilizando esta variable podemos caracterizar
los grupos construidos.
Una primera forma de hacerlo es comparar los promedios de los grupos, para ello vamos a
Analizar Comparar Medias Medias.
En la ventana recién abierta, seleccionamos las variables que utilizamos para construir la tipología
(len02, mat02, com02) como variables dependientes, y como variable independiente elegimos a la
nueva variable generada por la técnica, esto es, Average Linkage (Between groups).
En opciones, podemos seleccionar todos los estadísticos que queramos para caracterizar los
grupos. En este caso seleccionamos solamente la media.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 PEGAR
 Sintaxis. PLAY
La salida titulada “Informe” nos permite observar los promedios en cada grupo para cada variable.
Informe
Media
Average Linkage
(Between Groups) Lenguaje 2002
Matemáticas
2002
Comprensión
del medio 2002
1 193.04 191.58 193.02
2 230.61 223.34 234.54
3 262.80 278.20 274.40
Total 212.72 209.66 214.99
Interesa observar esta tabla para ver si los conglomerados son realmente distintos entre sí, y,
además, para caracterizar cada conglomerado. Por ejemplo, en la prueba de Lenguaje, vemos que
el conglomerado 1 tiene un promedio de 193,04 puntos, bastante distinto a la media de 230,61
del conglomerado 2 y a la de 262,8 puntos del conglomerado 3. Observando las medias de los
conglomerados en cada variable podríamos pasar a etiquetar cada conglomerado con un nombre
que dé cuenta de estas características.
En este caso, observamos que el grupo 1 es aquel que tiene menores puntajes en los tres módulos
de la prueba SIMCE. En el segundo grupo se tiene los valores medios, mientras el tercer grupo
tiene los valores altos, es decir, agrupa a los colegios que tienen mejores puntajes promedio en los
módulos de la prueba SIMCE.
Una segunda forma para comparar los grupos es a través de un gráfico de barras, por lo que
vamos a:
Gráficos cuadros de diálogos antiguos barras
En la ventana recién abierta seleccionamos “Agrupado” y pedimos como dato “resúmenes para
distintas variables”.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Definir
• Bajo “las barras representan” incluimos las variables que utilizamos para el análisis (len02,
mat02, com02)
• Bajo el título “Eje de categoría” incluimos la variable generada por el análisis de tipología
que nos indica el conglomerado de pertenencia.
Maureen
Resaltar
Maureen
Resaltar
Aquí debemos decidir que hacer con los casos perdidos. Nuevamente tenemos la opción de excluir
los casos que tengan algún valor perdido (Excluir casos según lista) o hacerlo variable por variable
(Excluir casos variables por variables). También da la opción de mostrar los grupos definidos por
los valores perdidos. En este caso no tenemos casos perdidos.
ContinuarPEGAR PLAY.
Este gráfico nos permite observar y caracterizar los conglomerados, según sus medias en cada
variable. Por ejemplo, vemos que la media del conglomerado 1 en las tres variables es bastante
menor que las medias de los otros conglomerados. También podemos apreciar lo similar que
resultan los promedios de cada prueba al interior de un grupo. Podemos analizar así cada
conglomerado y, si es que se quiere, ponerle un nombre a cada conglomerado para así hacer una
caracterización de tipos de universidades.
Un punto importante que surge al decidir la cantidad de conglomerados a utilizar, es cómo se van
a caracterizar efectivamente dichos conglomerados. Para efectos de la elaboración de un informe,
lo importante, junto a la demostración del uso adecuado de la técnica, y las respectivas
justificaciones de las decisiones tomadas, es realizar al final, a modo de conclusión, una
descripción de los conglomerados y posibles explicaciones a ciertos hechos observados, así
también como otorgar un nombre tentativo a cada conglomerado que los caracterice.
Maureen
Resaltar
Maureen
Resaltar
Guía de trabajo SPSS