Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Guía de trabajo SPSS Análisis de Tipologías (método jerárquico) Material de ayudantía Estadística IV – 2012 Facultad de Ciencias Sociales – Universidad de Chile Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos RESUMEN: ANÁLISIS DE TIPOLOGÍAS Método jerárquico El análisis de tipologías es un conjunto de procedimientos utilizados para agrupar casos o variables en función de un conjunto de variables de clasificación. Los tipos de clasificación en el análisis de tipologías son variados, pero los más usados son dos. Por una parte, está el método de optimización, que opera dividiendo el conjunto de casos mediante la aplicación de un algoritmo que optimiza una medida numérica que indica la solución adecuada. Por otra, están los métodos jerárquicos, que operan paso a paso, mediante un proceso que replica la estructura de un árbol y forma un rango completo de soluciones. Son jerárquicos en la medida que cada operación realizada es definitiva y por tanto, en cada una de las diversas etapas de produce la unión o división de los casos. Cada nueva etapa, va generando una “rama” del “árbol” de los procedimientos jerárquicos. Dentro de los jerárquicos, podemos distinguir entre los aglomerativos y los divisivos. Dentro de los procedimientos jerárquicos aglomerativos, se considera en principio a cada caso como un grupo (esto es posible de ver en el diagrama de témpanos) y en etapas sucesivas se van uniendo casos entre si, y por tanto, se considera como un proceso “ascendente”. Por el contrario, los divisivos, se realizan descendiendo desde la muestra considerada como un grupo independiente al cual, en las diversas etapas se van generando grupos menores y finaliza cuando cada caso es un grupo independiente. Por último, dentro de las jerárquicas aglomerativas, hay diversas formas de agrupar. Todas éstas consideran la matriz de distancias para clasificar los casos en los grupos a formar. Está la técnica del centroide o average linkage, en donde se calcula el centroide de cada grupo y se le asignan casos según la distancia respecto al mismo. Los otros dos más usados mecanismos de aglomeración, son el complete linkage o vecino más lejano y el simple linkage o vecino más cercano. En el primero, la distancia entre los grupos esta definida por la distancia entre los pares de casos más lejanos; en el segundo, la distancia se entenderá como la distancia existente entre los miembros más próximos de cada grupo. Usos: • Establecer tipologías según el comportamiento de los sujetos en variables asociadas a un tema o área de estudio. • Buscar esquemas conceptuales útiles para agrupar a sujetos. • Generar o contrastar hipótesis de investigación, verificando tipologías construidas en forma teórica o lógica. • Reducir la información contenida en un grupo de variables • Generar estratos en teoría de muestras • Identificar nuevas relaciones entre las variables Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Condiciones: a) Tamaño de la muestra: menos de 200 casos b) Variables admitidas: escalares / ordinales / dicotómicas. Se recomienda que las variables utilizadas tengan el mismo nivel de medida, porque en esta técnica la estandarización reduce la potencia de la variable que más discrimina. c) Representatividad: la muestra debe ser representativa, debido a que esta técnica no considera procedimientos de inferencia al universo. EJERCICIO DE APLICACIÓN 0. DISPONER LA BASE DE DATOS La base de datos utilizada en el ejercicio es de los resultados del SIMCE del año 2002, donde se ven los resultados promedio de las tres pruebas (Matemáticas, Lenguaje y Comunicación, y Comprensión del Medio) en 96 colegios a lo largo de Chile. La pregunta que guía este ejercicio es ¿Cómo se clasifican los colegios a partir de los resultados en la prueba SIMCE, aplicada en el año 2002? El objetivo del ejemplo es clasificar a los colegios en conglomerados (cluster) con características similares. Buscamos así generar tipologías colegios a partir de sus puntajes. 0.a. Variables a utilizar Las variables que vamos a usar son de carácter cuantitativo, y son len02, mat02, com02, que se refieren al puntaje obtenido en las pruebas de Lenguaje, Matemáticas y Comprensión del Medio, respectivamente. Los colegios son los casos a ser clasificados, y con el fin de que en las salidas computacionales cada colegio pueda ser distinguido, la variable Escuela es ingresada como variable nominal, siendo sus categorías los nombres de los distintos colegios. 0.b. Análisis de casos perdidos Siempre revisar las categorías de respuesta a las variables (no es el caso de este ejercicio, pero podría suceder que tengamos que marcar como perdido alguna categoría de respuesta –como por ejemplo “No sabe/No contesta”-). Por otra parte, como se señaló anteriormente, este tipo de tipologías (jerárquica) se utiliza cuando hay muestras pequeñas, por tanto se verifica que la cantidad de casos perdidos no impida hacer el análisis, para ello vamos a: Analizar → Estadísticos descriptivos → Frecuencias: Incluir variables Mostrar tablas de Frecuencia Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → Pegar. PLAY en la sintaxis. Estadísticos Lenguaje 2002 Matemáticas 2002 Comprensión del medio 2002 N Válidos 96 96 96 Perdidos 0 0 0 La tabla muestra los valores válidos y perdidos. Como es posible apreciar, no existen valores perdidos, por lo que es posible realizar el análisis sin problemas. 0.c. Análisis de casos atípicos Otro análisis previo a la aplicación de la técnica multivariable es, cuando se trabaja con pocos casos, revisar que no existan casos atípicos, esto es, con valores muy distintos del resto de los casos. Al buscar establecer conglomerados, los casos atípicos pueden conformar conglomerados donde son el caso único. Por ello vamos a: Analizar → Tablas → Tablas personalizadas En Filas de la tabla hay que arrastrar la variable Escuela (que la estamos usando como etiqueta), y a las Columnas hay que arrastrar las tres variables utilizadas para el análisis, es decir, len02, mat02 y com02. Arriba del recuadro, seleccionaremos la modalidad de tabla Compacta. Definir: Estadísticos de resumen. Media El resto de las opciones (como estadísticos de resumen, posición de categorías) dejarla como vienen por defecto. Maureen Resaltar Maureen Resaltar Maureen Resaltar → Pegar. PLAY en la sintaxis. Lenguaje 2002 Matemáticas 2002 Comprensión del medio 2002 Media Media Media escuela AGUSTO WINTER P-348 173 180 196 ALTO CHELLE P-74 185 191 201 AMUL KEWUN P-22 235 194 224 ANTONIO LADINO G-459 222 207 230 BARTOLO LLANCALEO G- 440 231 234 245 BUTALELBUN (TRAPA TRAPA) 171 190 197 CALOF G-455 218 214 219 CARIQUIMA, ESC. COMPLETA D-66 196 200 220 CASA DE PIEDRA G-439 212 207 224 CAUÑICU 258 209 267 CHACUIVI 223 193 178 CHAPOD 171 187 205 CHILLIMAPU 239 249 254 CHOMIO 202 189 185 COI COI G-554 220 193 206 COLEGIO FORESTAL "QUILACAHUIN" 279 282 277 COLLICO RANCO F-442 200 195 198 DAGOBERTO GODOY P-353 210 227 214 DIEGO PORTALES 171 173 178 ERNESTO WILHEM P-298 199 188 170 ESC. PARTICULAR Nº 171 "MISIÓN SAN JUAN" 240 229 245 ESC. RURAL "ILIHUE" 237 235 243 ESCUELA BÁSICA FRONTERIZA COLCHANE E-50 192 181 196 ESCUELA BÁSICA DE CAMIÑA F-62 221 239 243 ESCUELA BÁSICA FRONTERIZA DE TARAPACÁ F-106 (INTI PACHA MARKA) 204 205 228 ESCUELA BÁSICA HUENTEN P-21 207 265 213 ESCUELA BÁSICA SAN PEDRO DE ATACAMA E-26 234 232 234 ESCUELA BÁSICA TOCONAO E-21 262 272 261 ESCUELA CHANCO G-171 195 196 195 ESCUELA DE CONCENTRACIÓN 195 195 185Para hacer más sencillo el análisis de los casos, marcamos con color celeste el caso con menores valores y el caso con mayores valores. Vemos que la diferencia de puntaje llega a ser en la variable mat02 de casi 90 puntos. Es necesario decidir qué hacer con estos dos casos: dejarlos y hacer el análisis o eliminarlos. Optamos por dejarlos, porque si bien existe una diferencia considerable, no se pueden considerar atípicos en cuanto los valores de los demás casos no son muy distintos de los valores marcados como extremos. 0.d. Estandarización Un tema importante en el análisis de tipologías es la estandarización. En principio, una de las condiciones de aplicación de la técnica es la similaridad en la unidad de medida de las variables a incluir en el modelo. Para comprobar de manera estadística si es necesario recurrir a la estandarización entramos a: Analizar → Estadísticos descriptivos → Descriptivos Mínimo Máximo Media Desviación estándar Varianza Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. Varianza Lenguaje 2002 96 151 279 212.72 26.647 710.078 Matemáticas 2002 96 155 287 209.66 27.049 731.660 Comprensión del medio 2002 96 156 280 214.99 28.638 820.116 N válido (según lista) 96 En este caso hemos seleccionado para incluir en el modelo variables con similar unidad de medida, por lo cual no necesitamos estandarizar los puntajes de las variables. Además vemos en la tabla de descriptivos, que se tiene que el mínimo bordea los 150 puntos y el máximo, 280, y como vimos anteriormente, las distintas pruebas tienes el mismo número de casos (N=96). 1. ANÁLISIS DE TIPOLOGÍAS Maureen Resaltar Maureen Resaltar Maureen Resaltar Analizar → Clasificar → Conglomerados Jerárquicos La ventana que obtenemos es muy similar a la del método de optimización, sólo que con algunas modificaciones. También debemos definir las variables a incluir en la clasificación de los casos y una variable de etiqueta. En este caso, incluimos todas las variables (len02, mat02 y com02) y la variable “escuela” como etiqueta: La primera decisión que debe hacerse es si crear conglomerados de casos o de variables. En este caso lo que queremos hacer es clasificar casos (colegios) y no variables. → Estadísticos Maureen Resaltar Maureen Resaltar Maureen Resaltar Historial de conglomeración Matriz de distancias Además, como se trata de un análisis jerárquico, el programa da la posibilidad de elegir una solución única de conglomerados o un rango de soluciones. En el primer caso el investigador debe definir el número de conglomerados que quiere que el programa forme, y en el segundo, puede definir un rango de soluciones distintas. Eligiendo esta opción, obtendremos varias soluciones, pudiendo elegir luego la que parezca más apropiada. Pediremos las soluciones desde 2 a 6 conglomerados, para así poder decidir teniendo varias alternativas. → Gráficos Maureen Resaltar Maureen Resaltar Maureen Resaltar Dendograma Gráfico de témpanos Se pueden pedir todos los Gráficos de Témpanos (de todas las posibles soluciones) o sólo algunos (en un rango). En este caso pedimos el Dendograma y todos los Gráficos de Témpanos. También se da la opción de pedirlos vertical u horizontalmente. Elegimos la opción vertical. → Método Método de conglomeración: vinculación inter-grupos Medida: intervalo, distancia euclídea al cuadrado Primero, hay que decidir el Método de aglomeración va a utilizar el programa. Esto tiene que ver con el criterio según el cual dos casos son unidos en cada paso. En este caso escogemos el procedimiento de encadenamiento medio entre grupos, cuyo criterio de aglomeración es definido por la distancia media de todos los casos de un conglomerado respecto a la media de todos los casos de otro conglomerado. Según algunos autores, este método se encuentra sesgado, en cuanto produce conglomerados con similares varianzas. Existe la posibilidad de aplicar más de un método de aglomeración para luego comparar los resultados. Luego es necesario decidir la medida a utilizar. Es importante observar que existen distintas medidas según el nivel de medida de las variables. De esta forma podemos trabajar con datos medidos a intervalo, datos como frecuencias y datos binarios. En este caso se trabaja con datos cuantitativos, por lo que se elige Intervalo. Además, existen distintas formas de medir distancias. La distancia seleccionada es la distancia euclídea al cuadrado1, que se encuentra predefinida. 1 1 La distancia euclídea al cuadrado corresponde a la suma de las diferencias entre los casos al cuadrado; de modo tal que la distancia entre los puntos a y b se definiría por la siguiente expresión: Distancia (a,b) = Σ (ai – bi)2. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar El programa también da la opción de transformar los valores, vale decir, estandarizarlos. Esta es una opción cuando los datos se encuentran en medidas muy distintas. Sin embargo, la estandarización puede producir efectos no deseados, como se mencionó anteriormente. En este caso no es necesario estandarizar. También está la opción de transformar las medidas, por ejemplo, utilizando solamente valores absolutos o cambiándole el signo a estos, que en este caso no utilizaremos. → Guardar Por último, es posible guardar una o más soluciones de pertenencia a conglomerados en una nueva columna en nuestra base de datos. En este caso decidimos guardar la solución de 3 conglomerados para utilizar esta información luego en la caracterización de los conglomerados. Esta decisión se toma ya habiendo revisado las distintas alternativas de aglomeración posibles. También da la posibilidad de guardar más que una solución de conglomerados (por ejemplo, podríamos guardar las soluciones de 2 a 6 conglomerados, para tener el rango de soluciones que pedimos al principio, transformadas en variables). Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → Pegar. PLAY en la sintaxis. CLUSTER len02 mat02 com02 /METHOD BAVERAGE /MEASURE=SEUCLID /ID=escuela /PRINT SCHEDULE CLUSTER(2,6) /PRINT DISTANCE /PLOT DENDROGRAM HICICLE /SAVE CLUSTER(3). 2. RESULTADOS Conglomerados jerárquicos Resumen del procesamiento de los casosa Casos Válidos Perdidos Total N Porcentaje N Porcentaje N Porcentaje 96 100.0 0 .0 96 100.0 a. Vinculación promedio (Inter-grupos) Al hacer correr la sintaxis, se crea una variable nueva al final de la base de datos. En este caso, nuestra variable se llama Average Linkage (Between groups), en referencia a la técnica de aglomeración que decidimos utilizar. La primera tabla hace referencia a los casos válidos y los casos perdidos, del total de casos: no hay datos perdidos, por lo que los casos válidos constituyen el 100%. La tabla que viene a continuación será presentada sólo en parte, ya que por su tamaño sería imposible mostrarla entera. De todas formas, es suficiente para interpretarla: Matriz de distancia Maureen Resaltar Maureen Resaltar Esta matriz presenta las distancias de cada caso respecto a los demás: la diagonal está compuesta por ceros, ya que la distancia de un caso respecto a si mismo es cero. Esta tabla solo sirve para tener una visión general de las similaridades, donde valores altos muestran gran diferencia entre los casos, mientras que los valores pequeños muestran cercanía. Vemos por ejemplo que la escuela Chapod tiene poca similitud con la escuela Inalafquén, ya que la distancia entre ambas es muy grande, mientras que la escuela Agusto Winter es muy similar con la escuela San Martín de Porres. Vinculación promedio (Inter-grupos) El título hace referencia al procedimiento aglomerativoescogido. En este caso, el procedimiento de encadenamiento medio entre los grupos, y en la siguiente tabla (historial de conglomeración) se muestra las etapas en las que los casos fueron combinados en un mismo conglomerado (recordando que los casos se van uniendo en etapas). En cada etapa un caso o un conglomerado es unido a otro según el criterio y la medida de distancia seleccionados. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Historial de conglomeración Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece por primera vez Próxima etapaConglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2 dimen sion0 1 30 33 3.000 0 0 13 2 69 70 6.000 0 0 6 3 64 67 6.000 0 0 22 4 44 49 10.000 0 0 32 5 72 76 13.000 0 0 12 6 69 73 16.000 2 0 42 7 50 51 17.000 0 0 41 8 60 62 21.000 0 0 40 9 7 10 21.000 0 0 17 10 82 84 27.000 0 0 55 11 4 9 29.000 0 0 35 12 72 77 34.500 5 0 24 13 30 41 39.500 1 0 18 14 71 81 41.000 0 0 26 15 54 56 53.000 0 0 40 16 39 46 53.000 0 0 34 17 7 12 55.500 9 0 50 18 30 35 57.667 13 0 29 19 32 40 61.000 0 0 47 20 78 80 73.000 0 0 42 21 5 6 73.000 0 0 50 22 63 64 74.000 0 3 36 23 34 36 74.000 0 0 39 24 65 72 75.000 0 12 48 25 53 55 75.000 0 0 46 26 71 85 77.500 14 0 33 27 38 47 84.000 0 0 46 28 23 27 86.000 0 0 49 29 25 30 90.750 0 18 57 30 48 58 94.000 0 0 56 31 15 21 94.000 0 0 61 32 37 44 96.000 0 4 41 33 71 79 97.000 26 0 62 34 28 39 111.500 0 16 52 35 4 11 114.500 11 0 63 36 63 74 117.000 22 0 64 37 16 17 117.000 0 0 51 38 2 8 118.000 0 0 74 39 29 34 125.000 0 23 45 40 54 60 141.500 15 8 58 41 37 50 150.167 32 7 56 42 69 78 167.833 6 20 48 43 95 96 171.000 0 0 59 44 87 88 178.000 0 0 76 45 24 29 183.333 0 39 57 46 38 53 184.500 27 25 58 47 26 32 187.500 0 19 70 48 65 69 188.750 24 42 68 49 18 23 199.000 0 28 77 En este caso, observamos que en el primer paso se unen los casos 30 y 33. El coeficiente hace referencia a la distancia entre estos casos, y al ser los casos 30 y 33 los que tienen el menor coeficiente, son unidos antes que otros. En la segunda etapa se unen los casos 69 y 70, y en la sexta etapa este conglomerado (denominado por el caso menor, en este caso, el 69) se une con el caso 73. Este procedimiento sigue hasta que todos los casos están agrupados, por lo que es necesario observar los coeficientes, los que permiten definir en qué momento parar la aglomeración (de agrupar). Recordemos que este procedimiento genera todos los resultados posibles (desde el caso en el que cada caso es un conglomerado por si mismo, hasta el caso en el que todos los casos se encuentran en un mismo conglomerado). Es por eso que observar los coeficientes resulta necesario, ya que permite ver en qué etapa la distancia entre casos o conglomerados es demasiado grande, siendo este punto donde se debe parar la aglomeración. En este caso vemos, por ejemplo, que entre la etapa 1, donde se unen los casos 30 y 33, y la etapa 13, donde al conglomerado 30 se le une el caso 41, la distancia pasa de unos 3.000 a 39.500, por lo que podemos afirmar, que al unir el caso los casos 30, 33 al 41, la distancia dentro de los conglomerados aumenta bastante, generando conglomerados menos homogéneos. La columna que sigue muestra el paso en el que cada caso aparece por primera vez. La última columna muestra la etapa en la que aparecerá próximamente. Estos datos permiten ver con más detalle cómo se fue produciendo el procedimiento de aglomeración. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Conglomerado de pertenencia Caso 6 conglomerados 5 conglomerados 4 conglomerados 3 conglomerados 2 conglomerados 1:INALAFQUEN G-445 1 1 1 1 1 2:QUEPUCA RALCO 1 1 1 1 1 3:ESCUELA RURAL "ILLAHUAPI" 2 2 1 1 1 4:DIEGO PORTALES 1 1 1 1 1 5:CHAPOD 2 2 1 1 1 6:BUTALELBUN (TRAPA TRAPA) 2 2 1 1 1 7:SAN MARTIN DE PORRES 2 2 1 1 1 8:HUAPI P-11 1 1 1 1 1 9:RUCA COMCHE P-309 1 1 1 1 1 10:AGUSTO WINTER P-348 2 2 1 1 1 11:ESMERALDA 1 1 1 1 1 12:REPOCURA P-43 2 2 1 1 1 13:PICHI LONCOYAN P-13 1 1 1 1 1 14:ESCUELA RURAL "LAGO NELTUME" 2 2 1 1 1 15:RALCO LEPOY G-1181 2 2 1 1 1 16:SOL NACIENTE P-33 2 2 1 1 1 17:ALTO CHELLE P-74 2 2 1 1 1 18:ESCUELA REDUCCIÓN TEMULEMU G-181 2 2 1 1 1 19:TRANGOL G-214 2 2 1 1 1 20:ESCUELA RURAL "PURREHUIN" 2 2 1 1 1 21:ÑIERECO F-285 2 2 1 1 1 22:ESCUELA BÁSICA FRONTERIZA COLCHANE E-50 2 2 1 1 1 23:NUEVA RUCATRARO P-219 2 2 1 1 1 24:ESCUELA DE CONCENTRACIÓN FRONTERIZA RALCO E-970 2 2 1 1 1 25:ESCUELA CHANCO G-171 2 2 1 1 1 26:CARIQUIMA, ESC. COMPLETA D-66 2 2 1 1 1 27:ERNESTO WILHEM P-298 2 2 1 1 1 28:HUITRANLEBU G-64 2 2 1 1 1 29:ESCUELA RURAL "REDUCCIÓN ANTILHUE" 2 2 1 1 1 30:COLLICO RANCO F-442 2 2 1 1 1 31:QUILACURA P-8 3 3 2 2 1 32:ESCUELA PARTICULAR Nº 269 "CHAMILCO" 2 2 1 1 1 33:SAN MIGUEL P-237 2 2 1 1 1 34:SAN GASTÓN P-320 2 2 1 1 1 35:GABRIELA MISTRAL P-511 2 2 1 1 1 36:CHOMIO 2 2 1 1 1 37:SANTA MARIA P-287 2 2 1 1 1 38:ESCUELA BÁSICA FRONTERIZA DE TARAPACÁ F- 106 (INTI PACHA MARKA) 3 3 2 2 1 39:JOSÉ MARIANO CAMPOS MENCHACA G-802 2 2 1 1 1 40:ESCUELA RURAL "PICHILAFQUENMAPU" 2 2 1 1 1 41:MIGUEL HUENTELEN Nº 183 2 2 1 1 1 42:PANGUECO G-334 2 2 1 1 1 43:ESCUELA BÁSICA HUENTEN P-21 4 4 3 2 1 44:SAN SEBASTIÁN P-1 2 2 1 1 1 45:DAGOBERTO GODOY P-353 3 3 2 2 1 La tabla de Conglomerado de pertenencia muestra todas las soluciones que fueron pedidas, en este caso habíamos pedido las soluciones de 2 a 6 conglomerados. Esta es una buena forma de comparar las soluciones para decidir cual parece más adecuada. Por ejemplo, en la solución de 2 conglomerados, el conglomerado 1 está compuesto por 91 colegios y el segundo por sólo 5. En cambio, en la solución de 4 conglomerados, el conglomerado 1 sólo 50 casos, el 2 tiene 40 casos, el 3 sólo 1 caso, y el 4 tiene 5 casos. Ahora es posible ir interpretando los resultados, observando los conglomerados que se van uniendo. Vemos por ejemplo, que en las 5 soluciones, la escuela rural Ignao, San Antonio de Millelche, la escuela rural Bahía Mansa, la escuela rural Riachuelo, Cauñicu y Santa Isabel P-30 quedan juntas, por lo tanto, podemos afirmar que son parecidas. Gráfico de témpanos Maureen Resaltar Maureen Resaltar Maureen Resaltar El Gráfico de témpanos nos muestra todas las posibles soluciones, es decir, la cantidad de conglomerados. En el caso de trabajar con 1 conglomerado, todos los casos se encuentran juntos (no hay espacios). En cambio en el caso de trabajar con, por ejemplo, 5 conglomerados, la Universidad de Atacama queda sola, la Universidad Católica de Valparaíso queda con la Universidad Técnica Federico Santa María, etc. Es un gráfico útil para ver cómo, etapa por etapa (hasta la etapa 95), los casos o conglomerados se van uniendo entre sí. Además, permite observar todas las soluciones para así poder decidir cual es la mejor de ellas. El Dendograma es otra forma de ver las etapas de manera gráfica. Representa, además, de manera muy clara, la forma arbórea de este procedimiento de aglomeración, mostrando el patrón de Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar agrupación. La línea superior representa la distancia, por lo que líneas largas significan gran distancia entre los casos. En este caso vemos que la mayor distancia se encuentra al unir los primeros 93 colegios con los restantes 3. En cambio, existe muy poca distancia entre, por ejemplo, la escuela San Miguel y Gabriela Mistral. Este gráfico es útil ya que permite al investigador, no solo ver como se fueron aglomerando, sino a su vez, revisar las distancias existentes para cada aglomeración. Parece evidente que unir los primeros 93 colegios con los últimos 3 produciría una importante bajaen la homogeneidad de los conglomerados, ya que la distancia entre el primero y el segundo es muy alta. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 3. CARACTERIZACIÓN DE LOS CONGLOMERADOS Una vez generada la tipología, en la vista de variables de nuestra base de datos aparecerá una nueva variable, como se mencionó anteriormente. Utilizando esta variable podemos caracterizar los grupos construidos. Una primera forma de hacerlo es comparar los promedios de los grupos, para ello vamos a Analizar Comparar Medias Medias. En la ventana recién abierta, seleccionamos las variables que utilizamos para construir la tipología (len02, mat02, com02) como variables dependientes, y como variable independiente elegimos a la nueva variable generada por la técnica, esto es, Average Linkage (Between groups). En opciones, podemos seleccionar todos los estadísticos que queramos para caracterizar los grupos. En este caso seleccionamos solamente la media. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar PEGAR Sintaxis. PLAY La salida titulada “Informe” nos permite observar los promedios en cada grupo para cada variable. Informe Media Average Linkage (Between Groups) Lenguaje 2002 Matemáticas 2002 Comprensión del medio 2002 1 193.04 191.58 193.02 2 230.61 223.34 234.54 3 262.80 278.20 274.40 Total 212.72 209.66 214.99 Interesa observar esta tabla para ver si los conglomerados son realmente distintos entre sí, y, además, para caracterizar cada conglomerado. Por ejemplo, en la prueba de Lenguaje, vemos que el conglomerado 1 tiene un promedio de 193,04 puntos, bastante distinto a la media de 230,61 del conglomerado 2 y a la de 262,8 puntos del conglomerado 3. Observando las medias de los conglomerados en cada variable podríamos pasar a etiquetar cada conglomerado con un nombre que dé cuenta de estas características. En este caso, observamos que el grupo 1 es aquel que tiene menores puntajes en los tres módulos de la prueba SIMCE. En el segundo grupo se tiene los valores medios, mientras el tercer grupo tiene los valores altos, es decir, agrupa a los colegios que tienen mejores puntajes promedio en los módulos de la prueba SIMCE. Una segunda forma para comparar los grupos es a través de un gráfico de barras, por lo que vamos a: Gráficos cuadros de diálogos antiguos barras En la ventana recién abierta seleccionamos “Agrupado” y pedimos como dato “resúmenes para distintas variables”. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Definir • Bajo “las barras representan” incluimos las variables que utilizamos para el análisis (len02, mat02, com02) • Bajo el título “Eje de categoría” incluimos la variable generada por el análisis de tipología que nos indica el conglomerado de pertenencia. Maureen Resaltar Maureen Resaltar Aquí debemos decidir que hacer con los casos perdidos. Nuevamente tenemos la opción de excluir los casos que tengan algún valor perdido (Excluir casos según lista) o hacerlo variable por variable (Excluir casos variables por variables). También da la opción de mostrar los grupos definidos por los valores perdidos. En este caso no tenemos casos perdidos. ContinuarPEGAR PLAY. Este gráfico nos permite observar y caracterizar los conglomerados, según sus medias en cada variable. Por ejemplo, vemos que la media del conglomerado 1 en las tres variables es bastante menor que las medias de los otros conglomerados. También podemos apreciar lo similar que resultan los promedios de cada prueba al interior de un grupo. Podemos analizar así cada conglomerado y, si es que se quiere, ponerle un nombre a cada conglomerado para así hacer una caracterización de tipos de universidades. Un punto importante que surge al decidir la cantidad de conglomerados a utilizar, es cómo se van a caracterizar efectivamente dichos conglomerados. Para efectos de la elaboración de un informe, lo importante, junto a la demostración del uso adecuado de la técnica, y las respectivas justificaciones de las decisiones tomadas, es realizar al final, a modo de conclusión, una descripción de los conglomerados y posibles explicaciones a ciertos hechos observados, así también como otorgar un nombre tentativo a cada conglomerado que los caracterice. Maureen Resaltar Maureen Resaltar Guía de trabajo SPSS
Compartir