Guía SPSS Discriminante

Sociología

•

Outros

Aprendiendo Juntos

13/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

105.996 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Guía SPSS: Análisis de Tipologías

Guía SPSS:
Análisis Discriminante
Material de apoyo para ayudantía de Estadística IV
Universidad de Chile- Departamento de Sociología
1

Material de Apoyo Ayudantía Análisis Estadístico IV Monica Gerber - Macarena Orchard
I. INTRODUCCIÓN
En la siguiente guía se ejemplifica el uso y el análisis de las salidas del programa estadístico SPSS v.13. para la técnica estadística multivariante Análisis Discriminante. Para ello, se plantea un problema de investigación y se resuelve a través de la técnica mencionada, utilizando dos procedimientos del Análisis Discriminante para el ingreso de variables independientes: ingreso simultáneo de variables, e ingreso por pasos.
A continuación se presentan los objetivos del análisis a realizar, los datos y las variable a utilizar. Luego se describe la utilización de los comandos del programa y se analizan las salidas obtenidas.
II. PRESENTACIÓN DEL EJEMPLO
· Base de datos: Para la ejemplificación se utilizará una parte de la base de datos de la encuesta “Tolerancia y No Discriminación”[footnoteRef:1] correspondiente a la subescala de autoritarismo, que será utilizada como variable dependiente. Debido a que el análisis discriminante opera con una variable dependiente categórica y varias variables independientes cuantitativas, se optó por recodificar ciertas variables que de manera contraria no podrían haber sido utilizadas. Los puntajes en la escala de autoritarismo fueron recodificada en las categorías bajo, medio y alto. [1: Encuesta Tolerancia y No Discriminación. Jaime Aymerich, Manuel Canales, Manuel Vivanco]
· Objetivos: El propósito del análisis es determinar si existe incidencia de las variables grupo socioeconómico, edad, sexo, nivel educacional, preferencia política e ingreso per cápita en el grado de autoritarismo (bajo, medio o alto) que presentan los encuestados. A su vez, interesa de manera particular saber qué variables discriminan más con respecto al autoritarismo.
· Variables: Se utiliza una variable dependiente categórica, y seis variables independientes de carácter cuantitativo. Cabe destacar que algunas de las variables independientes no son estrictamente cuantitativas, pero, sin embargo, son ingresadas de todas formas en el modelo. Esto se debe, en el caso de algunas variables ordinales (como grupo socioeconómico) al hecho de que al contar con más de cuatro niveles, se asume cierta continuidad, y, en el caso de variables dicotómicas (como sexo), al hecho de que, si bien presentan poca varianza, este tipo de modelos permite su utilización. Las variables son las siguientes:
Variable Dependiente
· Autoritarismo
Variables Independientes
a) Grupo Socioeconómico
(1) ABC1
(2) C2
(3) C3
(4) D y E

b) Edad
c) Sexo
(0) Hombre
(1) Mujer
d) Nivel Educacional
(1) Ninguna analfabeto (a)
(2) Básica
(3) Media
(4) Técnica Profesional
(5) Universitaria
e) Preferencia Política
(1) Izquierda
.
.
.
.
(10) Derecha
f) Ingreso Per cápita de la Familia (en miles)
La base de datos utilizada es la siguiente:
III. APLICACIÓN COMPUTACIONAL
1. Inclusión simultánea de las variables
En el procedimiento de inclusión simultánea, las variables independientes son introducidas al mismo tiempo en el modelo, a diferencia del procedimiento que veremos posteriormente, donde las variables se van ingresando al modelo paso por paso. En este sentido, sin importar si una variable discrimina o no con respecto al autoritarismo, será ingresada al modelo de todas formas. Por lo tanto, el segundo método permite generar modelos más parsimoniosos que el primero.
Para llevar a cabo el análisis debemos seleccionar las opciones: Analizar (“Analyze”), Clasificar (“Clasiffy”) y Discriminante (“Discriminant”) como se ve en la siguiente imagen:
La ventana de opciones que obtenemos es la siguiente:
Hasta aquí no hay diferencia entre ambos procedimientos. En ambos hay que definir la variable de agrupamiento, en este caso, el autoritarismo, y las variables independientes, que en este caso corresponden a todas las variables anteriormente nombradas. La diferencia se encuentra al momento de seleccionar el procedimiento.
Las opciones son: Ingresar las variables independientes simultáneamente (“Enter independents together”) o utilizar el método por pasos (“Use stepwise method”). En este caso ingresaremos las variables simultáneamente. Nótese que al seleccionar esta opción, la ventana “Método” no se encuentra accesible. Esto ocurre porque esta opción corresponde al procedimiento por pasos.
A continuación es necesario definir el rango de categorías de la variable de agrupamiento (autoritarismo). Para esto marcamos la variable que por ahora se encuentra con un paréntesis con signos de interrogación. Esto quiere decir que no hemos definido el rango. Para hacerlo marcamos en Definir Rango (“Define Range”):
La ventana que se abre es la siguiente:
Esta ventana pide especificar el mínimo y el máximo de las categorías de la variable de agrupamiento. En este caso las categorías son tres: 1) Bajo, 2) Medio y 3) Alto. Definimos entonces el mínimo como 1 y el máximo como 3. Nótese que en este punto es posible dejar fuera alguna categoría que pueda no interesar para el análisis.
Marcamos Continuar (“Continue”) y pasamos a definir los estadísticos (“Statistics”). Abrimos la siguiente ventana:
Entre los estadísticos encontramos estadísticos descriptivos, matrices y coeficientes de las funciones. Marcaremos todas las opciones. Al analizar las salidas del programa se explicará la utilidad de cada una. Marcamos Continuar.
Luego abrimos la ventana de Clasificación (“Clasiffy”), la cuál tiene las siguientes opciones:
Para empezar, hay que definir las probabilidades previas. Esto tiene que ver con el hecho de que, luego de calculadas las funciones discriminantes, los casos serán vueltos a clasificar. Para saber si la clasificación fue mejor que la que se hubiera obtenido si se hubiera hecho al azar, deben compararse los resultados con las probabilidades previas. Si las funciones discriminantes logran mejorar la probabilidad de clasificar un caso en su grupo de origen, nuestro modelo es bueno. Las dos opciones que se dan en este aspecto son: grupos de igual tamaño y tomar en cuenta los tamaños de los grupos. En este caso los grupos no son de igual tamaño, por lo que se opta por tomar en cuenta el tamaño de cada grupo en el cálculo de las probabilidades.
Lo segundo a definir es qué Matriz de Covarianza utilizar en el análisis. La primera opción es utilizar la Matriz de Covarianza dentro de los grupos y la segunda utilizar la Matriz de Covarianza para grupos separados. Para efectos de esta guía no nos detendremos en explicar las diferencias, sino que se dejará la opción predeterminada.
Luego ha de especificarse qué elementos se quiere que el programa muestre en la salida. Las opciones son: los resultados caso por caso (con la posibilidad de limitarlo a los primeros __ casos), una tabla de resumen, y la clasificación dejando uno fuera. Esta última opción, también conocida como el Método U, implica que la clasificación se llevará a cabo con las funciones derivadas de todos los casos, exceptuando el caso que se está clasificando. De esto resulta una forma de validación cruzada. Seleccionamos todas las opciones. En las salidas se verá la utilidad de cada una.
En lo que respecta a los gráficos, el programa da la opción de mostrar 3 gráficos en la salida: el gráfico que combina todos los grupos, el gráfico de grupos por separado y el mapa territorial. También aquí se marcan todas las opciones.
Por último, existe la opción de definir que los casos perdidos sean remplazados por la media. Seleccionamos esta opción, pues la base de datos cuenta con una importante cantidad de casos perdidos. De todos modos, elegir o no esta opción debe sustentarse en un análisis previo de los datos.
Marcamos Continuar y abrimosla ventana Guardar (“Save”), que es la siguiente:
La opción de Guardar, nos permite guardar en nuestra base de datos cierta información en una columna nueva, lo que resulta de mucha utilidad para la realización de análisis posteriores. Las opciones son: guardar la pertenencia al conglomerado predicho, los puntajes discriminantes y las probabilidades de pertenencia al conglomerado. No seleccionamos la última opción ya que no la utilizaremos en el análisis.
Al marcar Pegar (“Paste”), obtenemos la sintaxis del análisis:
(
DISCRIMINANT
/GROUPS=autorita(1 3)
/VARIABLES=gse edad sexo neduc prefpol ingrcap
/ANALYSIS ALL
/SAVE=CLASS SCORES
/PRIORS SIZE
/STATISTICS=MEAN STDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV TABLE CROSSVALID
/PLOT=COMBINED SEPARATE MAP
/PLOT=CASES
/CLASSIFY=NONMISSING POOLED MEANSUB .
)
Marcamos Continuar y en la ventana principal marcamos OK para pedir el procesamiento de los datos.
A continuación, procederemos a analizar las salidas arrojadas por el programa:
Discriminante
Lo primero que obtenemos es el resumen del procesamiento del análisis de los casos. En este caso observamos que son 329 los casos válidos y que no hay casos perdidos.
La siguiente tabla corresponde a los estadísticos de los grupos. Obtenemos la media, la desviación estándar y los casos válidos de cada grupo en cada una de las variables:
La utilidad de esta tabla es meramente descriptiva. No hace referencia a la significación de las diferencias, pero sí nos permite observar las características de cada grupo. Observamos, por ejemplo, que en términos del Nivel Socioeconómico, las personas con bajo nivel de autoritarismo tienen un promedio de nivel socioeconómico de 1.95, mientras que las personas con alto autoritarismo tienen un promedio de 2.77. Ya que “1” corresponde al nivel socioeconómico más alto, observamos que las personas de bajo autoritarismo tienen un nivel socioeconómico más alto que las personas de alto autoritarismo.
Otra diferencia bastante notoria entre los grupos se da con respecto a la Preferencia Política. Vemos que las personas de bajo autoritarismo tienen como promedio un 3.6 y las personas de alto autoritarismo tienen un 6.5. Por lo tanto, las personas con bajo autoritarismo se acercan más a la izquierda, mientras que los de alto autoritarismo se acercan más a la derecha. A su vez, al observar la variable sexo, vemos que el promedio se encuentra en todos los casos cercano a 0,5, pareciendo a primera vista que no existe una diferencia entre hombres y mujeres con respecto al autoritarismo.
De todos modos es necesario recordar que este análisis es meramente descriptivo. Aún no es posible afirmar si las variables efectivamente discriminan respecto al autoritarismo.
La próxima tabla contiene la Prueba de igualdad de medias para los grupos. Esta prueba se lleva a cabo para cada variable. Lo interesante es observar si las medias de los grupos son significativamente distintas entre sí para cada una de las variables del análisis.
El Lambda de Wilks compara la suma de cuadrados interna y la suma de cuadrados totales. Valores cercanos a cero implican diferencia de medias entre los grupos, valores cercanos a 1 implican la no existencia de diferencia entre las medias. En este caso, todos los valores son altos, lo que es indicativo de que no existen grandes diferencia entre las medias de los grupos. El que más se acerca a 1 es la variable sexo.
El estadístico F compara la varianza entre grupos con la varianza dentro de los grupos. Si los grupos formados son muy homogéneos dentro y muy heterogéneos entre ellos, el F será mayor. Por lo tanto, F pequeños implican poca diferencia entre grupos y F grandes, mucha diferencia entre grupos. Nuevamente la variable sexo es la que genera la menor diferencia. La variable con el F más grande es Preferencia Política.
Al observar la significación vemos si estas diferencias son lo suficientemente significativas como para no ser atribuidas al azar. Si la significación es menor al alfa estipulado (por ejemplo, 0,05), podemos determinar que la variable genera diferencias entre grupos, vale decir, discrimina. La única variable en este caso con una significación mayor a 0,05 es la variable sexo. Lo lógico sería eliminarla del análisis, ya que no aporta información alguna.
La siguiente tabla presenta dos matrices: la matriz de covarianza y la de correlaciones.
La matriz de covarianzas se obtiene uniendo las matrices de todas las variables separadas. En la diagonal se presentan varianzas y en el resto de la tabla, covarianzas.
En la matriz de correlaciones vemos en la diagonal puros unos, ya que la correlación de una variable consigo misma es siempre perfecta. En el resto de la tabla vemos las demás correlaciones. Estas se interpretan como todas las correlaciones, desde -1 a 1. En general estas son bajas, pero hay tres variables bastante correlacionadas: Ingreso per capita, Nivel socio económico y Nivel Educacional.
Es importante observar esta matriz, ya que si existen variables demasiado correlacionadas, puede que exista multicolinealidad. Uno de los supuestos del análisis discriminante es justamente la no existencia de multicolinealidad. En el procedimiento de inclusión simultánea de las variables, esto no hace diferencia, pero en el procedimiento por pasos, si dos variables se encuentran muy correlacionadas, la segunda de estas no será ingresada en el modelo, ya que no estaría aportando información nueva.
Otro supuesto del análisis discriminante requiere la igualdad de matrices de covarianza para los distintos grupos. La próxima tabla es la Matriz de Covarianzas para cada grupo, que nos permite corroborar el cumplimiento de este supuesto:
En las diagonales de cada grupo (bajo, medio y alto autoritarismo) observamos las varianzas, en los demás espacios vemos las covarianzas. Para hacer la comparación de las matrices de covarianza se comparan las covarianzas de una misma variable en los 3 grupos. Sin embargo, no es fácil sacar conclusiones a partir de esta matriz. Se observará para eso las tablas que hacen referencia al Test M de Box, que contrasta la hipótesis nula de la igualdad de matrices de covarianza. Las salidas son las siguientes:
Análisis 1
Prueba de Box sobre la igualdad de las matrices de covarianza
La tabla de los log determinantes sirve para observar en qué grupos las covarianzas son más distintas. El logaritmo del determinante es el producto de los autovalores de su matriz de covarianza. En este ejemplo pareciera ser que, si bien hay diferencia en las matrices de covarianza, no existe un grupo “más distinto” que los otros. Para obtener un resultado más claro de si las matrices son o no similares, observamos la siguiente tabla:
Esta tabla muestra los resultados para el Test M de Box. Como ya se dijo, este test contrasta la hipótesis nula de la igualdad de covarianzas. Para decidir respecto a esto observamos la significación, que se basa en el estadístico F. Aceptamos la hipótesis nula de igualdad de covarianzas si la significación es mayor al nivel definido, por ejemplo, mayor a 0.05. En este caso, las matrices no son similares. Si bien este caso no es el ideal –y de hecho habría que tomar alguna medida para remediar el incumplimiento del supuesto- como forma de ilustración continuaremos analizando las demás salidas.
Las salidas que siguen hacen referencia al cálculo de las funciones discriminantes. La primera tabla es un resumen de las funciones creadas. Cabe recordar que en el análisis discriminante se crean tantas funciones como grupos menos 1. En este caso, serían 2 funciones.
Resumen de las funciones canónicas discriminantes
Esta tabla presenta las dos funciones generadas. El autovalor de cada función compara la suma de cuadrados entre los grupos con la suma de cuadrados dentro del grupo. La función con el autovalor mayor es la función que más separa las medias de los grupos. En este caso, la primera función tiene un autovalor mucho mayor que la segunda, significando estoque produce una mayor diferencia de medias.
Vemos además el % de la varianza total que es explicada por cada función y el porcentaje de varianza acumulada. Nuevamente es la función 1 la que explica una mayor cantidad de varianza (97,4%).
La Correlación Canónica es una medida de la asociación entre puntuaciones discriminantes y grupos. Valores cercanos a 1 implican una alta correlación. En este caso, en la primera función existe una mayor correlación entre puntuaciones discriminantes y grupos que en la segunda.
La siguiente tabla nos muestra el Lambda de Wilks:
El Contraste de las Funciones prueba la hipótesis nula de la no diferencia de medias. El Lambda de Wilks es la proporción de la varianza total que no es explicada por la diferencia entre los grupos. Los valores de Lambda oscilan entre 0 y 1. Valores cercanos a cero implican que los grupos no son similares. Valores cercanos a uno implican que los grupos son similares.
Luego, por medio de una transformación de Chi Cuadrado se puede obtener la significación asociada. Si la significación es menor al nivel de significación especificado, las medias de los grupos son distintas. En este caso, solamente si se utilizan ambas funciones, la diferencia es significativa. Al utilizar solo la segunda función, esta no es significativa (Sig. 0,433).
Luego de analizar las funciones, observamos los coeficientes estandarizados de las funciones discriminantes.
El estandarizar los coeficientes permite comparar de manera relativa las medidas. No tiene mucho sentido analizar estos valores de manera absoluta. De todas formas, cabe notar que la variable Preferencia Política, que hasta el momento hemos visto que parece ser la que más discrimina, tiene un valor mayor que las otras en la primera función. Esto quiere decir, que discriminará más que las otras respecto a la clasificación de los casos.
Luego observamos la Matriz de Estructura:
Esta matriz correlaciona cada variable predictora con las funciones discriminantes. Constituye otra forma de evaluar la utilidad de cada variable en la función discriminante. El asterisco nos muestra en que función cada variable tiene mayor importancia. En este caso, las variables Preferencia Política, Nivel Educacional e Ingreso per Capita se relacionan con la función 1.
Luego observamos los coeficientes de las funciones discriminantes:
Los coeficientes de la función discriminante son utilizados para calcular un puntaje discriminante para cada caso. Es por esto que se incluye el valor de la constante. De esta forma, podemos definir la primera función como y = -0.803 + .307x1 + .010x2 etc. Reemplazando los valores de cada caso en las x correspondientes para cada variable, obtenemos su puntaje discriminante.
Ahora observaremos la tabla de las Funciones en los Centroides de Grupo. Esta tabla presenta las medias de cada grupo en cada función. No se analizará mayormente.
Luego de analizar las funciones discriminantes, el programa pasa a clasificar nuevamente cada caso. La utilidad de esto es comparar la clasificación por medio de las funciones discriminantes con la clasificación real, y así definir si nuestro modelo sirve o no. En el caso de que éste realmente nos permita hacer una clasificación correcta, se podría utilizar para, a posteriori, clasificar casos nuevos.
Veamos ahora los estadísticos de clasificación:
Estadísticos de clasificación
La primera tabla es simplemente un resumen de los casos procesados. En este caso fueron procesados 329 casos, no existiendo ningún valor perdido.
La salida que obtenemos a continuación es la tabla de probabilidades previas para los grupos:
Anteriormente se comentó el tema de las probabilidades previas. Para que nuestro modelo sea útil, este debe ser capaz de clasificar los objetos correctamente con una probabilidad mayor a que si esto se hiciera de manera aleatoria. Es por esto que deben observarse las probabilidades previas, para así compararlas con el porcentaje de clasificación correcta que el modelo permite.
El criterio para evaluar esto es variable, algunos autores plantean que tiene que aumentar la probabilidad por lo menos en un 25% con respecto a la probabilidad previa del grupo de mayor tamaño. Esta decisión queda en manos del investigador. En este caso la probabilidad previa del grupo 2, el grupo de mayor tamaño, es de ,52. Es de esperar entonces, que el modelo permita aumentar esta probabilidad. Eso lo sabremos en las próximas salidas.
Luego obtenemos los coeficientes de las funciones de clasificación.
A partir de esta tabla podemos clasificar cada caso a un grupo. De manera similar a la anteriormente planteada, podemos formar las funciones para cada grupo. También aquí aparece la constante. Si queremos saber a que grupo clasificar un caso, procedemos a calcular su puntaje en cada una de estas funciones. Se le clasifica en el grupo en cuya función obtuvo el mayor valor.
La siguiente salida corresponde al Mapa Territorial:
Mapa Territorial
Discriminante Canónica
Función 2
-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0

6,0  13 
 13 
 13 
 123 
 123 
 1223 
4,0    1223   
 12 23 
 12 23 
 12 23 
 12 23 
 12 23 
2,0    12  23   
 12 23 
 12 23 
 12 23 
 12 23 
 12 * 23 
,0    12 * *3   
 12 23 
 12 23 
 12 23 
 12 23 
 12 23 
-2,0   12  23   
 12 23 
 12 23 
 12 23 
 12 23 
 12 23 
-4,0   12   23  
 12 23 
 12 23 
 12 23 
 12 23 
 12 23 
-6,0  12 23 

-6,0 -4,0 -2,0 ,0 2,04,0 6,0
Discriminante Canónica Función 1
_
Símbolos usados en el mapa territorial
Símbolo Grupo Etiqueta
------ ----- --------------------
1 1
2 2
3 3
* Indica un centroide de grupo
Este mapa presenta ambas funciones (de manera horizontal, la función 1, y de manera vertical, la función 2) situando todos los elementos, con sus respectivos centroides. No se analizará mayormente.
La salida que presenta los estadísticos caso por caso es demasiado extensa como para ser reproducida de manera completa. Sin embargo, para ilustrar sus componentes, se irán mostrando partes de ésta. Nótese que esta tabla presenta los datos para cada uno de los 329 casos.
Observamos primero el número del caso, luego el grupo al que pertenece y el grupo al cual fue predicho. En el caso en el que estos dos grupos no concuerdan, el programa los marca con asteriscos. De esta forma, por ejemplo, el caso 8 no fue correctamente predicho.
Los datos que siguen hacen referencia a las probabilidades de clasificación en el primer grupo predicho, vale decir, en el grupo en el que obtuvo la mayor puntuación. No nos detendremos en esto. A la derecha vemos la distancia de Mahalanobis al cuadrado hacia el centroide de su grupo. Este dato puede ser utilizado para descubrir casos extremos (casos con una gran distancia respecto al centroide).
A continuación presentamos la segunda mitad de la tabla:
En esta segunda parte se ven los mismos datos, pero para el segundo grupo en el cual fue predicho cada caso (vale decir, el grupo en cuya función el caso obtuvo el segundo puntaje más alto). Por último se presentan los puntajes discriminantes para cada función. Estos no son interpretables en términos absolutos. Son el resultado del cálculo de las funciones con los valores de cada caso en cada variable.
Ahora observaremos los gráficos. No nos detendremos mayormente en estos, ya que son bastante claros a la vista. Primero se presentan los gráficos separados por grupos y luego un gráfico que une los 3 grupos. En los gráficos un eje está compuesto por la Función 1 y el otro por la Función 2. Interesa observar el centroide del grupo (marcado con un cuadrado) y la dispersión de los casos respecto a este.
Gráficos por grupos separados
En el gráfico que une los tres grupos observamos que existe bastante solapamiento entre los casos de cada grupo, lo que representa un problema al momento de llevar a cabo la clasificación.
Por último observemos la tabla de los resultados de la clasificación:
En las columnas se presentan los conglomerados predichos, mientras que en las filas se encuentran los conglomerados originales. Si nuestras variables realmente discriminaran con respecto a la pertenencia a los conglomerados, debiera de haber una gran concordancia entre lo predicho y lo observado. Debiéramos, por lo tanto, encontrar muchos casos que pertenecen al conglomerado 1 y que efectivamente fueron clasificados en el conglomerado 1. Si observamos los porcentajes, solo el 30,3% de los casos que pertenecen al conglomerado 1 fueron clasificados efectivamente en el conglomerado 1. En el caso del conglomerado 2, 80,7% fue clasificado bien. Al pie de la tabla observamos una línea en la que dice que el 63,5% fue bien clasificado. Ahora tendríamos que pasar a comparar este porcentaje con las probabilidades previas, para poder afirmar si nuestro modelo realmente resulta un aporte en la clasificación.
A su vez, como en un principio pedimos la clasificación dejando uno fuera, en los resultados vemos también la validación cruzada. Esto se lleva a cabo, porque al clasificar los casos con un modelo que fue creado a partir de estos mismos casos, existe un sesgo al alza en la clasificación correcta de los casos (un sobre ajuste a los datos). Es por esto que la clasificación se compara con esta otra, que busca evitar este sesgo, al clasificar los casos en base a funciones creadas con todos los casos, excepto el que se está clasificando. Si el porcentaje de casos bien clasificados en la validación cruzada es significativamente menor al anterior, puede ser que se tengan demasiadas variables predictoras en el modelo. En este caso, la diferencia es bastante baja (62,0% respecto a un 63,5%).
2. Inclusión por pasos de las variables
El segundo procedimiento que se ilustrará es el de la inclusión paso a paso de las variables, en el cual, en busca de una mayor parsimonia, sólo aquellas variables que cumplan con cierto criterio de inclusión serán ingresadas en el modelo. Por ejemplo, con el procedimiento anterior la variable “Sexo”, si bien mostró no discriminar respecto al autoritarismo, se mantuvo en el modelo. Una variable como “Sexo” probablemente no será incluida en el modelo por medio de este procedimiento.
Para llevar a cabo el análisis abrimos la misma ventana que en el caso anterior, marcando Analizar, Clasificar, y Discriminante. A su vez, incluimos nuevamente la variable “Autoritarismo” como variable de agrupación y las demás variables como variables independientes. Volvemos a definir el rango de la variable “Autoritarismo”. Hasta aquí todo igual. Pero al momento de seleccionar el procedimiento, marcamos el método por pasos. Al marcar este método notamos como el botón que da acceso a la ventana de Método (“Method”) se encuentra habilitado.
Como los demás pasos siguen siendo los mismos, la única ventana que se revisará es la de Método. La ventana es la siguiente:
Esta ventana está compuesta principalmente por dos puntos: el método y el criterio. Ambos se refieren a la manera en la que el programa decide si incluir o eliminar una variable del modelo. En cuanto al método tenemos varias opciones: El Lambda de Wilks, la varianza no explicada, la distancia de Mahalanobis, el menor cociente de F y la V de Rao. A modo de ejemplo, el Lambda de Wilks incluye en el modelo la variable que produce la mayor baja en Lambda, vale decir, para la cual Lambda se acerque más a 0 (recordemos que valores cercanos a 0 significan diferencia de medias). El método de la varianza no explicada incluye en el modelo la variable que la disminuye. En este caso utilizaremos la Lambda de Wilks, que viene predeterminada.
En cuanto al criterio, se define un punto de corte para el ingreso de variables. En cada paso se incluye una variable y se revisan las que se encuentran en el modelo, a ver si alguna ha de ser eliminada. Este proceso se lleva a cabo hasta el momento en el que ninguna variable cumpla con el criterio de inclusión. Son dos los criterios, el para que una variable ingrese en el modelo, y el según el cual una variable es eliminada del modelo. Existen dos opciones, una, es utilizar el valor de F como criterio, el otro es utilizar la probabilidad de F.
En el primer caso una variable debe tener un F mayor al especificado como criterio para la entrada de una variable para ser incluida en el modelo y debe tener un valor F menor que el criterio de salida para ser eliminada del análisis. El criterio de entrada debe ser siempre mayor que el de salida. La lógica subyacente es que, en caso que se quiera que más variables entren en el modelo, debe reducirse el valor criterio de entrada y aumentarse el de salida. En el caso de utilizar las probabilidades de F, la lógica es inversa. Una significación menor a la de criterio de entrada es necesaria para que una variable sea incluida en el modelo y una significación mayor a la del criterio de salida es necesaria para que una variable sea eliminada del modelo. En este caso se dejarán los criterios predeterminados.
Además, se dan las opciones de pedir el resumen de los pasos y de mostrar las distancias de los F para pares de grupos. Se marcan ambas opciones.
Al marcar Pegar (“Pate”) obtenemos la sintaxis del análisis:
(
DISCRIMINANT
/GROUPS=autorita(1 3)
/VARIABLES=gse edad sexo neduc prefpol ingrcap
/ANALYSIS ALL
/SAVE=CLASS SCORES
/METHOD=WILKS
/FIN= 3.84
/FOUT= 2.71
/PRIORS SIZE
/HISTORY
/STATISTICS=MEANSTDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV FPAIR TABLE CROSSVALID
/PLOT=COMBINED SEPARATE MAP
/PLOT=CASES
/CLASSIFY=NONMISSING POOLED MEANSUB .
)
Una vez definidos estos puntos, se marca Continuar, y OK en la ventana principal. Ahora se procederá a analizar las salidas:
Las primeras ventanas son iguales a las obtenidas con el procedimiento anterior, por lo que no es necesario repetir su interpretación. Se analizarán, en cambio, las tablas propias del Análisis Discriminante por pasos.
Las primeras diferencias se encuentran en las tablas en las que se especifica cómo fueron ingresadas o eliminadas las variables en el modelo en cada paso:
Estadísticos por pasos
Como podemos observar, el proceso se llevó a cabo en 3 pasos. En el primer paso fue incluida la variable “Preferencia Política”, en el segundo la variable “Nivel Educacional” y en el tercero la variable “Nivel Socioeconómico”. Las demás variables no son incluidas en el modelo. Como nota al pie de la tabla salen especificados los criterios de inclusión y eliminación. Al observar los estadísticos F vemos que todas las variables cumplen el requisito para ser incluidas (todos los F son mayores a 3,84). Además, todas son significativas (significaciones menores que 0,05).
Luego observamos una tabla que nos permite determinar si las variables cumplen o no el criterio para ser excluidas:
En cada paso hay más variables, ya que se van incluyendo. La tolerancia hace referencia a la proporción de la varianza de una variable en el modelo que no es explicada por otra. En el primer paso solo hay una variable, por lo que es imposible que exista otra variable que explique parte de la varianza de la primera. De esta forma, la tolerancia es 1, vale decir, toda la proporción de la varianza de “Preferencia Política” es propia. En el segundo paso, en cambio, la tolerancia baja a ,978, lo que quiere decir que la variable “Nivel Educacional” explica parte de la varianza de la variable “Preferencia Política”. Sin embargo, es una proporción muy baja. En el tercer paso bajan todas las tolerancias, pero especialmente la tolerancia de “Nivel Educacional” y “Nivel Socioeconómico”, por lo que podemos asumir que son éstas dos las que están más correlacionadas, y no “Preferencia Política” que aún mantiene una alta tolerancia.
La segunda columna hace referencia al F de las variables en cada paso, el cual es considerado para eliminar variables. En este caso todos los F son mayores al criterio de salida (2,71), por lo que ninguna variable es eliminada. Por último, obtenemos el Lambda de Wilks, que como ya planteamos en un principio, contrasta la hipótesis nula de la no diferencia de medias. Mientras más cercano a 0, existe mayor diferencia entre las medias. Si bien los valores en este caso son bastante altos, cabe destacar que con la inclusión de más variables, van disminuyendo.
Además de estas tablas, obtenemos una tabla que analiza las variables que no se encuentran en el análisis, a cada paso. Permite ver cómo fueron seleccionadas las variables:
En el paso 0 ninguna de las variables se encuentra en el análisis. Ya sabemos que la variable Preferencia Política fue seleccionada. Veamos ahora porqué. La primera columna hace referencia nuevamente a la tolerancia. Se toma en cuenta este dato al momento de seleccionar una variable a ser incluida, ya que se evitará incluir variables que tengan baja tolerancia, porque no estarán aportando mucha información agregada a la información en el análisis. Luego vemos el F para la entrada y el Lambda de Wilks.
Se selecciona para el ingreso la variable con el F mayor y el Lambda de Wilks más cercano a 0. En el paso 0 queda claro que es el caso de la variable “Preferencia Política”; con un F de 33,759 y un Lambda de ,828. En el paso 1 ya no vemos la variable “Preferencia Política”; ya que ésta es una tabla de las variables que no se encuentran en el análisis, y esta variable ya fue incluida. Ahora debe decidirse de entre las variables restantes, cuál incluir. Observemos el paso 3. Ya fueron incluidas 3 variables. Las 3 variables que quedan no cumplen el criterio para entrar (F menor a 3,84) y el proceso termina. Si hubiéramos bajado el valor del criterio, tal vez hubieran ingresado más variables.
La siguiente tabla permite comparar el Lambda de Wilks para las variables en el modelo en cada paso.
La idea es que el Lambda baje en cada paso, acercándose a cero. Vemos que ese es el caso, ya que en el paso 1, donde sólo hay una variable en el modelo, el Lambda es ,828, mientras que en el paso 3, cuando ya son 3 las variables en el modelo, el Lambda es ,649.
La próxima salida que obtenemos es la comparación de pares de grupos.
El estadístico F en esta tabla puede ser utilizado para ver qué grupos son más parecidos y para contrastar la igualdad de medias para cada par de grupos. El par de grupos con el F mayor y la significación menor, es el par que más difiere. En este caso, en cada paso los grupos que más difieren son el 1 y el 3, ya que tienen el mayor F. No tiene utilidad en este caso observar la significación, ya que por la cantidad de decimales disponibles, todos son iguales (,000). En todo caso, cabe destacar que las diferencias entre cada par de grupos es significativa, ya que todas las significaciones son menores a 0,05.
Utilizando el procedimiento por pasos los resultados serán evidentemente distintos a los obtenidos con el procedimiento de inclusión simultánea (ya que son distintas las variables tomadas en cuenta). Sin embargo, el análisis de las demás tablas es el mismo, por lo que no se procederá a su análisis. Sólo se comparará la última tabla, de resultados de clasificación, para ver si ambos procedimientos obtuvieron resultados similares.
La tabla es la siguiente:
Si bien el porcentaje de casos clasificados correctamente no varió significativamente (desde un 63,5% a un 63,2%), lo que sí cambió fueron los patrones de estas clasificaciones. Mientras en el primer procedimiento los casos bien clasificados en el grupo 1 eran el 30,3%, en este procedimiento, esto bajó a 21,2%. Sin embargo, queda claro que se logró clasificar mejor en los otros dos grupos.
3. Datos guardados en la Base de Datos
Al especificar los estadísticos a obtener pedimos a su vez que el programa guardara en la base de datos la pertenencia a grupos predicha y los puntajes discriminantes. Si volvemos a la base de datos veremos como últimas columnas lo siguiente:
A la derecha de la variable autoritarismo observamos 3 nuevas variables. La primera (Dis_1) es la pertenencia a los grupos predicha. Por ejemplo, el primer caso fue predicho como perteneciente al grupo 1. Las otras dos columnas (Dis1_1 y Dis2_1) son los puntajes discriminantes. Es por medio de estos puntajes que se clasificaron los casos en cada grupo. Esta información nos puede servir para realizar análisis posteriores.
2
Material de Apoyo Ayudantía Análisis Estadístico IV Monica Gerber - Macarena Orchard
Resumen del procesamiento para el análisis de casos
329
100,0
0
,0
0
,0
0
,0
0
,0
329
100,0
Casos no ponderados
Válidos
Códigos de grupo
perdidos o fuera de rango
Perdida al menos una
variable discriminante
Perdidos o fuera de rango
ambos, el código de
grupo y al menos una de
las variables
discriminantes.
Total excluidos
Excluidos
Casos Totales
N
Porcentaje
Pruebas de igualdad de las medias de los grupos
,899
18,242
2
326
,000
,950
8,508
2
326
,000
,999
,118
2
326
,889
,834
32,475
2
326
,000
,828
33,759
2
326
,000
,894
19,272
2
326
,000
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Lambda
de Wilks
F
gl1
gl2
Sig.
Matrices intra-grupo combinadas
a
,871
-,686
-,003
-,378
-,412
-66,010
-,686
296,273
,117
-3,494
2,070
65,644
-,003
,117
,252
,013
,171
1,071
-,378
-3,494
,013
,979
,322
52,765
-,412
2,070
,171
,322
4,899
40,186
-66,010
65,644
1,071
52,765
40,186
17029,094
1,000
-,043
-,006
-,410
-,199
-,542
-,043
1,000
,014
-,205
,054
,029
-,006,014
1,000
,026
,154
,016
-,410
-,205
,026
1,000
,147
,409
-,199
,054
,154
,147
1,000
,139
-,542
,029
,016
,409
,139
1,000
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Covarianza
Correlación
Nivel
Socioeco
nómico
Edad
Sexo
Nivel
Educacional
Preferencia
Politica
Ingreso
por Capita
en miles
La matriz de covarianza tiene 326 grados de libertad
a.
Matrices de covarianza
a
,783
-1,057
-,023
-,215
-,399
-88,236
-1,057
246,558
,546
-1,656
,819
-31,000
-,023
,546
,254
,015
,023
,030
-,215
-1,656
,015
,687
-,092
39,365
-,399
,819
,023
-,092
3,328
24,480
-88,236
-31,000
,030
39,365
24,480
26030,031
1,063
,275
,002
-,487
-,474
-72,778
,275
290,668
-1,019
-2,854
1,249
66,672
,002
-1,019
,250
,050
,209
2,764
-,487
-2,854
,050
1,064
,543
66,030
-,474
1,249
,209
,543
4,779
48,038
-72,778
66,672
2,764
66,030
48,038
19397,899
,574
-2,216
,003
-,291
-,304
-37,490
-2,216
342,255
1,932
-6,001
4,499
132,754
,003
1,932
,253
-,059
,204
-1,346
-,291
-6,001
-,059
1,030
,204
37,556
-,304
4,499
,204
,204
6,245
36,734
-37,490
132,754
-1,346
37,556
36,734
6174,614
,962
,524
-,002
-,512
-,112
-79,324
,524
309,837
,133
-5,135
5,568
-100,800
-,002
,133
,250
,012
,168
1,063
-,512
-5,135
,012
1,167
-,114
72,111
-,112
5,568
,168
-,114
5,878
-4,526
-79,324
-100,800
1,063
72,111
-4,526
18926,348
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Subescala Autoritarismo
1,00
2,00
3,00
Total
Nivel
Socioeco
nómico
Edad
Sexo
Nivel
Educacional
Preferencia
Politica
Ingreso
por Capita
en miles
La matriz de covarianza total presenta 328 grados de libertad.
a.
Logaritmo de los determinantes
6
14,158
6
15,044
6
13,368
6
14,747
Subescala Autoritarismo
1,00
2,00
3,00
Intra-grupos combinada
Rango
Logaritmo del
determinante
Los rangos y logaritmos naturales de los determinantes
impresos son los de las matrices de covarianza de los grupos.
Resultados de la prueba
113,430
2,616
42
137911,0
,000
M de Box
Aprox.
gl1
gl2
Sig.
F
Contrasta la hipótesis nula de que las matrices
de covarianza poblacionales son iguales.
Autovalores
,568
a
97,4
97,4
,602
,015
a
2,6
100,0
,122
Función
1
2
Autovalor
% de varianza
% acumulado
Correlación
canónica
Se han empleado las 2 primeras funciones discriminantes
canónicas en el análisis.
a.
Lambda de Wilks
,628
150,466
12
,000
,985
4,863
5
,433
Contraste de
las funciones
1 a la 2
2
Lambda
de Wilks
Chi-cuadrado
gl
Sig.
Coeficientes estandarizados de las funciones
discriminantes canónicas
,286
,644
,171
,682
-,103
,279
-,456
,081
,760
-,475
-,224
,314
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
1
2
Función
Matriz de estructura
,599
*
-,468
-,591
*
-,257
-,456
*
-,044
,285
,625
*
,436
,505
*
,000
,218
*
Preferencia Politica
Nivel Educacional
Ingreso por Capita en
miles
Edad
Nivel Socioeconómico
Sexo
1
2
Función
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
Mayor correlación absoluta entre cada
variable y cualquier función discriminante.
*.
Coeficientes de las funciones canónicas discriminantes
,307
,690
,010
,040
-,204
,555
-,461
,082
,344
-,215
-,002
,002
-,803
-3,058
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
(Constante)
1
2
Función
Coeficientes no tipificados
Funciones en los centroides de los grupos
-1,028
,178
-,190
-,114
1,091
,083
Subescala Autoritarismo
1,00
2,00
3,00
1
2
Función
Funciones discriminantes canónicas no tipificadas
evaluadas en las medias de los grupos
Resumen del proceso de clasificación
329
0
0
329
Procesados
Código de grupo perdido
o fuera de rango
Perdida al menos una
variable discriminante
Excluidos
Usados en los resultados
Probabilidades previas para los grupos
,201
66
66,000
,520
171
171,000
,280
92
92,000
1,000
329
329,000
Subescala Autoritarismo
1,00
2,00
3,00
Total
Previas
No
ponderados
Ponderados
Casos utilizados en el
análisis
Coeficientes de la función de clasificación
6,866
6,922
7,451
,217
,214
,234
1,124
,791
,639
6,773
6,363
5,789
,622
,972
1,370
,016
,014
,012
-30,319
-28,629
-31,454
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
(Constante)
1,00
2,00
3,00
Subescala Autoritarismo
Funciones discriminantes lineales de Fisher
Resultados de la clasificación
b,c
20
44
2
66
10
138
23
171
0
41
51
92
30,3
66,7
3,0
100,0
5,8
80,7
13,5
100,0
,0
44,6
55,4
100,0
20
44
2
66
11
136
24
171
0
44
48
92
30,3
66,7
3,0
100,0
6,4
79,5
14,0
100,0
,0
47,8
52,2
100,0
Subescala Autoritarismo
1,00
2,00
3,00
1,00
2,00
3,00
1,00
2,00
3,00
1,00
2,00
3,00
Recuento
%
Recuento
%
Original
Validación cruzada
a
1,00
2,00
3,00
Grupo de pertenencia pronosticado
Total
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se
clasifica mediante las funciones derivadas a partir del resto de los casos.
a.
Clasificados correctamente el 63,5% de los casos agrupados originales.
b.
Clasificados correctamente el 62,0% de los casos agrupados validados mediante validación cruzada.
c.
Variables introducidas/eliminadas
a,b,c,d
Preferencia
Politica
,828
1
2
326,000
33,759
2
326,000
,000
Nivel
Educacional
,677
2
2
326,000
34,970
4
650,000
,000
Nivel
Socioeconó
mico
,649
3
2
326,000
26,019
6
648,000
,000
Paso
1
2
3
Introducidas
Estadístico
gl1
gl2
gl3
Estadístico
gl1
gl2
Sig.
F exacta
Lambda de Wilks
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
El número máximo de pasos es 12.
a.
La F parcial mínima para entrar es 3.84.
b.
La F parcial máxima para eliminar es 2.71
c.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
d.
Variables en el análisis
1,000
33,759
,978
37,599
,834
,978
36,294
,828
,955
41,105
,814
,828
16,875
,717
,812
6,929
,677
Preferencia Politica
Preferencia Politica
Nivel Educacional
Preferencia Politica
Nivel Educacional
Nivel Socioeconómico
Paso
1
2
3
Tolerancia
F para
eliminar
Lambda
de Wilks
Variables no incluidas en el análisis
1,000
1,000
18,242
,899
1,000
1,000
8,508
,950
1,000
1,000
,118
,999
1,000
1,000
32,475
,834
1,000
1,000
33,759
,828
1,000
1,000
19,272
,894
,960
,960
25,241
,717
,997
,997
6,070
,799
,976
,976
,866
,824
,978
,978
36,294
,677
,981
,981
22,765
,727
,812
,812
6,929
,649
,951
,933
1,701
,670
,976
,956
,726
,674
,827
,825
5,544
,655
,934
,777
2,501
,639
,976
,812
,804
,646
,664
,653
1,983
,642
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Preferencia Politica
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Nivel Educacional
Ingreso por Capita en
miles
Nivel Socioeconómico
Edad
Sexo
Ingreso por Capita en
miles
Edad
Sexo
Ingreso por Capita en
miles
Paso
0
1
2
3
Tolerancia
Tolerancia
mín.
F para
introducir
Lambda
de Wilks
Lambda de Wilks
1
,828
1
2
326
33,759
2
326,000
,000
2
,677
2
2
326
34,970
4
650,000
,000
3
,649
3
2
326
26,019
6
648,000
,000
Paso
1
2
3
Número de
variables
Lambda
gl1
gl2
gl3
Estadístico
gl1
gl2
Sig.
F exacta
Comparaciones de grupos por pares
a,b,c

19,372
66,204

,000
,000
19,372

27,230
,000

,000
66,204
27,230

,000
,000

16,048
72,443

,000
,000
16,048

38,593
,000

,000
72,443
38,593

,000
,000

11,077
53,522

,000
,000
11,077

30,375
,000

,000
53,522
30,375

,000
,000

F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
Subescala Autoritarismo
1,00
2,00
3,00
1,00
2,00
3,00
1,00
2,00
3,00
Paso
1
2
3
1,00
2,00
3,00
1, 326 grados de libertad para el paso 1.
a.
2, 325 grados de libertad para el paso 2.
b.
3, 324 grados de libertadpara el paso 3.
c.
Resultados de la clasificación
b,c
14
51
1
66
8
144
19
171
0
42
50
92
21,2
77,3
1,5
100,0
4,7
84,2
11,1
100,0
,0
45,7
54,3
100,0
14
51
1
66
8
144
19
171
0
42
50
92
21,2
77,3
1,5
100,0
4,7
84,2
11,1
100,0
,0
45,7
54,3
100,0
Subescala Autoritarismo
1,00
2,00
3,00
1,00
2,00
3,00
1,00
2,00
3,00
1,00
2,00
3,00
Recuento
%
Recuento
%
Original
Validación cruzada
a
1,00
2,00
3,00
Grupo de pertenencia pronosticado
Total
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se
clasifica mediante las funciones derivadas a partir del resto de los casos.
a.
Clasificados correctamente el 63,2% de los casos agrupados originales.
b.
Clasificados correctamente el 63,2% de los casos agrupados validados mediante validación cruzada.
c.