Logo Studenta

Guía de trabajo SPSS_Modelos logarítmicos

¡Este material tiene más páginas!

Vista previa del material en texto

Guía de trabajo SPSS 
Modelos Logarí tmicos Lineales 
 
 
 
Material de ayudantía 
Estadística IV – 2012 
Facultad de Ciencias Sociales – Universidad de Chile 
 
 
 
 
 
 
 
 
Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos 
RESUMEN: MODELOS LOGARÍTMICOS LINEALES 
El análisis logarítmico es una técnica multivariable de interdependencia que opera sobre la 
información contenida en tablas multidimensionales de contingencia, cuyo objetivo es evaluar la 
capacidad de un conjunto de variables categóricas, de explicar las frecuencias observadas en las 
casillas de la tabla de carácter multidimensional que conforman. 
Según la función de las variables, es posible distinguir dos tipos de modelos. El más común es el 
modelo logarítmico general que estudia interdependencia en un conjunto de variables cualitativas. 
Por su parte, los modelos logarítmicos predictivos estudian la dependencia de una variable 
cualitativa respecto a una o más variables independientes cualitativas (donde se destacan los 
modelos logit y probit). 
Los modelos logarítmicos son una expresión del modelo lineal general. En ese sentido, la ecuación 
está compuesta además por coeficientes, donde su valor indica la importancia del efecto de las 
variables y sus categorías. En un modelo se pueden distinguir tres efectos relevantes: efecto 
promedio, efectos principales y efectos de interacción. Así, el efecto promedio es la media general 
del conjunto de observaciones; los efectos principales consideran la influencia de cada variable en 
forma independiente; mientras que los efectos de interacción hacen referencia a la influencia de la 
relación entre variables. Para efectos de la interpretación, interesan los efectos principales y de 
interacción. 
La construcción de un modelo logarítmico tiene dos aspectos. En primer lugar, determinar las 
variables que componen el modelo. En segundo punto, decidir respecto a la importancia de éstas y 
de las relaciones entre ellas (para ello se considera el efecto de las variables). 
De acuerdo al modo en que se tratan los efectos, se debe hacer dos distinciones en los modelos 
logarítmicos. Por una parte, distinguir entre modelos jerárquicos y no jerárquicos, y por otro, 
diferenciar los modelos saturados de los no saturados. La distinción entre modelos jerárquicos y 
no jerárquicos dice relación con el orden de inclusión de los efectos al modelo. La diferencia entre 
modelos saturados y no saturados hace referencia a la inclusión de todos los efectos o sólo alguno 
de ellos. 
Usos: 
 Analizar la interrelación a nivel multivariado de un conjunto de variables cualitativas. 
 Evaluar la capacidad explicativa de las variables involucradas en el modelo, así también 
como de las relaciones entre variables 
 Jerarquizar variables, interacciones entre variables y variables según su nivel de influencia 
en la estructura de los datos. 
Condiciones: 
a) Tamaño de la muestra: Más que un tamaño muestral, se requiere que haya por lo menos 30 
casos por casilla. 
b) Variables admitidas: categóricas (nominales / ordinales). Si se requiere trabajar con una 
variable escalar, esta debe ser recodificada en una variable ordinal. 
c) Independencia de las variables: Las variables deben ser independientes, pero deben estar 
relacionadas entre sí (estas explican las casillas de la tabla). 
d) Variables teóricamente relacionadas con un concepto central 
e) Cantidad de variables: evitar trabajar con muchas variables con un número elevado de niveles o 
categorías, ya que esto puede implicar que las casillas de la tabla presenten un número reducido 
de observaciones, dificultando así la interpretación de los datos. 
 
EJERCICIO DE APLICACIÓN 
 
0. DISPONER LA BASE DE DATOS 
La base de datos utilizada en el ejercicio es de la encuesta de consumo cultural de 2005, aplicada 
en todo el territorio nacional, que consta de 4.603 casos. 
Las preguntas que guía este ejercicio son ¿Cómo se estructura la relación entre el nivel 
socioeconómico, sexo y consumo cultural? Así también, ¿Cuáles son los efectos más importantes 
en esta relación? Y ¿Cuáles son los niveles de interacción que mejor explican esta relación? 
0.a. Variables a utilizar 
Utilizaremos tres variables categóricas: Sexo, Nivel socioeconómico y Consumo cultural. Cabe 
recordar, que en Modelos Logarítmicos no trabajamos con una variable dependiente, ya que, en 
estricto rigor, la variable dependiente son las frecuencias de las casillas de una tabla de 
contingencia multidimensional. De este modo, es una técnica de interdependencia. Las variables y 
sus respectivas categorías, son las siguientes: 
 
 Sexo: 
{1, Hombre} 
{2, Mujer} 
 
 Nivel socioeconómico 
{1, Alto} 
{2, Medio} 
{3, Bajo} 
 
 Consumo cultural. 
Esta variable es un índice, cuyos puntajes fueron recodificados en tres categorías para la aplicación 
de la técnica. 
{1, Bajo} 
{2, Medio} 
{3, Alto} 
 
0.b. Ponderación 
En caso de trabajar con una base de datos que incluya una variable de ponderación, se debe 
proceder a ponderar la base, para pasar a trabajar con los modelos logarítmicos. 
En la pantalla: Datos → ponderar casos 
 
Ponderar casos mediante 
 Variable de frecuencia 
Aquí se marca que los casos sean ponderados por la variable de ponderación, luego se presiona 
Aceptar. Para asegurarnos de que se ponderó, vemos en la parte inferior derecha que salga que se 
está ponderando: 
 
 
 
En este caso, la base de datos no cuenta con una variable de ponderación, por lo que este proceso 
no se llevará a cabo. 
0.c. Prueba de Chi-cuadrado 
Antes de aplicar un modelo logarítmico debe revisarse si las variables realmente se encuentran 
asociadas. Para esto, se aplica la prueba de chi-cuadrado, la cual nos indica si existe o no 
asociación entre variables categóricas. En el programa, se utiliza el comando Tabla de 
Contingencia y se pide en las salidas la prueba de chi-cuadrado. Cabe destacar, que cuando 
marcamos la opción Tabla de Contingencia, debemos especificar qué variables queremos cruzar. 
Primero cruzamos las variables sexo y consumo cultural. Así, cuando marcamos la opción Tabla de 
contingencia, ingresamos en las filas la variable sexo, y en las columnas la variable consumo 
cultural. 
En la pantalla: Analizar → Estadísticos descriptivos → Tablas de contingencia 
Estadísticos 
 Chi-cuadrado 
 
 
 
Según la prueba de Chi cuadrado 
podemos afirmar que las variables sexo 
y consumo cultural se encuentran 
asociadas, ya que la significación es 
menor a 0,05. 
Luego se cruzaron las variables Nivel 
socioeconómico y Consumo cultural. 
Las salidas obtenidas fueron las siguientes: 
 
También en este caso el nivel de significación es menor a 0,05, por lo que podemos afirmar que 
ambas variables se encuentran asociadas. 
Observando estos resultados, podemos afirmar entonces que sí es pertinente aplicar un análisis 
logarítmico. 
 
1. MODELO LOGARÍTMICO SATURADO 
Para responder al objetivo del análisis, primero se analizará el Modelo Saturado, que es el modelo 
que contiene todos los efectos posibles, vale decir, los efectos de todas las variables y todas las 
interacciones. En este caso, las frecuencias observadas son reproducidas, por lo que los residuos 
son nulos. Se utilizará este modelo de modo exploratorio, para luego deducir qué modelo es más 
adecuado para representar las relaciones de la tabla multidimensional de modo parsimonioso. En 
un segundo paso, entonces, se eliminarán los efectos no influyentes y se calculará un modelo no 
saturado. 
Para obtener el modelo entramos en: Analizar → Loglineal → Selección de modelo 
La ventana que aparece es la siguiente: 
 
Construcción de modelos: 
 Usar eliminación hacia atrás 
 Número máximo de pasos y Probabilidad de eliminación por defecto 
 
Bajo factores ingresamos las tres variables que están en nuestro análisis.Luego es necesario definir 
el rango de cadauna de las variables. Esto debe hacerse para cada variable por separado, a no ser 
que todas tengan el mismo rango, ya que en ese caso se puede definir el rango al mismo tiempo 
para todas juntas. Marcamos la opción Definir Rango. La ventana que obtenemos es la siguiente: 
 
Definimos el mínimo y el máximo de categorías de cada variable. En el caso de la variable Sexo, las 
categorías son 1: Hombre y 2: Mujer, así es que ingresamos 1 como mínimo y 2 como máximo. 
Luego marcamos continuar. Este procedimiento debemos seguirlo para cada una de las variables. 
Lo importante es que luego de haber definido todos los rangos éste aparezca entre paréntesis al 
lado de cada variable. 
Luego el programa da la opción de ponderar los casos por alguna variable. En este caso no es 
necesario ya que no se tiene una variable de ponderación. Esta opción es importante en caso de 
tener “ceros estructurales”, que consisten en opciones que aparecen como imposibles (como un 
hombre embarazado). 
Se debe seleccionar la estrategia de construcción del modelo. Está la opción de Eliminación hacia 
atrás, que entrega resultados de los distintos modelos posibles de construir al ir eliminando 
sucesivamente los distintos efectos; y la opción Introducir en un solo paso, que muestra solo el 
resultado del modelo saturado o del personalizado según corresponda. Utilizaremos la primera 
opción que va ingresando sólo los efectos importantes en el modelo, y que de este modo nos 
permite observar cuál es el mejor modelo. Dejamos los valores predeterminados con respecto al 
máximo de pasos y la probabilidad para la eliminación. 
Al entrar en Modelo obtenemos la siguiente ventana: 
 
Se pueden obtener dos modelos, el saturado y uno personalizado (es decir, un modelo no 
saturado determinado por el investigador). En el modelo saturado se incluyen por definición todos 
los efectos (en este caso, efectos principales, de segundo y tercer orden). Por ahora utilizaremos el 
modelo saturado, así es que no cambiamos nada en esta ventana. 
Bajo Opciones obtenemos la siguiente ventana: 
Visualización: 
 Frecuencias 
 Residuos 
 
Mostrar para el modelo saturado: 
 Estimaciones de los parámetros 
 Tabla de asociación 
 
Criterios del modelo: 
 Por defecto 
 
Las opciones asociadas al modelo saturado son 
Mostrar frecuencias y residuos, y dado que en el modelo saturado las frecuencias esperadas serán 
iguales a las observadas, no habrá residuos. Por su parte, Mostrar la estimación de los 
parámetros, permite determinar los coeficientes de cada uno de los efectos. En tercer lugar, 
Mostrar la tabla de asociaciones parciales es necesaria para determinar que efectos resultan 
significativos para el modelo. Y por último, la Selección de criterios del modelo da opciones que 
permiten suprimir o modificar uno o más criterios de estimación de los parámetros. 
→ PEGAR 
Sintaxis: 
HILOGLINEAR nsexo1(1 2) nse(1 3) cc_rec(1 3) 
 /METHOD=BACKWARD 
 /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) 
 /PRINT=FREQ RESID ASSOCIATION ESTIM 
 /DESIGN. 
 
→ PLAY 
 
1.1 Resultados 
La primera salida nos muestra un resumen de la 
información analizada. Vemos que son 3285 casos 
válidos, y si hubiésemos ponderados, aparecerían 
también los casos ponderados. Existen 1318 casos 
perdidos, y si bien es un valor alto, no impide que 
continuemos con el análisis. Con respecto a los 
factores vemos que la variable Sexo tiene 2 
categorías, Nivel Socioeconómico 3 y Consumo 
cultural 3. 
Luego vemos la salida que plantea la clase 
generadora (nsexo*nse*cc_rec). El criterio de 
convergencia fue alcanzado en la iteración 1. 
Además, vemos que la diferencia máxima entre lo 
observado y lo esperado es 0. 
 
Luego obtenemos la salida de las frecuencias observadas, esperadas y los residuos: 
 
Frecuencias y residuos de casillas 
Sexo Nivel 
socioeconómico 
consumo cultural 
recodificado 
Observado Esperado 
Residuos 
Residuos 
típicos Recuento
a
 % Recuento % 
Hombre 
dimen
sion1 
Bajo 
dimension2 
Bajo 228.500 7.0% 228.500 7.0% .000 .000 
Medio 71.500 2.2% 71.500 2.2% .000 .000 
Alto 12.500 .4% 12.500 .4% .000 .000 
Medio 
dimension2 
Bajo 249.500 7.6% 249.500 7.6% .000 .000 
Medio 391.500 11.9% 391.500 11.9% .000 .000 
Alto 239.500 7.3% 239.500 7.3% .000 .000 
Medio Alto 
y Alto dimension2 
Bajo 5.500 .2% 5.500 .2% .000 .000 
Medio 69.500 2.1% 69.500 2.1% .000 .000 
Alto 175.500 5.3% 175.500 5.3% .000 .000 
Mujer 
dimen
sion1 
Bajo 
dimension2 
Bajo 307.500 9.4% 307.500 9.4% .000 .000 
Medio 121.500 3.7% 121.500 3.7% .000 .000 
Alto 16.500 .5% 16.500 .5% .000 .000 
Medio 
dimension2 
Bajo 318.500 9.7% 318.500 9.7% .000 .000 
Medio 547.500 16.7% 547.500 16.7% .000 .000 
Alto 306.500 9.3% 306.500 9.3% .000 .000 
Medio Alto 
y Alto dimension2 
Bajo 8.500 .3% 8.500 .3% .000 .000 
Medio 78.500 2.4% 78.500 2.4% .000 .000 
Alto 145.500 4.4% 145.500 4.4% .000 .000 
a. Para modelos saturados, se ha añadido .500 a todas las casillas observadas. 
 
En el modelo saturado, por definición, al incluir todos los efectos posibles, lo esperado y lo 
observado son idénticos, no existiendo residuos. Esta salida solamente tiene un interés teórico. Si 
bien sabemos que el modelo saturado no presenta diferencias entre lo observado y lo esperado, 
examinar los datos de esta tabla nos permite verificar que cada celda presenta una cantidad de 
casos suficientes para el desarrollo del modelo (mas de 5). También observamos que se ha 
agregado un valor de 0,5 a cada celda, para evitar problemas de estimación en caso de que alguna 
celda presentara cero casos. 
Luego obtenemos los estadísticos para la Prueba de Bondad de Ajuste: 
Valores del estadístico Chi cuadrado cercanos a cero muestran poca diferencia entre lo esperado y 
lo observado. En este caso, los valores de chi-cuadrado de Pearson y del chi-cuadrado de máxima 
verosimilitud son iguales a 0. Podemos 
afirmar por lo tanto que lo observado y lo 
esperado se ajustan de manera perfecta. 
En el caso del modelo saturado, esto no 
presenta ninguna novedad. 
Luego vemos la Prueba para los efectos de orden k o superior: 
 
 
Esta salida nos otorga mucha más información en términos de ver qué modelo podemos construir 
posteriormente, ya que en ella conseguimos analizar los efectos de manera aislada. Nos interesa 
ver qué efectos explican mejor las frecuencias de la tabla, y cuáles no aportan mucho a dicha 
explicación. 
La prima parte de la tabla ve los efectos de orden K superiores. Esta prueba contrasta la hipótesis 
nula de que los efectos de orden k o superior son iguales a cero. En la primera fila vemos los 
efectos de primer orden (K=1) que son los efectos de todos los órdenes, tanto individuales, de 
segundo y tercer orden; en la segunda los efectos de segundo orden y superior (esto es, los 
efectos de segundo y tercer orden); y en la tercera, los efectos de tercer orden. Luego, 
observamos la probabilidad asociada a los estadísticos Chi Cuadrado de Pearson y de máxima 
verosimilitud. En los dos primeros casos ésta es menor al valor convencional de 0.05, menos en el 
efecto de tercer orden. Podemos por lo tanto concluir que todos los efectos de primer y segundo 
orden son estadísticamente significativos, no así el efecto de tercer orden. 
Para completar el análisis de los efectos de orden K, es preciso ver la segunda parte de la tabla, la 
Prueba para los efectos de orden K, donde se contrastan los efectos de cada orden específico. Se 
analiza de manera análoga a la anterior. Los efectos producidos por los dos primeros órdenes 
tienen probabilidades menores a 0.05, por lo que los tres órdenes son estadísticamente 
significativos, no así el tercer orden. Esto quiere decir, que tanto los efectos de cada variable por 
separado, o de a dos variables son relevantes para la predicción de las frecuencias. 
Por ello, pasamos a ver la tabla de asociaciones parciales: 
 
En esta salida podemosanalizar cada uno de los efectos de manera individual. Se verifican todos 
los efectos, excepto el saturado (sexo1*nse*cc_rec). Todos los efectos tienen una probabilidad 
menor a 0, excepto el efecto de la interacción entre sexo y consumo cultural, por lo que podemos 
afirmar que todos los efectos son significativamente distintos de cero, menos la interacción entre 
consumo cultural y sexo. Ahora bien, para llevar a cabo un análisis más acabado, revisamos el 
valor de Chi Cuadrado. Valores altos implican una mayor relevancia en el modelo, por lo que 
revisamos este dato, para así poder crear a continuación un modelo de independencia que incluya 
solamente los factores más relevantes. En este caso, el efecto más importante lo tiene la variable 
Nivel socioeconómico, seguido del efecto nse*cc_rec, la variable Consumo Cultural y Sexo. El 
efecto con menor relevancia es Sexo*Consumo cultural. 
A continuación se observa la Estimación de los Parámetros: 
 
Estimaciones de los parámetros 
Efecto Parámetro 
Estimación Error típico Z Sig. 
Intervalo de confianza al 95% 
Límite inferior Límite superior 
nsexo1*nse*cc_rec 
dimension1 
1 .071 .080 .887 .375 -.085 .227 
2 -.044 .066 -.673 .501 -.173 .085 
3 .051 .070 .721 .471 -.087 .188 
4 .007 .049 .137 .891 -.090 .103 
nsexo1*nse 
dimension1 
1 -.056 .057 -.994 .320 -.167 .055 
2 -.010 .043 -.233 .816 -.093 .073 
nsexo1*cc_rec 
dimension1 
1 -.035 .067 -.518 .604 -.167 .097 
2 -.037 .046 -.796 .426 -.127 .054 
nse*cc_rec 
dimension1 
1 1.545 .080 19.423 .000 1.390 1.701 
2 -.110 .066 -1.673 .094 -.239 .019 
3 .073 .070 1.042 .297 -.064 .210 
4 -.041 .049 -.833 .405 -.138 .056 
nsexo1 dimension1 1 -.128 .040 -3.164 .002 -.207 -.049 
nse 
dimension1 
1 -.347 .057 -6.121 .000 -.458 -.236 
2 1.187 .043 27.927 .000 1.104 1.270 
cc_rec 
dimension1 
1 -.225 .067 -3.342 .001 -.357 -.093 
2 .385 .046 8.344 .000 .295 .475 
Lo primero que hay que señalar, es que para cada variable se calculan k-1 coeficientes, donde k es 
el número de categorías. Por ejemplo, en el caso de la variable Sexo, que tiene dos categorías, se 
calcula 1 coeficiente. En el caso de las interacciones, el número de coeficientes es igual al producto 
entre el número de categorías menos uno de cada una de las variables participantes de la 
interacción. 
La estimación (de los coeficientes) permite observar qué efectos son más importantes para 
explicar las frecuencias de la tabla. Valores altos en los coeficientes implican un efecto importante. 
Estos datos se corresponden con los cálculos del chi-cuadrado (por ejemplo, encontramos los 
coeficientes más altos en los efectos de la variable Nivel Socioeconómico y de la interacción 
nse*cc_rec, que de hecho, eran las que tenían los mayores chi-cuadrado). En cuanto al signo de los 
coeficientes, si éste es positivo o negativo, la frecuencia de la casilla correspondiente a la categoría 
que el coeficiente representa, será mayor (+) o menor (-) que la que se encontraría en la casilla en 
el caso de que todas las categorías de la variable tuvieran un valor constante. En el caso de la 
interacción, esto se interpreta como que la frecuencia observada será mayor (+) o menor (-) que la 
frecuencia esperada en caso de que las variables fueran independientes. 
Los valores estandarizados permiten evaluar la importancia de los efectos. Valores absolutos 
superiores a 1,96 (asociado a un nivel de confianza del 95%) son significativamente distintos de 
cero. En este caso se observan bastantes coeficientes con valores absolutos menores a 1,96 
(destacados en azul). Esto viene a corroborar los resultados obtenidos con chi-cuadrado y la 
observación de la estimación de los coeficientes. 
Por último, observamos el intervalo de confianza para evaluar si se pueden o no inferir los 
resultados a la población origen de la muestra. Interesa aquí observar si los intervalos incluyen el 
valor cero (si van de un número negativo a uno positivo o viceversa). En intervalos que incluyen el 
valor cero, se acepta la hipótesis nula de que el coeficiente en la población es cero, vale decir, que 
no tiene efecto. En este caso, solamente en el caso del efecto de primer orden del efecto entre las 
variables consumo cultural y nivel socioeconómico encontramos un coeficiente que no incluye en 
su intervalo el valor cero (en los efectos principales, esto es, los efectos de las variables, tampoco 
se incluye el cero, pero nos interesa ver los efectos de las interacciones entre variables). 
Luego el programa empieza a ingresar efectos paso por paso: 
Resumen de los pasos 
Paso
a
 
Efectos Chi-cuadrado
c
 gl Sig. 
Número de 
iteraciones 
0 Clase generadora
b
 nsexo1*nse*cc_rec .000 0 . 
Efecto eliminado 1 nsexo1*nse*cc_rec 2.428 4 .658 5 
1 Clase generadora
b
 nsexo1*nse, nsexo1*cc_rec, 
nse*cc_rec 
2.428 4 .658 
 
Efecto eliminado 1 nsexo1*nse 11.067 2 .004 2 
2 nsexo1*cc_rec 3.873 2 .144 2 
3 nse*cc_rec 996.376 4 .000 2 
2 Clase generadora
b
 nsexo1*nse, nse*cc_rec 6.300 6 .390 
Efecto eliminado 1 nsexo1*nse 15.405 2 .000 2 
2 nse*cc_rec 1000.714 4 .000 2 
3 Clase generadora
b
 nsexo1*nse, nse*cc_rec 6.300 6 .390 
a. En cada paso, se elimina el efecto con mayor nivel de significación para el Cambio en la razón de 
verosimilitudes, siempre que el nivel de significación sea mayor que .050. 
b. Se muestran los estadísticos para el mejor modelo en cada paso después del paso 0. 
c. Para 'Efecto eliminado', éste es el cambio en la Chi-cuadrado después de eliminar el efecto del modelo. 
 
El resumen de pasos corresponde a la estrategia de eliminación hacia atrás para la identificación 
del mejor modelo. El mejor modelo será aquel que no es el saturado y que con menos efectos 
logra una explicación significativa. En cada paso se va mostrando hasta donde se logra una mejora 
en el modelo, si un efecto de orden inferior es eliminado. 
Siempre se logrará una mejora cuando el nivel de significación que se obtiene al eliminar el efecto 
inferior es superior a 0,05. En el último paso se muestra el mejor modelo, es decir aquel que no 
puede seguir siendo mejorado y que con menos efectos logra un resultado más efectivo. 
Frecuencias y residuos de casillas 
Sexo Nivel 
socioeconómico 
consumo 
cultural 
Observado Esperado 
Residuos 
Residuos 
típicos Recuento % Recuento % 
Hombre 
dimension1 
Bajo 
dimension2 
Bajo 228.000 6.9% 220.377 6.7% 7.623 .513 
 Medio 71.000 2.2% 79.089 2.4% -8.089 -.910 
Alto 12.000 .4% 11.534 .4% .466 .137 
Medio 
dimension2 
Bajo 249.000 7.6% 243.119 7.4% 5.881 .377 
Medio 391.000 11.9% 402.196 12.2% -11.196 -.558 
Alto 239.000 7.3% 233.685 7.1% 5.315 .348 
Medio Alto 
y Alto 
dimension2 
Bajo 5.000 .2% 6.744 .2% -1.744 -.671 
Medio 69.000 2.1% 76.256 2.3% -7.256 -.831 
Alto 175.000 5.3% 166.000 5.1% 9.000 .699 
Mujer 
dimension1 
Bajo 
dimension2 
Bajo 307.000 9.3% 314.623 9.6% -7.623 -.430 
Medio 121.000 3.7% 112.911 3.4% 8.089 .761 
Alto 16.000 .5% 16.466 .5% -.466 -.115 
Medio 
dimension2 
Bajo 318.000 9.7% 323.881 9.9% -5.881 -.327 
Medio 547.000 16.7% 535.804 16.3% 11.196 .484 
Alto 306.000 9.3% 311.315 9.5% -5.315 -.301 
Medio Alto 
y Alto 
dimension2 
Bajo 8.000 .2% 6.256 .2% 1.744 .697 
Medio 78.000 2.4% 70.744 2.2% 7.256 .863 
Alto 145.000 4.4% 154.000 4.7% -9.000 -.725 
 
La tabla muestra la estimación de las frecuencias esperadas, según el modelo antes seleccionado 
como el mejor. El análisis de los residuos nos permite observar que celdas de la tabla logran ser 
mejor explicadas y cuales por el contrario presentan mas problemas en su predicción. 
 
Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística 
que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante 
dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima 
verosimilitud. Valores de chi-cuadrado cercanos acero indican poca diferencia entre valores 
observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las 
observaciones. Aquí constatamos el hecho de que el modelo se ajusta bien a los datos: los valores 
de Chi-cuadrado no son muy distintos de cero y la probabilidad es mayor a 0,05. Podemos afirmar 
que el modelo se ajusta adecuadamente a los datos y que la capacidad explicativa de este modelo 
es relevante, dado que el nivel de significación es mayor a 0.05. 
 
2. MODELO LOGARÍTMICO NO SATURADO 
Luego de haber analizado el modelo saturado y de haber revisado qué efectos son los más 
importantes, procedemos a generar un modelo logarítmico no saturado. El procedimiento es el 
mismo, excepto por que en la ventana Modelo se elegirá ahora la opción Personalizado: 
 
 
Bajo Factores vemos las tres variables. Luego vemos una ventana que permite incorporar efectos 
de Interacción, Efectos Principales y Efectos de distintos órdenes (2, 3, 4 y 5). En este caso, se ha 
decidido crear un modelo con una clase generadora con efectos principales, vale decir, se incluyen 
los efectos de las variables nse y consumo cultural. Hay que destacar que esta decisión debe estar 
sustentada en fundamentos teóricos que lleven al investigador a formular hipótesis con respecto a 
las relaciones entre las variables. En este caso, nos basamos en el Modelo Saturado, el cual, al ser 
usado con fines exploratorios, nos indica cuáles pueden ser los efectos más y menos relevantes. 
Para ingresar la clase generadora que hemos determinado utilizar, marcamos todos los factores y 
luego marcamos los efectos de segundo orden. Bajo Clase Generadora debiéramos ahora ver 
todas las combinaciones de dos variables. Ponemos Continuar. 
 
 
Ahora entramos Opciones: 
 
Visualización: 
 Frecuencias 
 Residuos 
 
Gráfico: 
 Residuos 
 Probabilidad normal 
 
Criterios del modelo: 
 Por defecto 
 
Las opciones asociadas a los modelos 
personalizados son Mostrar frecuencias y 
residuos. Por su parte, Mostrar gráficos de distribución de los residuos permite evaluar si el 
modelo se ajusta a los datos. También, Selección de criterios del modelo son opciones que 
permiten suprimir o modificar uno o más criterios de estimación de los parámetros. 
Ponemos Continuar. 
→ PEGAR 
Sintaxis: 
HILOGLINEAR nse(1 3) cc_rec(1 3) 
 /METHOD=BACKWARD 
 /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) 
 /PRINT=FREQ RESID 
 /PLOT=RESID NORMPROB 
 /DESIGN cc_rec*nse 
 
→ PLAY 
 
2.1 Resultados 
 
En general, las salidas son similares al caso anterior, por lo que no se mostrarán todas, sino las más 
relevantes. Vemos una diferencia al momento de definir la clase generadora que ya no está 
compuesta por las tres variables, sino por las interacciones de a dos variables. 
 
 
 
 
Luego revisamos los residuos. Vemos que ahora las frecuencias observadas y las esperadas no son 
iguales y que existen residuos. Esto se debe a que ahora ya no se incluyen todos los efectos. 
Interesa, sin embargo, que los residuos sean bajos (en la columna de Residuos típicos). Si los 
residuos estandarizados son mayores a 1.96, en términos absolutos, esto es, sin importar el signo 
(con un nivel de confianza del 95%) podemos afirmar que la diferencia entre lo esperado y lo 
observado es significativa. En este caso existen varios residuos estandarizados mayor a 1.96, por lo 
que es posible afirmar que la diferencia entre lo esperado y lo observado es significativa 
estadísticamente. 
Además, si comparamos los residuos de este modelo con los del modelo seleccionado como el 
mejor en el cálculo del modelo saturado, observamos que los niveles de error en las predicciones 
no difieren demasiado. 
 
Frecuencias y residuos de casillas 
Sexo Nivel 
socioeconómico 
consumo cultural 
recodificado 
Observado Esperado 
Residuos Residuos típicos Recuento % Recuento % 
Hombre 
dimen
sion1 
Bajo 
dimension
2 
Bajo 228.000 6.9% 267.500 8.1% -39.500 -2.415 
Medio 71.000 2.2% 96.000 2.9% -25.000 -2.552 
Alto 12.000 .4% 14.000 .4% -2.000 -.535 
Medio 
dimension
2 
Bajo 249.000 7.6% 283.500 8.6% -34.500 -2.049 
Medio 391.000 11.9% 469.000 14.3% -78.000 -3.602 
Alto 239.000 7.3% 272.500 8.3% -33.500 -2.029 
Medio Alto y 
Alto dimension
2 
Bajo 5.000 .2% 6.500 .2% -1.500 -.588 
Medio 69.000 2.1% 73.500 2.2% -4.500 -.525 
Alto 175.000 5.3% 160.000 4.9% 15.000 1.186 
Mujer 
dimen
sion1 
Bajo 
dimension
2 
Bajo 307.000 9.3% 267.500 8.1% 39.500 2.415 
Medio 121.000 3.7% 96.000 2.9% 25.000 2.552 
Alto 16.000 .5% 14.000 .4% 2.000 .535 
Medio 
dimension
2 
Bajo 318.000 9.7% 283.500 8.6% 34.500 2.049 
Medio 547.000 16.7% 469.000 14.3% 78.000 3.602 
Alto 306.000 9.3% 272.500 8.3% 33.500 2.029 
Medio Alto y 
Alto 
dimension
2 
Bajo 8.000 .2% 6.500 .2% 1.500 .588 
Medio 78.000 2.4% 73.500 2.2% 4.500 .525 
 
Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística 
que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante 
dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima 
verosimilitud. Valores de chi-cuadrado cercanos a cero indican poca diferencia entre valores 
observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las 
observaciones. 
Aquí constatamos el hecho de que el modelo no se ajusta bien a los datos. De hecho, los valores 
de Chi-cuadrado son muy distintos de cero y la probabilidad es 0, por lo tanto, menor a 0,05. 
Podemos afirmar que el modelo no se ajusta adecuadamente a los datos. El test de goodness on 
fit nos indica que la capacidad explicativa de este modelo no es relevante, dado que el nivel de 
significación es menor que 0.05. en ese sentido, es posible compararlo con el cálculo de la bondad 
de ajuste del modelo saturado, donde los valores de chi-cuadrado eran cercanos a 0 y el nivel de 
significación era 0.3, lo cual indica que la capacidad del modelo es relevante. 
 
 
 
 
En este punto es posible concluir que este nuevo modelo no se ajusta bien a la realidad, y que la 
relación entre las variables Sexo*nse*cc_rec es demasiado relevante como para ser eliminada del 
modelo. 
Para corroborar aquello, es 
preciso tener una noción gráfica 
de la relación entre las frecuencias 
observadas y esperadas, lo que 
permite evaluar gráficamente el 
ajuste del modelo. Esperamos que 
esta distribución se asemeje 
mucho a una recta. Así, en el 
primer gráfico, que compara la 
frecuencia observada y la 
esperada, es interesante ver que 
en ambos cuadrantes es posible 
apreciar una línea recta, lo cual 
indica que no existe mayor 
Alto 145.000 4.4% 160.000 4.9% -15.000 -1.186 
dispersión, la cual sí hay al mirar los cuadrantes que comparan los residuos con las frecuencias 
observadas y esperadas. 
El análisis de estos gráficos puede ser útil cuando estamos comparando distintas alternativas de 
modelos personalizados. En este caso, nos permite evaluar el modelo de manera gráfica, para 
compararlo con los resultados que obtuvimos en el modelo saturado. 
 
Los gráficos de residuos (distribución 
entre residuos y valores esperados) 
sólo se analizan para modelos no 
saturados. Dan cuenta de si los 
residuos se comportan de manera 
lineal y los otros si se ajustan a la 
curva normal. Se espera que sea así 
ya que indicaría que se distribuyen 
de acorde a la distribución de los 
datos que no hay un patrón extraño 
en su distribución. 
 
El gráfico que presenta el ajuste de 
los residuos a una distribución 
normal (Gráfico Q-Q de residuos 
tipificados) indica un alejamiento o acercamiento a ese tipo de distribución. En este caso, si bien 
los datos no se ajustan de manera perfecta a la distribución normal, se puede observar un ajuste 
adecuado de los datos expuestos. Por su parte, el gráfico sin tendencias no muestra una relación 
lineal perfecta, aunque tampocoes posible plantear que exista una distribución con excesiva 
dispersión.

Continuar navegando