Guía de trabajo SPSS_Modelos logarítmicos

•

Outros

0

Aprendiendo Juntos

13/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

104.289 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Guía de trabajo SPSS
Modelos Logarí tmicos Lineales

Material de ayudantía
Estadística IV – 2012
Facultad de Ciencias Sociales – Universidad de Chile

Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos
RESUMEN: MODELOS LOGARÍTMICOS LINEALES
El análisis logarítmico es una técnica multivariable de interdependencia que opera sobre la
información contenida en tablas multidimensionales de contingencia, cuyo objetivo es evaluar la
capacidad de un conjunto de variables categóricas, de explicar las frecuencias observadas en las
casillas de la tabla de carácter multidimensional que conforman.
Según la función de las variables, es posible distinguir dos tipos de modelos. El más común es el
modelo logarítmico general que estudia interdependencia en un conjunto de variables cualitativas.
Por su parte, los modelos logarítmicos predictivos estudian la dependencia de una variable
cualitativa respecto a una o más variables independientes cualitativas (donde se destacan los
modelos logit y probit).
Los modelos logarítmicos son una expresión del modelo lineal general. En ese sentido, la ecuación
está compuesta además por coeficientes, donde su valor indica la importancia del efecto de las
variables y sus categorías. En un modelo se pueden distinguir tres efectos relevantes: efecto
promedio, efectos principales y efectos de interacción. Así, el efecto promedio es la media general
del conjunto de observaciones; los efectos principales consideran la influencia de cada variable en
forma independiente; mientras que los efectos de interacción hacen referencia a la influencia de la
relación entre variables. Para efectos de la interpretación, interesan los efectos principales y de
interacción.
La construcción de un modelo logarítmico tiene dos aspectos. En primer lugar, determinar las
variables que componen el modelo. En segundo punto, decidir respecto a la importancia de éstas y
de las relaciones entre ellas (para ello se considera el efecto de las variables).
De acuerdo al modo en que se tratan los efectos, se debe hacer dos distinciones en los modelos
logarítmicos. Por una parte, distinguir entre modelos jerárquicos y no jerárquicos, y por otro,
diferenciar los modelos saturados de los no saturados. La distinción entre modelos jerárquicos y
no jerárquicos dice relación con el orden de inclusión de los efectos al modelo. La diferencia entre
modelos saturados y no saturados hace referencia a la inclusión de todos los efectos o sólo alguno
de ellos.
Usos:
 Analizar la interrelación a nivel multivariado de un conjunto de variables cualitativas.
 Evaluar la capacidad explicativa de las variables involucradas en el modelo, así también
como de las relaciones entre variables
 Jerarquizar variables, interacciones entre variables y variables según su nivel de influencia
en la estructura de los datos.
Condiciones:
a) Tamaño de la muestra: Más que un tamaño muestral, se requiere que haya por lo menos 30
casos por casilla.
b) Variables admitidas: categóricas (nominales / ordinales). Si se requiere trabajar con una
variable escalar, esta debe ser recodificada en una variable ordinal.
c) Independencia de las variables: Las variables deben ser independientes, pero deben estar
relacionadas entre sí (estas explican las casillas de la tabla).
d) Variables teóricamente relacionadas con un concepto central
e) Cantidad de variables: evitar trabajar con muchas variables con un número elevado de niveles o
categorías, ya que esto puede implicar que las casillas de la tabla presenten un número reducido
de observaciones, dificultando así la interpretación de los datos.

EJERCICIO DE APLICACIÓN

0. DISPONER LA BASE DE DATOS
La base de datos utilizada en el ejercicio es de la encuesta de consumo cultural de 2005, aplicada
en todo el territorio nacional, que consta de 4.603 casos.
Las preguntas que guía este ejercicio son ¿Cómo se estructura la relación entre el nivel
socioeconómico, sexo y consumo cultural? Así también, ¿Cuáles son los efectos más importantes
en esta relación? Y ¿Cuáles son los niveles de interacción que mejor explican esta relación?
0.a. Variables a utilizar
Utilizaremos tres variables categóricas: Sexo, Nivel socioeconómico y Consumo cultural. Cabe
recordar, que en Modelos Logarítmicos no trabajamos con una variable dependiente, ya que, en
estricto rigor, la variable dependiente son las frecuencias de las casillas de una tabla de
contingencia multidimensional. De este modo, es una técnica de interdependencia. Las variables y
sus respectivas categorías, son las siguientes:

 Sexo:
{1, Hombre}
{2, Mujer}

 Nivel socioeconómico
{1, Alto}
{2, Medio}
{3, Bajo}

 Consumo cultural.
Esta variable es un índice, cuyos puntajes fueron recodificados en tres categorías para la aplicación
de la técnica.
{1, Bajo}
{2, Medio}
{3, Alto}

0.b. Ponderación
En caso de trabajar con una base de datos que incluya una variable de ponderación, se debe
proceder a ponderar la base, para pasar a trabajar con los modelos logarítmicos.
En la pantalla: Datos → ponderar casos

Ponderar casos mediante
 Variable de frecuencia
Aquí se marca que los casos sean ponderados por la variable de ponderación, luego se presiona
Aceptar. Para asegurarnos de que se ponderó, vemos en la parte inferior derecha que salga que se
está ponderando:

En este caso, la base de datos no cuenta con una variable de ponderación, por lo que este proceso
no se llevará a cabo.
0.c. Prueba de Chi-cuadrado
Antes de aplicar un modelo logarítmico debe revisarse si las variables realmente se encuentran
asociadas. Para esto, se aplica la prueba de chi-cuadrado, la cual nos indica si existe o no
asociación entre variables categóricas. En el programa, se utiliza el comando Tabla de
Contingencia y se pide en las salidas la prueba de chi-cuadrado. Cabe destacar, que cuando
marcamos la opción Tabla de Contingencia, debemos especificar qué variables queremos cruzar.
Primero cruzamos las variables sexo y consumo cultural. Así, cuando marcamos la opción Tabla de
contingencia, ingresamos en las filas la variable sexo, y en las columnas la variable consumo
cultural.
En la pantalla: Analizar → Estadísticos descriptivos → Tablas de contingencia
Estadísticos
 Chi-cuadrado

Según la prueba de Chi cuadrado
podemos afirmar que las variables sexo
y consumo cultural se encuentran
asociadas, ya que la significación es
menor a 0,05.
Luego se cruzaron las variables Nivel
socioeconómico y Consumo cultural.
Las salidas obtenidas fueron las siguientes:

También en este caso el nivel de significación es menor a 0,05, por lo que podemos afirmar que
ambas variables se encuentran asociadas.
Observando estos resultados, podemos afirmar entonces que sí es pertinente aplicar un análisis
logarítmico.

1. MODELO LOGARÍTMICO SATURADO
Para responder al objetivo del análisis, primero se analizará el Modelo Saturado, que es el modelo
que contiene todos los efectos posibles, vale decir, los efectos de todas las variables y todas las
interacciones. En este caso, las frecuencias observadas son reproducidas, por lo que los residuos
son nulos. Se utilizará este modelo de modo exploratorio, para luego deducir qué modelo es más
adecuado para representar las relaciones de la tabla multidimensional de modo parsimonioso. En
un segundo paso, entonces, se eliminarán los efectos no influyentes y se calculará un modelo no
saturado.
Para obtener el modelo entramos en: Analizar → Loglineal → Selección de modelo
La ventana que aparece es la siguiente:

Construcción de modelos:
 Usar eliminación hacia atrás
 Número máximo de pasos y Probabilidad de eliminación por defecto

Bajo factores ingresamos las tres variables que están en nuestro análisis.Luego es necesario definir
el rango de cadauna de las variables. Esto debe hacerse para cada variable por separado, a no ser
que todas tengan el mismo rango, ya que en ese caso se puede definir el rango al mismo tiempo
para todas juntas. Marcamos la opción Definir Rango. La ventana que obtenemos es la siguiente:

Definimos el mínimo y el máximo de categorías de cada variable. En el caso de la variable Sexo, las
categorías son 1: Hombre y 2: Mujer, así es que ingresamos 1 como mínimo y 2 como máximo.
Luego marcamos continuar. Este procedimiento debemos seguirlo para cada una de las variables.
Lo importante es que luego de haber definido todos los rangos éste aparezca entre paréntesis al
lado de cada variable.
Luego el programa da la opción de ponderar los casos por alguna variable. En este caso no es
necesario ya que no se tiene una variable de ponderación. Esta opción es importante en caso de
tener “ceros estructurales”, que consisten en opciones que aparecen como imposibles (como un
hombre embarazado).
Se debe seleccionar la estrategia de construcción del modelo. Está la opción de Eliminación hacia
atrás, que entrega resultados de los distintos modelos posibles de construir al ir eliminando
sucesivamente los distintos efectos; y la opción Introducir en un solo paso, que muestra solo el
resultado del modelo saturado o del personalizado según corresponda. Utilizaremos la primera
opción que va ingresando sólo los efectos importantes en el modelo, y que de este modo nos
permite observar cuál es el mejor modelo. Dejamos los valores predeterminados con respecto al
máximo de pasos y la probabilidad para la eliminación.
Al entrar en Modelo obtenemos la siguiente ventana:

Se pueden obtener dos modelos, el saturado y uno personalizado (es decir, un modelo no
saturado determinado por el investigador). En el modelo saturado se incluyen por definición todos
los efectos (en este caso, efectos principales, de segundo y tercer orden). Por ahora utilizaremos el
modelo saturado, así es que no cambiamos nada en esta ventana.
Bajo Opciones obtenemos la siguiente ventana:
Visualización:
 Frecuencias
 Residuos

Mostrar para el modelo saturado:
 Estimaciones de los parámetros
 Tabla de asociación

Criterios del modelo:
 Por defecto

Las opciones asociadas al modelo saturado son
Mostrar frecuencias y residuos, y dado que en el modelo saturado las frecuencias esperadas serán
iguales a las observadas, no habrá residuos. Por su parte, Mostrar la estimación de los
parámetros, permite determinar los coeficientes de cada uno de los efectos. En tercer lugar,
Mostrar la tabla de asociaciones parciales es necesaria para determinar que efectos resultan
significativos para el modelo. Y por último, la Selección de criterios del modelo da opciones que
permiten suprimir o modificar uno o más criterios de estimación de los parámetros.
→ PEGAR
Sintaxis:
HILOGLINEAR nsexo1(1 2) nse(1 3) cc_rec(1 3)
/METHOD=BACKWARD
/CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5)
/PRINT=FREQ RESID ASSOCIATION ESTIM
/DESIGN.

→ PLAY

1.1 Resultados
La primera salida nos muestra un resumen de la
información analizada. Vemos que son 3285 casos
válidos, y si hubiésemos ponderados, aparecerían
también los casos ponderados. Existen 1318 casos
perdidos, y si bien es un valor alto, no impide que
continuemos con el análisis. Con respecto a los
factores vemos que la variable Sexo tiene 2
categorías, Nivel Socioeconómico 3 y Consumo
cultural 3.
Luego vemos la salida que plantea la clase
generadora (nsexo*nse*cc_rec). El criterio de
convergencia fue alcanzado en la iteración 1.
Además, vemos que la diferencia máxima entre lo
observado y lo esperado es 0.

Luego obtenemos la salida de las frecuencias observadas, esperadas y los residuos:

Frecuencias y residuos de casillas
Sexo Nivel
socioeconómico
consumo cultural
recodificado
Observado Esperado
Residuos
Residuos
típicos Recuento
a
% Recuento %
Hombre
dimen
sion1
Bajo
dimension2
Bajo 228.500 7.0% 228.500 7.0% .000 .000
Medio 71.500 2.2% 71.500 2.2% .000 .000
Alto 12.500 .4% 12.500 .4% .000 .000
Medio
dimension2
Bajo 249.500 7.6% 249.500 7.6% .000 .000
Medio 391.500 11.9% 391.500 11.9% .000 .000
Alto 239.500 7.3% 239.500 7.3% .000 .000
Medio Alto
y Alto dimension2
Bajo 5.500 .2% 5.500 .2% .000 .000
Medio 69.500 2.1% 69.500 2.1% .000 .000
Alto 175.500 5.3% 175.500 5.3% .000 .000
Mujer
dimen
sion1
Bajo
dimension2
Bajo 307.500 9.4% 307.500 9.4% .000 .000
Medio 121.500 3.7% 121.500 3.7% .000 .000
Alto 16.500 .5% 16.500 .5% .000 .000
Medio
dimension2
Bajo 318.500 9.7% 318.500 9.7% .000 .000
Medio 547.500 16.7% 547.500 16.7% .000 .000
Alto 306.500 9.3% 306.500 9.3% .000 .000
Medio Alto
y Alto dimension2
Bajo 8.500 .3% 8.500 .3% .000 .000
Medio 78.500 2.4% 78.500 2.4% .000 .000
Alto 145.500 4.4% 145.500 4.4% .000 .000
a. Para modelos saturados, se ha añadido .500 a todas las casillas observadas.

En el modelo saturado, por definición, al incluir todos los efectos posibles, lo esperado y lo
observado son idénticos, no existiendo residuos. Esta salida solamente tiene un interés teórico. Si
bien sabemos que el modelo saturado no presenta diferencias entre lo observado y lo esperado,
examinar los datos de esta tabla nos permite verificar que cada celda presenta una cantidad de
casos suficientes para el desarrollo del modelo (mas de 5). También observamos que se ha
agregado un valor de 0,5 a cada celda, para evitar problemas de estimación en caso de que alguna
celda presentara cero casos.
Luego obtenemos los estadísticos para la Prueba de Bondad de Ajuste:
Valores del estadístico Chi cuadrado cercanos a cero muestran poca diferencia entre lo esperado y
lo observado. En este caso, los valores de chi-cuadrado de Pearson y del chi-cuadrado de máxima
verosimilitud son iguales a 0. Podemos
afirmar por lo tanto que lo observado y lo
esperado se ajustan de manera perfecta.
En el caso del modelo saturado, esto no
presenta ninguna novedad.
Luego vemos la Prueba para los efectos de orden k o superior:

Esta salida nos otorga mucha más información en términos de ver qué modelo podemos construir
posteriormente, ya que en ella conseguimos analizar los efectos de manera aislada. Nos interesa
ver qué efectos explican mejor las frecuencias de la tabla, y cuáles no aportan mucho a dicha
explicación.
La prima parte de la tabla ve los efectos de orden K superiores. Esta prueba contrasta la hipótesis
nula de que los efectos de orden k o superior son iguales a cero. En la primera fila vemos los
efectos de primer orden (K=1) que son los efectos de todos los órdenes, tanto individuales, de
segundo y tercer orden; en la segunda los efectos de segundo orden y superior (esto es, los
efectos de segundo y tercer orden); y en la tercera, los efectos de tercer orden. Luego,
observamos la probabilidad asociada a los estadísticos Chi Cuadrado de Pearson y de máxima
verosimilitud. En los dos primeros casos ésta es menor al valor convencional de 0.05, menos en el
efecto de tercer orden. Podemos por lo tanto concluir que todos los efectos de primer y segundo
orden son estadísticamente significativos, no así el efecto de tercer orden.
Para completar el análisis de los efectos de orden K, es preciso ver la segunda parte de la tabla, la
Prueba para los efectos de orden K, donde se contrastan los efectos de cada orden específico. Se
analiza de manera análoga a la anterior. Los efectos producidos por los dos primeros órdenes
tienen probabilidades menores a 0.05, por lo que los tres órdenes son estadísticamente
significativos, no así el tercer orden. Esto quiere decir, que tanto los efectos de cada variable por
separado, o de a dos variables son relevantes para la predicción de las frecuencias.
Por ello, pasamos a ver la tabla de asociaciones parciales:

En esta salida podemosanalizar cada uno de los efectos de manera individual. Se verifican todos
los efectos, excepto el saturado (sexo1*nse*cc_rec). Todos los efectos tienen una probabilidad
menor a 0, excepto el efecto de la interacción entre sexo y consumo cultural, por lo que podemos
afirmar que todos los efectos son significativamente distintos de cero, menos la interacción entre
consumo cultural y sexo. Ahora bien, para llevar a cabo un análisis más acabado, revisamos el
valor de Chi Cuadrado. Valores altos implican una mayor relevancia en el modelo, por lo que
revisamos este dato, para así poder crear a continuación un modelo de independencia que incluya
solamente los factores más relevantes. En este caso, el efecto más importante lo tiene la variable
Nivel socioeconómico, seguido del efecto nse*cc_rec, la variable Consumo Cultural y Sexo. El
efecto con menor relevancia es Sexo*Consumo cultural.
A continuación se observa la Estimación de los Parámetros:

Estimaciones de los parámetros
Efecto Parámetro
Estimación Error típico Z Sig.
Intervalo de confianza al 95%
Límite inferior Límite superior
nsexo1*nse*cc_rec
dimension1
1 .071 .080 .887 .375 -.085 .227
2 -.044 .066 -.673 .501 -.173 .085
3 .051 .070 .721 .471 -.087 .188
4 .007 .049 .137 .891 -.090 .103
nsexo1*nse
dimension1
1 -.056 .057 -.994 .320 -.167 .055
2 -.010 .043 -.233 .816 -.093 .073
nsexo1*cc_rec
dimension1
1 -.035 .067 -.518 .604 -.167 .097
2 -.037 .046 -.796 .426 -.127 .054
nse*cc_rec
dimension1
1 1.545 .080 19.423 .000 1.390 1.701
2 -.110 .066 -1.673 .094 -.239 .019
3 .073 .070 1.042 .297 -.064 .210
4 -.041 .049 -.833 .405 -.138 .056
nsexo1 dimension1 1 -.128 .040 -3.164 .002 -.207 -.049
nse
dimension1
1 -.347 .057 -6.121 .000 -.458 -.236
2 1.187 .043 27.927 .000 1.104 1.270
cc_rec
dimension1
1 -.225 .067 -3.342 .001 -.357 -.093
2 .385 .046 8.344 .000 .295 .475
Lo primero que hay que señalar, es que para cada variable se calculan k-1 coeficientes, donde k es
el número de categorías. Por ejemplo, en el caso de la variable Sexo, que tiene dos categorías, se
calcula 1 coeficiente. En el caso de las interacciones, el número de coeficientes es igual al producto
entre el número de categorías menos uno de cada una de las variables participantes de la
interacción.
La estimación (de los coeficientes) permite observar qué efectos son más importantes para
explicar las frecuencias de la tabla. Valores altos en los coeficientes implican un efecto importante.
Estos datos se corresponden con los cálculos del chi-cuadrado (por ejemplo, encontramos los
coeficientes más altos en los efectos de la variable Nivel Socioeconómico y de la interacción
nse*cc_rec, que de hecho, eran las que tenían los mayores chi-cuadrado). En cuanto al signo de los
coeficientes, si éste es positivo o negativo, la frecuencia de la casilla correspondiente a la categoría
que el coeficiente representa, será mayor (+) o menor (-) que la que se encontraría en la casilla en
el caso de que todas las categorías de la variable tuvieran un valor constante. En el caso de la
interacción, esto se interpreta como que la frecuencia observada será mayor (+) o menor (-) que la
frecuencia esperada en caso de que las variables fueran independientes.
Los valores estandarizados permiten evaluar la importancia de los efectos. Valores absolutos
superiores a 1,96 (asociado a un nivel de confianza del 95%) son significativamente distintos de
cero. En este caso se observan bastantes coeficientes con valores absolutos menores a 1,96
(destacados en azul). Esto viene a corroborar los resultados obtenidos con chi-cuadrado y la
observación de la estimación de los coeficientes.
Por último, observamos el intervalo de confianza para evaluar si se pueden o no inferir los
resultados a la población origen de la muestra. Interesa aquí observar si los intervalos incluyen el
valor cero (si van de un número negativo a uno positivo o viceversa). En intervalos que incluyen el
valor cero, se acepta la hipótesis nula de que el coeficiente en la población es cero, vale decir, que
no tiene efecto. En este caso, solamente en el caso del efecto de primer orden del efecto entre las
variables consumo cultural y nivel socioeconómico encontramos un coeficiente que no incluye en
su intervalo el valor cero (en los efectos principales, esto es, los efectos de las variables, tampoco
se incluye el cero, pero nos interesa ver los efectos de las interacciones entre variables).
Luego el programa empieza a ingresar efectos paso por paso:
Resumen de los pasos
Paso
a

Efectos Chi-cuadrado
c
gl Sig.
Número de
iteraciones
0 Clase generadora
b
nsexo1*nse*cc_rec .000 0 .
Efecto eliminado 1 nsexo1*nse*cc_rec 2.428 4 .658 5
1 Clase generadora
b
nsexo1*nse, nsexo1*cc_rec,
nse*cc_rec
2.428 4 .658

Efecto eliminado 1 nsexo1*nse 11.067 2 .004 2
2 nsexo1*cc_rec 3.873 2 .144 2
3 nse*cc_rec 996.376 4 .000 2
2 Clase generadora
b
nsexo1*nse, nse*cc_rec 6.300 6 .390
Efecto eliminado 1 nsexo1*nse 15.405 2 .000 2
2 nse*cc_rec 1000.714 4 .000 2
3 Clase generadora
b
nsexo1*nse, nse*cc_rec 6.300 6 .390
a. En cada paso, se elimina el efecto con mayor nivel de significación para el Cambio en la razón de
verosimilitudes, siempre que el nivel de significación sea mayor que .050.
b. Se muestran los estadísticos para el mejor modelo en cada paso después del paso 0.
c. Para 'Efecto eliminado', éste es el cambio en la Chi-cuadrado después de eliminar el efecto del modelo.

El resumen de pasos corresponde a la estrategia de eliminación hacia atrás para la identificación
del mejor modelo. El mejor modelo será aquel que no es el saturado y que con menos efectos
logra una explicación significativa. En cada paso se va mostrando hasta donde se logra una mejora
en el modelo, si un efecto de orden inferior es eliminado.
Siempre se logrará una mejora cuando el nivel de significación que se obtiene al eliminar el efecto
inferior es superior a 0,05. En el último paso se muestra el mejor modelo, es decir aquel que no
puede seguir siendo mejorado y que con menos efectos logra un resultado más efectivo.
Frecuencias y residuos de casillas
Sexo Nivel
socioeconómico
consumo
cultural
Observado Esperado
Residuos
Residuos
típicos Recuento % Recuento %
Hombre
dimension1
Bajo
dimension2
Bajo 228.000 6.9% 220.377 6.7% 7.623 .513
Medio 71.000 2.2% 79.089 2.4% -8.089 -.910
Alto 12.000 .4% 11.534 .4% .466 .137
Medio
dimension2
Bajo 249.000 7.6% 243.119 7.4% 5.881 .377
Medio 391.000 11.9% 402.196 12.2% -11.196 -.558
Alto 239.000 7.3% 233.685 7.1% 5.315 .348
Medio Alto
y Alto
dimension2
Bajo 5.000 .2% 6.744 .2% -1.744 -.671
Medio 69.000 2.1% 76.256 2.3% -7.256 -.831
Alto 175.000 5.3% 166.000 5.1% 9.000 .699
Mujer
dimension1
Bajo
dimension2
Bajo 307.000 9.3% 314.623 9.6% -7.623 -.430
Medio 121.000 3.7% 112.911 3.4% 8.089 .761
Alto 16.000 .5% 16.466 .5% -.466 -.115
Medio
dimension2
Bajo 318.000 9.7% 323.881 9.9% -5.881 -.327
Medio 547.000 16.7% 535.804 16.3% 11.196 .484
Alto 306.000 9.3% 311.315 9.5% -5.315 -.301
Medio Alto
y Alto
dimension2
Bajo 8.000 .2% 6.256 .2% 1.744 .697
Medio 78.000 2.4% 70.744 2.2% 7.256 .863
Alto 145.000 4.4% 154.000 4.7% -9.000 -.725

La tabla muestra la estimación de las frecuencias esperadas, según el modelo antes seleccionado
como el mejor. El análisis de los residuos nos permite observar que celdas de la tabla logran ser
mejor explicadas y cuales por el contrario presentan mas problemas en su predicción.

Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística
que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante
dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima
verosimilitud. Valores de chi-cuadrado cercanos acero indican poca diferencia entre valores
observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las
observaciones. Aquí constatamos el hecho de que el modelo se ajusta bien a los datos: los valores
de Chi-cuadrado no son muy distintos de cero y la probabilidad es mayor a 0,05. Podemos afirmar
que el modelo se ajusta adecuadamente a los datos y que la capacidad explicativa de este modelo
es relevante, dado que el nivel de significación es mayor a 0.05.

2. MODELO LOGARÍTMICO NO SATURADO
Luego de haber analizado el modelo saturado y de haber revisado qué efectos son los más
importantes, procedemos a generar un modelo logarítmico no saturado. El procedimiento es el
mismo, excepto por que en la ventana Modelo se elegirá ahora la opción Personalizado:

Bajo Factores vemos las tres variables. Luego vemos una ventana que permite incorporar efectos
de Interacción, Efectos Principales y Efectos de distintos órdenes (2, 3, 4 y 5). En este caso, se ha
decidido crear un modelo con una clase generadora con efectos principales, vale decir, se incluyen
los efectos de las variables nse y consumo cultural. Hay que destacar que esta decisión debe estar
sustentada en fundamentos teóricos que lleven al investigador a formular hipótesis con respecto a
las relaciones entre las variables. En este caso, nos basamos en el Modelo Saturado, el cual, al ser
usado con fines exploratorios, nos indica cuáles pueden ser los efectos más y menos relevantes.
Para ingresar la clase generadora que hemos determinado utilizar, marcamos todos los factores y
luego marcamos los efectos de segundo orden. Bajo Clase Generadora debiéramos ahora ver
todas las combinaciones de dos variables. Ponemos Continuar.

Ahora entramos Opciones:

Visualización:
 Frecuencias
 Residuos

Gráfico:
 Residuos
 Probabilidad normal

Criterios del modelo:
 Por defecto

Las opciones asociadas a los modelos
personalizados son Mostrar frecuencias y
residuos. Por su parte, Mostrar gráficos de distribución de los residuos permite evaluar si el
modelo se ajusta a los datos. También, Selección de criterios del modelo son opciones que
permiten suprimir o modificar uno o más criterios de estimación de los parámetros.
Ponemos Continuar.
→ PEGAR
Sintaxis:
HILOGLINEAR nse(1 3) cc_rec(1 3)
/METHOD=BACKWARD
/CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5)
/PRINT=FREQ RESID
/PLOT=RESID NORMPROB
/DESIGN cc_rec*nse

→ PLAY

2.1 Resultados

En general, las salidas son similares al caso anterior, por lo que no se mostrarán todas, sino las más
relevantes. Vemos una diferencia al momento de definir la clase generadora que ya no está
compuesta por las tres variables, sino por las interacciones de a dos variables.

Luego revisamos los residuos. Vemos que ahora las frecuencias observadas y las esperadas no son
iguales y que existen residuos. Esto se debe a que ahora ya no se incluyen todos los efectos.
Interesa, sin embargo, que los residuos sean bajos (en la columna de Residuos típicos). Si los
residuos estandarizados son mayores a 1.96, en términos absolutos, esto es, sin importar el signo
(con un nivel de confianza del 95%) podemos afirmar que la diferencia entre lo esperado y lo
observado es significativa. En este caso existen varios residuos estandarizados mayor a 1.96, por lo
que es posible afirmar que la diferencia entre lo esperado y lo observado es significativa
estadísticamente.
Además, si comparamos los residuos de este modelo con los del modelo seleccionado como el
mejor en el cálculo del modelo saturado, observamos que los niveles de error en las predicciones
no difieren demasiado.

Frecuencias y residuos de casillas
Sexo Nivel
socioeconómico
consumo cultural
recodificado
Observado Esperado
Residuos Residuos típicos Recuento % Recuento %
Hombre
dimen
sion1
Bajo
dimension
2
Bajo 228.000 6.9% 267.500 8.1% -39.500 -2.415
Medio 71.000 2.2% 96.000 2.9% -25.000 -2.552
Alto 12.000 .4% 14.000 .4% -2.000 -.535
Medio
dimension
2
Bajo 249.000 7.6% 283.500 8.6% -34.500 -2.049
Medio 391.000 11.9% 469.000 14.3% -78.000 -3.602
Alto 239.000 7.3% 272.500 8.3% -33.500 -2.029
Medio Alto y
Alto dimension
2
Bajo 5.000 .2% 6.500 .2% -1.500 -.588
Medio 69.000 2.1% 73.500 2.2% -4.500 -.525
Alto 175.000 5.3% 160.000 4.9% 15.000 1.186
Mujer
dimen
sion1
Bajo
dimension
2
Bajo 307.000 9.3% 267.500 8.1% 39.500 2.415
Medio 121.000 3.7% 96.000 2.9% 25.000 2.552
Alto 16.000 .5% 14.000 .4% 2.000 .535
Medio
dimension
2
Bajo 318.000 9.7% 283.500 8.6% 34.500 2.049
Medio 547.000 16.7% 469.000 14.3% 78.000 3.602
Alto 306.000 9.3% 272.500 8.3% 33.500 2.029
Medio Alto y
Alto
dimension
2
Bajo 8.000 .2% 6.500 .2% 1.500 .588
Medio 78.000 2.4% 73.500 2.2% 4.500 .525

Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística
que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante
dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima
verosimilitud. Valores de chi-cuadrado cercanos a cero indican poca diferencia entre valores
observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las
observaciones.
Aquí constatamos el hecho de que el modelo no se ajusta bien a los datos. De hecho, los valores
de Chi-cuadrado son muy distintos de cero y la probabilidad es 0, por lo tanto, menor a 0,05.
Podemos afirmar que el modelo no se ajusta adecuadamente a los datos. El test de goodness on
fit nos indica que la capacidad explicativa de este modelo no es relevante, dado que el nivel de
significación es menor que 0.05. en ese sentido, es posible compararlo con el cálculo de la bondad
de ajuste del modelo saturado, donde los valores de chi-cuadrado eran cercanos a 0 y el nivel de
significación era 0.3, lo cual indica que la capacidad del modelo es relevante.

En este punto es posible concluir que este nuevo modelo no se ajusta bien a la realidad, y que la
relación entre las variables Sexo*nse*cc_rec es demasiado relevante como para ser eliminada del
modelo.
Para corroborar aquello, es
preciso tener una noción gráfica
de la relación entre las frecuencias
observadas y esperadas, lo que
permite evaluar gráficamente el
ajuste del modelo. Esperamos que
esta distribución se asemeje
mucho a una recta. Así, en el
primer gráfico, que compara la
frecuencia observada y la
esperada, es interesante ver que
en ambos cuadrantes es posible
apreciar una línea recta, lo cual
indica que no existe mayor
Alto 145.000 4.4% 160.000 4.9% -15.000 -1.186
dispersión, la cual sí hay al mirar los cuadrantes que comparan los residuos con las frecuencias
observadas y esperadas.
El análisis de estos gráficos puede ser útil cuando estamos comparando distintas alternativas de
modelos personalizados. En este caso, nos permite evaluar el modelo de manera gráfica, para
compararlo con los resultados que obtuvimos en el modelo saturado.

Los gráficos de residuos (distribución
entre residuos y valores esperados)
sólo se analizan para modelos no
saturados. Dan cuenta de si los
residuos se comportan de manera
lineal y los otros si se ajustan a la
curva normal. Se espera que sea así
ya que indicaría que se distribuyen
de acorde a la distribución de los
datos que no hay un patrón extraño
en su distribución.

El gráfico que presenta el ajuste de
los residuos a una distribución
normal (Gráfico Q-Q de residuos
tipificados) indica un alejamiento o acercamiento a ese tipo de distribución. En este caso, si bien
los datos no se ajustan de manera perfecta a la distribución normal, se puede observar un ajuste
adecuado de los datos expuestos. Por su parte, el gráfico sin tendencias no muestra una relación
lineal perfecta, aunque tampocoes posible plantear que exista una distribución con excesiva
dispersión.