Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Guía de trabajo SPSS Modelos Logarí tmicos Lineales Material de ayudantía Estadística IV – 2012 Facultad de Ciencias Sociales – Universidad de Chile Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos RESUMEN: MODELOS LOGARÍTMICOS LINEALES El análisis logarítmico es una técnica multivariable de interdependencia que opera sobre la información contenida en tablas multidimensionales de contingencia, cuyo objetivo es evaluar la capacidad de un conjunto de variables categóricas, de explicar las frecuencias observadas en las casillas de la tabla de carácter multidimensional que conforman. Según la función de las variables, es posible distinguir dos tipos de modelos. El más común es el modelo logarítmico general que estudia interdependencia en un conjunto de variables cualitativas. Por su parte, los modelos logarítmicos predictivos estudian la dependencia de una variable cualitativa respecto a una o más variables independientes cualitativas (donde se destacan los modelos logit y probit). Los modelos logarítmicos son una expresión del modelo lineal general. En ese sentido, la ecuación está compuesta además por coeficientes, donde su valor indica la importancia del efecto de las variables y sus categorías. En un modelo se pueden distinguir tres efectos relevantes: efecto promedio, efectos principales y efectos de interacción. Así, el efecto promedio es la media general del conjunto de observaciones; los efectos principales consideran la influencia de cada variable en forma independiente; mientras que los efectos de interacción hacen referencia a la influencia de la relación entre variables. Para efectos de la interpretación, interesan los efectos principales y de interacción. La construcción de un modelo logarítmico tiene dos aspectos. En primer lugar, determinar las variables que componen el modelo. En segundo punto, decidir respecto a la importancia de éstas y de las relaciones entre ellas (para ello se considera el efecto de las variables). De acuerdo al modo en que se tratan los efectos, se debe hacer dos distinciones en los modelos logarítmicos. Por una parte, distinguir entre modelos jerárquicos y no jerárquicos, y por otro, diferenciar los modelos saturados de los no saturados. La distinción entre modelos jerárquicos y no jerárquicos dice relación con el orden de inclusión de los efectos al modelo. La diferencia entre modelos saturados y no saturados hace referencia a la inclusión de todos los efectos o sólo alguno de ellos. Usos: Analizar la interrelación a nivel multivariado de un conjunto de variables cualitativas. Evaluar la capacidad explicativa de las variables involucradas en el modelo, así también como de las relaciones entre variables Jerarquizar variables, interacciones entre variables y variables según su nivel de influencia en la estructura de los datos. Condiciones: a) Tamaño de la muestra: Más que un tamaño muestral, se requiere que haya por lo menos 30 casos por casilla. b) Variables admitidas: categóricas (nominales / ordinales). Si se requiere trabajar con una variable escalar, esta debe ser recodificada en una variable ordinal. c) Independencia de las variables: Las variables deben ser independientes, pero deben estar relacionadas entre sí (estas explican las casillas de la tabla). d) Variables teóricamente relacionadas con un concepto central e) Cantidad de variables: evitar trabajar con muchas variables con un número elevado de niveles o categorías, ya que esto puede implicar que las casillas de la tabla presenten un número reducido de observaciones, dificultando así la interpretación de los datos. EJERCICIO DE APLICACIÓN 0. DISPONER LA BASE DE DATOS La base de datos utilizada en el ejercicio es de la encuesta de consumo cultural de 2005, aplicada en todo el territorio nacional, que consta de 4.603 casos. Las preguntas que guía este ejercicio son ¿Cómo se estructura la relación entre el nivel socioeconómico, sexo y consumo cultural? Así también, ¿Cuáles son los efectos más importantes en esta relación? Y ¿Cuáles son los niveles de interacción que mejor explican esta relación? 0.a. Variables a utilizar Utilizaremos tres variables categóricas: Sexo, Nivel socioeconómico y Consumo cultural. Cabe recordar, que en Modelos Logarítmicos no trabajamos con una variable dependiente, ya que, en estricto rigor, la variable dependiente son las frecuencias de las casillas de una tabla de contingencia multidimensional. De este modo, es una técnica de interdependencia. Las variables y sus respectivas categorías, son las siguientes: Sexo: {1, Hombre} {2, Mujer} Nivel socioeconómico {1, Alto} {2, Medio} {3, Bajo} Consumo cultural. Esta variable es un índice, cuyos puntajes fueron recodificados en tres categorías para la aplicación de la técnica. {1, Bajo} {2, Medio} {3, Alto} 0.b. Ponderación En caso de trabajar con una base de datos que incluya una variable de ponderación, se debe proceder a ponderar la base, para pasar a trabajar con los modelos logarítmicos. En la pantalla: Datos → ponderar casos Ponderar casos mediante Variable de frecuencia Aquí se marca que los casos sean ponderados por la variable de ponderación, luego se presiona Aceptar. Para asegurarnos de que se ponderó, vemos en la parte inferior derecha que salga que se está ponderando: En este caso, la base de datos no cuenta con una variable de ponderación, por lo que este proceso no se llevará a cabo. 0.c. Prueba de Chi-cuadrado Antes de aplicar un modelo logarítmico debe revisarse si las variables realmente se encuentran asociadas. Para esto, se aplica la prueba de chi-cuadrado, la cual nos indica si existe o no asociación entre variables categóricas. En el programa, se utiliza el comando Tabla de Contingencia y se pide en las salidas la prueba de chi-cuadrado. Cabe destacar, que cuando marcamos la opción Tabla de Contingencia, debemos especificar qué variables queremos cruzar. Primero cruzamos las variables sexo y consumo cultural. Así, cuando marcamos la opción Tabla de contingencia, ingresamos en las filas la variable sexo, y en las columnas la variable consumo cultural. En la pantalla: Analizar → Estadísticos descriptivos → Tablas de contingencia Estadísticos Chi-cuadrado Según la prueba de Chi cuadrado podemos afirmar que las variables sexo y consumo cultural se encuentran asociadas, ya que la significación es menor a 0,05. Luego se cruzaron las variables Nivel socioeconómico y Consumo cultural. Las salidas obtenidas fueron las siguientes: También en este caso el nivel de significación es menor a 0,05, por lo que podemos afirmar que ambas variables se encuentran asociadas. Observando estos resultados, podemos afirmar entonces que sí es pertinente aplicar un análisis logarítmico. 1. MODELO LOGARÍTMICO SATURADO Para responder al objetivo del análisis, primero se analizará el Modelo Saturado, que es el modelo que contiene todos los efectos posibles, vale decir, los efectos de todas las variables y todas las interacciones. En este caso, las frecuencias observadas son reproducidas, por lo que los residuos son nulos. Se utilizará este modelo de modo exploratorio, para luego deducir qué modelo es más adecuado para representar las relaciones de la tabla multidimensional de modo parsimonioso. En un segundo paso, entonces, se eliminarán los efectos no influyentes y se calculará un modelo no saturado. Para obtener el modelo entramos en: Analizar → Loglineal → Selección de modelo La ventana que aparece es la siguiente: Construcción de modelos: Usar eliminación hacia atrás Número máximo de pasos y Probabilidad de eliminación por defecto Bajo factores ingresamos las tres variables que están en nuestro análisis.Luego es necesario definir el rango de cadauna de las variables. Esto debe hacerse para cada variable por separado, a no ser que todas tengan el mismo rango, ya que en ese caso se puede definir el rango al mismo tiempo para todas juntas. Marcamos la opción Definir Rango. La ventana que obtenemos es la siguiente: Definimos el mínimo y el máximo de categorías de cada variable. En el caso de la variable Sexo, las categorías son 1: Hombre y 2: Mujer, así es que ingresamos 1 como mínimo y 2 como máximo. Luego marcamos continuar. Este procedimiento debemos seguirlo para cada una de las variables. Lo importante es que luego de haber definido todos los rangos éste aparezca entre paréntesis al lado de cada variable. Luego el programa da la opción de ponderar los casos por alguna variable. En este caso no es necesario ya que no se tiene una variable de ponderación. Esta opción es importante en caso de tener “ceros estructurales”, que consisten en opciones que aparecen como imposibles (como un hombre embarazado). Se debe seleccionar la estrategia de construcción del modelo. Está la opción de Eliminación hacia atrás, que entrega resultados de los distintos modelos posibles de construir al ir eliminando sucesivamente los distintos efectos; y la opción Introducir en un solo paso, que muestra solo el resultado del modelo saturado o del personalizado según corresponda. Utilizaremos la primera opción que va ingresando sólo los efectos importantes en el modelo, y que de este modo nos permite observar cuál es el mejor modelo. Dejamos los valores predeterminados con respecto al máximo de pasos y la probabilidad para la eliminación. Al entrar en Modelo obtenemos la siguiente ventana: Se pueden obtener dos modelos, el saturado y uno personalizado (es decir, un modelo no saturado determinado por el investigador). En el modelo saturado se incluyen por definición todos los efectos (en este caso, efectos principales, de segundo y tercer orden). Por ahora utilizaremos el modelo saturado, así es que no cambiamos nada en esta ventana. Bajo Opciones obtenemos la siguiente ventana: Visualización: Frecuencias Residuos Mostrar para el modelo saturado: Estimaciones de los parámetros Tabla de asociación Criterios del modelo: Por defecto Las opciones asociadas al modelo saturado son Mostrar frecuencias y residuos, y dado que en el modelo saturado las frecuencias esperadas serán iguales a las observadas, no habrá residuos. Por su parte, Mostrar la estimación de los parámetros, permite determinar los coeficientes de cada uno de los efectos. En tercer lugar, Mostrar la tabla de asociaciones parciales es necesaria para determinar que efectos resultan significativos para el modelo. Y por último, la Selección de criterios del modelo da opciones que permiten suprimir o modificar uno o más criterios de estimación de los parámetros. → PEGAR Sintaxis: HILOGLINEAR nsexo1(1 2) nse(1 3) cc_rec(1 3) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ASSOCIATION ESTIM /DESIGN. → PLAY 1.1 Resultados La primera salida nos muestra un resumen de la información analizada. Vemos que son 3285 casos válidos, y si hubiésemos ponderados, aparecerían también los casos ponderados. Existen 1318 casos perdidos, y si bien es un valor alto, no impide que continuemos con el análisis. Con respecto a los factores vemos que la variable Sexo tiene 2 categorías, Nivel Socioeconómico 3 y Consumo cultural 3. Luego vemos la salida que plantea la clase generadora (nsexo*nse*cc_rec). El criterio de convergencia fue alcanzado en la iteración 1. Además, vemos que la diferencia máxima entre lo observado y lo esperado es 0. Luego obtenemos la salida de las frecuencias observadas, esperadas y los residuos: Frecuencias y residuos de casillas Sexo Nivel socioeconómico consumo cultural recodificado Observado Esperado Residuos Residuos típicos Recuento a % Recuento % Hombre dimen sion1 Bajo dimension2 Bajo 228.500 7.0% 228.500 7.0% .000 .000 Medio 71.500 2.2% 71.500 2.2% .000 .000 Alto 12.500 .4% 12.500 .4% .000 .000 Medio dimension2 Bajo 249.500 7.6% 249.500 7.6% .000 .000 Medio 391.500 11.9% 391.500 11.9% .000 .000 Alto 239.500 7.3% 239.500 7.3% .000 .000 Medio Alto y Alto dimension2 Bajo 5.500 .2% 5.500 .2% .000 .000 Medio 69.500 2.1% 69.500 2.1% .000 .000 Alto 175.500 5.3% 175.500 5.3% .000 .000 Mujer dimen sion1 Bajo dimension2 Bajo 307.500 9.4% 307.500 9.4% .000 .000 Medio 121.500 3.7% 121.500 3.7% .000 .000 Alto 16.500 .5% 16.500 .5% .000 .000 Medio dimension2 Bajo 318.500 9.7% 318.500 9.7% .000 .000 Medio 547.500 16.7% 547.500 16.7% .000 .000 Alto 306.500 9.3% 306.500 9.3% .000 .000 Medio Alto y Alto dimension2 Bajo 8.500 .3% 8.500 .3% .000 .000 Medio 78.500 2.4% 78.500 2.4% .000 .000 Alto 145.500 4.4% 145.500 4.4% .000 .000 a. Para modelos saturados, se ha añadido .500 a todas las casillas observadas. En el modelo saturado, por definición, al incluir todos los efectos posibles, lo esperado y lo observado son idénticos, no existiendo residuos. Esta salida solamente tiene un interés teórico. Si bien sabemos que el modelo saturado no presenta diferencias entre lo observado y lo esperado, examinar los datos de esta tabla nos permite verificar que cada celda presenta una cantidad de casos suficientes para el desarrollo del modelo (mas de 5). También observamos que se ha agregado un valor de 0,5 a cada celda, para evitar problemas de estimación en caso de que alguna celda presentara cero casos. Luego obtenemos los estadísticos para la Prueba de Bondad de Ajuste: Valores del estadístico Chi cuadrado cercanos a cero muestran poca diferencia entre lo esperado y lo observado. En este caso, los valores de chi-cuadrado de Pearson y del chi-cuadrado de máxima verosimilitud son iguales a 0. Podemos afirmar por lo tanto que lo observado y lo esperado se ajustan de manera perfecta. En el caso del modelo saturado, esto no presenta ninguna novedad. Luego vemos la Prueba para los efectos de orden k o superior: Esta salida nos otorga mucha más información en términos de ver qué modelo podemos construir posteriormente, ya que en ella conseguimos analizar los efectos de manera aislada. Nos interesa ver qué efectos explican mejor las frecuencias de la tabla, y cuáles no aportan mucho a dicha explicación. La prima parte de la tabla ve los efectos de orden K superiores. Esta prueba contrasta la hipótesis nula de que los efectos de orden k o superior son iguales a cero. En la primera fila vemos los efectos de primer orden (K=1) que son los efectos de todos los órdenes, tanto individuales, de segundo y tercer orden; en la segunda los efectos de segundo orden y superior (esto es, los efectos de segundo y tercer orden); y en la tercera, los efectos de tercer orden. Luego, observamos la probabilidad asociada a los estadísticos Chi Cuadrado de Pearson y de máxima verosimilitud. En los dos primeros casos ésta es menor al valor convencional de 0.05, menos en el efecto de tercer orden. Podemos por lo tanto concluir que todos los efectos de primer y segundo orden son estadísticamente significativos, no así el efecto de tercer orden. Para completar el análisis de los efectos de orden K, es preciso ver la segunda parte de la tabla, la Prueba para los efectos de orden K, donde se contrastan los efectos de cada orden específico. Se analiza de manera análoga a la anterior. Los efectos producidos por los dos primeros órdenes tienen probabilidades menores a 0.05, por lo que los tres órdenes son estadísticamente significativos, no así el tercer orden. Esto quiere decir, que tanto los efectos de cada variable por separado, o de a dos variables son relevantes para la predicción de las frecuencias. Por ello, pasamos a ver la tabla de asociaciones parciales: En esta salida podemosanalizar cada uno de los efectos de manera individual. Se verifican todos los efectos, excepto el saturado (sexo1*nse*cc_rec). Todos los efectos tienen una probabilidad menor a 0, excepto el efecto de la interacción entre sexo y consumo cultural, por lo que podemos afirmar que todos los efectos son significativamente distintos de cero, menos la interacción entre consumo cultural y sexo. Ahora bien, para llevar a cabo un análisis más acabado, revisamos el valor de Chi Cuadrado. Valores altos implican una mayor relevancia en el modelo, por lo que revisamos este dato, para así poder crear a continuación un modelo de independencia que incluya solamente los factores más relevantes. En este caso, el efecto más importante lo tiene la variable Nivel socioeconómico, seguido del efecto nse*cc_rec, la variable Consumo Cultural y Sexo. El efecto con menor relevancia es Sexo*Consumo cultural. A continuación se observa la Estimación de los Parámetros: Estimaciones de los parámetros Efecto Parámetro Estimación Error típico Z Sig. Intervalo de confianza al 95% Límite inferior Límite superior nsexo1*nse*cc_rec dimension1 1 .071 .080 .887 .375 -.085 .227 2 -.044 .066 -.673 .501 -.173 .085 3 .051 .070 .721 .471 -.087 .188 4 .007 .049 .137 .891 -.090 .103 nsexo1*nse dimension1 1 -.056 .057 -.994 .320 -.167 .055 2 -.010 .043 -.233 .816 -.093 .073 nsexo1*cc_rec dimension1 1 -.035 .067 -.518 .604 -.167 .097 2 -.037 .046 -.796 .426 -.127 .054 nse*cc_rec dimension1 1 1.545 .080 19.423 .000 1.390 1.701 2 -.110 .066 -1.673 .094 -.239 .019 3 .073 .070 1.042 .297 -.064 .210 4 -.041 .049 -.833 .405 -.138 .056 nsexo1 dimension1 1 -.128 .040 -3.164 .002 -.207 -.049 nse dimension1 1 -.347 .057 -6.121 .000 -.458 -.236 2 1.187 .043 27.927 .000 1.104 1.270 cc_rec dimension1 1 -.225 .067 -3.342 .001 -.357 -.093 2 .385 .046 8.344 .000 .295 .475 Lo primero que hay que señalar, es que para cada variable se calculan k-1 coeficientes, donde k es el número de categorías. Por ejemplo, en el caso de la variable Sexo, que tiene dos categorías, se calcula 1 coeficiente. En el caso de las interacciones, el número de coeficientes es igual al producto entre el número de categorías menos uno de cada una de las variables participantes de la interacción. La estimación (de los coeficientes) permite observar qué efectos son más importantes para explicar las frecuencias de la tabla. Valores altos en los coeficientes implican un efecto importante. Estos datos se corresponden con los cálculos del chi-cuadrado (por ejemplo, encontramos los coeficientes más altos en los efectos de la variable Nivel Socioeconómico y de la interacción nse*cc_rec, que de hecho, eran las que tenían los mayores chi-cuadrado). En cuanto al signo de los coeficientes, si éste es positivo o negativo, la frecuencia de la casilla correspondiente a la categoría que el coeficiente representa, será mayor (+) o menor (-) que la que se encontraría en la casilla en el caso de que todas las categorías de la variable tuvieran un valor constante. En el caso de la interacción, esto se interpreta como que la frecuencia observada será mayor (+) o menor (-) que la frecuencia esperada en caso de que las variables fueran independientes. Los valores estandarizados permiten evaluar la importancia de los efectos. Valores absolutos superiores a 1,96 (asociado a un nivel de confianza del 95%) son significativamente distintos de cero. En este caso se observan bastantes coeficientes con valores absolutos menores a 1,96 (destacados en azul). Esto viene a corroborar los resultados obtenidos con chi-cuadrado y la observación de la estimación de los coeficientes. Por último, observamos el intervalo de confianza para evaluar si se pueden o no inferir los resultados a la población origen de la muestra. Interesa aquí observar si los intervalos incluyen el valor cero (si van de un número negativo a uno positivo o viceversa). En intervalos que incluyen el valor cero, se acepta la hipótesis nula de que el coeficiente en la población es cero, vale decir, que no tiene efecto. En este caso, solamente en el caso del efecto de primer orden del efecto entre las variables consumo cultural y nivel socioeconómico encontramos un coeficiente que no incluye en su intervalo el valor cero (en los efectos principales, esto es, los efectos de las variables, tampoco se incluye el cero, pero nos interesa ver los efectos de las interacciones entre variables). Luego el programa empieza a ingresar efectos paso por paso: Resumen de los pasos Paso a Efectos Chi-cuadrado c gl Sig. Número de iteraciones 0 Clase generadora b nsexo1*nse*cc_rec .000 0 . Efecto eliminado 1 nsexo1*nse*cc_rec 2.428 4 .658 5 1 Clase generadora b nsexo1*nse, nsexo1*cc_rec, nse*cc_rec 2.428 4 .658 Efecto eliminado 1 nsexo1*nse 11.067 2 .004 2 2 nsexo1*cc_rec 3.873 2 .144 2 3 nse*cc_rec 996.376 4 .000 2 2 Clase generadora b nsexo1*nse, nse*cc_rec 6.300 6 .390 Efecto eliminado 1 nsexo1*nse 15.405 2 .000 2 2 nse*cc_rec 1000.714 4 .000 2 3 Clase generadora b nsexo1*nse, nse*cc_rec 6.300 6 .390 a. En cada paso, se elimina el efecto con mayor nivel de significación para el Cambio en la razón de verosimilitudes, siempre que el nivel de significación sea mayor que .050. b. Se muestran los estadísticos para el mejor modelo en cada paso después del paso 0. c. Para 'Efecto eliminado', éste es el cambio en la Chi-cuadrado después de eliminar el efecto del modelo. El resumen de pasos corresponde a la estrategia de eliminación hacia atrás para la identificación del mejor modelo. El mejor modelo será aquel que no es el saturado y que con menos efectos logra una explicación significativa. En cada paso se va mostrando hasta donde se logra una mejora en el modelo, si un efecto de orden inferior es eliminado. Siempre se logrará una mejora cuando el nivel de significación que se obtiene al eliminar el efecto inferior es superior a 0,05. En el último paso se muestra el mejor modelo, es decir aquel que no puede seguir siendo mejorado y que con menos efectos logra un resultado más efectivo. Frecuencias y residuos de casillas Sexo Nivel socioeconómico consumo cultural Observado Esperado Residuos Residuos típicos Recuento % Recuento % Hombre dimension1 Bajo dimension2 Bajo 228.000 6.9% 220.377 6.7% 7.623 .513 Medio 71.000 2.2% 79.089 2.4% -8.089 -.910 Alto 12.000 .4% 11.534 .4% .466 .137 Medio dimension2 Bajo 249.000 7.6% 243.119 7.4% 5.881 .377 Medio 391.000 11.9% 402.196 12.2% -11.196 -.558 Alto 239.000 7.3% 233.685 7.1% 5.315 .348 Medio Alto y Alto dimension2 Bajo 5.000 .2% 6.744 .2% -1.744 -.671 Medio 69.000 2.1% 76.256 2.3% -7.256 -.831 Alto 175.000 5.3% 166.000 5.1% 9.000 .699 Mujer dimension1 Bajo dimension2 Bajo 307.000 9.3% 314.623 9.6% -7.623 -.430 Medio 121.000 3.7% 112.911 3.4% 8.089 .761 Alto 16.000 .5% 16.466 .5% -.466 -.115 Medio dimension2 Bajo 318.000 9.7% 323.881 9.9% -5.881 -.327 Medio 547.000 16.7% 535.804 16.3% 11.196 .484 Alto 306.000 9.3% 311.315 9.5% -5.315 -.301 Medio Alto y Alto dimension2 Bajo 8.000 .2% 6.256 .2% 1.744 .697 Medio 78.000 2.4% 70.744 2.2% 7.256 .863 Alto 145.000 4.4% 154.000 4.7% -9.000 -.725 La tabla muestra la estimación de las frecuencias esperadas, según el modelo antes seleccionado como el mejor. El análisis de los residuos nos permite observar que celdas de la tabla logran ser mejor explicadas y cuales por el contrario presentan mas problemas en su predicción. Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima verosimilitud. Valores de chi-cuadrado cercanos acero indican poca diferencia entre valores observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las observaciones. Aquí constatamos el hecho de que el modelo se ajusta bien a los datos: los valores de Chi-cuadrado no son muy distintos de cero y la probabilidad es mayor a 0,05. Podemos afirmar que el modelo se ajusta adecuadamente a los datos y que la capacidad explicativa de este modelo es relevante, dado que el nivel de significación es mayor a 0.05. 2. MODELO LOGARÍTMICO NO SATURADO Luego de haber analizado el modelo saturado y de haber revisado qué efectos son los más importantes, procedemos a generar un modelo logarítmico no saturado. El procedimiento es el mismo, excepto por que en la ventana Modelo se elegirá ahora la opción Personalizado: Bajo Factores vemos las tres variables. Luego vemos una ventana que permite incorporar efectos de Interacción, Efectos Principales y Efectos de distintos órdenes (2, 3, 4 y 5). En este caso, se ha decidido crear un modelo con una clase generadora con efectos principales, vale decir, se incluyen los efectos de las variables nse y consumo cultural. Hay que destacar que esta decisión debe estar sustentada en fundamentos teóricos que lleven al investigador a formular hipótesis con respecto a las relaciones entre las variables. En este caso, nos basamos en el Modelo Saturado, el cual, al ser usado con fines exploratorios, nos indica cuáles pueden ser los efectos más y menos relevantes. Para ingresar la clase generadora que hemos determinado utilizar, marcamos todos los factores y luego marcamos los efectos de segundo orden. Bajo Clase Generadora debiéramos ahora ver todas las combinaciones de dos variables. Ponemos Continuar. Ahora entramos Opciones: Visualización: Frecuencias Residuos Gráfico: Residuos Probabilidad normal Criterios del modelo: Por defecto Las opciones asociadas a los modelos personalizados son Mostrar frecuencias y residuos. Por su parte, Mostrar gráficos de distribución de los residuos permite evaluar si el modelo se ajusta a los datos. También, Selección de criterios del modelo son opciones que permiten suprimir o modificar uno o más criterios de estimación de los parámetros. Ponemos Continuar. → PEGAR Sintaxis: HILOGLINEAR nse(1 3) cc_rec(1 3) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID /PLOT=RESID NORMPROB /DESIGN cc_rec*nse → PLAY 2.1 Resultados En general, las salidas son similares al caso anterior, por lo que no se mostrarán todas, sino las más relevantes. Vemos una diferencia al momento de definir la clase generadora que ya no está compuesta por las tres variables, sino por las interacciones de a dos variables. Luego revisamos los residuos. Vemos que ahora las frecuencias observadas y las esperadas no son iguales y que existen residuos. Esto se debe a que ahora ya no se incluyen todos los efectos. Interesa, sin embargo, que los residuos sean bajos (en la columna de Residuos típicos). Si los residuos estandarizados son mayores a 1.96, en términos absolutos, esto es, sin importar el signo (con un nivel de confianza del 95%) podemos afirmar que la diferencia entre lo esperado y lo observado es significativa. En este caso existen varios residuos estandarizados mayor a 1.96, por lo que es posible afirmar que la diferencia entre lo esperado y lo observado es significativa estadísticamente. Además, si comparamos los residuos de este modelo con los del modelo seleccionado como el mejor en el cálculo del modelo saturado, observamos que los niveles de error en las predicciones no difieren demasiado. Frecuencias y residuos de casillas Sexo Nivel socioeconómico consumo cultural recodificado Observado Esperado Residuos Residuos típicos Recuento % Recuento % Hombre dimen sion1 Bajo dimension 2 Bajo 228.000 6.9% 267.500 8.1% -39.500 -2.415 Medio 71.000 2.2% 96.000 2.9% -25.000 -2.552 Alto 12.000 .4% 14.000 .4% -2.000 -.535 Medio dimension 2 Bajo 249.000 7.6% 283.500 8.6% -34.500 -2.049 Medio 391.000 11.9% 469.000 14.3% -78.000 -3.602 Alto 239.000 7.3% 272.500 8.3% -33.500 -2.029 Medio Alto y Alto dimension 2 Bajo 5.000 .2% 6.500 .2% -1.500 -.588 Medio 69.000 2.1% 73.500 2.2% -4.500 -.525 Alto 175.000 5.3% 160.000 4.9% 15.000 1.186 Mujer dimen sion1 Bajo dimension 2 Bajo 307.000 9.3% 267.500 8.1% 39.500 2.415 Medio 121.000 3.7% 96.000 2.9% 25.000 2.552 Alto 16.000 .5% 14.000 .4% 2.000 .535 Medio dimension 2 Bajo 318.000 9.7% 283.500 8.6% 34.500 2.049 Medio 547.000 16.7% 469.000 14.3% 78.000 3.602 Alto 306.000 9.3% 272.500 8.3% 33.500 2.029 Medio Alto y Alto dimension 2 Bajo 8.000 .2% 6.500 .2% 1.500 .588 Medio 78.000 2.4% 73.500 2.2% 4.500 .525 Ahora revisamos la Prueba de Bondad de Ajuste. Esta es una prueba de significación estadística que permite evaluar la bondad de ajuste del modelo. La validez del modelo se verifica mediante dos pruebas de significación: la prueba de chi-cuadrado de Pearson y chi-cuadrado de máxima verosimilitud. Valores de chi-cuadrado cercanos a cero indican poca diferencia entre valores observados y esperados, mientras que valores altos señalan que el modelo no ajusta a las observaciones. Aquí constatamos el hecho de que el modelo no se ajusta bien a los datos. De hecho, los valores de Chi-cuadrado son muy distintos de cero y la probabilidad es 0, por lo tanto, menor a 0,05. Podemos afirmar que el modelo no se ajusta adecuadamente a los datos. El test de goodness on fit nos indica que la capacidad explicativa de este modelo no es relevante, dado que el nivel de significación es menor que 0.05. en ese sentido, es posible compararlo con el cálculo de la bondad de ajuste del modelo saturado, donde los valores de chi-cuadrado eran cercanos a 0 y el nivel de significación era 0.3, lo cual indica que la capacidad del modelo es relevante. En este punto es posible concluir que este nuevo modelo no se ajusta bien a la realidad, y que la relación entre las variables Sexo*nse*cc_rec es demasiado relevante como para ser eliminada del modelo. Para corroborar aquello, es preciso tener una noción gráfica de la relación entre las frecuencias observadas y esperadas, lo que permite evaluar gráficamente el ajuste del modelo. Esperamos que esta distribución se asemeje mucho a una recta. Así, en el primer gráfico, que compara la frecuencia observada y la esperada, es interesante ver que en ambos cuadrantes es posible apreciar una línea recta, lo cual indica que no existe mayor Alto 145.000 4.4% 160.000 4.9% -15.000 -1.186 dispersión, la cual sí hay al mirar los cuadrantes que comparan los residuos con las frecuencias observadas y esperadas. El análisis de estos gráficos puede ser útil cuando estamos comparando distintas alternativas de modelos personalizados. En este caso, nos permite evaluar el modelo de manera gráfica, para compararlo con los resultados que obtuvimos en el modelo saturado. Los gráficos de residuos (distribución entre residuos y valores esperados) sólo se analizan para modelos no saturados. Dan cuenta de si los residuos se comportan de manera lineal y los otros si se ajustan a la curva normal. Se espera que sea así ya que indicaría que se distribuyen de acorde a la distribución de los datos que no hay un patrón extraño en su distribución. El gráfico que presenta el ajuste de los residuos a una distribución normal (Gráfico Q-Q de residuos tipificados) indica un alejamiento o acercamiento a ese tipo de distribución. En este caso, si bien los datos no se ajustan de manera perfecta a la distribución normal, se puede observar un ajuste adecuado de los datos expuestos. Por su parte, el gráfico sin tendencias no muestra una relación lineal perfecta, aunque tampocoes posible plantear que exista una distribución con excesiva dispersión.
Compartir