Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Guía de trabajo SPSS Análisis Factorial Material de ayudantía Estadística IV – 2012 Facultad de Ciencias Sociales – Universidad de Chile Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos Fuentes: Vivanco, M. (1999). Análisis estadístico multivariable: Teoría y práctica. Santiago: Universitaria. Gerber, M. y Orchard, M. (Sin fecha). Material de apoyo para Ayudantía de Análisis Estadístico IV. Universidad de Chile, Departamento de Sociología. Apuntes de clase Estadística IV, 2012. Profesora Gabriela Azócar de la Cruz RESUMEN: ANÁLISIS FACTORIAL Extracción de Componentes Principales El análisis factorial permite analizar la estructura subyacente de una serie de variables, es decir, patrones de dependencia entre variables, lo que ayuda a identificar variables latentes que agrupan a las observadas en principio. Estas variables latentes (los Factores o Componentes Principales) son resultado de la combinación lineal del conjunto de las variables observadas que se analizan. El primer factor o componente es el que mejor resume la información contenida en la matriz original. El segundo resume la información restante y así sucesivamente. Esta información explicada es varianza. Usos: • Identificación de dimensiones de análisis o de conceptos que estructuran la relación entre variables • Contrastación de hipótesis respecto a la estructura de relaciones en un conjunto de variables • Resumir variables observadas en un número menor de variables latentes • Validación de índices Condiciones: a) Tamaño de la muestra: Ideal sobre 200 casos, al menos 10 casos por variable. b) Variables admitidas: escalares / ordinales (de 4 o más categorías) / dicotómicas, idealmente con distribución normal. Lo ideal para el análisis factorial son las variables cuantitativas (de intervalo o razón), puesto que es una técnica que opera sobre una matriz de correlaciones entre todas las variables de análisis, que se calcula a través del coeficiente r de Pearson (calculable sólo para variables cuantitativas). Mientras más categorías de respuesta, mejor. Por ejemplo, escalas de satisfacción con X cosa, poniendo “nota” de 1 a 7. b) Variables correlacionadas: correlaciones sobre 0,2. Matriz de correlaciones no puede ser singular (matriz de identidad). c) No multicolinealidad: si la correlación entre las variables es muy alta, por ejemplo, de 0.9, quiere decir que esas variables están midiendo lo mismo. d) Variables teóricamente relacionadas con un concepto central e) Cantidad de variables: como criterio común se utiliza que para cada factor que se decida mantener en la solución, exista al menos 4 variables originales. Por ejemplo, decidimos mantener 5 factores, lo ideal es que esto se haga en base a 20 variables. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar EJERCICIO DE APLICACIÓN 0. DISPONER LA BASE DE DATOS La base de datos utilizada en el ejercicio es de una encuesta sobre salud. Las variables en esta base son 16 (de las cuales vamos a utilizar 13), y tiene 3740 casos. [NO HAY INFORMACIÓN SOBRE LA BASE DE DATOS, ES PARA EJERCICIO DE APLICACIÓN] La pregunta que guía este ejercicio es ¿Cuántas y cuáles son las dimensiones de análisis es posible observar en relación a los hábitos alimentarios de los chilenos? 0.a. Variables a utilizar y Valores perdidos Las variables que vamos a usar son todas las 3_4 ¿Qué tan seguido comes…? Frutas / Verduras / Cereales / Tubérculos / Lácteos / Leguminosas / Carne roja / Carne Blanca / Refrescos / Golosinas dulces / Golosinas saladas / Comida rápida / Pan. Es una variable ordinal, cuyas categorías de respuesta son: {1, Todos los días} {2, Alguna vez a la semana} {3, De vez en cuando} {4, Nunca} {8, NS} Marcar como {9, NC} Valores Perdidos 0.b. Descriptivos y Estandarización de variables Vamos a trabajar con variables estandarizadas (convertidas a puntaje Z), para así se evitar la influencia de la unidad de medida en el proceso, y la disparidad de las distribuciones, dado que pueden unas tener rangos mas acotados, y otras más amplios. Si no era necesario, por ejemplo, en el caso de las variables dicotómicas, el proceso de estandarización no cambiará en nada los resultados, se hace de modo “preventivo”. Al mismo tiempo que hacemos el proceso de estandarización, normalización o tipificación, vamos a pedir los descriptivos para las variables que utilizaremos en el análisis factorial. En la pantalla: Analizar → Estadísticos descriptivos → Descriptivos: Incluir variables Guardar valores tipificados como variables Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → Opciones Media Desviación típica Mínimo Máximo Orden de presentación: lista de variables. Continuar. → Pegar. PLAY en la sintaxis. 1. ESTADÍSTICOS DESCRIPTIVOS Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. 3_4 ¿Qué tan seguido comes…? Frutas 3738 1 4 1.80 .738 3_4 ¿Qué tan seguido comes…? Verduras 3739 1 4 1.83 .743 3_4 ¿Qué tan seguido comes…? Cereales (trigo, avena) 3738 1 4 2.03 .830 3_4 ¿Qué tan seguido comes…? Tubérculos (papa, camote) 3736 1 4 2.11 .769 3_4 ¿Qué tan seguido comes…? Lácteos 3737 1 4 1.71 .781 3_4 ¿Qué tan seguido comes…? Leguminosas (frijoles, habas, lentejas) 3737 1 4 1.78 .737 3_4 ¿Qué tan seguido comes…? Carne roja (res, cerdo) 3737 1 4 2.11 .670 3_4 ¿Qué tan seguido comes…? Carne blanca (pollo, pescado) 3736 1 4 2.10 .661 3_4 ¿Qué tan seguido comes…? Refrescos 3740 1 4 1.93 .863 3_4 ¿Qué tan seguido comes…? Golosinas dulces 3737 1 4 2.24 .876 3_4 ¿Qué tan seguido comes…? Golosinas saladas (papitas) 3735 1 4 2.29 .879 3_4 ¿Qué tan seguido comes…? Comida rápida (hot dog, tortas) 3733 1 4 2.49 .824 3_4 ¿Qué tan seguido comes…? Pan 3634 1 4 1.83 .814 N válido (según lista) 3608 La tabla muestra los descriptivos para cada variable: Media, Desviación típica, Mínimo, Máximo y Número de casos válidos. Las variables van todas de 1 a 4: siendo (1) Todos los días, (2) Alguna vez a la semana, (3) De vez en cuando y (4) Nunca. El número de casos válidos según lista (casos que presentan datos para todas las variables) son 3608 (que no es significativamente distinto de los 3740 casos de la muestra total). Esta cantidad es suficiente para realizar la extracción de componentes principales. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 2. ANÁLISIS FACTORIAL Analizar → Reducción de dimensiones → Factor. Incluir las variables. El análisis factorial es una técnica de interdependencia, por lo cual no definimos las variables dependientes e independientes, sino que incluimos todas las variables en el recuadro Variables. → Descriptivos Estadísticos: Descriptivos univariados, Solución inicial Matrices de Correlación: Coeficientes, Determinante, KMO y Bartlett, Reproducida, Anti- imagen Pedimos todo menos: Los niveles de significación: es un valor que se incluye en la matriz de correlación. Un nivel crítico menor que 0,05 indica que la correlación poblacional (rho) entre el correspondiente par de variables puede ser considerada significativamente distinta de cero ( 0:0 =ρH ). Lo deseable es encontrar niveles críticos pequeños. La matriz inversa ya que si bien es la base para el cálculo de las comunalidades iniciales en algunos métodos de extracción no aporta en la interpretación. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → Extracción Método: Componentes principalesAnalizar: Matriz de correlaciones Visualización: Solución factorial sin rotar, Gráfico de sedimentación Extraer: Basado en autovalor: autovalores mayores que 1, que son los factores que entran al modelo, λ<1 no tienen sentido estadístico. Acá tenemos que tomar varias decisiones. (1) El Método de extracción. Los distintos métodos difieren tanto en la forma de estimar las saturaciones (correlaciones entre variables y factores) como en las matrices de cálculo (nosotros trabajaremos con la matriz de correlaciones). Los procedimientos de extracción de factores más comunes son dos: - Extraer Factores: se utiliza para resumir la información común que tienen las variables originales ordenadas en una matriz de correlaciones. Al decidir factorizar existen 6 métodos en SPSS, el más común es el de ejes principales. - Extraer Componentes: se utiliza para resumir toda la información presente en la matriz de correlaciones. Varianza: cuantifica la información existente en las variables. Puede dividirse en: a. Comunalidad: variación que tienen en común. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar b. Especificidad: variación específica de las variables. Se descompone en: • Unicidad: varianza no compartida. • Error: especificidad debida al azar, aleatoria. Como predeterminado viene el Método de Componentes Principales. Dejamos ese, pues queremos resumir toda la información presente en la matriz de correlaciones (tanto comunalidad como especificidad). (2) Elegir si el análisis se llevará a cabo a través de - Matriz de Correlaciones. Dejamos esta opción predeterminada. - Matriz de Covarianzas. En caso de optar por trabajar con matriz de covarianzas no se estandarizan las variables y las que tienen mayor variabilidad tienen más peso en el análisis. (3) Decidir con respecto al número de factores que serán extraídos. En Análisis Factorial siempre se obtienen tanto factores como variables se incluyan en el análisis. Como los factores se ordenan de manera jerárquica, es decir, el primero reúne más información que el segundo y así sucesivamente, es posible reducir dimensiones, asumiendo cierta pérdida de información. Por tanto hay que tomar una decisión respecto de cuántos factores mantener. Hay dos opciones: a) Criterio estadístico común: mantener los factores con autovalor mayor que 1, lo que implica que el factor explica por lo menos la varianza de una variable. Recordemos que la matriz de correlaciones refiere a la relación entre variables estandarizadas. Recordemos que el coeficiente r de Pearson es la multiplicación de dos variables estandarizadas. En variables estandarizadas la varianza es 1, por tanto si hay un factor que asocia un autovalor menor a 1 quiere decir que tiene menos información que la variable. En este contexto información es análoga a varianza. Dentro del criterio del autovalor, ese valor puede cambiarse introduciendo otro distinto, siempre que sea entre cero y el número de variables. b) Criterio sustantivo: definir un número fijo de factores a conservar. Esto puede basarse en un criterio teórico. (4) Se da la alternativa de elegir un número máximo de iteraciones que los algoritmos pueden realizar para encontrar la solución factorial final. El valor por defecto es 25, habitualmente suficiente para obtener una solución. Este valor puede cambiarse introduciendo un entero positivo. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → Rotación Método: Varimax Visualización: Solución rotada, Gráficos de saturaciones Aquí puede optarse por un Método de rotación de los factores. La rotación es un procedimiento opcional (es rechazada por algunos científicos sociales). Los procedimientos de rotación buscan mejorar la interpretación encontrando el sistema de referencia más adecuado. Para ello, se giran los ejes (factores) manteniendo las propiedades matemáticas de la solución inicial. La rotación no modifica la varianza explicada por cada factor. Maureen Resaltar Maureen Resaltar Maureen Resaltar Una buena solución factorial se caracteriza por la simplicidad y facilidad de interpretación. Características que permiten la fácil interpretación de los factores: - Cada factor debe estar asociado a saturaciones cercanas a cero (independencia entre factor y variable) o a uno (asociación entre factor y variable). - Cada variable debe estar asociada a un solo factor. El peso de la variable es alto en el factor que explica su variabilidad. - Dos factores no deben presentar pesos altos o bajos en las mismas variables. La rotación facilita la interpretación cuando en principio la solución no cumple con estas condiciones, por ejemplo, si variables saturasen en todos los factores, no estaríamos reduciendo información. Pero si rotamos los factores, podemos asegurarnos que varían los coeficientes de la matriz de saturaciones. Esta es una manera de distribuir mejor la información de las variables en los factores. Por defecto: VARIMAX: Máxima varianza en las columnas de la matriz de saturaciones Existen dos tipos de procedimientos de rotación: - Rotación ortogonal: respeta la independencia entre factores de la solución inicial. SPSS ofrece 3 métodos distintos. - Rotación oblicua: pueden obtenerse factores relacionados entre sí. 2 métodos. Las opciones de rotación son: • Ninguno. Por defecto. • Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la solución por columna (valores altos o bajos). Buscamos entonces simplificar la interpretación de las columnas de la matriz de factores. • Quartimax. Método de rotación ortogonal que minimiza el número de factores necesarios para explicar cada variable. Simplifica la interpretación de las variables observadas optimizando la interpretación por filas. • Equamax. Combinación del método Varimax y Quartimax. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. • Oblimin directo. • Promax. → Puntuaciones Guardar como variables Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Método: Regresión Los componentes principales guardados como variables son un subproducto de la aplicación de Análisis Factorial, corresponden al valor que tendría un caso si el factor hubiese sido medido directamente como una pregunta en el cuestionario. Pueden constituir insumos interesantes para otras técnicas de análisis multivariable. Los factores son nuevas variables independientes en las que cada caso asume un valor. Cada puntuación factorial es una combinación lineal de los coeficientes y las puntuaciones en las variables originales. Esta ventana da la opción de calcular los puntajes para cada caso de los factores que se generen, por medio de distintos métodos (Regresión, Bartlett, Anderson-Rubin). (Las opciones de este recuadro no tienen efecto alguno cuando se ha seleccionado componentes principales como método de extracción, ya que en ese modelo factorial las puntuaciones factoriales no son estimadas, sino calculadas directamente a partir de las variables originales). → Opciones Valores perdidos: Excluir según lista Formato de presentación de los coeficientes: Ordenadospor tamaño Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar En esta ventana se decide el tratamiento de los casos perdidos: • Excluir casos según lista: excluye los casos que tengan cualquier valor perdido en cualquiera de las variables. Nos quedamos con esta opción para trabajar con los 3608 casos que vimos en un principio. • Excluir casos según pareja: incluye casos que tengan valores perdidos en alguna pero casos válidos en otra y trabaja con las puntuaciones válidas. • Remplazar por la media. Formato de visualización de los coeficientes: Ordenados por tamaño. Esta opción sirve para ordenar las variables de las tablas de resultados en función de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones, correlaciones, etc). Ordenamos por tamaño para simplificar la interpretación. Suprimir valores absolutos menores que.... Permite suprimir de las tablas de resultados los coeficientes cuyo un valor absoluto sea menor que el valor establecido (el valor por defecto es 0,10). → PEGAR Sintaxis: Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar → PLAY 3. RESULTADOS 3.a. Descriptivos Estadísticos descriptivos Media Desviación típica N del análisis Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas .0010556 .99905335 3608 PZ: Verduras .0021201 .99698314 3608 PZ: Cereales (trigo, avena) -.0058733 .99587178 3608 PZ: Tubérculos (papa, camote) .0021784 .99624071 3608 PZ: Lácteos -.0024121 .99699958 3608 PZ: Leguminosas (frijoles, habas, lentejas) .0039938 .99745198 3608 PZ: Carne roja (res, cerdo) -.0010489 .99911351 3608 PZ: Carne blanca (pollo, pescado) -.0019452 .99563029 3608 PZ: Refrescos -.0079052 .99691805 3608 PZ: Golosinas dulces -.0017021 .99436181 3608 PZ: Golosinas saladas (papitas) -.0034591 .99555959 3608 PZ: Comida rápida (hot dog, tortas) -.0088060 .99860901 3608 PZ: Pan -.0011775 .99870061 3608 Esta tabla nos muestra la Media, la Desviación típica y los casos válidos para el análisis. Aquí debemos recordar que estandarizamos nuestras variables, y en las variables estandarizadas siempre la media es 0 y la varianza es 1. Como tenemos 13 variables, tenemos 13 varianzas de 1. Los casos incluidos en el análisis son 3608 en todas las variables, tal como vimos antes: cada uno de estos 3608 individuos respondió estas 13 preguntas. Maureen Resaltar Maureen Resaltar Maureen Resaltar 3.b. Matriz de correlaciones Matriz de correlacionesa Frutas Verduras Cereales Tubérculos Lácteos Leguminosas Carne roja Carne blanca Refrescos Golosinas dulces Golosinas saladas Comida rápida Pan Frutas 1 0.599 0.414 0.289 0.304 0.089 0.192 0.224 0.034 0.073 0.064 0.079 0.079 Verduras 0.599 1 0.365 0.356 0.278 0.193 0.187 0.216 0.034 0.046 0.031 0.055 0.06 Ceales 0.414 0.365 1 0.421 0.344 0.122 0.155 0.162 0.04 0.08 0.072 0.144 0.055 Tubérculos 0.289 0.356 0.421 1 0.288 0.236 0.198 0.203 0.052 0.1 0.098 0.113 0.083 Lácteos 0.304 0.278 0.344 0.288 1 0.285 0.171 0.17 0.102 0.082 0.104 0.088 0.172 Leguminosas 0.089 0.193 0.122 0.236 0.285 1 0.229 0.163 0.165 0.096 0.112 0.029 0.15 Carne roja 0.192 0.187 0.155 0.198 0.171 0.229 1 0.581 0.242 0.203 0.209 0.234 0.143 Carne blanca 0.224 0.216 0.162 0.203 0.17 0.163 0.581 1 0.229 0.171 0.159 0.231 0.139 Refrescos 0.034 0.034 0.04 0.052 0.102 0.165 0.242 0.229 1 0.418 0.394 0.326 0.245 Golosinas dulces 0.073 0.046 0.08 0.1 0.082 0.096 0.203 0.171 0.418 1 0.722 0.42 0.212 Golosinas saladas 0.064 0.031 0.072 0.098 0.104 0.112 0.209 0.159 0.394 0.722 1 0.479 0.266 Comida rápida 0.079 0.055 0.144 0.113 0.088 0.029 0.234 0.231 0.326 0.42 0.479 1 0.277 Pan 0.079 0.06 0.055 0.083 0.172 0.15 0.143 0.139 0.245 0.212 0.266 0.277 1 a. Determinante = .036 En esta tabla aparece la relación de todas las variables entre sí mediante el coeficiente de correlación de Pearson que establece la correlación lineal entre dos variables. La interpretación es la siguiente: 1 = relación lineal perfecta positiva -1= relación lineal perfecta negativa 0 = relación lineal nula Los 1 en la diagonal indican la correlación de la variable consigo misma. Buscamos que las variables estén relacionadas entre sí (diferencia con la matriz identidad), ojalá con correlaciones sobre 0.2; en esta tabla aparecen en celeste las correlaciones muy bajas, pero en general todas las variables están correlacionadas entre sí. Ahora bien, esto no queda sólo en observar, para corroborar, observamos la Determinante (pie de la tabla). Si la determinante se encuentra cercana a 0, significa que existe relación lineal entre las variables. Para llevar a cabo un análisis factorial se busca que exista relación lineal entre variables dado que el supuesta que sustenta este análisis es que existe una estructura o patrón de relaciones subyacente a la matriz de Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar correlaciones y queremos describirla reduciendo las dimensiones ya que si estudiamos variable por variable no podremos dar cuenta de esa estructura. Además si el determinante es 0 el programa advierte que no es posible calcular la inversa de la matriz, la cual es necesaria para algunos métodos de extracción (no para este). La determinante debe ser distinta de 0. En este caso es distinta y cercana a 0 (es 0.036); por tanto comprobamos que existe relación entre las variables. Maureen Resaltar 3.c. Kaiser-Meyer-Olkin (KMO) y Prueba de Bartlett KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin. .762 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 12023.009 gl 78 Sig. .000 La medida de adecuación muestral KMO es un estadístico que mide la proporción de la varianza en las variables que es común. - Si es cercano a 1, existen suficientes comunalidades como para llevar a cabo el análisis. - Si el valor de esta prueba es inferior a 0.5 NO debiera aplicarse el análisis factorial según algunos estadísticos (criterios variables). - En general es bueno que sea sobre 0.7 En este caso es de 0.762, lo que indica que existe varianza común entre las variables y es posible seguir adelante con la interpretación. La Prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación es una matriz identidad. La matriz identidad es una matriz que tiene unos en la diagonal y ceros en los demás espacios, es decir, una matriz donde no hay más relación entre variables que la que hay entre cada variable consigo misma. Por tanto no tiene sentido buscar un patrón de relaciones donde lo que hay es absoluta independencia. El modo de interpretar esta prueba es el siguiente: si la significación es menor a 0.05 = existen correlaciones entre las variables. En este caso la significación es de 0.000, por tanto no es una matriz de identidad. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 3.d. Matrices anti-imagen En las matrices anti-imagen tenemos dos tablas en una. En la Correlación anti-imagen se analizan dos cosas: 1. La diagonal: en ella observamos la Medida de Adecuación de la Muestra (KMO). Si el modelo factorial elegido es adecuando para explicar los datos, los elementos de la diagonal deben ser cercanos a 1 (el criterio es superiores a 0,5). Vemos valores adecuados, entre el 0.5 y 0.7 y 0.8 2. El resto de la (1°) tabla: los coeficientes de correlación parcial indican el grado de relación existente entre dos variables eliminando el efecto de las otras variables incluidas, es decir, son las correlaciones que no se deben a los factores comunes. Cuando las variablesincluidas tienen información común, la correlación parcial de la matriz anti – imagen debe ser reducida. Por tanto se busca que las correlaciones sean pequeñas, ya que si hay valores bajos, podemos afirmar que nuestra solución factorial tiene poca varianza no explicada. Observamos valores cercanos a 0, por lo que la varianza que no se debe a factores comunes es muy baja. La Covarianza anti-imagen no se analiza, pero es distinta a la otra matriz en que la diagonal representa una indicación de la unicidad de las variables, de lo que tienen de propio, no compartido con las demás variables. 3.e. Comunalidades Comunalidades Inicial Extracción Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas 1.000 .658 PZ: Verduras 1.000 .611 PZ: Cereales (trigo, avena) 1.000 .554 PZ: Tubérculos (papa, camote) 1.000 .441 PZ: Lácteos 1.000 .531 PZ: Leguminosas (frijoles, habas, lentejas) 1.000 .699 PZ: Carne roja (res, cerdo) 1.000 .769 PZ: Carne blanca (pollo, pescado) 1.000 .781 PZ: Refrescos 1.000 .461 PZ: Golosinas dulces 1.000 .715 PZ: Golosinas saladas (papitas) 1.000 .750 PZ: Comida rápida (hot dog, tortas) 1.000 .532 PZ: Pan 1.000 .360 Método de extracción: Análisis de Componentes principales. La Comunalidad es la proporción de la varianza de una variable que puede ser explicada por el modelo factorial obtenido. Tenemos dos columnas: Inicial: la varianza de una variable estandarizada es 1, es decir esta es toda la información o variabilidad que aporta una variable. El método de Componentes principales (indicado al pie de la tabla) busca Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar extraer la mayor varianza de las variables originales considerando la comunalidad y la especificidad. Asume que es posible explicar el 100% de la varianza observada, es por ello que el valor inicial es 1. Extracción: vemos la parte de la varianza que es explicada por el modelo factorial obtenido. Podemos evaluar ya en este punto qué variables son peor explicadas por el modelo factorial (que veremos más adelante, las tablas aparecen en este orden). Valores cercanos a 1 indican que el modelo explica la varianza de esa variable, mientras que valores cercanos a 0 indican que el modelo factorial no explica la variable. Por ejemplo, la variable ¿Qué tan seguido comes?... PAN, no es muy bien explicada por nuestro modelo. *Si escogiéramos otro método (ejes principales) en la columna inicial tendríamos una estimación de la comunalidad (correlación múltiple entre esa variable y las demás). Luego estas comunalidades generalmente no coinciden con la matriz factorial. 3.f. Varianza explicada Varianza total explicada Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Suma de las saturaciones al cuadrado de la rotación Total % de la varianza % acumulado Total % de la varianza % acumulado Total % de la varianza % acumulado 1 3.437 26.435 26.435 3.44 26.435 26.435 2.52 19.384 19.384 2 2.172 16.711 43.146 2.17 16.711 43.146 2.396 18.433 37.816 3 1.199 9.227 52.373 1.2 9.227 52.373 1.593 12.257 50.073 4 1.053 8.098 60.471 1.05 8.098 60.471 1.352 10.397 60.471 5 0.856 6.588 67.059 6 0.796 6.121 73.181 7 0.691 5.317 78.498 8 0.645 4.963 83.461 9 0.574 4.412 87.872 10 0.523 4.025 91.897 11 0.41 3.157 95.054 12 0.374 2.875 97.929 13 0.269 2.071 100 Método de extracción: Análisis de Componentes principales. En esta tabla ya vemos cómo se distribuye la varianza entre los factores. Vamos viendo por columna: Columna 1: Componentes: Vemos 13 componentes, 1 por cada variable. Columna 2: Autovalores: indican la cantidad de información (varianza) que explica el factor. Se calcula como la suma en cada columna de los cuadrados de los pesos. Sabemos que los factores o componentes son jerárquicos y vemos que la magnitud de los autovalores va en descenso. Criterio autovalor mayor a 1. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Hasta el componente 4, los autovalores son mayores que 1, pero ya el 5 tiene un autovalor menor que 1 (0.856). Si nos quedamos con 4 componentes, reducimos las 13 variables a 4 dimensiones. Columna 3: Porcentajes de varianza explicada: asociados a cada factor se obtienen dividiendo el autovalor por la suma de los autovalores (número de variables=13) y multiplicándolo por 100. (3.437 / 13 * 100 = 26.435). Es una regla de 3 simple. Columna 4: Porcentajes de varianza explicada, pero acumulado: Esta información permite tomar una decisión respecto del número de factores a mantener. Con 4 componentes estamos explicando un 60,47% de la varianza. Evaluar si se está sacrificando mucha información vs la reducción de dimensiones. Columna 5, 6 y 7: muestran la misma información cuando trabajamos con el método de componentes principales, ya que muestra la suma de las saturaciones al cuadrado y en este método por defecto los autovalores se calculan de esta manera, pero en otros métodos de extracción, en los cuales el autovalor se calcula de otra manera, aporta información relevante. Columna 8, 9 y 10: muestra la misma información luego de aplicada la rotación. Recordemos que la rotación reordena la varianza. De esta forma, el primer componente ya no tiene un autovalor de 3.4, sino de 2.52, y la varianza que explica es ahora sólo el 19,38% (no ya el 26,44%). Lo que hace la rotación es emparejar los factores. Si bien el primer componente sigue siendo el que más explica, ahora no se encuentra tan lejos de los demás componentes. Cabe destacar que, sin embargo, si miramos la varianza acumulada, luego del componente 4, ésta es del 60,47%, igual que en la solución no rotada. La rotación reorganiza varianza, no la pierde. En el fondo mantiene las propiedades matemáticas de la solución inicial. 3.g. Gráfico de sedimentación Este gráfico sirve, de forma complementaria a la numérica, para determinar el número óptimo de factores. El gráfico se observa buscando el punto de inflexión a partir del cual los autovalores dejan de tener una pendiente significativa. ¿? Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar En este caso, por ejemplo, cabría preguntarse si vale la pena incluir también un quinto componente, ya que ahí donde se produce un corte en cuanto a la intensidad de la pendiente (capacidad explicativa del factor, autovalores). Confiando en los criterios matemáticos, optamos por quedarnos con 4 componentes. 3.g. Matriz de componentes Matriz de componentesa Componente 1 2 3 4 PZ: Golosinas saladas .580 -.578 .278 -.048 PZ: Golosinas dulces .567 -.559 .269 -.091 PZ: Comida rápida .537 -.431 .148 -.190 PZ: Tubérculos .508 .399 .122 .095 PZ: Cereales .499 .461 .289 -.091 PZ: Refrescos .495 -.449 -.064 .100 PZ: Lácteos .492 .336 .099 .408 PZ: Pan .407 -.246 .052 .363 PZ: Verduras .505 .552 .146 -.173 PZ: Frutas .513 .519 .205 -.290 PZ: Carne roja .581 -.016 -.633 -.177 PZ: Carne blanca .565 .032 -.624 -.267 PZ: Leguminosas .396 .136 -.244 .681 Método de extracción: Análisis de componentes principales. a. 4 componentes extraídos Esta matriz cruza cada variable (filas) con cada uno de los 4 nuevos componentes (columnas). Los coeficientes se denominan pesos o saturaciones: indican la intensidad de la relación entre las variables y los factores. Se interpretan como una correlación de Pearson. Esta es la solución sin rotar los factores, en general su interpretación es más difusa. Vemos que la mayoría delas variables tienen peso (valores altos) en el primer componente. También observamos que las preguntas fueron ordenadas según las correlaciones, como fue pedido en un principio. Ya que es complejo interpretar esta matriz, se prefiere interpretar la matriz de componentes rotada. Ésta será interpretada más adelante. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 3.h. Correlaciones reproducidas Correlaciones reproducidas PZ:Frutas PZ:Ve rduras PZ:Ce reales PZ:Tubé rculos PZ: Lácte os PZ:Legum inosas PZ:Carn e roja PZ:Carn e blanca PZ:Refre scos PZ:Gol osinas dulces PZ:Golos inas saladas PZ:Comida rápida PZ:Pan Correlación reproducida PZ:Frutas .658 .625 .581 .465 .328 .026 .211 .256 -.021 .083 .068 .137 -.014 PZ:Verduras .625 .611 .565 .478 .378 .122 .222 .257 -.025 .033 .022 .088 .014 PZ:Cereales .581 .565 .554 .464 .392 .128 .116 .141 .013 .112 .108 .130 .072 PZ:Tubérculos .465 .478 .464 .441 .435 .290 .195 .198 .074 .089 .093 .101 .149 PZ: Lácteos .328 .378 .392 .435 .531 .494 .145 .118 .127 .081 .099 .056 .271 PZ:Leguminosa s .026 .122 .128 .290 .494 .699 .262 .199 .219 .021 .051 -.011 .362 PZ:Carne roja .211 .222 .116 .195 .145 .262 .769 .769 .317 .184 .178 .259 .143 PZ:Carne blanca .256 .257 .141 .198 .118 .199 .769 .781 .279 .159 .148 .249 .092 PZ:Refrescos -.021 -.025 .013 .074 .127 .219 .317 .279 .461 .505 .524 .431 .345 PZ:Golosinas dulces .083 .033 .112 .089 .081 .021 .184 .159 .505 .715 .731 .603 .349 PZ:Golosinas saladas .068 .022 .108 .093 .099 .051 .178 .148 .524 .731 .750 .611 .375 PZ:Comida rápida .137 .088 .130 .101 .056 -.011 .259 .249 .431 .603 .611 .532 .263 PZ:Pan -.014 .014 .072 .149 .271 .362 .143 .092 .345 .349 .375 .263 .360 Residualb PZ:Frutas -.027 -.166 -.176 -.025 .063 -.020 -.031 .056 -.009 -.004 -.058 .093 PZ:Verduras -.027 -.199 -.122 -.099 .072 -.035 -.042 .059 .013 .009 -.033 .046 PZ:Cereales -.166 -.199 -.043 -.048 -.006 .040 .021 .027 -.032 -.036 .015 -.017 PZ:Tubérculos -.176 -.122 -.043 -.147 -.055 .004 .004 -.022 .011 .005 .013 -.066 PZ: Lácteos -.025 -.099 -.048 -.147 -.209 .026 .053 -.025 .002 .005 .032 -.099 PZ:Leguminosa s .063 .072 -.006 -.055 -.209 -.033 -.036 -.055 .075 .061 .040 -.212 PZ:Carne roja -.020 -.035 .040 .004 .026 -.033 -.188 -.075 .020 .031 -.025 .001 PZ:Carne blanca -.031 -.042 .021 .004 .053 -.036 -.188 -.050 .012 .011 -.017 .047 PZ:Refrescos .056 .059 .027 -.022 -.025 -.055 -.075 -.050 -.087 -.129 -.105 -.100 PZ:Golosinas dulces -.009 .013 -.032 .011 .002 .075 .020 .012 -.087 -.009 -.183 -.137 PZ:Golosinas saladas -.004 .009 -.036 .005 .005 .061 .031 .011 -.129 -.009 -.131 -.109 PZ:Comida rápida -.058 -.033 .015 .013 .032 .040 -.025 -.017 -.105 -.183 -.131 .014 PZ:Pan .093 .046 -.017 -.066 -.099 -.212 .001 .047 -.100 -.137 -.109 .014 Vemos nuevamente dos matrices juntas: Matriz reproducida: reproduce las correlaciones entre variables usando la información factorial. Matriz residual: expresan la diferencia entre las correlaciones observadas y las correlaciones reproducidas por la estructura factorial para los pares de variables. Si la solución factorial es buena, las diferencias debiesen ser pocas y los residuos pequeños. Razones posibles de residuos altos: - Número insuficiente de factores extraídos. - Nivel de medida de las variables inadecuado para estimar correlaciones. - Falta de relación lineal entre variables que haga inadecuado el modelo factorial. - Etc… Para un análisis más acabado, miramos el pie de la tabla: Vemos aquí que los residuos computados entre las correlaciones observadas y reproducidas son el 39%. Si es bueno o malo depende del criterio, no existen un criterio estándar en este caso. 3.i. Matriz de componentes rotados Matriz de componentes rotadosa Componente 1 2 3 4 Golosinas saladas (papitas) .862 .049 .021 .056 Golosinas dulces .842 .061 .037 .015 Comida rápida (hot dog, tortas) .702 .109 .159 -.055 Refrescos .591 -.072 .232 .230 Frutas .035 .795 .138 -.071 Verduras -.024 .766 .148 .046 Cereales (trigo, avena) .078 .735 -.001 .088 Tubérculos (papa, camote) .054 .592 .087 .282 Carne blanca (pollo, pescado) .138 .172 .854 .052 Carne roja (res, cerdo) .170 .125 .840 .137 Leguminosas (frijoles, habas, lentejas) -.002 .077 .168 .815 Lácteos .052 .461 .002 .563 Pan .406 .002 .015 .442 Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 5 iteraciones. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Con la Matriz Rotada intentaremos definir qué variables se asocian a qué componente. El fin de esto es observar cuántas dimensiones de análisis es posible observar en relación a los hábitos alimentarios de los chilenos. En esta primera parte analizaremos las variables que pesan en el primer componente (que tienen correlaciones sobre 0,5 en este componente). Estas son: - ¿Qué tan seguido comes…? Golosinas saladas (papitas) - ¿Qué tan seguido comes…? Golosinas dulces - ¿Qué tan seguido comes…? Comida rápida (hot dog, tortas) - ¿Qué tan seguido comes…? Refrescos Observando estas afirmaciones, vemos que claramente el componente al que pertenecen se asocia con una Dieta rica en calorías. Si observamos en las salidas las variables que pesan en el segundo componente, vemos que éstas se encuentran asociadas a una Dieta balanceada: - ¿Qué tan seguido comes…? Frutas - ¿Qué tan seguido comes…? Verduras - ¿Qué tan seguido comes…? Cereales (trigo, avena) - ¿Qué tan seguido comes…? Tubérculos (papa, camote) El tercer componente (que agrupa Carne blanca y Carne roja), representaría una Dieta rica en proteínas; mientras que el cuarto componente (asociado a Leguminosas, lácteos y pan) representaría una Dieta rica en carbohidratos. Esta es sin duda la tabla más importante. Permite identificar el sentido de los factores de acuerdo a las variables que se asocian a ellos. En este punto se debe hacer un esfuerzo interpretativo por caracterizar los factores o identificarlos con algún nombre de acuerdo a las variables que asocian con mayor intensidad. Es aquí donde respondemos a la pregunta por las dimensiones subyacentes a la matriz de correlaciones, o los patrones de relaciones sociales, las regularidades empíricas, la coherencia de ciertos constructos, la valides de ciertas escalas, según sea el objetivo del análisis. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 3.j. Matriz de transformación de componentes Matriz de transformación de las componentes Componente 1 2 3 4 1 .607 .575 .427 .346 2 -.716 .692 .007 .097 3 .333 .376 -.850 -.159 4 -.095 -.224 -.308 .920 Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. Esta matriz se refiere a la magnitud de la rotación llevada a cabo. Si los valores que se encuentran fuera de la diagonal son cercanos a 0, significa que hubo poca rotación. Si observamos esta tabla, los valores son en general bastante lejanos a 0 (con algunas excepciones), por lo que podemos concluir que hubo una moderada rotación de los factores. 3.k. Gráfico de componentes en el espacio rotado Este gráfico nos muestra las variables en un espacio formado por 3 componentes (los 3 primeros). Su interpretación no es fácil, por lo que no tiene mucha utilidad. De todas formas sirve para ver cómo se distribuyen las variables. La idea de la solución gráfica es evaluar cuánta información mantienela solución factorial. Esto se evalúa proyectando las observaciones en los nuevos ejes. Una buena solución es aquella donde la mayoría de los puntos originales son reproducidos en un plano de menor dimensión (en este caso de 13 a 4). Si la distancia entre los puntos originales y el nuevo gráfico es poca, la solución es buena ya que explica gran cantidad de información. Este tipo de gráficos es útil cuando se está trabajando con pocas dimensiones. Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar Maureen Resaltar 4. FACTORES (COMPONENTES PRINCIPALES) EN LA BASE DE DATOS Vista de variables: Vista de datos: A mano derecha de la última variable encontraremos 4 factores, que corresponden a cada uno de los componentes principales extraídos. Cada caso tiene un puntaje asociado a estos componentes. Si bien estos puntajes no son interpretables de manera absoluta, son útiles para llevar a cabo un nuevo análisis, contemplando ahora solamente estas 4 nuevas variables. Recordemos que estos puntajes en los factores remplazan los puntajes en las otras variables. Ojo que en este caso están en puntaje Z. Maureen Resaltar Maureen Resaltar Maureen Resaltar Guía de trabajo SPSS
Compartir