Logo Studenta

Guía de trabajo SPSS_Factorial

¡Este material tiene más páginas!

Vista previa del material en texto

Guía de trabajo SPSS 
Análisis Factorial 
 
 
 
Material de ayudantía 
Estadística IV – 2012 
Facultad de Ciencias Sociales – Universidad de Chile 
 
 
 
 
 
 
 
Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos 
 
Fuentes: 
 Vivanco, M. (1999). Análisis estadístico multivariable: Teoría y práctica. Santiago: Universitaria. 
Gerber, M. y Orchard, M. (Sin fecha). Material de apoyo para Ayudantía de Análisis Estadístico IV. 
Universidad de Chile, Departamento de Sociología. 
Apuntes de clase Estadística IV, 2012. Profesora Gabriela Azócar de la Cruz 
RESUMEN: ANÁLISIS FACTORIAL 
Extracción de Componentes Principales 
 
El análisis factorial permite analizar la estructura subyacente de una serie de variables, es decir, 
patrones de dependencia entre variables, lo que ayuda a identificar variables latentes que agrupan a las 
observadas en principio. Estas variables latentes (los Factores o Componentes Principales) son resultado 
de la combinación lineal del conjunto de las variables observadas que se analizan. El primer factor o 
componente es el que mejor resume la información contenida en la matriz original. El segundo resume 
la información restante y así sucesivamente. Esta información explicada es varianza. 
Usos: 
• Identificación de dimensiones de análisis o de conceptos que estructuran la relación entre 
variables 
• Contrastación de hipótesis respecto a la estructura de relaciones en un conjunto de variables 
• Resumir variables observadas en un número menor de variables latentes 
• Validación de índices 
Condiciones: 
a) Tamaño de la muestra: Ideal sobre 200 casos, al menos 10 casos por variable. 
b) Variables admitidas: escalares / ordinales (de 4 o más categorías) / dicotómicas, idealmente con 
distribución normal. Lo ideal para el análisis factorial son las variables cuantitativas (de intervalo o 
razón), puesto que es una técnica que opera sobre una matriz de correlaciones entre todas las variables 
de análisis, que se calcula a través del coeficiente r de Pearson (calculable sólo para variables 
cuantitativas). Mientras más categorías de respuesta, mejor. Por ejemplo, escalas de satisfacción con X 
cosa, poniendo “nota” de 1 a 7. 
b) Variables correlacionadas: correlaciones sobre 0,2. Matriz de correlaciones no puede ser singular 
(matriz de identidad). 
c) No multicolinealidad: si la correlación entre las variables es muy alta, por ejemplo, de 0.9, quiere 
decir que esas variables están midiendo lo mismo. 
d) Variables teóricamente relacionadas con un concepto central 
e) Cantidad de variables: como criterio común se utiliza que para cada factor que se decida mantener 
en la solución, exista al menos 4 variables originales. Por ejemplo, decidimos mantener 5 factores, lo 
ideal es que esto se haga en base a 20 variables. 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
EJERCICIO DE APLICACIÓN 
 
0. DISPONER LA BASE DE DATOS 
La base de datos utilizada en el ejercicio es de una encuesta sobre salud. Las variables en esta base son 
16 (de las cuales vamos a utilizar 13), y tiene 3740 casos. [NO HAY INFORMACIÓN SOBRE LA BASE DE 
DATOS, ES PARA EJERCICIO DE APLICACIÓN] 
La pregunta que guía este ejercicio es ¿Cuántas y cuáles son las dimensiones de análisis es posible 
observar en relación a los hábitos alimentarios de los chilenos? 
0.a. Variables a utilizar y Valores perdidos 
Las variables que vamos a usar son todas las 3_4 ¿Qué tan seguido comes…? Frutas / Verduras / 
Cereales / Tubérculos / Lácteos / Leguminosas / Carne roja / Carne Blanca / Refrescos / Golosinas dulces 
/ Golosinas saladas / Comida rápida / Pan. 
Es una variable ordinal, cuyas categorías de respuesta son: 
{1, Todos los días} 
{2, Alguna vez a la semana} 
{3, De vez en cuando} 
{4, Nunca} 
{8, NS} Marcar como 
{9, NC} Valores Perdidos 
 
0.b. Descriptivos y Estandarización de variables 
Vamos a trabajar con variables estandarizadas (convertidas a puntaje Z), para así se evitar la influencia 
de la unidad de medida en el proceso, y la disparidad de las distribuciones, dado que pueden unas tener 
rangos mas acotados, y otras más amplios. Si no era necesario, por ejemplo, en el caso de las variables 
dicotómicas, el proceso de estandarización no cambiará en nada los resultados, se hace de modo 
“preventivo”. 
Al mismo tiempo que hacemos el proceso de estandarización, normalización o tipificación, vamos a 
pedir los descriptivos para las variables que utilizaremos en el análisis factorial. 
En la pantalla: Analizar → Estadísticos descriptivos → Descriptivos: 
Incluir variables 
 Guardar valores tipificados como variables 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
 
→ Opciones 
 Media 
 Desviación típica 
 Mínimo 
 Máximo 
 
Orden de presentación: lista de variables. Continuar. 
 
→ Pegar. PLAY en la sintaxis. 
1. ESTADÍSTICOS DESCRIPTIVOS 
 Estadísticos descriptivos 
 N Mínimo Máximo Media Desv. típ. 
3_4 ¿Qué tan seguido 
comes…? Frutas 
3738 1 4 1.80 .738 
3_4 ¿Qué tan seguido 
comes…? Verduras 
3739 1 4 1.83 .743 
3_4 ¿Qué tan seguido 
comes…? Cereales (trigo, 
avena) 
3738 1 4 2.03 .830 
3_4 ¿Qué tan seguido 
comes…? Tubérculos 
(papa, camote) 
3736 1 4 2.11 .769 
3_4 ¿Qué tan seguido 
comes…? Lácteos 
3737 1 4 1.71 .781 
3_4 ¿Qué tan seguido 
comes…? Leguminosas 
(frijoles, habas, lentejas) 
3737 1 4 1.78 .737 
3_4 ¿Qué tan seguido 
comes…? Carne roja (res, 
cerdo) 
3737 1 4 2.11 .670 
3_4 ¿Qué tan seguido 
comes…? Carne blanca 
(pollo, pescado) 
3736 1 4 2.10 .661 
3_4 ¿Qué tan seguido 
comes…? Refrescos 
3740 1 4 1.93 .863 
3_4 ¿Qué tan seguido 
comes…? Golosinas dulces 
3737 1 4 2.24 .876 
3_4 ¿Qué tan seguido 
comes…? Golosinas 
saladas (papitas) 
3735 1 4 2.29 .879 
3_4 ¿Qué tan seguido 
comes…? Comida rápida 
(hot dog, tortas) 
3733 1 4 2.49 .824 
3_4 ¿Qué tan seguido 
comes…? Pan 
3634 1 4 1.83 .814 
N válido (según lista) 3608 
 
La tabla muestra los descriptivos para cada variable: Media, Desviación típica, Mínimo, Máximo y 
Número de casos válidos. 
 
Las variables van todas de 1 a 4: siendo (1) Todos los días, (2) Alguna vez a la semana, (3) De vez en 
cuando y (4) Nunca. 
 
El número de casos válidos según lista (casos que presentan datos para todas las variables) son 3608 
(que no es significativamente distinto de los 3740 casos de la muestra total). Esta cantidad es suficiente 
para realizar la extracción de componentes principales. 
 
 
 
 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
2. ANÁLISIS FACTORIAL 
Analizar → Reducción de dimensiones → Factor. Incluir las variables. 
 
El análisis factorial es una técnica de interdependencia, por lo cual no definimos las variables 
dependientes e independientes, sino que incluimos todas las variables en el recuadro Variables. 
→ Descriptivos 
Estadísticos:  Descriptivos univariados,  Solución inicial 
 
Matrices de Correlación:  Coeficientes,  Determinante,  KMO y Bartlett,  Reproducida,  Anti-
imagen 
 
Pedimos todo menos: 
Los niveles de significación: es un valor que se incluye en la matriz de correlación. Un nivel crítico menor 
que 0,05 indica que la correlación poblacional (rho) entre el correspondiente par de variables puede ser 
considerada significativamente distinta de cero ( 0:0 =ρH ). Lo deseable es encontrar niveles críticos 
pequeños. 
La matriz inversa ya que si bien es la base para el cálculo de las comunalidades iniciales en algunos 
métodos de extracción no aporta en la interpretación. 
 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
 
→ Extracción 
Método: Componentes principalesAnalizar:  Matriz de correlaciones 
Visualización:  Solución factorial sin rotar,  Gráfico de sedimentación 
Extraer:  Basado en autovalor: autovalores mayores que 1, que son los factores que entran al modelo, 
λ<1 no tienen sentido estadístico. 
 
Acá tenemos que tomar varias decisiones. 
(1) El Método de extracción. Los distintos métodos difieren tanto en la forma de estimar las 
saturaciones (correlaciones entre variables y factores) como en las matrices de cálculo (nosotros 
trabajaremos con la matriz de correlaciones). 
 
 
Los procedimientos de extracción de factores más comunes son dos: 
- Extraer Factores: se utiliza para resumir la información común que tienen las variables originales 
ordenadas en una matriz de correlaciones. Al decidir factorizar existen 6 métodos en SPSS, el 
más común es el de ejes principales. 
- Extraer Componentes: se utiliza para resumir toda la información presente en la matriz de 
correlaciones. 
 
Varianza: cuantifica la información existente en las variables. Puede dividirse en: 
a. Comunalidad: variación que tienen en común. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
b. Especificidad: variación específica de las variables. Se descompone en: 
• Unicidad: varianza no compartida. 
• Error: especificidad debida al azar, aleatoria. 
 
Como predeterminado viene el Método de Componentes Principales. Dejamos ese, pues queremos 
resumir toda la información presente en la matriz de correlaciones (tanto comunalidad como 
especificidad). 
 
(2) Elegir si el análisis se llevará a cabo a través de 
- Matriz de Correlaciones. Dejamos esta opción predeterminada. 
- Matriz de Covarianzas. En caso de optar por trabajar con matriz de covarianzas no se estandarizan las 
variables y las que tienen mayor variabilidad tienen más peso en el análisis. 
 
(3) Decidir con respecto al número de factores que serán extraídos. 
En Análisis Factorial siempre se obtienen tanto factores como variables se incluyan en el análisis. Como 
los factores se ordenan de manera jerárquica, es decir, el primero reúne más información que el 
segundo y así sucesivamente, es posible reducir dimensiones, asumiendo cierta pérdida de información. 
Por tanto hay que tomar una decisión respecto de cuántos factores mantener. 
 
Hay dos opciones: 
a) Criterio estadístico común: mantener los factores con autovalor mayor que 1, lo que implica que 
el factor explica por lo menos la varianza de una variable. 
 
Recordemos que la matriz de correlaciones refiere a la relación entre variables estandarizadas. 
Recordemos que el coeficiente r de Pearson es la multiplicación de dos variables estandarizadas. 
En variables estandarizadas la varianza es 1, por tanto si hay un factor que asocia un autovalor 
menor a 1 quiere decir que tiene menos información que la variable. En este contexto 
información es análoga a varianza. 
Dentro del criterio del autovalor, ese valor puede cambiarse introduciendo otro distinto, 
siempre que sea entre cero y el número de variables. 
b) Criterio sustantivo: definir un número fijo de factores a conservar. Esto puede basarse en un 
criterio teórico. 
 
 
(4) Se da la alternativa de elegir un número máximo de iteraciones que los algoritmos pueden realizar 
para encontrar la solución factorial final. El valor por defecto es 25, habitualmente suficiente para 
obtener una solución. Este valor puede cambiarse introduciendo un entero positivo. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
 
→ Rotación 
Método:  Varimax 
Visualización:  Solución rotada,  Gráficos de saturaciones 
 
Aquí puede optarse por un Método de rotación de los factores. La rotación es un procedimiento 
opcional (es rechazada por algunos científicos sociales). 
 
Los procedimientos de rotación buscan mejorar la interpretación encontrando el sistema de referencia 
más adecuado. Para ello, se giran los ejes (factores) manteniendo las propiedades matemáticas de la 
solución inicial. La rotación no modifica la varianza explicada por cada factor. 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Una buena solución factorial se caracteriza por la simplicidad y facilidad de interpretación. 
 
Características que permiten la fácil interpretación de los factores: 
- Cada factor debe estar asociado a saturaciones cercanas a cero (independencia entre factor y 
variable) o a uno (asociación entre factor y variable). 
- Cada variable debe estar asociada a un solo factor. El peso de la variable es alto en el factor que 
explica su variabilidad. 
- Dos factores no deben presentar pesos altos o bajos en las mismas variables. 
 
La rotación facilita la interpretación cuando en principio la solución no cumple con estas condiciones, 
por ejemplo, si variables saturasen en todos los factores, no estaríamos reduciendo información. Pero si 
rotamos los factores, podemos asegurarnos que varían los coeficientes de la matriz de saturaciones. 
Esta es una manera de distribuir mejor la información de las variables en los factores. 
 
Por defecto: VARIMAX: Máxima varianza en las columnas de la matriz de saturaciones 
 
Existen dos tipos de procedimientos de rotación: 
- Rotación ortogonal: respeta la independencia entre factores de la solución inicial. SPSS ofrece 3 
métodos distintos. 
- Rotación oblicua: pueden obtenerse factores relacionados entre sí. 2 métodos. 
 
Las opciones de rotación son: 
• Ninguno. Por defecto. 
• Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen 
saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la 
solución por columna (valores altos o bajos). Buscamos entonces simplificar la interpretación de 
las columnas de la matriz de factores. 
• Quartimax. Método de rotación ortogonal que minimiza el número de factores necesarios para 
explicar cada variable. Simplifica la interpretación de las variables observadas optimizando la 
interpretación por filas. 
• Equamax. Combinación del método Varimax y Quartimax. Se minimiza tanto el número de 
variables que saturan alto en un factor como el número de factores necesarios para explicar una 
variable. 
• Oblimin directo. 
• Promax. 
 
 
→ Puntuaciones 
 Guardar como variables 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Método:  Regresión 
 
Los componentes principales guardados como variables son un subproducto de la aplicación de Análisis 
Factorial, corresponden al valor que tendría un caso si el factor hubiese sido medido directamente como 
una pregunta en el cuestionario. Pueden constituir insumos interesantes para otras técnicas de análisis 
multivariable. Los factores son nuevas variables independientes en las que cada caso asume un valor. 
Cada puntuación factorial es una combinación lineal de los coeficientes y las puntuaciones en las 
variables originales. 
 
Esta ventana da la opción de calcular los puntajes para cada caso de los factores que se generen, por 
medio de distintos métodos (Regresión, Bartlett, Anderson-Rubin). 
(Las opciones de este recuadro no tienen efecto alguno cuando se ha seleccionado componentes 
principales como método de extracción, ya que en ese modelo factorial las puntuaciones factoriales no 
son estimadas, sino calculadas directamente a partir de las variables originales). 
 
→ Opciones 
Valores perdidos:  Excluir según lista 
Formato de presentación de los coeficientes:  Ordenadospor tamaño 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
En esta ventana se decide el tratamiento de los casos perdidos: 
• Excluir casos según lista: excluye los casos que tengan cualquier valor perdido en cualquiera de 
las variables. Nos quedamos con esta opción para trabajar con los 3608 casos que vimos en un 
principio. 
• Excluir casos según pareja: incluye casos que tengan valores perdidos en alguna pero casos 
válidos en otra y trabaja con las puntuaciones válidas. 
• Remplazar por la media. 
 
Formato de visualización de los coeficientes: 
Ordenados por tamaño. Esta opción sirve para ordenar las variables de las tablas de resultados en 
función de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones, 
correlaciones, etc). Ordenamos por tamaño para simplificar la interpretación. 
 
Suprimir valores absolutos menores que.... Permite suprimir de las tablas de resultados los coeficientes 
cuyo un valor absoluto sea menor que el valor establecido (el valor por defecto es 0,10). 
 
 
→ PEGAR 
Sintaxis: 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
 
→ PLAY 
 
 
 
 
 
 
 
 
 
 
 
3. RESULTADOS 
3.a. Descriptivos 
Estadísticos descriptivos 
 Media Desviación típica N del análisis 
Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas .0010556 .99905335 3608 
PZ: Verduras .0021201 .99698314 3608 
PZ: Cereales (trigo, avena) -.0058733 .99587178 3608 
PZ: Tubérculos (papa, camote) .0021784 .99624071 3608 
PZ: Lácteos -.0024121 .99699958 3608 
PZ: Leguminosas (frijoles, habas, lentejas) .0039938 .99745198 3608 
PZ: Carne roja (res, cerdo) -.0010489 .99911351 3608 
PZ: Carne blanca (pollo, pescado) -.0019452 .99563029 3608 
PZ: Refrescos -.0079052 .99691805 3608 
PZ: Golosinas dulces -.0017021 .99436181 3608 
PZ: Golosinas saladas (papitas) -.0034591 .99555959 3608 
PZ: Comida rápida (hot dog, tortas) -.0088060 .99860901 3608 
PZ: Pan -.0011775 .99870061 3608 
 
Esta tabla nos muestra la Media, la Desviación típica y los casos válidos para el análisis. Aquí debemos 
recordar que estandarizamos nuestras variables, y en las variables estandarizadas siempre la media es 0 
y la varianza es 1. Como tenemos 13 variables, tenemos 13 varianzas de 1. 
 
Los casos incluidos en el análisis son 3608 en todas las variables, tal como vimos antes: cada uno de 
estos 3608 individuos respondió estas 13 preguntas. 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.b. Matriz de correlaciones 
Matriz de correlacionesa 
 Frutas Verduras Cereales Tubérculos Lácteos 
 
Leguminosas 
Carne 
roja 
 
Carne 
blanca 
Refrescos 
 
Golosinas 
dulces 
 
Golosinas 
saladas 
 
Comida 
rápida 
Pan 
Frutas 1 0.599 0.414 0.289 0.304 0.089 0.192 0.224 0.034 0.073 0.064 0.079 0.079 
Verduras 0.599 1 0.365 0.356 0.278 0.193 0.187 0.216 0.034 0.046 0.031 0.055 0.06 
Ceales 0.414 0.365 1 0.421 0.344 0.122 0.155 0.162 0.04 0.08 0.072 0.144 0.055 
Tubérculos 0.289 0.356 0.421 1 0.288 0.236 0.198 0.203 0.052 0.1 0.098 0.113 0.083 
Lácteos 0.304 0.278 0.344 0.288 1 0.285 0.171 0.17 0.102 0.082 0.104 0.088 0.172 
Leguminosas 0.089 0.193 0.122 0.236 0.285 1 0.229 0.163 0.165 0.096 0.112 0.029 0.15 
Carne roja 0.192 0.187 0.155 0.198 0.171 0.229 1 0.581 0.242 0.203 0.209 0.234 0.143 
Carne blanca 0.224 0.216 0.162 0.203 0.17 0.163 0.581 1 0.229 0.171 0.159 0.231 0.139 
Refrescos 0.034 0.034 0.04 0.052 0.102 0.165 0.242 0.229 1 0.418 0.394 0.326 0.245 
Golosinas 
dulces 0.073 0.046 0.08 0.1 0.082 0.096 0.203 0.171 0.418 1 0.722 0.42 0.212 
Golosinas 
saladas 0.064 0.031 0.072 0.098 0.104 0.112 0.209 0.159 0.394 0.722 1 0.479 0.266 
Comida 
rápida 0.079 0.055 0.144 0.113 0.088 0.029 0.234 0.231 0.326 0.42 0.479 1 0.277 
Pan 0.079 0.06 0.055 0.083 0.172 0.15 0.143 0.139 0.245 0.212 0.266 0.277 1 
a. Determinante = .036 
 
En esta tabla aparece la relación de todas las variables entre sí mediante el coeficiente de correlación de Pearson que establece la correlación 
lineal entre dos variables. La interpretación es la siguiente: 
1 = relación lineal perfecta positiva 
-1= relación lineal perfecta negativa 
0 = relación lineal nula 
 
Los 1 en la diagonal indican la correlación de la variable consigo misma. Buscamos que las variables estén relacionadas entre sí (diferencia con la 
matriz identidad), ojalá con correlaciones sobre 0.2; en esta tabla aparecen en celeste las correlaciones muy bajas, pero en general todas las 
variables están correlacionadas entre sí. 
 
Ahora bien, esto no queda sólo en observar, para corroborar, observamos la Determinante (pie de la tabla). Si la determinante se encuentra 
cercana a 0, significa que existe relación lineal entre las variables. Para llevar a cabo un análisis factorial se busca que exista relación lineal entre 
variables dado que el supuesta que sustenta este análisis es que existe una estructura o patrón de relaciones subyacente a la matriz de 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
correlaciones y queremos describirla reduciendo las dimensiones ya que si estudiamos variable por variable no podremos dar cuenta de esa 
estructura. Además si el determinante es 0 el programa advierte que no es posible calcular la inversa de la matriz, la cual es necesaria para 
algunos métodos de extracción (no para este). La determinante debe ser distinta de 0. En este caso es distinta y cercana a 0 (es 0.036); por 
tanto comprobamos que existe relación entre las variables. 
Maureen
Resaltar
3.c. Kaiser-Meyer-Olkin (KMO) y Prueba de Bartlett 
 
KMO y prueba de Bartlett 
Medida de adecuación muestral de Kaiser-Meyer-Olkin. .762 
Prueba de esfericidad de 
Bartlett 
Chi-cuadrado aproximado 12023.009 
gl 78 
Sig. .000 
 
La medida de adecuación muestral KMO es un estadístico que mide la proporción de la varianza en las 
variables que es común. 
- Si es cercano a 1, existen suficientes comunalidades como para llevar a cabo el análisis. 
- Si el valor de esta prueba es inferior a 0.5 NO debiera aplicarse el análisis factorial según algunos 
estadísticos (criterios variables). 
- En general es bueno que sea sobre 0.7 
 
En este caso es de 0.762, lo que indica que existe varianza común entre las variables y es posible seguir 
adelante con la interpretación. 
 
La Prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación es una 
matriz identidad. La matriz identidad es una matriz que tiene unos en la diagonal y ceros en los demás 
espacios, es decir, una matriz donde no hay más relación entre variables que la que hay entre cada 
variable consigo misma. Por tanto no tiene sentido buscar un patrón de relaciones donde lo que hay es 
absoluta independencia. 
 
El modo de interpretar esta prueba es el siguiente: si la significación es menor a 0.05 = existen 
correlaciones entre las variables. En este caso la significación es de 0.000, por tanto no es una matriz de 
identidad. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.d. Matrices anti-imagen 
 
 
 
 
 
 
 
En las matrices anti-imagen tenemos dos tablas en una. 
En la Correlación anti-imagen se analizan dos cosas: 
 
1. La diagonal: en ella observamos la Medida de Adecuación de la Muestra (KMO). Si el modelo 
factorial elegido es adecuando para explicar los datos, los elementos de la diagonal deben ser 
cercanos a 1 (el criterio es superiores a 0,5). 
Vemos valores adecuados, entre el 0.5 y 0.7 y 0.8 
 
2. El resto de la (1°) tabla: los coeficientes de correlación parcial indican el grado de relación 
existente entre dos variables eliminando el efecto de las otras variables incluidas, es decir, son 
las correlaciones que no se deben a los factores comunes. Cuando las variablesincluidas tienen 
información común, la correlación parcial de la matriz anti – imagen debe ser reducida. Por 
tanto se busca que las correlaciones sean pequeñas, ya que si hay valores bajos, podemos 
afirmar que nuestra solución factorial tiene poca varianza no explicada. 
Observamos valores cercanos a 0, por lo que la varianza que no se debe a factores comunes es 
muy baja. 
 
La Covarianza anti-imagen no se analiza, pero es distinta a la otra matriz en que la diagonal representa 
una indicación de la unicidad de las variables, de lo que tienen de propio, no compartido con las demás 
variables. 
 
3.e. Comunalidades 
 
Comunalidades 
 Inicial Extracción 
Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas 1.000 .658 
PZ: Verduras 1.000 .611 
PZ: Cereales (trigo, avena) 1.000 .554 
PZ: Tubérculos (papa, camote) 1.000 .441 
PZ: Lácteos 1.000 .531 
PZ: Leguminosas (frijoles, habas, lentejas) 1.000 .699 
PZ: Carne roja (res, cerdo) 1.000 .769 
PZ: Carne blanca (pollo, pescado) 1.000 .781 
PZ: Refrescos 1.000 .461 
PZ: Golosinas dulces 1.000 .715 
PZ: Golosinas saladas (papitas) 1.000 .750 
PZ: Comida rápida (hot dog, tortas) 1.000 .532 
PZ: Pan 1.000 .360 
Método de extracción: Análisis de Componentes principales. 
 
La Comunalidad es la proporción de la varianza de una variable que puede ser explicada por el modelo 
factorial obtenido. 
 
Tenemos dos columnas: 
 
Inicial: la varianza de una variable estandarizada es 1, es decir esta es toda la información o variabilidad 
que aporta una variable. El método de Componentes principales (indicado al pie de la tabla) busca 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
extraer la mayor varianza de las variables originales considerando la comunalidad y la especificidad. 
Asume que es posible explicar el 100% de la varianza observada, es por ello que el valor inicial es 1. 
 
Extracción: vemos la parte de la varianza que es explicada por el modelo factorial obtenido. Podemos 
evaluar ya en este punto qué variables son peor explicadas por el modelo factorial (que veremos más 
adelante, las tablas aparecen en este orden). Valores cercanos a 1 indican que el modelo explica la 
varianza de esa variable, mientras que valores cercanos a 0 indican que el modelo factorial no explica la 
variable. 
Por ejemplo, la variable ¿Qué tan seguido comes?... PAN, no es muy bien explicada por nuestro modelo. 
 
*Si escogiéramos otro método (ejes principales) en la columna inicial tendríamos una estimación de la comunalidad 
(correlación múltiple entre esa variable y las demás). Luego estas comunalidades generalmente no coinciden con la matriz 
factorial. 
 
3.f. Varianza explicada 
 
Varianza total explicada 
Componente 
Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción 
Suma de las saturaciones al 
cuadrado de la rotación 
Total % de la varianza 
% 
acumulado Total 
% de la 
varianza 
% 
acumulado Total 
% de la 
varianza 
% 
acumulado 
1 3.437 26.435 26.435 3.44 26.435 26.435 2.52 19.384 19.384 
2 2.172 16.711 43.146 2.17 16.711 43.146 2.396 18.433 37.816 
3 1.199 9.227 52.373 1.2 9.227 52.373 1.593 12.257 50.073 
4 1.053 8.098 60.471 1.05 8.098 60.471 1.352 10.397 60.471 
5 0.856 6.588 67.059 
6 0.796 6.121 73.181 
7 0.691 5.317 78.498 
8 0.645 4.963 83.461 
9 0.574 4.412 87.872 
10 0.523 4.025 91.897 
11 0.41 3.157 95.054 
12 0.374 2.875 97.929 
13 0.269 2.071 100 
Método de extracción: Análisis de Componentes principales. 
 
 
En esta tabla ya vemos cómo se distribuye la varianza entre los factores. Vamos viendo por columna: 
 
Columna 1: Componentes: Vemos 13 componentes, 1 por cada variable. 
 
Columna 2: Autovalores: indican la cantidad de información (varianza) que explica el factor. Se calcula 
como la suma en cada columna de los cuadrados de los pesos. Sabemos que los factores o componentes 
son jerárquicos y vemos que la magnitud de los autovalores va en descenso. Criterio autovalor mayor a 
1. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Hasta el componente 4, los autovalores son mayores que 1, pero ya el 5 tiene un autovalor menor que 1 
(0.856). Si nos quedamos con 4 componentes, reducimos las 13 variables a 4 dimensiones. 
 
Columna 3: Porcentajes de varianza explicada: asociados a cada factor se obtienen dividiendo el 
autovalor por la suma de los autovalores (número de variables=13) y multiplicándolo por 100. (3.437 / 
13 * 100 = 26.435). Es una regla de 3 simple. 
 
Columna 4: Porcentajes de varianza explicada, pero acumulado: Esta información permite tomar una 
decisión respecto del número de factores a mantener. Con 4 componentes estamos explicando un 
60,47% de la varianza. Evaluar si se está sacrificando mucha información vs la reducción de dimensiones. 
 
Columna 5, 6 y 7: muestran la misma información cuando trabajamos con el método de componentes 
principales, ya que muestra la suma de las saturaciones al cuadrado y en este método por defecto los 
autovalores se calculan de esta manera, pero en otros métodos de extracción, en los cuales el autovalor 
se calcula de otra manera, aporta información relevante. 
 
Columna 8, 9 y 10: muestra la misma información luego de aplicada la rotación. 
Recordemos que la rotación reordena la varianza. De esta forma, el primer componente ya no tiene un 
autovalor de 3.4, sino de 2.52, y la varianza que explica es ahora sólo el 19,38% (no ya el 26,44%). Lo 
que hace la rotación es emparejar los factores. Si bien el primer componente sigue siendo el que más 
explica, ahora no se encuentra tan lejos de los demás componentes. Cabe destacar que, sin embargo, si 
miramos la varianza acumulada, luego del componente 4, ésta es del 60,47%, igual que en la solución no 
rotada. La rotación reorganiza varianza, no la pierde. En el fondo mantiene las propiedades matemáticas 
de la solución inicial. 
 
3.g. Gráfico de sedimentación 
 
 
Este gráfico sirve, de forma complementaria a la numérica, para determinar el número óptimo de 
factores. El gráfico se observa buscando el punto de inflexión a partir del cual los autovalores dejan de 
tener una pendiente significativa. 
¿? 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
 
En este caso, por ejemplo, cabría preguntarse si vale la pena incluir también un quinto componente, ya 
que ahí donde se produce un corte en cuanto a la intensidad de la pendiente (capacidad explicativa del 
factor, autovalores). 
Confiando en los criterios matemáticos, optamos por quedarnos con 4 componentes. 
 
3.g. Matriz de componentes 
 
Matriz de componentesa 
 Componente 1 2 3 4 
PZ: Golosinas saladas .580 -.578 .278 -.048 
PZ: Golosinas dulces .567 -.559 .269 -.091 
PZ: Comida rápida .537 -.431 .148 -.190 
PZ: Tubérculos .508 .399 .122 .095 
PZ: Cereales .499 .461 .289 -.091 
PZ: Refrescos .495 -.449 -.064 .100 
PZ: Lácteos .492 .336 .099 .408 
PZ: Pan .407 -.246 .052 .363 
PZ: Verduras .505 .552 .146 -.173 
PZ: Frutas .513 .519 .205 -.290 
PZ: Carne roja .581 -.016 -.633 -.177 
PZ: Carne blanca .565 .032 -.624 -.267 
PZ: Leguminosas .396 .136 -.244 .681 
Método de extracción: Análisis de componentes principales. 
a. 4 componentes extraídos 
 
Esta matriz cruza cada variable (filas) con cada uno de los 4 nuevos componentes (columnas). Los 
coeficientes se denominan pesos o saturaciones: indican la intensidad de la relación entre las variables y 
los factores. Se interpretan como una correlación de Pearson. 
 
Esta es la solución sin rotar los factores, en general su interpretación es más difusa. Vemos que la 
mayoría delas variables tienen peso (valores altos) en el primer componente. 
 
También observamos que las preguntas fueron ordenadas según las correlaciones, como fue pedido en 
un principio. Ya que es complejo interpretar esta matriz, se prefiere interpretar la matriz de 
componentes rotada. Ésta será interpretada más adelante. 
 
 
 
 
 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.h. Correlaciones reproducidas 
Correlaciones reproducidas 
 PZ:Frutas 
PZ:Ve
rduras 
PZ:Ce
reales 
PZ:Tubé
rculos 
PZ: 
Lácte
os 
PZ:Legum
inosas 
PZ:Carn
e roja 
PZ:Carn
e blanca 
PZ:Refre
scos 
PZ:Gol
osinas 
dulces 
PZ:Golos
inas 
saladas 
PZ:Comida 
rápida PZ:Pan 
Correlación 
reproducida 
PZ:Frutas .658 .625 .581 .465 .328 .026 .211 .256 -.021 .083 .068 .137 -.014 
PZ:Verduras .625 .611 .565 .478 .378 .122 .222 .257 -.025 .033 .022 .088 .014 
PZ:Cereales .581 .565 .554 .464 .392 .128 .116 .141 .013 .112 .108 .130 .072 
PZ:Tubérculos .465 .478 .464 .441 .435 .290 .195 .198 .074 .089 .093 .101 .149 
PZ: Lácteos .328 .378 .392 .435 .531 .494 .145 .118 .127 .081 .099 .056 .271 
PZ:Leguminosa
s 
.026 .122 .128 .290 .494 .699 .262 .199 .219 .021 .051 -.011 .362 
PZ:Carne roja .211 .222 .116 .195 .145 .262 .769 .769 .317 .184 .178 .259 .143 
PZ:Carne 
blanca 
.256 .257 .141 .198 .118 .199 .769 .781 .279 .159 .148 .249 .092 
PZ:Refrescos -.021 -.025 .013 .074 .127 .219 .317 .279 .461 .505 .524 .431 .345 
PZ:Golosinas 
dulces 
.083 .033 .112 .089 .081 .021 .184 .159 .505 .715 .731 .603 .349 
PZ:Golosinas 
saladas 
.068 .022 .108 .093 .099 .051 .178 .148 .524 .731 .750 .611 .375 
PZ:Comida 
rápida 
.137 .088 .130 .101 .056 -.011 .259 .249 .431 .603 .611 .532 .263 
PZ:Pan -.014 .014 .072 .149 .271 .362 .143 .092 .345 .349 .375 .263 .360 
Residualb PZ:Frutas -.027 -.166 -.176 -.025 .063 -.020 -.031 .056 -.009 -.004 -.058 .093 
PZ:Verduras -.027 -.199 -.122 -.099 .072 -.035 -.042 .059 .013 .009 -.033 .046 
PZ:Cereales -.166 -.199 -.043 -.048 -.006 .040 .021 .027 -.032 -.036 .015 -.017 
PZ:Tubérculos -.176 -.122 -.043 -.147 -.055 .004 .004 -.022 .011 .005 .013 -.066 
PZ: Lácteos -.025 -.099 -.048 -.147 -.209 .026 .053 -.025 .002 .005 .032 -.099 
PZ:Leguminosa
s 
.063 .072 -.006 -.055 -.209 -.033 -.036 -.055 .075 .061 .040 -.212 
PZ:Carne roja -.020 -.035 .040 .004 .026 -.033 -.188 -.075 .020 .031 -.025 .001 
PZ:Carne 
blanca 
-.031 -.042 .021 .004 .053 -.036 -.188 -.050 .012 .011 -.017 .047 
PZ:Refrescos .056 .059 .027 -.022 -.025 -.055 -.075 -.050 -.087 -.129 -.105 -.100 
PZ:Golosinas 
dulces 
-.009 .013 -.032 .011 .002 .075 .020 .012 -.087 -.009 -.183 -.137 
PZ:Golosinas 
saladas 
-.004 .009 -.036 .005 .005 .061 .031 .011 -.129 -.009 -.131 -.109 
PZ:Comida 
rápida 
-.058 -.033 .015 .013 .032 .040 -.025 -.017 -.105 -.183 -.131 .014 
PZ:Pan .093 .046 -.017 -.066 -.099 -.212 .001 .047 -.100 -.137 -.109 .014 
Vemos nuevamente dos matrices juntas: 
Matriz reproducida: reproduce las correlaciones entre variables usando la información factorial. 
Matriz residual: expresan la diferencia entre las correlaciones observadas y las correlaciones 
reproducidas por la estructura factorial para los pares de variables. Si la solución factorial es buena, las 
diferencias debiesen ser pocas y los residuos pequeños. 
Razones posibles de residuos altos: 
- Número insuficiente de factores extraídos. 
- Nivel de medida de las variables inadecuado para estimar correlaciones. 
- Falta de relación lineal entre variables que haga inadecuado el modelo factorial. 
- Etc… 
 
Para un análisis más acabado, miramos el pie de la tabla: 
 
Vemos aquí que los residuos computados entre las correlaciones observadas y reproducidas son el 39%. 
Si es bueno o malo depende del criterio, no existen un criterio estándar en este caso. 
 
3.i. Matriz de componentes rotados 
 
Matriz de componentes rotadosa 
 Componente 1 2 3 4 
Golosinas saladas (papitas) .862 .049 .021 .056 
Golosinas dulces .842 .061 .037 .015 
Comida rápida (hot dog, tortas) .702 .109 .159 -.055 
Refrescos .591 -.072 .232 .230 
Frutas .035 .795 .138 -.071 
Verduras -.024 .766 .148 .046 
Cereales (trigo, avena) .078 .735 -.001 .088 
Tubérculos (papa, camote) .054 .592 .087 .282 
Carne blanca (pollo, pescado) .138 .172 .854 .052 
Carne roja (res, cerdo) .170 .125 .840 .137 
Leguminosas (frijoles, habas, lentejas) -.002 .077 .168 .815 
Lácteos .052 .461 .002 .563 
Pan .406 .002 .015 .442 
Método de extracción: Análisis de componentes principales. 
 Método de rotación: Normalización Varimax con Kaiser. 
a. La rotación ha convergido en 5 iteraciones. 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Con la Matriz Rotada intentaremos definir qué variables se asocian a qué componente. El fin de esto es 
observar cuántas dimensiones de análisis es posible observar en relación a los hábitos alimentarios de 
los chilenos. 
En esta primera parte analizaremos las variables que pesan en el primer componente (que tienen 
correlaciones sobre 0,5 en este componente). Estas son: 
- ¿Qué tan seguido comes…? Golosinas saladas (papitas) 
- ¿Qué tan seguido comes…? Golosinas dulces 
- ¿Qué tan seguido comes…? Comida rápida (hot dog, tortas) 
- ¿Qué tan seguido comes…? Refrescos 
 
Observando estas afirmaciones, vemos que claramente el componente al que pertenecen se asocia con 
una Dieta rica en calorías. 
 
Si observamos en las salidas las variables que pesan en el segundo componente, vemos que éstas se 
encuentran asociadas a una Dieta balanceada: 
 
- ¿Qué tan seguido comes…? Frutas 
- ¿Qué tan seguido comes…? Verduras 
- ¿Qué tan seguido comes…? Cereales (trigo, avena) 
- ¿Qué tan seguido comes…? Tubérculos (papa, camote) 
 
El tercer componente (que agrupa Carne blanca y Carne roja), representaría una Dieta rica en proteínas; 
mientras que el cuarto componente (asociado a Leguminosas, lácteos y pan) representaría una Dieta 
rica en carbohidratos. 
 
Esta es sin duda la tabla más importante. Permite identificar el sentido de los factores de acuerdo a las 
variables que se asocian a ellos. En este punto se debe hacer un esfuerzo interpretativo por caracterizar 
los factores o identificarlos con algún nombre de acuerdo a las variables que asocian con mayor 
intensidad. Es aquí donde respondemos a la pregunta por las dimensiones subyacentes a la matriz de 
correlaciones, o los patrones de relaciones sociales, las regularidades empíricas, la coherencia de ciertos 
constructos, la valides de ciertas escalas, según sea el objetivo del análisis. 
 
 
 
 
 
 
 
 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.j. Matriz de transformación de componentes 
 
Matriz de transformación de las componentes 
Componente 1 2 3 4 
1 .607 .575 .427 .346 
2 -.716 .692 .007 .097 
3 .333 .376 -.850 -.159 
4 -.095 -.224 -.308 .920 
Método de extracción: Análisis de componentes principales. 
 Método de rotación: Normalización Varimax con Kaiser. 
 
Esta matriz se refiere a la magnitud de la rotación llevada a cabo. Si los valores que se encuentran fuera 
de la diagonal son cercanos a 0, significa que hubo poca rotación. Si observamos esta tabla, los valores 
son en general bastante lejanos a 0 (con algunas excepciones), por lo que podemos concluir que hubo 
una moderada rotación de los factores. 
 
3.k. Gráfico de componentes en el espacio rotado 
 
 
 
Este gráfico nos muestra las 
variables en un espacio 
formado por 3 componentes 
(los 3 primeros). Su 
interpretación no es fácil, por 
lo que no tiene mucha 
utilidad. De todas formas 
sirve para ver cómo se 
distribuyen las variables. 
 
La idea de la solución gráfica 
es evaluar cuánta 
información mantienela 
solución factorial. Esto se 
evalúa proyectando las 
observaciones en los nuevos 
ejes. Una buena solución es aquella donde la mayoría de los puntos originales son reproducidos en un 
plano de menor dimensión (en este caso de 13 a 4). Si la distancia entre los puntos originales y el nuevo 
gráfico es poca, la solución es buena ya que explica gran cantidad de información. Este tipo de gráficos 
es útil cuando se está trabajando con pocas dimensiones. 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
4. FACTORES (COMPONENTES PRINCIPALES) EN LA BASE DE DATOS 
 
Vista de variables: 
 
Vista de datos: 
 
A mano derecha de la última 
variable encontraremos 4 factores, 
que corresponden a cada uno de los 
componentes principales extraídos. 
Cada caso tiene un puntaje asociado 
a estos componentes. Si bien estos 
puntajes no son interpretables de 
manera absoluta, son útiles para 
llevar a cabo un nuevo análisis, 
contemplando ahora solamente 
estas 4 nuevas variables. 
 
Recordemos que estos puntajes en 
los factores remplazan los puntajes 
en las otras variables. Ojo que en 
este caso están en puntaje Z. 
 
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
	Guía de trabajo SPSS

Continuar navegando