Guía de trabajo SPSS_Factorial

•

Outros

Aprendiendo Juntos

13/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

101.465 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Guía de trabajo SPSS
Análisis Factorial

Material de ayudantía
Estadística IV – 2012
Facultad de Ciencias Sociales – Universidad de Chile

Andrea Baeza, Carla Brega, Catalina Canals, Carolina Galleguillos

Fuentes:
Vivanco, M. (1999). Análisis estadístico multivariable: Teoría y práctica. Santiago: Universitaria.
Gerber, M. y Orchard, M. (Sin fecha). Material de apoyo para Ayudantía de Análisis Estadístico IV.
Universidad de Chile, Departamento de Sociología.
Apuntes de clase Estadística IV, 2012. Profesora Gabriela Azócar de la Cruz
RESUMEN: ANÁLISIS FACTORIAL
Extracción de Componentes Principales

El análisis factorial permite analizar la estructura subyacente de una serie de variables, es decir,
patrones de dependencia entre variables, lo que ayuda a identificar variables latentes que agrupan a las
observadas en principio. Estas variables latentes (los Factores o Componentes Principales) son resultado
de la combinación lineal del conjunto de las variables observadas que se analizan. El primer factor o
componente es el que mejor resume la información contenida en la matriz original. El segundo resume
la información restante y así sucesivamente. Esta información explicada es varianza.
Usos:
• Identificación de dimensiones de análisis o de conceptos que estructuran la relación entre
variables
• Contrastación de hipótesis respecto a la estructura de relaciones en un conjunto de variables
• Resumir variables observadas en un número menor de variables latentes
• Validación de índices
Condiciones:
a) Tamaño de la muestra: Ideal sobre 200 casos, al menos 10 casos por variable.
b) Variables admitidas: escalares / ordinales (de 4 o más categorías) / dicotómicas, idealmente con
distribución normal. Lo ideal para el análisis factorial son las variables cuantitativas (de intervalo o
razón), puesto que es una técnica que opera sobre una matriz de correlaciones entre todas las variables
de análisis, que se calcula a través del coeficiente r de Pearson (calculable sólo para variables
cuantitativas). Mientras más categorías de respuesta, mejor. Por ejemplo, escalas de satisfacción con X
cosa, poniendo “nota” de 1 a 7.
b) Variables correlacionadas: correlaciones sobre 0,2. Matriz de correlaciones no puede ser singular
(matriz de identidad).
c) No multicolinealidad: si la correlación entre las variables es muy alta, por ejemplo, de 0.9, quiere
decir que esas variables están midiendo lo mismo.
d) Variables teóricamente relacionadas con un concepto central
e) Cantidad de variables: como criterio común se utiliza que para cada factor que se decida mantener
en la solución, exista al menos 4 variables originales. Por ejemplo, decidimos mantener 5 factores, lo
ideal es que esto se haga en base a 20 variables.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
EJERCICIO DE APLICACIÓN

0. DISPONER LA BASE DE DATOS
La base de datos utilizada en el ejercicio es de una encuesta sobre salud. Las variables en esta base son
16 (de las cuales vamos a utilizar 13), y tiene 3740 casos. [NO HAY INFORMACIÓN SOBRE LA BASE DE
DATOS, ES PARA EJERCICIO DE APLICACIÓN]
La pregunta que guía este ejercicio es ¿Cuántas y cuáles son las dimensiones de análisis es posible
observar en relación a los hábitos alimentarios de los chilenos?
0.a. Variables a utilizar y Valores perdidos
Las variables que vamos a usar son todas las 3_4 ¿Qué tan seguido comes…? Frutas / Verduras /
Cereales / Tubérculos / Lácteos / Leguminosas / Carne roja / Carne Blanca / Refrescos / Golosinas dulces
/ Golosinas saladas / Comida rápida / Pan.
Es una variable ordinal, cuyas categorías de respuesta son:
{1, Todos los días}
{2, Alguna vez a la semana}
{3, De vez en cuando}
{4, Nunca}
{8, NS} Marcar como
{9, NC} Valores Perdidos

0.b. Descriptivos y Estandarización de variables
Vamos a trabajar con variables estandarizadas (convertidas a puntaje Z), para así se evitar la influencia
de la unidad de medida en el proceso, y la disparidad de las distribuciones, dado que pueden unas tener
rangos mas acotados, y otras más amplios. Si no era necesario, por ejemplo, en el caso de las variables
dicotómicas, el proceso de estandarización no cambiará en nada los resultados, se hace de modo
“preventivo”.
Al mismo tiempo que hacemos el proceso de estandarización, normalización o tipificación, vamos a
pedir los descriptivos para las variables que utilizaremos en el análisis factorial.
En la pantalla: Analizar → Estadísticos descriptivos → Descriptivos:
Incluir variables
 Guardar valores tipificados como variables
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

→ Opciones
 Media
 Desviación típica
 Mínimo
 Máximo

Orden de presentación: lista de variables. Continuar.

→ Pegar. PLAY en la sintaxis.
1. ESTADÍSTICOS DESCRIPTIVOS
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
3_4 ¿Qué tan seguido
comes…? Frutas
3738 1 4 1.80 .738
3_4 ¿Qué tan seguido
comes…? Verduras
3739 1 4 1.83 .743
3_4 ¿Qué tan seguido
comes…? Cereales (trigo,
avena)
3738 1 4 2.03 .830
3_4 ¿Qué tan seguido
comes…? Tubérculos
(papa, camote)
3736 1 4 2.11 .769
3_4 ¿Qué tan seguido
comes…? Lácteos
3737 1 4 1.71 .781
3_4 ¿Qué tan seguido
comes…? Leguminosas
(frijoles, habas, lentejas)
3737 1 4 1.78 .737
3_4 ¿Qué tan seguido
comes…? Carne roja (res,
cerdo)
3737 1 4 2.11 .670
3_4 ¿Qué tan seguido
comes…? Carne blanca
(pollo, pescado)
3736 1 4 2.10 .661
3_4 ¿Qué tan seguido
comes…? Refrescos
3740 1 4 1.93 .863
3_4 ¿Qué tan seguido
comes…? Golosinas dulces
3737 1 4 2.24 .876
3_4 ¿Qué tan seguido
comes…? Golosinas
saladas (papitas)
3735 1 4 2.29 .879
3_4 ¿Qué tan seguido
comes…? Comida rápida
(hot dog, tortas)
3733 1 4 2.49 .824
3_4 ¿Qué tan seguido
comes…? Pan
3634 1 4 1.83 .814
N válido (según lista) 3608

La tabla muestra los descriptivos para cada variable: Media, Desviación típica, Mínimo, Máximo y
Número de casos válidos.

Las variables van todas de 1 a 4: siendo (1) Todos los días, (2) Alguna vez a la semana, (3) De vez en
cuando y (4) Nunca.

El número de casos válidos según lista (casos que presentan datos para todas las variables) son 3608
(que no es significativamente distinto de los 3740 casos de la muestra total). Esta cantidad es suficiente
para realizar la extracción de componentes principales.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
2. ANÁLISIS FACTORIAL
Analizar → Reducción de dimensiones → Factor. Incluir las variables.

El análisis factorial es una técnica de interdependencia, por lo cual no definimos las variables
dependientes e independientes, sino que incluimos todas las variables en el recuadro Variables.
→ Descriptivos
Estadísticos:  Descriptivos univariados,  Solución inicial

Matrices de Correlación:  Coeficientes,  Determinante,  KMO y Bartlett,  Reproducida,  Anti-
imagen

Pedimos todo menos:
Los niveles de significación: es un valor que se incluye en la matriz de correlación. Un nivel crítico menor
que 0,05 indica que la correlación poblacional (rho) entre el correspondiente par de variables puede ser
considerada significativamente distinta de cero ( 0:0 =ρH ). Lo deseable es encontrar niveles críticos
pequeños.
La matriz inversa ya que si bien es la base para el cálculo de las comunalidades iniciales en algunos
métodos de extracción no aporta en la interpretación.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

→ Extracción
Método: Componentes principalesAnalizar:  Matriz de correlaciones
Visualización:  Solución factorial sin rotar,  Gráfico de sedimentación
Extraer:  Basado en autovalor: autovalores mayores que 1, que son los factores que entran al modelo,
λ<1 no tienen sentido estadístico.

Acá tenemos que tomar varias decisiones.
(1) El Método de extracción. Los distintos métodos difieren tanto en la forma de estimar las
saturaciones (correlaciones entre variables y factores) como en las matrices de cálculo (nosotros
trabajaremos con la matriz de correlaciones).

Los procedimientos de extracción de factores más comunes son dos:
- Extraer Factores: se utiliza para resumir la información común que tienen las variables originales
ordenadas en una matriz de correlaciones. Al decidir factorizar existen 6 métodos en SPSS, el
más común es el de ejes principales.
- Extraer Componentes: se utiliza para resumir toda la información presente en la matriz de
correlaciones.

Varianza: cuantifica la información existente en las variables. Puede dividirse en:
a. Comunalidad: variación que tienen en común.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
b. Especificidad: variación específica de las variables. Se descompone en:
• Unicidad: varianza no compartida.
• Error: especificidad debida al azar, aleatoria.

Como predeterminado viene el Método de Componentes Principales. Dejamos ese, pues queremos
resumir toda la información presente en la matriz de correlaciones (tanto comunalidad como
especificidad).

(2) Elegir si el análisis se llevará a cabo a través de
- Matriz de Correlaciones. Dejamos esta opción predeterminada.
- Matriz de Covarianzas. En caso de optar por trabajar con matriz de covarianzas no se estandarizan las
variables y las que tienen mayor variabilidad tienen más peso en el análisis.

(3) Decidir con respecto al número de factores que serán extraídos.
En Análisis Factorial siempre se obtienen tanto factores como variables se incluyan en el análisis. Como
los factores se ordenan de manera jerárquica, es decir, el primero reúne más información que el
segundo y así sucesivamente, es posible reducir dimensiones, asumiendo cierta pérdida de información.
Por tanto hay que tomar una decisión respecto de cuántos factores mantener.

Hay dos opciones:
a) Criterio estadístico común: mantener los factores con autovalor mayor que 1, lo que implica que
el factor explica por lo menos la varianza de una variable.

Recordemos que la matriz de correlaciones refiere a la relación entre variables estandarizadas.
Recordemos que el coeficiente r de Pearson es la multiplicación de dos variables estandarizadas.
En variables estandarizadas la varianza es 1, por tanto si hay un factor que asocia un autovalor
menor a 1 quiere decir que tiene menos información que la variable. En este contexto
información es análoga a varianza.
Dentro del criterio del autovalor, ese valor puede cambiarse introduciendo otro distinto,
siempre que sea entre cero y el número de variables.
b) Criterio sustantivo: definir un número fijo de factores a conservar. Esto puede basarse en un
criterio teórico.

(4) Se da la alternativa de elegir un número máximo de iteraciones que los algoritmos pueden realizar
para encontrar la solución factorial final. El valor por defecto es 25, habitualmente suficiente para
obtener una solución. Este valor puede cambiarse introduciendo un entero positivo.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

→ Rotación
Método:  Varimax
Visualización:  Solución rotada,  Gráficos de saturaciones

Aquí puede optarse por un Método de rotación de los factores. La rotación es un procedimiento
opcional (es rechazada por algunos científicos sociales).

Los procedimientos de rotación buscan mejorar la interpretación encontrando el sistema de referencia
más adecuado. Para ello, se giran los ejes (factores) manteniendo las propiedades matemáticas de la
solución inicial. La rotación no modifica la varianza explicada por cada factor.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Una buena solución factorial se caracteriza por la simplicidad y facilidad de interpretación.

Características que permiten la fácil interpretación de los factores:
- Cada factor debe estar asociado a saturaciones cercanas a cero (independencia entre factor y
variable) o a uno (asociación entre factor y variable).
- Cada variable debe estar asociada a un solo factor. El peso de la variable es alto en el factor que
explica su variabilidad.
- Dos factores no deben presentar pesos altos o bajos en las mismas variables.

La rotación facilita la interpretación cuando en principio la solución no cumple con estas condiciones,
por ejemplo, si variables saturasen en todos los factores, no estaríamos reduciendo información. Pero si
rotamos los factores, podemos asegurarnos que varían los coeficientes de la matriz de saturaciones.
Esta es una manera de distribuir mejor la información de las variables en los factores.

Por defecto: VARIMAX: Máxima varianza en las columnas de la matriz de saturaciones

Existen dos tipos de procedimientos de rotación:
- Rotación ortogonal: respeta la independencia entre factores de la solución inicial. SPSS ofrece 3
métodos distintos.
- Rotación oblicua: pueden obtenerse factores relacionados entre sí. 2 métodos.

Las opciones de rotación son:
• Ninguno. Por defecto.
• Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la
solución por columna (valores altos o bajos). Buscamos entonces simplificar la interpretación de
las columnas de la matriz de factores.
• Quartimax. Método de rotación ortogonal que minimiza el número de factores necesarios para
explicar cada variable. Simplifica la interpretación de las variables observadas optimizando la
interpretación por filas.
• Equamax. Combinación del método Varimax y Quartimax. Se minimiza tanto el número de
variables que saturan alto en un factor como el número de factores necesarios para explicar una
variable.
• Oblimin directo.
• Promax.

→ Puntuaciones
 Guardar como variables
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Método:  Regresión

Los componentes principales guardados como variables son un subproducto de la aplicación de Análisis
Factorial, corresponden al valor que tendría un caso si el factor hubiese sido medido directamente como
una pregunta en el cuestionario. Pueden constituir insumos interesantes para otras técnicas de análisis
multivariable. Los factores son nuevas variables independientes en las que cada caso asume un valor.
Cada puntuación factorial es una combinación lineal de los coeficientes y las puntuaciones en las
variables originales.

Esta ventana da la opción de calcular los puntajes para cada caso de los factores que se generen, por
medio de distintos métodos (Regresión, Bartlett, Anderson-Rubin).
(Las opciones de este recuadro no tienen efecto alguno cuando se ha seleccionado componentes
principales como método de extracción, ya que en ese modelo factorial las puntuaciones factoriales no
son estimadas, sino calculadas directamente a partir de las variables originales).

→ Opciones
Valores perdidos:  Excluir según lista
Formato de presentación de los coeficientes:  Ordenadospor tamaño
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

En esta ventana se decide el tratamiento de los casos perdidos:
• Excluir casos según lista: excluye los casos que tengan cualquier valor perdido en cualquiera de
las variables. Nos quedamos con esta opción para trabajar con los 3608 casos que vimos en un
principio.
• Excluir casos según pareja: incluye casos que tengan valores perdidos en alguna pero casos
válidos en otra y trabaja con las puntuaciones válidas.
• Remplazar por la media.

Formato de visualización de los coeficientes:
Ordenados por tamaño. Esta opción sirve para ordenar las variables de las tablas de resultados en
función de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones,
correlaciones, etc). Ordenamos por tamaño para simplificar la interpretación.

Suprimir valores absolutos menores que.... Permite suprimir de las tablas de resultados los coeficientes
cuyo un valor absoluto sea menor que el valor establecido (el valor por defecto es 0,10).

→ PEGAR
Sintaxis:
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

→ PLAY

3. RESULTADOS
3.a. Descriptivos
Estadísticos descriptivos
Media Desviación típica N del análisis
Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas .0010556 .99905335 3608
PZ: Verduras .0021201 .99698314 3608
PZ: Cereales (trigo, avena) -.0058733 .99587178 3608
PZ: Tubérculos (papa, camote) .0021784 .99624071 3608
PZ: Lácteos -.0024121 .99699958 3608
PZ: Leguminosas (frijoles, habas, lentejas) .0039938 .99745198 3608
PZ: Carne roja (res, cerdo) -.0010489 .99911351 3608
PZ: Carne blanca (pollo, pescado) -.0019452 .99563029 3608
PZ: Refrescos -.0079052 .99691805 3608
PZ: Golosinas dulces -.0017021 .99436181 3608
PZ: Golosinas saladas (papitas) -.0034591 .99555959 3608
PZ: Comida rápida (hot dog, tortas) -.0088060 .99860901 3608
PZ: Pan -.0011775 .99870061 3608

Esta tabla nos muestra la Media, la Desviación típica y los casos válidos para el análisis. Aquí debemos
recordar que estandarizamos nuestras variables, y en las variables estandarizadas siempre la media es 0
y la varianza es 1. Como tenemos 13 variables, tenemos 13 varianzas de 1.

Los casos incluidos en el análisis son 3608 en todas las variables, tal como vimos antes: cada uno de
estos 3608 individuos respondió estas 13 preguntas.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.b. Matriz de correlaciones
Matriz de correlacionesa
Frutas Verduras Cereales Tubérculos Lácteos

Leguminosas
Carne
roja

Carne
blanca
Refrescos

Golosinas
dulces

Golosinas
saladas

Comida
rápida
Pan
Frutas 1 0.599 0.414 0.289 0.304 0.089 0.192 0.224 0.034 0.073 0.064 0.079 0.079
Verduras 0.599 1 0.365 0.356 0.278 0.193 0.187 0.216 0.034 0.046 0.031 0.055 0.06
Ceales 0.414 0.365 1 0.421 0.344 0.122 0.155 0.162 0.04 0.08 0.072 0.144 0.055
Tubérculos 0.289 0.356 0.421 1 0.288 0.236 0.198 0.203 0.052 0.1 0.098 0.113 0.083
Lácteos 0.304 0.278 0.344 0.288 1 0.285 0.171 0.17 0.102 0.082 0.104 0.088 0.172
Leguminosas 0.089 0.193 0.122 0.236 0.285 1 0.229 0.163 0.165 0.096 0.112 0.029 0.15
Carne roja 0.192 0.187 0.155 0.198 0.171 0.229 1 0.581 0.242 0.203 0.209 0.234 0.143
Carne blanca 0.224 0.216 0.162 0.203 0.17 0.163 0.581 1 0.229 0.171 0.159 0.231 0.139
Refrescos 0.034 0.034 0.04 0.052 0.102 0.165 0.242 0.229 1 0.418 0.394 0.326 0.245
Golosinas
dulces 0.073 0.046 0.08 0.1 0.082 0.096 0.203 0.171 0.418 1 0.722 0.42 0.212
Golosinas
saladas 0.064 0.031 0.072 0.098 0.104 0.112 0.209 0.159 0.394 0.722 1 0.479 0.266
Comida
rápida 0.079 0.055 0.144 0.113 0.088 0.029 0.234 0.231 0.326 0.42 0.479 1 0.277
Pan 0.079 0.06 0.055 0.083 0.172 0.15 0.143 0.139 0.245 0.212 0.266 0.277 1
a. Determinante = .036

En esta tabla aparece la relación de todas las variables entre sí mediante el coeficiente de correlación de Pearson que establece la correlación
lineal entre dos variables. La interpretación es la siguiente:
1 = relación lineal perfecta positiva
-1= relación lineal perfecta negativa
0 = relación lineal nula

Los 1 en la diagonal indican la correlación de la variable consigo misma. Buscamos que las variables estén relacionadas entre sí (diferencia con la
matriz identidad), ojalá con correlaciones sobre 0.2; en esta tabla aparecen en celeste las correlaciones muy bajas, pero en general todas las
variables están correlacionadas entre sí.

Ahora bien, esto no queda sólo en observar, para corroborar, observamos la Determinante (pie de la tabla). Si la determinante se encuentra
cercana a 0, significa que existe relación lineal entre las variables. Para llevar a cabo un análisis factorial se busca que exista relación lineal entre
variables dado que el supuesta que sustenta este análisis es que existe una estructura o patrón de relaciones subyacente a la matriz de
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
correlaciones y queremos describirla reduciendo las dimensiones ya que si estudiamos variable por variable no podremos dar cuenta de esa
estructura. Además si el determinante es 0 el programa advierte que no es posible calcular la inversa de la matriz, la cual es necesaria para
algunos métodos de extracción (no para este). La determinante debe ser distinta de 0. En este caso es distinta y cercana a 0 (es 0.036); por
tanto comprobamos que existe relación entre las variables.
Maureen
Resaltar
3.c. Kaiser-Meyer-Olkin (KMO) y Prueba de Bartlett

KMO y prueba de Bartlett
Medida de adecuación muestral de Kaiser-Meyer-Olkin. .762
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 12023.009
gl 78
Sig. .000

La medida de adecuación muestral KMO es un estadístico que mide la proporción de la varianza en las
variables que es común.
- Si es cercano a 1, existen suficientes comunalidades como para llevar a cabo el análisis.
- Si el valor de esta prueba es inferior a 0.5 NO debiera aplicarse el análisis factorial según algunos
estadísticos (criterios variables).
- En general es bueno que sea sobre 0.7

En este caso es de 0.762, lo que indica que existe varianza común entre las variables y es posible seguir
adelante con la interpretación.

La Prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación es una
matriz identidad. La matriz identidad es una matriz que tiene unos en la diagonal y ceros en los demás
espacios, es decir, una matriz donde no hay más relación entre variables que la que hay entre cada
variable consigo misma. Por tanto no tiene sentido buscar un patrón de relaciones donde lo que hay es
absoluta independencia.

El modo de interpretar esta prueba es el siguiente: si la significación es menor a 0.05 = existen
correlaciones entre las variables. En este caso la significación es de 0.000, por tanto no es una matriz de
identidad.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.d. Matrices anti-imagen

En las matrices anti-imagen tenemos dos tablas en una.
En la Correlación anti-imagen se analizan dos cosas:

1. La diagonal: en ella observamos la Medida de Adecuación de la Muestra (KMO). Si el modelo
factorial elegido es adecuando para explicar los datos, los elementos de la diagonal deben ser
cercanos a 1 (el criterio es superiores a 0,5).
Vemos valores adecuados, entre el 0.5 y 0.7 y 0.8

2. El resto de la (1°) tabla: los coeficientes de correlación parcial indican el grado de relación
existente entre dos variables eliminando el efecto de las otras variables incluidas, es decir, son
las correlaciones que no se deben a los factores comunes. Cuando las variablesincluidas tienen
información común, la correlación parcial de la matriz anti – imagen debe ser reducida. Por
tanto se busca que las correlaciones sean pequeñas, ya que si hay valores bajos, podemos
afirmar que nuestra solución factorial tiene poca varianza no explicada.
Observamos valores cercanos a 0, por lo que la varianza que no se debe a factores comunes es
muy baja.

La Covarianza anti-imagen no se analiza, pero es distinta a la otra matriz en que la diagonal representa
una indicación de la unicidad de las variables, de lo que tienen de propio, no compartido con las demás
variables.

3.e. Comunalidades

Comunalidades
Inicial Extracción
Puntuación Z: 3_4 ¿Qué tan seguido comes…? Frutas 1.000 .658
PZ: Verduras 1.000 .611
PZ: Cereales (trigo, avena) 1.000 .554
PZ: Tubérculos (papa, camote) 1.000 .441
PZ: Lácteos 1.000 .531
PZ: Leguminosas (frijoles, habas, lentejas) 1.000 .699
PZ: Carne roja (res, cerdo) 1.000 .769
PZ: Carne blanca (pollo, pescado) 1.000 .781
PZ: Refrescos 1.000 .461
PZ: Golosinas dulces 1.000 .715
PZ: Golosinas saladas (papitas) 1.000 .750
PZ: Comida rápida (hot dog, tortas) 1.000 .532
PZ: Pan 1.000 .360
Método de extracción: Análisis de Componentes principales.

La Comunalidad es la proporción de la varianza de una variable que puede ser explicada por el modelo
factorial obtenido.

Tenemos dos columnas:

Inicial: la varianza de una variable estandarizada es 1, es decir esta es toda la información o variabilidad
que aporta una variable. El método de Componentes principales (indicado al pie de la tabla) busca
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
extraer la mayor varianza de las variables originales considerando la comunalidad y la especificidad.
Asume que es posible explicar el 100% de la varianza observada, es por ello que el valor inicial es 1.

Extracción: vemos la parte de la varianza que es explicada por el modelo factorial obtenido. Podemos
evaluar ya en este punto qué variables son peor explicadas por el modelo factorial (que veremos más
adelante, las tablas aparecen en este orden). Valores cercanos a 1 indican que el modelo explica la
varianza de esa variable, mientras que valores cercanos a 0 indican que el modelo factorial no explica la
variable.
Por ejemplo, la variable ¿Qué tan seguido comes?... PAN, no es muy bien explicada por nuestro modelo.

*Si escogiéramos otro método (ejes principales) en la columna inicial tendríamos una estimación de la comunalidad
(correlación múltiple entre esa variable y las demás). Luego estas comunalidades generalmente no coinciden con la matriz
factorial.

3.f. Varianza explicada

Varianza total explicada
Componente
Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción
Suma de las saturaciones al
cuadrado de la rotación
Total % de la varianza
%
acumulado Total
% de la
varianza
%
acumulado Total
% de la
varianza
%
acumulado
1 3.437 26.435 26.435 3.44 26.435 26.435 2.52 19.384 19.384
2 2.172 16.711 43.146 2.17 16.711 43.146 2.396 18.433 37.816
3 1.199 9.227 52.373 1.2 9.227 52.373 1.593 12.257 50.073
4 1.053 8.098 60.471 1.05 8.098 60.471 1.352 10.397 60.471
5 0.856 6.588 67.059
6 0.796 6.121 73.181
7 0.691 5.317 78.498
8 0.645 4.963 83.461
9 0.574 4.412 87.872
10 0.523 4.025 91.897
11 0.41 3.157 95.054
12 0.374 2.875 97.929
13 0.269 2.071 100
Método de extracción: Análisis de Componentes principales.

En esta tabla ya vemos cómo se distribuye la varianza entre los factores. Vamos viendo por columna:

Columna 1: Componentes: Vemos 13 componentes, 1 por cada variable.

Columna 2: Autovalores: indican la cantidad de información (varianza) que explica el factor. Se calcula
como la suma en cada columna de los cuadrados de los pesos. Sabemos que los factores o componentes
son jerárquicos y vemos que la magnitud de los autovalores va en descenso. Criterio autovalor mayor a
1.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Hasta el componente 4, los autovalores son mayores que 1, pero ya el 5 tiene un autovalor menor que 1
(0.856). Si nos quedamos con 4 componentes, reducimos las 13 variables a 4 dimensiones.

Columna 3: Porcentajes de varianza explicada: asociados a cada factor se obtienen dividiendo el
autovalor por la suma de los autovalores (número de variables=13) y multiplicándolo por 100. (3.437 /
13 * 100 = 26.435). Es una regla de 3 simple.

Columna 4: Porcentajes de varianza explicada, pero acumulado: Esta información permite tomar una
decisión respecto del número de factores a mantener. Con 4 componentes estamos explicando un
60,47% de la varianza. Evaluar si se está sacrificando mucha información vs la reducción de dimensiones.

Columna 5, 6 y 7: muestran la misma información cuando trabajamos con el método de componentes
principales, ya que muestra la suma de las saturaciones al cuadrado y en este método por defecto los
autovalores se calculan de esta manera, pero en otros métodos de extracción, en los cuales el autovalor
se calcula de otra manera, aporta información relevante.

Columna 8, 9 y 10: muestra la misma información luego de aplicada la rotación.
Recordemos que la rotación reordena la varianza. De esta forma, el primer componente ya no tiene un
autovalor de 3.4, sino de 2.52, y la varianza que explica es ahora sólo el 19,38% (no ya el 26,44%). Lo
que hace la rotación es emparejar los factores. Si bien el primer componente sigue siendo el que más
explica, ahora no se encuentra tan lejos de los demás componentes. Cabe destacar que, sin embargo, si
miramos la varianza acumulada, luego del componente 4, ésta es del 60,47%, igual que en la solución no
rotada. La rotación reorganiza varianza, no la pierde. En el fondo mantiene las propiedades matemáticas
de la solución inicial.

3.g. Gráfico de sedimentación

Este gráfico sirve, de forma complementaria a la numérica, para determinar el número óptimo de
factores. El gráfico se observa buscando el punto de inflexión a partir del cual los autovalores dejan de
tener una pendiente significativa.
¿?
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar

En este caso, por ejemplo, cabría preguntarse si vale la pena incluir también un quinto componente, ya
que ahí donde se produce un corte en cuanto a la intensidad de la pendiente (capacidad explicativa del
factor, autovalores).
Confiando en los criterios matemáticos, optamos por quedarnos con 4 componentes.

3.g. Matriz de componentes

Matriz de componentesa
Componente 1 2 3 4
PZ: Golosinas saladas .580 -.578 .278 -.048
PZ: Golosinas dulces .567 -.559 .269 -.091
PZ: Comida rápida .537 -.431 .148 -.190
PZ: Tubérculos .508 .399 .122 .095
PZ: Cereales .499 .461 .289 -.091
PZ: Refrescos .495 -.449 -.064 .100
PZ: Lácteos .492 .336 .099 .408
PZ: Pan .407 -.246 .052 .363
PZ: Verduras .505 .552 .146 -.173
PZ: Frutas .513 .519 .205 -.290
PZ: Carne roja .581 -.016 -.633 -.177
PZ: Carne blanca .565 .032 -.624 -.267
PZ: Leguminosas .396 .136 -.244 .681
Método de extracción: Análisis de componentes principales.
a. 4 componentes extraídos

Esta matriz cruza cada variable (filas) con cada uno de los 4 nuevos componentes (columnas). Los
coeficientes se denominan pesos o saturaciones: indican la intensidad de la relación entre las variables y
los factores. Se interpretan como una correlación de Pearson.

Esta es la solución sin rotar los factores, en general su interpretación es más difusa. Vemos que la
mayoría delas variables tienen peso (valores altos) en el primer componente.

También observamos que las preguntas fueron ordenadas según las correlaciones, como fue pedido en
un principio. Ya que es complejo interpretar esta matriz, se prefiere interpretar la matriz de
componentes rotada. Ésta será interpretada más adelante.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
3.h. Correlaciones reproducidas
Correlaciones reproducidas
PZ:Frutas
PZ:Ve
rduras
PZ:Ce
reales
PZ:Tubé
rculos
PZ:
Lácte
os
PZ:Legum
inosas
PZ:Carn
e roja
PZ:Carn
e blanca
PZ:Refre
scos
PZ:Gol
osinas
dulces
PZ:Golos
inas
saladas
PZ:Comida
rápida PZ:Pan
Correlación
reproducida
PZ:Frutas .658 .625 .581 .465 .328 .026 .211 .256 -.021 .083 .068 .137 -.014
PZ:Verduras .625 .611 .565 .478 .378 .122 .222 .257 -.025 .033 .022 .088 .014
PZ:Cereales .581 .565 .554 .464 .392 .128 .116 .141 .013 .112 .108 .130 .072
PZ:Tubérculos .465 .478 .464 .441 .435 .290 .195 .198 .074 .089 .093 .101 .149
PZ: Lácteos .328 .378 .392 .435 .531 .494 .145 .118 .127 .081 .099 .056 .271
PZ:Leguminosa
s
.026 .122 .128 .290 .494 .699 .262 .199 .219 .021 .051 -.011 .362
PZ:Carne roja .211 .222 .116 .195 .145 .262 .769 .769 .317 .184 .178 .259 .143
PZ:Carne
blanca
.256 .257 .141 .198 .118 .199 .769 .781 .279 .159 .148 .249 .092
PZ:Refrescos -.021 -.025 .013 .074 .127 .219 .317 .279 .461 .505 .524 .431 .345
PZ:Golosinas
dulces
.083 .033 .112 .089 .081 .021 .184 .159 .505 .715 .731 .603 .349
PZ:Golosinas
saladas
.068 .022 .108 .093 .099 .051 .178 .148 .524 .731 .750 .611 .375
PZ:Comida
rápida
.137 .088 .130 .101 .056 -.011 .259 .249 .431 .603 .611 .532 .263
PZ:Pan -.014 .014 .072 .149 .271 .362 .143 .092 .345 .349 .375 .263 .360
Residualb PZ:Frutas -.027 -.166 -.176 -.025 .063 -.020 -.031 .056 -.009 -.004 -.058 .093
PZ:Verduras -.027 -.199 -.122 -.099 .072 -.035 -.042 .059 .013 .009 -.033 .046
PZ:Cereales -.166 -.199 -.043 -.048 -.006 .040 .021 .027 -.032 -.036 .015 -.017
PZ:Tubérculos -.176 -.122 -.043 -.147 -.055 .004 .004 -.022 .011 .005 .013 -.066
PZ: Lácteos -.025 -.099 -.048 -.147 -.209 .026 .053 -.025 .002 .005 .032 -.099
PZ:Leguminosa
s
.063 .072 -.006 -.055 -.209 -.033 -.036 -.055 .075 .061 .040 -.212
PZ:Carne roja -.020 -.035 .040 .004 .026 -.033 -.188 -.075 .020 .031 -.025 .001
PZ:Carne
blanca
-.031 -.042 .021 .004 .053 -.036 -.188 -.050 .012 .011 -.017 .047
PZ:Refrescos .056 .059 .027 -.022 -.025 -.055 -.075 -.050 -.087 -.129 -.105 -.100
PZ:Golosinas
dulces
-.009 .013 -.032 .011 .002 .075 .020 .012 -.087 -.009 -.183 -.137
PZ:Golosinas
saladas
-.004 .009 -.036 .005 .005 .061 .031 .011 -.129 -.009 -.131 -.109
PZ:Comida
rápida
-.058 -.033 .015 .013 .032 .040 -.025 -.017 -.105 -.183 -.131 .014
PZ:Pan .093 .046 -.017 -.066 -.099 -.212 .001 .047 -.100 -.137 -.109 .014
Vemos nuevamente dos matrices juntas:
Matriz reproducida: reproduce las correlaciones entre variables usando la información factorial.
Matriz residual: expresan la diferencia entre las correlaciones observadas y las correlaciones
reproducidas por la estructura factorial para los pares de variables. Si la solución factorial es buena, las
diferencias debiesen ser pocas y los residuos pequeños.
Razones posibles de residuos altos:
- Número insuficiente de factores extraídos.
- Nivel de medida de las variables inadecuado para estimar correlaciones.
- Falta de relación lineal entre variables que haga inadecuado el modelo factorial.
- Etc…

Para un análisis más acabado, miramos el pie de la tabla:

Vemos aquí que los residuos computados entre las correlaciones observadas y reproducidas son el 39%.
Si es bueno o malo depende del criterio, no existen un criterio estándar en este caso.

3.i. Matriz de componentes rotados

Matriz de componentes rotadosa
Componente 1 2 3 4
Golosinas saladas (papitas) .862 .049 .021 .056
Golosinas dulces .842 .061 .037 .015
Comida rápida (hot dog, tortas) .702 .109 .159 -.055
Refrescos .591 -.072 .232 .230
Frutas .035 .795 .138 -.071
Verduras -.024 .766 .148 .046
Cereales (trigo, avena) .078 .735 -.001 .088
Tubérculos (papa, camote) .054 .592 .087 .282
Carne blanca (pollo, pescado) .138 .172 .854 .052
Carne roja (res, cerdo) .170 .125 .840 .137
Leguminosas (frijoles, habas, lentejas) -.002 .077 .168 .815
Lácteos .052 .461 .002 .563
Pan .406 .002 .015 .442
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 5 iteraciones.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Con la Matriz Rotada intentaremos definir qué variables se asocian a qué componente. El fin de esto es
observar cuántas dimensiones de análisis es posible observar en relación a los hábitos alimentarios de
los chilenos.
En esta primera parte analizaremos las variables que pesan en el primer componente (que tienen
correlaciones sobre 0,5 en este componente). Estas son:
- ¿Qué tan seguido comes…? Golosinas saladas (papitas)
- ¿Qué tan seguido comes…? Golosinas dulces
- ¿Qué tan seguido comes…? Comida rápida (hot dog, tortas)
- ¿Qué tan seguido comes…? Refrescos

Observando estas afirmaciones, vemos que claramente el componente al que pertenecen se asocia con
una Dieta rica en calorías.

Si observamos en las salidas las variables que pesan en el segundo componente, vemos que éstas se
encuentran asociadas a una Dieta balanceada:

- ¿Qué tan seguido comes…? Frutas
- ¿Qué tan seguido comes…? Verduras
- ¿Qué tan seguido comes…? Cereales (trigo, avena)
- ¿Qué tan seguido comes…? Tubérculos (papa, camote)

El tercer componente (que agrupa Carne blanca y Carne roja), representaría una Dieta rica en proteínas;
mientras que el cuarto componente (asociado a Leguminosas, lácteos y pan) representaría una Dieta
rica en carbohidratos.

Esta es sin duda la tabla más importante. Permite identificar el sentido de los factores de acuerdo a las
variables que se asocian a ellos. En este punto se debe hacer un esfuerzo interpretativo por caracterizar
los factores o identificarlos con algún nombre de acuerdo a las variables que asocian con mayor
intensidad. Es aquí donde respondemos a la pregunta por las dimensiones subyacentes a la matriz de
correlaciones, o los patrones de relaciones sociales, las regularidades empíricas, la coherencia de ciertos
constructos, la valides de ciertas escalas, según sea el objetivo del análisis.

Matriz de transformación de las componentes
Componente 1 2 3 4
1 .607 .575 .427 .346
2 -.716 .692 .007 .097
3 .333 .376 -.850 -.159
4 -.095 -.224 -.308 .920
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.

Esta matriz se refiere a la magnitud de la rotación llevada a cabo. Si los valores que se encuentran fuera
de la diagonal son cercanos a 0, significa que hubo poca rotación. Si observamos esta tabla, los valores
son en general bastante lejanos a 0 (con algunas excepciones), por lo que podemos concluir que hubo
una moderada rotación de los factores.

3.k. Gráfico de componentes en el espacio rotado

Este gráfico nos muestra las
variables en un espacio
formado por 3 componentes
(los 3 primeros). Su
interpretación no es fácil, por
lo que no tiene mucha
utilidad. De todas formas
sirve para ver cómo se
distribuyen las variables.

La idea de la solución gráfica
es evaluar cuánta
información mantienela
solución factorial. Esto se
evalúa proyectando las
observaciones en los nuevos
ejes. Una buena solución es aquella donde la mayoría de los puntos originales son reproducidos en un
plano de menor dimensión (en este caso de 13 a 4). Si la distancia entre los puntos originales y el nuevo
gráfico es poca, la solución es buena ya que explica gran cantidad de información. Este tipo de gráficos
es útil cuando se está trabajando con pocas dimensiones.
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
4. FACTORES (COMPONENTES PRINCIPALES) EN LA BASE DE DATOS

Vista de variables:

Vista de datos:

A mano derecha de la última
variable encontraremos 4 factores,
que corresponden a cada uno de los
componentes principales extraídos.
Cada caso tiene un puntaje asociado
a estos componentes. Si bien estos
puntajes no son interpretables de
manera absoluta, son útiles para
llevar a cabo un nuevo análisis,
contemplando ahora solamente
estas 4 nuevas variables.

Recordemos que estos puntajes en
los factores remplazan los puntajes
en las otras variables. Ojo que en
este caso están en puntaje Z.

Maureen
Resaltar
Maureen
Resaltar
Maureen
Resaltar
Guía de trabajo SPSS