Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
78.581 Análisis Multivariante Curso 2022-23 / 1r semestre 1/17 Nom i cognom de l’estudiant Prueba de evaluación continua 3. ANÁLISIS MULTIVARIANTE (I) Criterios de evaluación Las preguntas y los problemas tienen que estar desarrollados y razonados. No se considerará correcta ninguna respuesta no argumentada. Cada pregunta vale 1/3 del total de puntos. Formato y fecha de entrega Las pruebas de evaluación continuada se tienen que entregar en el buzón específico de Entrega de actividades que se encuentra en el apartado Evaluación del aula en un único fichero en formato WORD o PDF. El último día para entregar esta actividad es el próximo 28 de noviembre. Enunciado A partir de los datos que hay en el fichero "Datos_CasoPractico1", en cualquiera de los formatos en el que os lo facilitamos, que contiene una submuestra de los datos en los que se basa el caso práctico de "El triángulo de las Bermudas", se pide que contestéis, de forma razonada las siguientes cuestiones. El nivel de significación que se debe considerar en todos los contrastes es de 0,05. Pregunta 1 Del segundo ejercicio de la PEC2, habíamos podido ver que la satisfacción general de los clientes de fuera del barrio no se explicaba muy bien a partir de la percepción de calidad del servicio de parking. Faltaban más variables explicativas. En esta pregunta queremos ayudar al gerente del centro comercial a comprobar si los resultados obtenidos en el caso práctico para toda la muestra (sean clientes del barrio o de fuera) también son válidos cuando consideramos sólo los clientes de fuera del barrio. Como podéis ver en el apartado 4 del caso práctico "La satisfacción de los clientes con el centro" , a partir del nivel de satisfacción en diferentes aspectos del centro comercial se intuía una mala gestión del centro en el ámbito del marketing, y se analizaba si este hecho tenía implicaciones directas con el grado de satisfacción general. ¿Esto será cierto en el caso de los clientes de fuera del barrio? Para responder a esta pregunta, se pide: 1.1 Realizad un análisis de regresión múltiple, considerando como variable dependiente el grado de satisfacción general SATISF_GEN, y como variables independientes (explicativas) las valoraciones de los siguientes elementos del centro comercial: Nombre Descripción P34_1 PRECIOS P34_2 PROMOCIONES OFERTAS P34_3 VARIEDAD DE LAS TIENDAS P34_4 CALIDAD DE LAS TIENDAS P34_5 PARKING P34_6 CANTIDAD CALIDAD REST BAR P34_7 ACT CULTURAL ENTRETENIMIENTO P34_8 INFORMACION SEÑALIZACION AR P34_9 AMBIENTACIÓN DEL CENTRO P34_10 LIMPIEZA DEL CENTRO P34_11 SEGURIDAD DEL CENTRO P34_12 LUGARES PARA ENTRETENER NIÑOS P34_13 OFERTA DE OCIO P34_14 ATENCION AL CLIENTE P34_15 ACCESIBILIDAD SEÑALIZACION P34_16 PUBLICIDAD DEL CENTRO P34_17 SERVICIOS COMPLEMENTARIOS PEC3. ANÁLISIS MULTIVARIANTE (I) 2/17 Comentad los resultados obtenidos (entre otras cosas, comentad la significación individual de los coeficientes, la significación global del modelo, el nivel de ajuste y los signos). Nota: Para ello debéis tener presente que se tiene que seleccionar una submuestra con sólo aquellos casos en los que se ha usado el parking. Es decir, con aquellos casos en que P14_M23 = 1. Tenéis que indicar la expresión de selección (P14_M23R=="1") en la misma ventana del modelo de regresión lineal. Solucion: > RegModel.25 <- lm(SATISF_GEN~P34_1+P34_2+P34_3+P34_4+P34_5+P34_6+P34_7+P34_8+P34_9+P34_10+P34_11+P3 4_12+P34_13+P34_14+P34_15+P34_16+P34_17, + data=casopractico1, subset=P14_M23=="1") > summary(RegModel.25) Call: lm(formula = SATISF_GEN ~ P34_1 + P34_2 + P34_3 + P34_4 + P34_5 + P34_6 + P34_7 + P34_8 + P34_9 + P34_10 + P34_11 + P34_12 + P34_13 + P34_14 + P34_15 + P34_16 + P34_17, data = casopractico1, subset = P14_M23 == "1") Residuals: Min 1Q Median 3Q Max -1.28666 -0.38698 0.05278 0.30764 1.78200 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.528922 0.378523 4.039 0.0000926 *** P34_1 -0.067454 0.035425 -1.904 0.05917 . P34_2 0.147405 0.036186 4.074 0.0000813 *** P34_3 0.105645 0.046901 2.253 0.02602 * P34_4 0.151582 0.057116 2.654 0.00898 ** P34_5 0.064960 0.034457 1.885 0.06170 . P34_6 0.064979 0.047650 1.364 0.17510 P34_7 0.024237 0.035691 0.679 0.49833 P34_8 0.036967 0.052550 0.703 0.48307 P34_9 0.080073 0.058336 1.373 0.17230 P34_10 -0.004913 0.045821 -0.107 0.91478 P34_11 0.071197 0.037894 1.879 0.06258 . P34_12 -0.044863 0.037484 -1.197 0.23362 P34_13 0.137371 0.047711 2.879 0.00469 ** P34_14 -0.060352 0.040073 -1.506 0.13456 P34_15 0.014805 0.037792 0.392 0.69590 P34_16 0.061654 0.035678 1.728 0.08643 . P34_17 0.056495 0.040295 1.402 0.16336 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6027 on 126 degrees of freedom (114 observations deleted due to missingness) Multiple R-squared: 0.7376, Adjusted R-squared: 0.7022 F-statistic: 20.83 on 17 and 126 DF, p-value: < 2.2e-16 Interpretación: Tenemos que de los 17 variables solo 4 tiene un valor de p < 0,05, es decir son significativas, estas varianbles son: PEC3. ANÁLISIS MULTIVARIANTE (I) 3/17 Todos los coeficientes exceto las de P34_1, P34_10, P34_12, P34_14 son positivas, es decir la mayoria de las variables mientras se incrementan, se incrementa la satisfaccion de la gente. El valor R cudrado es 0,7376 cercano a 1, con lo cual los datos se ajustan bien a una recta, en cuanto al ajuste del modelo tenemos que el R adjustado es 0,7022 y nos dice que nuestro modelo tiene una ajuste favorables de 70% . El estadístico F vale 20,83 y tiene un valor P menor que 0,05 esto nos quiere decir que podemos rechazar la hipótesis nula del contraste de significación, así pues, el modelo conjuntamente es estadísticamente significativo. 1.2 Con el fin de completar la valoración de la estimación obtenida del modelo, queremos analizar los residuos y si hay o no hay problemas de multicolinealidad: Análisis de los residuos: El hecho de que los residuos no sean esféricos (es decir, homoscedásticos y sin autocorrelación), implicará que las estimaciones que hemos obtenido no sean eficientes (es decir, de varianza mínima). ¿Hay indicios de problemas de heteroscedasticidad en la estimación? Nota: Para analizarlo, una vez hecha la estimación del modelo (Estadísticos> Ajuste de modelos> Regresión lineal ...), debéis ir a Modelos> Gráficos> Gráficos básicos de diagnóstico y luego Modelos> Gráficos> Gráficos componentes + residuos para obtener gráficos de los residuos versus la variab le ajustada y gráficos de los residuos versus las variab les explicativas del modelo. Tal y como se indica en los materiales didácticos, si los residuos se distribuyan aleatoriamente alrededor de "0" nos estará diciendo que hay indicios de homoscedasticidad, en cambio, si hay algún tipo de estructura organizada, tendremos indicios del contrario, de que hay heteroscedasticidad. Solucion: P34_2 PROMOCIONES OFERTAS P34_3 VARIEDAD DE LAS TIENDAS P34_4 CALIDAD DE LAS TIENDAS P34_13 OFERTA DE OCIO PEC3. ANÁLISIS MULTIVARIANTE (I) 4/17 Interpretación: En todas las graficas podemos observar que existe homocedasticidad en los errores y que de la misma manera son independientes y no presentan correlación alguna, lo cual es muy favorable para nuestro modelo de regresión. Multicolinealidad: Si hay una fuerte correlación entre variables independientes, podemos tener un problema de sobre-información en el modelo, con información redundante.¿Hay problemas de multicolinealidad en el modelo estimado? Nota: Una vez hecha la estimación del modelo (Estadísticos> Ajuste de modelos> Regresión lineal ...), debéis ir a Modelos> Diagnósticos numéricos> Inflación de varianza de los factores .... De este modo, para cada variable independiente obtendréis un valor VIF. Si este valor es mayor que 5 se considera que pueden haber problemas de multicolinealidad originados por aquella variab le. Si es mayor que 10, los problemas pueden ser mucho más importantes. Solucion: 0 2 4 6 8 10 -1 .0 0. 0 1. 0 P34_10 C om po ne nt +R es id ua l(S A T IS F _G E N ) 0 2 4 6 8 10 -1 .0 0. 0 1. 0 2. 0 P34_11 C om po ne nt +R es id ua l(S A T IS F _G E N ) 0 2 4 6 8 10 -1 .0 0. 0 1. 0 P34_12 C om po ne nt +R es id ua l(S A T IS F _G E N ) 3 4 5 6 7 8 9 10 -1 .0 0. 0 1. 0 2. 0 P34_13 C om po ne nt +R es id ua l(S A T IS F _G E N ) 0 2 4 6 8 10 -1 .0 0. 0 1. 0 P34_14 C om po ne nt +R es id ua l(S A T IS F _G E N ) 2 4 6 8 10 -1 .0 0. 0 1. 0 P34_15 C om po ne nt +R es id ua l(S A T IS F _G E N ) 0 2 4 6 8 10 -1 .5 -0 .5 0. 5 1. 5 P34_16 C om po ne nt +R es id ua l(S A T IS F _G E N ) 2 4 6 8 10 -1 .0 0. 0 1. 0 P34_17 C om po ne nt +R es id ua l(S A T IS F _G E N ) Component + Residual Plots PEC3. ANÁLISIS MULTIVARIANTE (I) 5/17 > vif(RegModel.1) P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 P34_10 1.686375 1.749785 2.508920 2.256974 1.527087 2.237556 2.110447 2.873293 3.189721 2.071691 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 2.371331 1.924054 2.074090 1.897394 1.869733 2.080598 2.260511 round(cov2cor(vcov(RegModel.1)), 3) # Correlations of parameter estimates (Intercept) P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 (Intercept) 1.000 -0.178 -0.135 0.058 -0.243 -0.253 -0.037 -0.022 -0.077 0.075 P34_1 -0.178 1.000 -0.396 -0.046 0.047 0.271 0.100 0.148 -0.022 -0.259 P34_2 -0.135 -0.396 1.000 -0.123 -0.045 -0.123 -0.218 -0.097 0.177 -0.048 P34_3 0.058 -0.046 -0.123 1.000 -0.469 0.116 -0.016 -0.003 -0.191 0.087 P34_4 -0.243 0.047 -0.045 -0.469 1.000 -0.167 -0.073 0.034 0.160 -0.187 P34_5 -0.253 0.271 -0.123 0.116 -0.167 1.000 0.042 0.191 -0.037 -0.133 P34_6 -0.037 0.100 -0.218 -0.016 -0.073 0.042 1.000 0.022 -0.225 -0.094 P34_7 -0.022 0.148 -0.097 -0.003 0.034 0.191 0.022 1.000 -0.110 -0.235 P34_8 -0.077 -0.022 0.177 -0.191 0.160 -0.037 -0.225 -0.110 1.000 -0.450 P34_9 0.075 -0.259 -0.048 0.087 -0.187 -0.133 -0.094 -0.235 -0.450 1.000 P34_10 -0.321 -0.021 0.221 -0.114 0.106 -0.218 -0.097 0.008 0.038 -0.218 P34_11 0.112 0.145 -0.196 0.122 -0.202 -0.001 -0.069 0.007 -0.045 -0.090 P34_12 0.028 0.069 -0.151 -0.129 -0.002 -0.032 0.053 -0.120 -0.049 0.014 P34_13 -0.083 -0.154 -0.014 -0.079 -0.095 -0.182 0.051 0.014 -0.130 0.086 P34_14 0.033 -0.138 -0.012 0.005 -0.195 0.094 -0.111 0.033 -0.159 0.134 P34_15 -0.175 -0.024 0.116 0.243 -0.053 0.035 0.088 0.129 -0.128 -0.169 P34_16 -0.084 -0.186 0.170 -0.179 -0.076 -0.104 -0.065 -0.523 0.119 0.111 P34_17 0.077 0.001 -0.015 -0.234 0.223 -0.129 -0.300 -0.124 0.020 -0.001 P34_10 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 (Intercept) -0.321 0.112 0.028 -0.083 0.033 -0.175 -0.084 0.077 P34_1 -0.021 0.145 0.069 -0.154 -0.138 -0.024 -0.186 0.001 P34_2 0.221 -0.196 -0.151 -0.014 -0.012 0.116 0.170 -0.015 P34_3 -0.114 0.122 -0.129 -0.079 0.005 0.243 -0.179 -0.234 P34_4 0.106 -0.202 -0.002 -0.095 -0.195 -0.053 -0.076 0.223 P34_5 -0.218 -0.001 -0.032 -0.182 0.094 0.035 -0.104 -0.129 P34_6 -0.097 -0.069 0.053 0.051 -0.111 0.088 -0.065 -0.300 P34_7 0.008 0.007 -0.120 0.014 0.033 0.129 -0.523 -0.124 P34_8 0.038 -0.045 -0.049 -0.130 -0.159 -0.128 0.119 0.020 P34_9 -0.218 -0.090 0.014 0.086 0.134 -0.169 0.111 -0.001 P34_10 1.000 -0.355 -0.006 -0.107 -0.172 0.166 0.129 -0.043 P34_11 -0.355 1.000 -0.135 0.321 -0.203 -0.144 -0.024 -0.097 P34_12 -0.006 -0.135 1.000 -0.293 0.066 0.082 -0.129 -0.145 P34_13 -0.107 0.321 -0.293 1.000 -0.047 -0.260 0.003 -0.172 P34_14 -0.172 -0.203 0.066 -0.047 1.000 -0.209 -0.068 0.043 P34_15 0.166 -0.144 0.082 -0.260 -0.209 1.000 -0.226 -0.232 P34_16 0.129 -0.024 -0.129 0.003 -0.068 -0.226 1.000 0.067 P34_17 -0.043 -0.097 -0.145 -0.172 0.043 -0.232 0.067 1.000 Interpretación: Al observar los valores de la matriz de correlaciones de los estimadores del modelo podemos decir que el existe un bajo riesgo de Multicolinealidad, o sobre información dado que los fuera de la diagonal de la matriz en el peor de los casos tiene como valor máximo 0,3 que correspondería a una baja correlación, pero en promedio están por el orden de 0,1. Para usos prácticos aceptable en un modelo de regresión múltiple, tomando las consideración de reducir algunas variables. 1.3 Finalmente, para acabar de ayudar al gerente del centro comercial a interpretar los resultados, se pide que respondáis razonadamente las siguientes preguntas: Cuando añadimos todas estas variables, ¿cuál es el papel que juega ahora la valoración sobre la percepción de calidad del parking? PEC3. ANÁLISIS MULTIVARIANTE (I) 6/17 La valoración de la percepción de calidad del parking, resulta muy importante en la elaboración del modelo que analiza la satisfacción general, dado que genera un modelo mas simple, con menos variables significativas y por consiguiente a la hora de tomar decisiones, es más fácil interpretar un modelo con menos variables, y eso también ayuda a determinar las áreas primordiales sobre las cuales deben enfocarse los recursos de forma prioritaria. Los resultados obtenidos, ¿son similares o diferentes a los obtenidos para toda la muestra sin filtrar por P14_M23==1 (es decir, utilizando los 425 individuos)? Justificad la respuesta Solucion: A continuación presentamos los resultados del modelo sin filtrar: all: lm(formula = SATISF_GEN ~ P34_1 + P34_2 + P34_3 + P34_4 + P34_5 + P34_6 + P34_7 + P34_8 + P34_9 + P34_10 + P34_11 + P34_12 + P34_13 + P34_14 + P34_15 + P34_16 + P34_17, data = casopractico1) Residuals: Min 1Q Median 3Q Max -2.04804 -0.41589 -0.00288 0.40260 2.05663 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.28356 0.31090 4.129 0.0000528 *** P34_1 -0.01135 0.03032 -0.374 0.708600 P34_2 0.11722 0.03100 3.781 0.000204 *** P34_3 0.09998 0.03816 2.620 0.009442 ** P34_4 0.17030 0.04831 3.525 0.000520 *** P34_5 0.10383 0.02940 3.532 0.000509 *** P34_6 0.01531 0.03868 0.396 0.692625 P34_7 0.01224 0.02889 0.424 0.672330 P34_8 0.09387 0.03882 2.418 0.016468 * P34_9 0.09922 0.04496 2.207 0.028413 * P34_10 -0.04392 0.03674 -1.195 0.233253 P34_11 0.11404 0.03119 3.657 0.000324 *** P34_12 -0.04795 0.03281 -1.462 0.145330 P34_13 0.08812 0.03822 2.306 0.022112 * P34_14 -0.08213 0.03533 -2.325 0.021049 * P34_15 -0.01208 0.03459 -0.349 0.727258 P34_16 0.06707 0.02911 2.304 0.022225 * P34_17 0.07252 0.03314 2.189 0.029736 * --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6384 on 208 degrees of freedom (199 observations deleted due to missingness) Multiple R-squared: 0.7398, Adjusted R-squared: 0.7185F-statistic: 34.78 on 17 and 208 DF, p-value: < 2.2e-16 Interpretación: Podemos observar que este modelo en los aspectos de r cuadrado y r ajustado, es muy similar al modelo presentado anteriormente. Su principal diferencia esta en la cantidad de variables que resultan significativas, de hecho para este modelo sin filtrar 12 variables son significativas. Dando como resultado un modelo matemáticamente mas complejo que el obtenido con los datos filtrados. PEC3. ANÁLISIS MULTIVARIANTE (I) 7/17 Pregunta 2 A partir del resultado obtenido en el ejercicio anterior, el gerente del centro comercial, tenía un poco más claro qué apectos concretos del centro debían "cuidar" más para mejorar el nivel de satisfacción general de los clientes de fuera del barrio. Pero tenía muchos más resultados de valoraciones que, aun no siendo significativos a la hora explicar esta satisfacción general, podían ser muy importantes a la hora de intentar solucionar los indicios de una mala gestión del centro en el ámbito del marketing. La interpretación, sin embargo, del conjunto de todas las variables (17 en total) para los clientes de fuera del barrio se le hacía un poco complicado. Por esta razón quería tratar de agrupar toda la información en varias (pocas) componentes, que le facilitaran un poco el trabajo. Con este objetivo, se pide: 2.1 Cread un nuevo conjunto de datos de nombre DatosPreg2 que contenga sólo las 17 variables de las valoraciones parciales (P34_1 a P34_17) y recogiendo las observaciones de los que usan el parking (P14_M23R==”1”) y que no tienen valor omitido o missing (NA) en ninguna de las variables. Nota: Para ello tenéis que hacer dos etapas: a) Crear un conjunto de datos con las observaciones que P14_M23R==”1” haciendo Datos > Conjunto de datos activo > Haz un subconjunto del conjunto de datos activo y b) A partir de este conjunto de datos, crear un nuevo conjunto de datos sólo con las variab les P34_1 a P34_17 y las observaciones que no contengan missings o valores omitidos haciendo Datos > Conjunto de datos activo > Elimina casos con datos incompletos. Solucion: > Casopractico1 <- + readXL("C:/Users/YanW/Downloads/trabajos_pendientes/N°T 3650 - N°P 490_PEC3/archivos_Datos_CasoPractico1.xlsx", + rownames=FALSE, header=TRUE, na="", sheet="Datos_CasoPractico1", stringsAsFactors=TRUE) > DatosUsParking <- subset(Casopractico1, subset=P14_M23=="1") > DadesPreg2 <- na.omit(DatosUsParking[,c("P34_1","P34_2","P34_3","P34_4","P34_5","P34_6","P34_7", + "P34_8","P34_9","P34_10","P34_11","P34_12","P34_13","P34_14","P34_15","P34_16","P34_17")]) > editDataset(DadesPreg2) 2.2 Realizad un análisis factorial de componentes principales con todas estas 17 variables, sin rotación varimax. Intentad interpretar los componentes que tengan asociado un valor propio (en inglés, eigenvalue) mayor que 1, a partir de las variables que tienen un peso mayor. ¿Puede hacerse de forma clara una interpretación de estas componentes? ¿Por qué? ¿Qué porcentaje de información explican estas primeras componentes? Nota: Tenéis que trabajar con la submuestra correspondiente a los de fuera del barrio a pa rtir de los que han utilizado el parking (P14_M23R==”1”). Recordad que para poder hacer el Análisis de Componentes Principales primero tenéis que instalar el paquete FactoMineR, ejecutando en R: http://materials.cv.uoc.edu/continguts/PID_00203334/fitxa30/index.html PEC3. ANÁLISIS MULTIVARIANTE (I) 8/17 install.packages("FactoMineR") ≫ Ens demanarà un CRAN Mirror ≪ library(FactoMineR) install.packages("RcmdrPlugin.FactoMineR") library(Rcmdr) Una vez en RCommander tenemos que ir al menú y seleccionar Herramientas ≫ Cargar plugin(s) de Rcmdr… , seleccionamos RcmdrPlugin.FactoMineR y aceptamos reiniciar. Finalmente deberemos encontrar el menú FactoMineR en la barra de menús del R-Commander. Seleccionamos Principal Component Analysis (PCA) y en Outputs marcamos Eigenvalues y Description of the dimensions. Solucion: Call: "res<-PCA(DadesPreg2.PCA , scale.unit=TRUE, ncp=5, graph = FALSE)" Eigenvalues Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Variance 6.619 1.635 1.188 1.160 1.035 0.869 % of var. 38.937 9.620 6.987 6.822 6.088 5.113 Cumulative % of var. 38.937 48.557 55.544 62.366 68.453 73.566 Dim.7 Dim.8 Dim.9 Dim.10 Dim.11 Dim.12 Variance 0.676 0.650 0.575 0.499 0.434 0.365 % of var. 3.975 3.826 3.380 2.936 2.551 2.149 Cumulative % of var. 77.541 81.367 84.747 87.683 90.233 92.383 Dim.13 Dim.14 Dim.15 Dim.16 Dim.17 Variance 0.342 0.293 0.265 0.211 0.183 % of var. 2.014 1.724 1.559 1.243 1.076 Cumulative % of var. 94.397 96.121 97.681 98.924 100.000 Individuals (the 10 first) Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 16 | 3.127 | 1.444 0.219 0.213 | 0.156 0.010 0.002 | -1.263 17 | 3.927 | -1.853 0.360 0.223 | 0.109 0.005 0.001 | 0.137 18 | 2.423 | -1.971 0.408 0.662 | 0.524 0.117 0.047 | 0.377 19 | 4.175 | 0.934 0.092 0.050 | -3.014 3.858 0.521 | -0.795 20 | 6.813 | 6.493 4.423 0.908 | -0.170 0.012 0.001 | -0.625 21 | 2.680 | 0.180 0.003 0.005 | -1.315 0.735 0.241 | 0.916 22 | 3.615 | 1.966 0.405 0.296 | -0.728 0.225 0.041 | -0.807 23 | 2.431 | 0.942 0.093 0.150 | 0.569 0.137 0.055 | 1.273 26 | 2.887 | -1.064 0.119 0.136 | 0.076 0.002 0.001 | 1.973 27 | 3.059 | 0.794 0.066 0.067 | -0.937 0.373 0.094 | 1.258 ctr cos2 16 0.933 0.163 | 17 0.011 0.001 | 18 0.083 0.024 | 19 0.369 0.036 | 20 0.228 0.008 | 21 0.491 0.117 | 22 0.381 0.050 | 23 0.947 0.274 | 26 2.275 0.467 | 27 0.925 0.169 | Variables (the 10 first) Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr P34_1 | 0.416 2.618 0.173 | 0.422 10.899 0.178 | 0.237 4.743 P34_2 | 0.486 3.572 0.236 | 0.263 4.236 0.069 | 0.608 31.152 P34_3 | 0.690 7.198 0.476 | 0.294 5.289 0.086 | 0.227 4.348 P34_4 | 0.664 6.656 0.441 | 0.056 0.189 0.003 | 0.257 5.581 P34_5 | 0.432 2.818 0.187 | -0.400 9.781 0.160 | -0.101 0.867 P34_6 | 0.735 8.157 0.540 | -0.177 1.923 0.031 | 0.165 2.285 PEC3. ANÁLISIS MULTIVARIANTE (I) 9/17 P34_7 | 0.583 5.142 0.340 | 0.372 8.454 0.138 | -0.156 2.050 P34_8 | 0.761 8.751 0.579 | -0.170 1.763 0.029 | -0.167 2.361 P34_9 | 0.777 9.127 0.604 | -0.202 2.500 0.041 | -0.007 0.004 P34_10 | 0.591 5.277 0.349 | -0.540 17.813 0.291 | 0.077 0.502 cos2 P34_1 0.056 | P34_2 0.370 | P34_3 0.052 | P34_4 0.066 | P34_5 0.010 | P34_6 0.027 | P34_7 0.024 | P34_8 0.028 | P34_9 0.000 | P34_10 0.006 | > res$eig eigenvalue percentage of variance comp 1 6.6192224 38.936602 comp 2 1.6354289 9.620170 comp 3 1.1878501 6.987354 comp 4 1.1596709 6.821594 comp 5 1.0349015 6.087656 comp 6 0.8691984 5.112932 comp 7 0.6757035 3.974726 comp 8 0.6503921 3.825836 comp 9 0.5746135 3.380079 comp 10 0.4990818 2.935775 comp 11 0.4336227 2.550722 comp 12 0.3653540 2.149141 comp 13 0.3424253 2.014266 comp 14 0.2931459 1.724388 comp 15 0.2650893 1.559349 comp 16 0.2113521 1.243248 comp 17 0.1829476 1.076162 cumulative percentage of variance comp 1 38.93660 comp 248.55677 comp 3 55.54413 comp 4 62.36572 comp 5 68.45338 comp 6 73.56631 comp 7 77.54103 comp 8 81.36687 comp 9 84.74695 comp 10 87.68272 comp 11 90.23345 comp 12 92.38259 comp 13 94.39685 comp 14 96.12124 comp 15 97.68059 comp 16 98.92384 comp 17 100.00000 > dimdesc(res, axes=1:5) $Dim.1 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value P34_9 0.7772706 2.276183e-30 P34_8 0.7610734 1.771827e-28 PEC3. ANÁLISIS MULTIVARIANTE (I) 10/17 P34_6 0.7347775 1.044696e-25 P34_17 0.7225185 1.587522e-24 P34_3 0.6902323 1.072846e-21 P34_4 0.6637811 1.222520e-19 P34_12 0.6553916 4.973935e-19 P34_14 0.6442387 3.003351e-18 P34_11 0.6403744 5.504327e-18 P34_13 0.6018439 1.486655e-15 P34_10 0.5910158 6.281094e-15 P34_7 0.5833784 1.681125e-14 P34_16 0.5272188 1.130818e-11 P34_15 0.5254991 1.355064e-11 P34_2 0.4862526 6.467203e-10 P34_5 0.4319164 6.467917e-08 P34_1 0.4162616 2.113387e-07 $Dim.2 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value P34_16 0.5091727 7.183496e-11 P34_1 0.4221826 1.360025e-07 P34_7 0.3718430 4.456646e-06 P34_3 0.2941064 3.462543e-04 P34_2 0.2632166 1.435222e-03 P34_12 0.2610153 1.578520e-03 P34_13 0.2388680 3.935415e-03 P34_8 -0.1697806 4.191072e-02 P34_6 -0.1773219 3.348684e-02 P34_9 -0.2022019 1.508069e-02 P34_5 -0.3999581 6.814873e-07 P34_11 -0.4385312 3.850831e-08 P34_10 -0.5397372 2.937126e-12 $Dim.3 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value P34_2 0.6083132 6.121994e-16 P34_4 0.2574849 1.835736e-03 P34_1 0.2373675 4.174782e-03 P34_3 0.2272608 6.157005e-03 P34_11 0.2074482 1.259979e-02 P34_6 0.1647523 4.846109e-02 P34_8 -0.1674763 4.481418e-02 P34_17 -0.1681253 4.397995e-02 P34_16 -0.2633637 1.426085e-03 P34_13 -0.3340491 4.279885e-05 P34_15 -0.5405616 2.682336e-12 $Dim.4 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value P34_1 0.5121537 5.332470e-11 P34_15 0.3998893 6.847768e-07 P34_14 0.3740309 3.874570e-06 P34_9 0.1889262 2.334024e-02 P34_8 0.1712498 4.014306e-02 PEC3. ANÁLISIS MULTIVARIANTE (I) 11/17 P34_3 -0.2516631 2.344156e-03 P34_12 -0.3749809 3.644972e-06 P34_5 -0.4948267 2.896940e-10 $Dim.5 Link between the variable and the continuous variables (R-square) ================================================================================= correlation p.value P34_13 0.4929419 3.462879e-10 P34_1 0.3497658 1.730184e-05 P34_5 0.2746870 8.627248e-04 P34_2 0.2329681 4.953781e-03 P34_11 -0.2859783 5.114445e-04 P34_16 -0.3934142 1.071691e-06 P34_7 -0.4858674 6.701365e-10 Interpretación: Se observa facilmente, que las primeras 5 componentes tiene valores eigenvalues superiores a 1, ademas la primera componente concentra 38,93% de la variacion del modelo, la segunda el 9,62%. Entre las 5 componentes esta concentrado el 62,45% de toda la variabilidad del modelo. 2.3 Repetid el análisis anterior, pero ahora con rotación Varimax, para tratar de mejorar la interpretación de los factores, seleccionando el mayor número posible (11). Ahora, razonad las respuestas a las siguientes cuestiones: ¿Creéis que el hecho de que sólo una variable (o dos) tenga un peso realmente significativo en los factores tiene relación con los resultados sobre la multicolinealidad del apartado 1.2 de la pregunta anterior? A partir de los resultados, ¿creéis que reducimos significat ivamente la información en unos pocos factores, tal y como pretendía hacer el gerente del centro comercial? ¿Los resultados son similares a los obtenidos en el caso práctico para toda la muestra? Nota: Tenéis que ir a Estadísticos > Análisis dimensional > Análisis Factorial. Marcad la rotación Varimax, la opción Método de regresión, y escoged once componentes. Seguid la Ficha “Aplicación de la rotación Varimax al Análisis Factorial”. Solucion: Para los datos DadesPreg2 all: factanal(x = ~P34_1 + P34_2 + P34_3 + P34_4 + P34_5 + P34_6 + P34_7 + P34_8 + P34_9 + P34_10 + P34_11 + P34_12 + P34_13 + P34_14 + P34_15 + P34_16 + P34_17, factors = 11, data = DadesPreg2, scores = "regression", rotation = "varimax") Uniquenesses: P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 P34_10 0.520 0.005 0.349 0.005 0.081 0.421 0.440 0.144 0.005 0.352 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 0.211 0.364 0.292 0.437 0.259 0.005 0.005 Loadings: Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Factor7 Factor8 P34_1 0.141 0.135 0.334 0.167 -0.133 P34_2 0.124 0.147 0.131 0.948 P34_3 0.195 0.304 0.465 0.360 0.179 -0.101 0.238 P34_4 0.258 0.173 0.900 0.144 0.144 0.124 0.127 P34_5 0.210 0.106 0.149 0.902 P34_6 0.443 0.173 0.189 0.228 0.332 P34_7 0.135 0.597 0.212 0.122 0.164 P34_8 0.363 0.156 0.106 0.229 0.251 0.166 P34_9 0.410 0.166 0.155 0.109 0.133 0.209 0.140 0.150 P34_10 0.698 0.168 0.137 0.230 http://materials.cv.uoc.edu/continguts/PID_00203334/fitxa30/cc02.html http://materials.cv.uoc.edu/continguts/PID_00203334/fitxa30/cc02.html PEC3. ANÁLISIS MULTIVARIANTE (I) 12/17 P34_11 0.778 0.126 0.171 0.188 0.186 0.103 P34_12 0.201 0.321 0.144 0.606 0.201 0.181 P34_13 0.115 0.148 0.645 0.293 0.175 0.196 P34_14 0.514 0.126 0.256 0.336 P34_15 0.170 0.141 0.128 0.789 0.128 P34_16 0.944 0.157 0.115 0.187 P34_17 0.261 0.176 0.293 0.115 0.201 0.843 0.132 Factor9 Factor10 Factor11 P34_1 0.156 0.493 P34_2 0.135 P34_3 0.206 0.176 P34_4 0.109 P34_5 P34_6 0.156 0.317 P34_7 0.236 0.170 P34_8 0.307 0.656 0.101 P34_9 0.750 0.260 0.174 P34_10 0.169 0.123 P34_11 0.125 -0.187 P34_12 0.103 P34_13 0.123 0.287 P34_14 0.190 0.221 P34_15 0.118 P34_16 0.150 P34_17 0.101 0.113 Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Factor7 Factor8 Factor9 Factor10 Factor11 SS loadings 2.177 1.677 1.320 1.260 1.254 1.105 1.087 1.022 0.866 0.771 0.565 Proportion Var 0.128 0.099 0.078 0.074 0.074 0.065 0.064 0.060 0.051 0.045 0.033 Cumulative Var 0.128 0.227 0.304 0.378 0.452 0.517 0.581 0.641 0.692 0.738 0.771 Test of the hypothesis that 11 factors are sufficient.The chi square statistic is 3.79 on 4 degrees of freedom. The p-value is 0.435 Interpretación: Es claro que dos variables tienen un peso significativo sobre los factores acumulando mas 22% de toda la variabilidad y a pesar que la matriz de correlaciones dio resultados relativamente bajos (0,3) podemos decir que si existe un exceso de información o cierto grado de multicolinealidad entre las variables. Con la situacion descrita anteriormente es muy factible reducir el tamaño de los factores para obtener la informacion deseada. Para toda la muestra se obtuvieron los siguientes resultados Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Factor7 Factor8 Factor9 Factor10 Factor11 SS loadings 1.900 1.540 1.327 1.230 1.215 1.140 1.129 1.016 0.980 0.946 0.938 Proportion Var 0.112 0.091 0.078 0.072 0.071 0.067 0.066 0.060 0.058 0.056 0.055 Cumulative Var 0.112 0.202 0.280 0.353 0.424 0.491 0.558 0.617 0.675 0.731 0.786 Puede observase que los resultados son bastante similares 2.4 Sin hacer los cálculos correspondientes, ¿cuál creéis que sería la correlación entre los diferentes factores obtenidos del análisis anterior? ¿Por qué? La correlación entre las componentes de un análisis factorial es cero, dado que por definición las componentes que se obtienen son independientes unas de otras. Esto se debe a que las componentes se obtienen precisamente de la diagonalización de la matriz de correlaciones. PEC3. ANÁLISIS MULTIVARIANTE (I) 13/17 Pregunta 3 Con el objetivo de profundizar en la interpretación de las valoraciones que los clientes de fuera del barrio hacían de su centro comercial (Barcelona Glòries), el gerente quería saber cómo lo situaban respecto a los otros dos centros que configuraban el llamado Triángulo las Bermudas: Diagonal Mar y la Maquinista. Esto le permitiría saber cuál era la imagen y el posicionamiento de su centro comercial respecto a la competencia. Este posicionamiento lo quería realizar a partir de la valoración de 15 características (C1 - C15) asociadas a los centros comerciales. Por esta razón, tomó como base el cuestionario (y los datos rec ogidos) del caso práctico (ver el apartado 5, "Imagen y posicionamiento del centro comercial"): Seleccionando sólo la submuestra de los clientes que usan el parking (que son de fuera del barrio), se obtienen los siguientes resultados agregados: Glòries Maquinista Diagonal Mar C1 62 146 21 C2 52 163 19 C3 44 155 21 C4 62 143 24 C5 66 168 19 C6 55 144 20 C7 72 150 15 C8 70 162 22 C9 60 143 25 C10 51 132 18 C11 54 133 21 C12 39 182 21 C13 57 135 24 C14 47 175 19 C15 70 151 26 PEC3. ANÁLISIS MULTIVARIANTE (I) 14/17 3.1 A partir de las variables de la Base de Datos correspondientes a los datos recogidos por el cuestionario (Ei1, Ei4, Ei7, Ei10, Ei13, Ei16, Ei19, Ei22, Ei25, Ei28, Ei31, Ei34, Ei37, Ei40, Ei43), en el que constan las respuestas de los clientes, asociando preferentemente un centro comercial a cada característica, ¿cómo se ha calculado la tabla agregada anterior? ¿Cómo se interpreta cada uno de los valores de las celdas? Poned algún ejemplo, y razonad la respuesta. Para calcular la tabla agregada anterior se cuenta el número de veces que sale el 1, el 2 y el 5 en cada una de las variables “Ei” La interpretación de cada valor de las celdas es directa, ya que es el número de veces que un cliente de fuera del barrio se ha vinculado de forma preferente con un determinado centro comercial en alguna característica. De esta forma tenemos que, 62 clientes han dicho que el centro comercial Glorias es quien tiene la mejor ubicación y accesos, 146 han dicho lo propio de la Maquinista y 21 de Diagonal Mar. 3.2 Como habéis podido comprobar en el apartado anterior, hay un total de 45 celdas a interpretar, 15 por cada uno de los 3 centros comerciales que configuran el Triángulo de las Bermudas. Esto era demasiada información para el gerente, y su interpretación era difícil. Por esta razón, se pide que para ayudar al gerente en este análisis, realicéis un análisis de correspondencias a partir de los datos de la Tabla anterior (que encontraréis en el archivo Imagen.RData): Hallad los 2 ejes factoriales, e interpretadlos. Haced la representación gráfica de los resultados e interpretadlos, viendo cómo se agrupan las características y los centros comerciales. Nota: Para resolver el apartado tenéis que seguir los pasos de la Ficha correspondiente al "Análisis de correspondencias simple". Solucion: Call: "res<-CA(IMAGE2.CA.CA, ncp=5, row.sup=NULL, col.sup=NULL, graph = FALSE)" The chi square of independence between the two variables is equal to 34.66588 (p-value = 0.1798032 ). Eigenvalues Dim.1 Dim.2 Variance 0.008 0.002 % of var. 80.124 19.876 Cumulative % of var. 80.124 100.000 Rows Iner*1000 Dim.1 ctr cos2 Dim.2 ctr cos2 Glories | 5.603 | 0.148 67.985 0.975 | -0.024 7.116 0.025 | Maquinista | 2.520 | -0.061 30.497 0.972 | -0.010 3.511 0.028 | Diagonal Mar | 1.903 | 0.037 1.518 0.064 | 0.140 89.373 0.936 | Columns (the 10 first) Iner*1000 Dim.1 ctr cos2 Dim.2 ctr cos2 C1 | 0.176 | 0.051 2.178 0.992 | -0.005 0.069 0.008 | C2 | 0.405 | -0.073 4.513 0.894 | -0.025 2.148 0.106 | C3 | 0.818 | -0.110 9.498 0.932 | 0.030 2.789 0.068 | C4 | 0.389 | 0.066 3.554 0.734 | 0.039 5.184 0.266 | C5 | 0.249 | 0.010 0.097 0.031 | -0.057 12.098 0.969 | C6 | 0.002 | 0.005 0.022 0.999 | 0.000 0.000 0.001 | C7 | 1.484 | 0.098 8.125 0.440 | -0.110 41.738 0.560 | C8 | 0.279 | 0.057 2.989 0.859 | -0.023 1.975 0.141 | C9 | 0.409 | 0.053 2.326 0.456 | 0.058 11.169 0.544 | C10 | 0.008 | 0.009 0.064 0.668 | -0.007 0.128 0.332 | http://materials.cv.uoc.edu/continguts/PID_00203334/fitxa32/index.html http://materials.cv.uoc.edu/continguts/PID_00203334/fitxa32/index.html PEC3. ANÁLISIS MULTIVARIANTE (I) 15/17 > res$eig eigenvalue percentage of variance cumulative percentage of variance dim 1 0.008032318 80.12419 80.12419 dim 2 0.001992517 19.87581 100.00000 > res$col $coord Dim 1 Dim 2 C1 0.051399779 -0.0045606471 C2 -0.073190567 -0.0251466165 C3 -0.109504975 0.0295560934 C4 0.065652976 0.0394953721 C5 0.010308992 -0.0573991306 C6 0.005274304 0.0001225479 C7 0.097579390 -0.1101547278 C8 0.057170130 -0.0231477809 C9 0.053236396 0.0580960895 C10 0.009386367 -0.0066235735 C11 0.035522463 0.0299569141 C12 -0.209536395 0.0121790629 C13 0.056531866 0.0627905018 C14 -0.139196174 -0.0248104698 C15 0.095675312 0.0371939188 $contrib Dim 1 Dim 2 C1 2.17817166 0.0691291655 C2 4.51294656 2.1475726971 C3 9.49783234 2.7892641050 C4 3.55368090 5.1844274165 C5 0.09680261 12.0977344702 C6 0.02193353 0.0000477341 C7 8.12453768 41.7376052288 C8 2.98886430 1.9752648637 C9 2.32641002 11.1686722373 C10 0.06375661 0.1279834075 C11 0.94493861 2.7091333424 C12 38.25325675 0.5209739566 C13 2.48527532 12.3598885837 C14 16.81147243 2.1530787617 C15 8.14012068 4.9592240299 $cos2 Dim 1 Dim 2 C1 0.99218868 0.0078113248 C2 0.89441810 0.1055819014 C3 0.93209722 0.0679027820 C4 0.73427055 0.2657294540 C5 0.03124885 0.9687511505 C6 0.99946043 0.0005395691 C7 0.43968529 0.5603147095 C8 0.85915209 0.1408479104 C9 0.45643274 0.5435672610 C10 0.66757703 0.3324229711 C110.58438732 0.4156126794 C12 0.99663299 0.0033670074 C13 0.44769242 0.5523075825 C14 0.96920838 0.0307916203 C15 0.86871334 0.1312866580 $inertia PEC3. ANÁLISIS MULTIVARIANTE (I) 16/17 [1] 0.000176335086 0.000405284980 0.000818472672 0.000388743568 0.000248824953 0.000001762722 0.001484217735 0.000279432582 0.000409402385 0.000007671226 [11] 0.000129880427 0.003083003739 0.000445898143 0.001393251401 0.00075265378 1 > res$row $coord Dim 1 Dim 2 Glories 0.14809451 -0.02386308 Maquinista -0.06092602 -0.01029639 Diagonal Mar 0.03658349 0.13981738 $contrib Dim 1 Dim 2 Glories 67.985325 7.115890 Maquinista 30.496874 3.511223 Diagonal Mar 1.517801 89.372887 $cos2 Dim 1 Dim 2 Glories 0.97469286 0.02530714 Maquinista 0.97223265 0.02776735 Diagonal Mar 0.06407504 0.93592496 $inertia [1] 0.005602583 0.002519568 0.001902685 Glories Maquinista Diagonal Mar C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11C12 C13 C14 C15 -0.1 0.0 0.1 -0.2 -0.1 0.0 0.1 0.2 Dim 1 (80.12%) D im 2 ( 1 9 .8 8 % ) CA factor map PEC3. ANÁLISIS MULTIVARIANTE (I) 17/17 Interpretación: En primer lugar entre las dos dimensiones se explica 100% de la variabilidad. En la primera componente se explica 80% de la variabilidad. Para el eje horizontal correspondiente a la primera dimension tenemos que mantiene una relacion negativa solamente con C2 – C3 – C12 – C14 y para el resto de las variables tiene una relacion positiva. En nuestro eje vertical que corresponde a la segunda dimension, se observa que una relacion mas pareja entre positivos y negativos; siendo las variables que se relacionan de forma negativa C14 – C2 – C10 – C1 – C8 – C5 – C7, siendo las restantes positivas. En cuanto a nuestros centros comerciales de acuerdo a su cercania a las distintas variables en la grafica, tenemos que el que se situa con mejor desempeño en las mayoria de las variables es Maquinista, segido de Glòries y por último Diagonal Mar 3.3 ¿Los resultados obtenidos son similares o no a los del caso práctico, donde se consideraba toda la muestra (fueran clientes del barrio o no), y además la opinión sobre otros centros comerciales, como el Corte Inglés y Baricentro? Razonad y justificad la respuesta. Podemos situar como los dos centros con mas bajo desempeño en las variables a corte ingles – diagonal del mar, en un punto intermedio con variables a favor y otras no tanto tendriamos a Glories y Baricentro. Teniendo como uno con los mejores desempeño a Maquinista. Situacion que se corresponde con el apartado anterior de forma muy elevada.
Compartir