Logo Studenta

Estadistica_AnalisisMultivariante5

¡Estudia con miles de materiales!

Vista previa del material en texto

Análisis Multivariante 
Curso 2022-23 / 1r semestre 
 
 1/9 
Nombre y apellidos del estudiante 
 
 
Prueba de evaluación continua 5. ANÁLISIS MULTIVARIANTE(III) 
 
 
Criterios de evaluación 
 
Las preguntas y los problemas tienen que estar desarrollados y razonados. No se considerará correcta ninguna 
respuesta no argumentada. Cada pregunta vale 1/3 del total de puntos. 
 
Formato y fecha de entrega 
Las pruebas de evaluación continuada se tienen que entregar en el buzón específico de Entrega de actividades 
que se encuentra en el apartado Evaluación del aula en un único fichero en formato WORD o PDF. El último día 
para entregar esta actividad es el próximo 7 de enero de 2023. 
 
Enunciado 
 
A partir de los datos que hay en el fichero "Datos_Casopractico5", en cualquiera de sus formatos, en el que 
se basa el caso práctico de "El triángulo de las Bermudas", se pide que contestéis, de forma razonada, las 
siguientes cuestiones. El nivel de significación α que debe considerar en todos los contrastes es de 0,05. 
 
Pregunta 1: 
 
En el apartado 6 del caso práctico, "Fuerza de la marca", se explica que para analizar este factor (marca) se 
pone en relación con la política de precios del centro comercial, y se pide a los clientes de Barcelona Glòries 
que respondan a un cuestionario en el que deben valorar, del 1 (valoración alta) al 12 (valoración baja), las 
siguientes tarjetas: 
 
 Marca Precio 
Tarjeta Glòries 
Diagonal 
Mar 
Maquinista Precios = > 5% >10% >15% 
CONJ1 X X 
CONJ2 X X 
CONJ3 X X 
CONJ4 X X 
CONJ5 X X 
CONJ6 X X 
CONJ7 X X 
CONJ8 X X 
CONJ9 X X 
CONJ10 X X 
CONJ11 X X 
CONJ12 X X 
 
Los resultados obtenidos por cada tarjeta (CONJ) se pueden ver en las columnas correspondientes de la Base 
de Datos. De estos resultados y del análisis que hizo el gerente, se observaba que el precio era dos veces más 
importante que la marca, a la hora de escoger el centro donde ir a comprar. ¿Esto continuaría siendo así por 
los clientes de fuera del barrio, donde ya hemos visto que la localización del centro es un elemento clave? Para 
responder a esta pregunta se pide: 
 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 2/9 
1.1. A partir de la base de datos “Datos_Casopractico5”, en cualquiera de sus formatos, cread una nueva tabla 
de datos de nombre FueraBarrio recogiendo las observaciones de los que usan el parking 
(P14_M23R==”1”). 
 
1.2. Para los clientes de fuera del barrio, en primer lugar, calculad la valoración media de cada tarjeta. Para hacer 
esto, debéis calcular la media de cada columna CONJ y después restar esta media a 12. De esta manera 
podremos interpretar mejor los resultados: valoraciones altas, medias altas. ¿Cuál es la tarjeta mejor 
valorada? ¿Y la menos valorada? ¿Podemos sacar alguna conclusión inicial? 
 
Solución: 
 
 
A partir de los resultados anteriores, restamos a 12 y mostramos los datos ordenados de mayor a menor 
 
 
CONJ2 10,471366 
CONJ3 8,814978 
CONJ1 8,268722 
CONJ5 8,251101 
CONJ6 6,502203 
CONJ4 5,841410 
CONJ8 5,647577 
CONJ9 3,916300 
CONJ7 3,506608 
CONJ11 3,427313 
CONJ12 1,000000 
CONJ10 0,352423 
 
Se puede ver claramente que la tarjeta más valorada es CONJ2 ("Diagonal Mar" y "Precios ="). Le siguen las 
tarjetas CONJ3 ("Maquinista" y "Precios ="), CONJ1 ("Glorias" y "Precios =") y CONJ5 ("Diagonal Mar" y 
"Precios> 5%"). 
Excepto en un caso, al parecer los clientes valoran más el hecho de que los precio no se modifiquen. Teniendo 
predicción por precio sobre marca. Para reforzar esta idea, nos podemos fijar con las tres menos valoradas: 
CONJ11, CONJ12 y CONJ10. En estos casos la tarjeta tenía "Precios> 15%". 
 
 
1.3. La base de datos Conjoint.xlsx contiene 12 filas (una para cada tarjeta CONJ1 – CONJ12) y 8 variables: la 
primera con las valoraciones (en positivo) calculadas en el apartado anterior y las 7 restantes corresponden 
a las tres columnas de los atributos de “Marca”, y a las cuatro columnas de los atributos de “Precio” (por 
ejemplo, y de acuerdo con el cuadro anterior, la última columna tiene primero 9 ceros y 3 unos al final) 
 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 3/9 
A partir de la información de esta base de datos, realizad un análisis de medidas conjuntas. ¿A qué 
conclusiones se llega? ¿Coinciden con las del caso práctico, en que se consideraba toda la muestra? 
Razonad las respuestas. 
 
Solución: 
 
 
 
 
 
Se ha eliminado de forma automática la columna correspondiente a "La Maquinista" y la columna "> 
15%", para eliminar los problemas de multicolinealidad. 
 
En primer lugar, podemos observar que el modelo de regresión parece correcto: todas las variables son 
significativas a la hora de explicar la valoración (valores- p más pequeños que 0,05). El modelo es significativo 
en su conjunto (el valor-p asociado al estadístico F es menor que 0,05), y el R2 es casi 1. Con los resultados 
anteriores construimos es siguiente cuadro: 
 
 
Factores niveles utilidad Importancia Importancia relativa 
Marca 
Glories -0,5661 
2,4571 14% Diagonal Mar 1,8910 
Maquinista 0,0000 
Precios 
Precios Iguales 7,5918 
15,6271 86% 
Precios Sup 5 5,2717 
Precios Sup 10 2,7636 
Precios Sup 15 0,0000 
 
Este análisis coincide con lo que habíamos observado en el apartado anterior: los precios son más importantes 
que la marca. Al hacer las valoraciones, los precios tenían una importancia relativa del 86%, mientras que la 
marca sólo del 14%. 
Este resultado es coherente teniendo en cuenta que estamos trabajando con las opiniones clientes “de fuera 
del barrio”. Por tanto, se trata de clientes dispuestos a desplazarse al centro comercial que haga falta con tal 
de obtener el mejor precio. 
 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 4/9 
Pregunta 2: 
 
En PECs anteriores, hemos comparado los diferentes centros comerciales que configuran el "Triángulo de las 
Bermudas" a partir de las valoraciones sobre diferentes atributos de estos centros. Ahora los queremos 
comparar a partir de la opinión directa de los clientes, a partir de las respuestas a la pregunta 47 del cuestionario 
del caso práctico, y que podemos ver al inicio del apartado 5, "Imagen y posicionamiento del centro comercial" . 
A diferencia del caso práctico, sin embargo, queremos hacer el análisis sólo para aquellos clientes que son de 
fuera del barrio, ya que son, posiblemente, los mejores candidatos a "cambiar" de centro comercial. Para hacer 
esta comparación se pide: 
 
2.1 Realizad un Análisis de Escalas Multidimensionales Métricas, a partir de la información de las variables SIM1, 
SIM2, y SIM3 de la base de datos, para los clientes de fuera del barrio que habéis creado en la pregunta 1. 
Haced (a mano) la representación gráfica correspondiente, indicando los valores de los centros de las 
circunferencias. 
 
Nota: Recordad que primero debéis calcular la tab la agregada con las medias de las respuestas. Seguid los pasos que 
se detallan en el material didáctico, concretamente en la segunda parte del apartado 2. 
Solución: 
 
 
 
Con estos resultados construimos la siguiente tabla: 
 
 Glories Diagonal Mar Maquinista 
Glories - 2,401914 2,715000 
Diagonal Mar 2,715000 - 2,193370 
Maquinista 2,715000 2,193370 - 
 
Tenemos que encontrar tres puntos X= (x1, x2); Y= (y1, y2) y Z= (z1, z2); donde X, Y e Z corresponden a Glories 
Diagonal Mar y Maquinista respectivamente. Además, deben satisfacer las siguientes ecuaciones 
 
(x1 – y1)2 + (x2 – y2)2 = (2,401914)2 
(x1 – z1)2 + (x2 – z2)2 = (2,715000)2 
(y1 – z1)2 + (y2 – z2)2 = (2,193370)2 
 
Sin perdida de generalidad un de los centros comerciales se sitúa en el origen del eje de coordenadas. Por 
conveniencia elegimos a Diagonal Mar, Y = (0, 0). Por tanto, las condiciones quedan escritas de la forma 
siguiente: 
 
(x1 – 0)2 + (x2 – 0)2 = (2,401914)2 
(x1 – z1)2 + (x2 – z2)2 = (2,715000)2 
(0 – z1)2 + (0 – z2)2 = (2,193370)2 (ec1) 
 
A partirde la primera y tercera ecuación podemos ver, que Glories y Maquinista se situarán en algún punto 
encima de una circunferencia de radio 2,401914 y de radio 2,193370 respectivamente. Sin pérdida de 
generalidad, situamos en el punto X = (0; 2,401914) para Glories. Ahora solo nos queda situal el centro 
Maquinista, a partir de la siguiente ecuación: 
 
(0 – z1)2 + (2,401914 – z2)2 = (2,715000)2 (ec2) 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 5/9 
Por tanto, el centro Maquinista se encontrará situado en la intersección de una circunferencia de centro el origen 
y radio 2,193370, y una circunferencia de origen (0; 2,401914) y de radio 2,715000. 
 
Gráficamente: 
 
De esta forma tenemos que el punto de intersección de las circunferencias es (2,089181; 0,667975). Así, 
tenemos los siguientes puntos para los centros comerciales: 
 
● Glòries: (0; 2,401914) 
● Diagonal Mar: (0; 0) 
● La Maquinista: (2,089181 ; 0,667975) 
 
2.2. Interpretad los resultados obtenidos en el apartado anterior. ¿A qué conclusiones llegáis? 
 
Se observa que hay distancias muy similares entre los tres centros comerciales. Por lo tanto, no sólo configuran 
el triángulo de las Bermudas desde el punto de vista geográfico, sino que también desde el punto de vista de 
sus semejanzas. Para los clientes de fuera del barrio visualizan los tres centros comerc iales como 
equidistantes. 
 
 
 
 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 6/9 
Pregunta 3: 
 
Finalmente, el gerente tenía dudas sobre si la variable SATISF_GEN, "Grado de satisfacción general", que 
había considerado en la mayoría de los análisis que había realizado, recogía muy bien la información más 
detallada que se podía extraer de las valoraciones sobre atributos concretos (variables de P34_1 a P34_17). 
Por ejemplo, ya habíamos comprobado en el análisis de regresión múltiple que no todas las variables 
independientes estaban relacionadas con la satisfacción general. 
 
Para aclarar estas dudas, quería trabajarlo a partir de una variable que siempre había considerado importante, 
como era la edad de los clientes, y que ya habíamos analizado en las primeras PEC del curso. Para ayudarle, 
se pide: 
 
3.1. Trabajando con todas las observaciones de la base de datos “Datos_Casopractico5”, en cualquiera de sus 
formatos, para cada uno de los 4 grupos de edad que determina la variable EDADR: 
 
EDADR = 1 de 18 a 30 
EDADR = 2 de 31 a 45 
EDADR = 3 de 46 a 55 
EDADR = 4 de 56 a 75 
 
se pide calcular un indicador sintético a partir de las 17 variables de P34_1 a P34_17, en que el peso de 
cada variable sea 1, es decir, el mismo. A la hora de construir este indicador, ¿es necesario normalizar? 
¿Por qué? 
 
Nota: Tened en cuenta que el valor de cada variab le para cada franja de edad es la media del valor de las respuestas 
correspondientes. Previamente debéis convertir a factor la variab le EDADR (Datos > Modifica variables de la tabla 
de datos activa > Convertir variables numéricas en factores ) para poder obtener la media para “Resumen por 
grupos”. Esta media es el valor que debéis considerar en cada una de las celdas de la siguiente matriz y que podéis 
tratar con Excel para ob tener el indicador sintético. 
 
 P34_# 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
EDADR 
1 
2 
3 
4 
 
Solución: 
 
 
 
 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 7/9 
 
P34_# 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
EDADR 
1 5,35 5,65 6,46 6,66 7,75 6,45 5,52 6,68 6,67 7,79 6,76 6,60 6,49 6,23 6,65 6,07 6,16 
2 6,51 6,55 7,14 7,33 7,54 6,70 5,50 7,40 7,67 7,83 7,56 6,79 6,93 7,18 7,36 6,45 6,70 
3 6,48 6,29 7,02 6,89 8,42 6,64 5,67 7,76 7,80 8,25 7,16 6,34 7,12 7,12 7,13 6,15 6,65 
4 6,78 6,21 7,06 7,23 8,39 6,98 6,56 7,57 7,41 7,92 7,43 6,78 7,24 7,38 7,69 6,87 7,00 
 
 
 
Luego el indicador sistémico: 
 
 
 
 
 
 
 
 
 
 
 
 
 
Para cálculo de los indicadores sistémicos, no fue necesario normalizar, dado que todas las variables están 
representadas con las mismas unidades. El factor 4, de edades de 56 a 75 años tiene el indicador más alto, 
7,21. Por lo tanto, podríamos decir que los individuos pertenecientes a este renglón valoran mejor el centro 
comercial. 
 
3.2. Repetid la construcción del indicador sintético a partir de las 17 variables de P34_1 a P34_17, pero ahora 
los pesos de cada variable son los de la tabla siguiente: 
 
P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 P34_10 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 
0.8 0.8 0.8 1.375 1.725 1 0.8 0.8 1 1.375 0.8 0.8 0.8 0.8 1.725 0.8 0.8 
 
Solución: 
 
 
Con los pesos asignados obtenemos la siguiente tabla: 
 
 
 
 
P34_# 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
EDADR 
1 4,28 4,52 5,17 9,16 13,4 6,45 4,42 5,34 6,67 10,72 5,41 5,28 5,19 4,98 11,48 4,86 4,93 
2 5,21 5,24 5,71 10,08 13,01 6,70 4,40 5,92 7,67 10,76 6,05 5,43 5,55 5,75 12,70 5,16 5,36 
3 5,18 5,03 5,61 9,47 14,52 6,64 4,54 6,21 7,80 11,35 5,73 5,07 5,69 5,69 12,30 4,92 5,32 
4 5,43 4,97 5,65 9,94 14,47 6,98 5,25 6,06 7,41 10,89 5,94 5,42 5,79 5,91 13,26 5,50 5,60 
 
 
 
 
Indicador 
Sistémico A 
EDADR 
1 6,47 
2 7,01 
3 6,99 
4 7,21 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 8/9 
 
 
Luego el indicador sistémico: 
 
 
 
 
 
 
 
 
 
 
 
 
3.3. A partir de un análisis de correlaciones, comparad el resultado de los indicadores anteriores con el grado de 
satisfacción general (SATISF_GEN) que hay para cada uno de estos segmentos de edad. ¿A qué 
conclusiones se llega? ¿Consideráis apropiada la elección de pesos? ¿Por qué? 
 
Nota: Podéis calcular con R-Commander la correlación lineal entre cada indicador sintético obtenido en el apartado 
anterior y la media de SATISF_GEN por grupos de edad definiendo dos variables con sus respectivos valores y ejecutando 
la función cor para estas dos variab les: 
 
indic <- c( i1, i2, i3, i4) 
satisf <- c(s1, s2 , s3, s4) 
cor(indic,satisf) 
 
 
Solución: 
 
 
 
 
Con los resultados obtenidos para la variable SATISF_GEN, como la variable EDADR como factor, y los 
resultados de los indicadores anteriores se obtuvo la siguiente tabla: 
 
 
 Indicador A Indicador B SATISF_GEN 
EDADR 
1 6,47 6,60 6,96 
2 7,01 7,10 7,31 
3 6,99 7,12 7,44 
4 7,21 7,32 7,47 
 
 
 
Procedemos a calcular la correlación entre cada uno de los indicadores y la variable SATISF_GEN, que 
presentamos a continuación: 
 
 
 
Indicador 
Sistémico B 
EDADR 
1 6,60 
2 7,10 
3 7,12 
4 7,32 
PEC5. ANÁLISIS MULTIVARIANTE(III) 
 9/9 
 
 
 
Se observa que los resultados fueron iguales dando una correlación de un 85%. Por lo tanto, si es conveniente 
medir la satisfacción a través de las distintas franjas de edad. Dado que los dos resultados fueron iguales, es 
evidente que la distribución de los pesos en el indicador B no tuvo ningún efecto, podríamos afirmar que no fue 
la apropiada.

Continuar navegando

Materiales relacionados