Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis Multivariante Curso 2022-23 / 1r semestre 1/9 Nombre y apellidos del estudiante Prueba de evaluación continua 5. ANÁLISIS MULTIVARIANTE(III) Criterios de evaluación Las preguntas y los problemas tienen que estar desarrollados y razonados. No se considerará correcta ninguna respuesta no argumentada. Cada pregunta vale 1/3 del total de puntos. Formato y fecha de entrega Las pruebas de evaluación continuada se tienen que entregar en el buzón específico de Entrega de actividades que se encuentra en el apartado Evaluación del aula en un único fichero en formato WORD o PDF. El último día para entregar esta actividad es el próximo 7 de enero de 2023. Enunciado A partir de los datos que hay en el fichero "Datos_Casopractico5", en cualquiera de sus formatos, en el que se basa el caso práctico de "El triángulo de las Bermudas", se pide que contestéis, de forma razonada, las siguientes cuestiones. El nivel de significación α que debe considerar en todos los contrastes es de 0,05. Pregunta 1: En el apartado 6 del caso práctico, "Fuerza de la marca", se explica que para analizar este factor (marca) se pone en relación con la política de precios del centro comercial, y se pide a los clientes de Barcelona Glòries que respondan a un cuestionario en el que deben valorar, del 1 (valoración alta) al 12 (valoración baja), las siguientes tarjetas: Marca Precio Tarjeta Glòries Diagonal Mar Maquinista Precios = > 5% >10% >15% CONJ1 X X CONJ2 X X CONJ3 X X CONJ4 X X CONJ5 X X CONJ6 X X CONJ7 X X CONJ8 X X CONJ9 X X CONJ10 X X CONJ11 X X CONJ12 X X Los resultados obtenidos por cada tarjeta (CONJ) se pueden ver en las columnas correspondientes de la Base de Datos. De estos resultados y del análisis que hizo el gerente, se observaba que el precio era dos veces más importante que la marca, a la hora de escoger el centro donde ir a comprar. ¿Esto continuaría siendo así por los clientes de fuera del barrio, donde ya hemos visto que la localización del centro es un elemento clave? Para responder a esta pregunta se pide: PEC5. ANÁLISIS MULTIVARIANTE(III) 2/9 1.1. A partir de la base de datos “Datos_Casopractico5”, en cualquiera de sus formatos, cread una nueva tabla de datos de nombre FueraBarrio recogiendo las observaciones de los que usan el parking (P14_M23R==”1”). 1.2. Para los clientes de fuera del barrio, en primer lugar, calculad la valoración media de cada tarjeta. Para hacer esto, debéis calcular la media de cada columna CONJ y después restar esta media a 12. De esta manera podremos interpretar mejor los resultados: valoraciones altas, medias altas. ¿Cuál es la tarjeta mejor valorada? ¿Y la menos valorada? ¿Podemos sacar alguna conclusión inicial? Solución: A partir de los resultados anteriores, restamos a 12 y mostramos los datos ordenados de mayor a menor CONJ2 10,471366 CONJ3 8,814978 CONJ1 8,268722 CONJ5 8,251101 CONJ6 6,502203 CONJ4 5,841410 CONJ8 5,647577 CONJ9 3,916300 CONJ7 3,506608 CONJ11 3,427313 CONJ12 1,000000 CONJ10 0,352423 Se puede ver claramente que la tarjeta más valorada es CONJ2 ("Diagonal Mar" y "Precios ="). Le siguen las tarjetas CONJ3 ("Maquinista" y "Precios ="), CONJ1 ("Glorias" y "Precios =") y CONJ5 ("Diagonal Mar" y "Precios> 5%"). Excepto en un caso, al parecer los clientes valoran más el hecho de que los precio no se modifiquen. Teniendo predicción por precio sobre marca. Para reforzar esta idea, nos podemos fijar con las tres menos valoradas: CONJ11, CONJ12 y CONJ10. En estos casos la tarjeta tenía "Precios> 15%". 1.3. La base de datos Conjoint.xlsx contiene 12 filas (una para cada tarjeta CONJ1 – CONJ12) y 8 variables: la primera con las valoraciones (en positivo) calculadas en el apartado anterior y las 7 restantes corresponden a las tres columnas de los atributos de “Marca”, y a las cuatro columnas de los atributos de “Precio” (por ejemplo, y de acuerdo con el cuadro anterior, la última columna tiene primero 9 ceros y 3 unos al final) PEC5. ANÁLISIS MULTIVARIANTE(III) 3/9 A partir de la información de esta base de datos, realizad un análisis de medidas conjuntas. ¿A qué conclusiones se llega? ¿Coinciden con las del caso práctico, en que se consideraba toda la muestra? Razonad las respuestas. Solución: Se ha eliminado de forma automática la columna correspondiente a "La Maquinista" y la columna "> 15%", para eliminar los problemas de multicolinealidad. En primer lugar, podemos observar que el modelo de regresión parece correcto: todas las variables son significativas a la hora de explicar la valoración (valores- p más pequeños que 0,05). El modelo es significativo en su conjunto (el valor-p asociado al estadístico F es menor que 0,05), y el R2 es casi 1. Con los resultados anteriores construimos es siguiente cuadro: Factores niveles utilidad Importancia Importancia relativa Marca Glories -0,5661 2,4571 14% Diagonal Mar 1,8910 Maquinista 0,0000 Precios Precios Iguales 7,5918 15,6271 86% Precios Sup 5 5,2717 Precios Sup 10 2,7636 Precios Sup 15 0,0000 Este análisis coincide con lo que habíamos observado en el apartado anterior: los precios son más importantes que la marca. Al hacer las valoraciones, los precios tenían una importancia relativa del 86%, mientras que la marca sólo del 14%. Este resultado es coherente teniendo en cuenta que estamos trabajando con las opiniones clientes “de fuera del barrio”. Por tanto, se trata de clientes dispuestos a desplazarse al centro comercial que haga falta con tal de obtener el mejor precio. PEC5. ANÁLISIS MULTIVARIANTE(III) 4/9 Pregunta 2: En PECs anteriores, hemos comparado los diferentes centros comerciales que configuran el "Triángulo de las Bermudas" a partir de las valoraciones sobre diferentes atributos de estos centros. Ahora los queremos comparar a partir de la opinión directa de los clientes, a partir de las respuestas a la pregunta 47 del cuestionario del caso práctico, y que podemos ver al inicio del apartado 5, "Imagen y posicionamiento del centro comercial" . A diferencia del caso práctico, sin embargo, queremos hacer el análisis sólo para aquellos clientes que son de fuera del barrio, ya que son, posiblemente, los mejores candidatos a "cambiar" de centro comercial. Para hacer esta comparación se pide: 2.1 Realizad un Análisis de Escalas Multidimensionales Métricas, a partir de la información de las variables SIM1, SIM2, y SIM3 de la base de datos, para los clientes de fuera del barrio que habéis creado en la pregunta 1. Haced (a mano) la representación gráfica correspondiente, indicando los valores de los centros de las circunferencias. Nota: Recordad que primero debéis calcular la tab la agregada con las medias de las respuestas. Seguid los pasos que se detallan en el material didáctico, concretamente en la segunda parte del apartado 2. Solución: Con estos resultados construimos la siguiente tabla: Glories Diagonal Mar Maquinista Glories - 2,401914 2,715000 Diagonal Mar 2,715000 - 2,193370 Maquinista 2,715000 2,193370 - Tenemos que encontrar tres puntos X= (x1, x2); Y= (y1, y2) y Z= (z1, z2); donde X, Y e Z corresponden a Glories Diagonal Mar y Maquinista respectivamente. Además, deben satisfacer las siguientes ecuaciones (x1 – y1)2 + (x2 – y2)2 = (2,401914)2 (x1 – z1)2 + (x2 – z2)2 = (2,715000)2 (y1 – z1)2 + (y2 – z2)2 = (2,193370)2 Sin perdida de generalidad un de los centros comerciales se sitúa en el origen del eje de coordenadas. Por conveniencia elegimos a Diagonal Mar, Y = (0, 0). Por tanto, las condiciones quedan escritas de la forma siguiente: (x1 – 0)2 + (x2 – 0)2 = (2,401914)2 (x1 – z1)2 + (x2 – z2)2 = (2,715000)2 (0 – z1)2 + (0 – z2)2 = (2,193370)2 (ec1) A partirde la primera y tercera ecuación podemos ver, que Glories y Maquinista se situarán en algún punto encima de una circunferencia de radio 2,401914 y de radio 2,193370 respectivamente. Sin pérdida de generalidad, situamos en el punto X = (0; 2,401914) para Glories. Ahora solo nos queda situal el centro Maquinista, a partir de la siguiente ecuación: (0 – z1)2 + (2,401914 – z2)2 = (2,715000)2 (ec2) PEC5. ANÁLISIS MULTIVARIANTE(III) 5/9 Por tanto, el centro Maquinista se encontrará situado en la intersección de una circunferencia de centro el origen y radio 2,193370, y una circunferencia de origen (0; 2,401914) y de radio 2,715000. Gráficamente: De esta forma tenemos que el punto de intersección de las circunferencias es (2,089181; 0,667975). Así, tenemos los siguientes puntos para los centros comerciales: ● Glòries: (0; 2,401914) ● Diagonal Mar: (0; 0) ● La Maquinista: (2,089181 ; 0,667975) 2.2. Interpretad los resultados obtenidos en el apartado anterior. ¿A qué conclusiones llegáis? Se observa que hay distancias muy similares entre los tres centros comerciales. Por lo tanto, no sólo configuran el triángulo de las Bermudas desde el punto de vista geográfico, sino que también desde el punto de vista de sus semejanzas. Para los clientes de fuera del barrio visualizan los tres centros comerc iales como equidistantes. PEC5. ANÁLISIS MULTIVARIANTE(III) 6/9 Pregunta 3: Finalmente, el gerente tenía dudas sobre si la variable SATISF_GEN, "Grado de satisfacción general", que había considerado en la mayoría de los análisis que había realizado, recogía muy bien la información más detallada que se podía extraer de las valoraciones sobre atributos concretos (variables de P34_1 a P34_17). Por ejemplo, ya habíamos comprobado en el análisis de regresión múltiple que no todas las variables independientes estaban relacionadas con la satisfacción general. Para aclarar estas dudas, quería trabajarlo a partir de una variable que siempre había considerado importante, como era la edad de los clientes, y que ya habíamos analizado en las primeras PEC del curso. Para ayudarle, se pide: 3.1. Trabajando con todas las observaciones de la base de datos “Datos_Casopractico5”, en cualquiera de sus formatos, para cada uno de los 4 grupos de edad que determina la variable EDADR: EDADR = 1 de 18 a 30 EDADR = 2 de 31 a 45 EDADR = 3 de 46 a 55 EDADR = 4 de 56 a 75 se pide calcular un indicador sintético a partir de las 17 variables de P34_1 a P34_17, en que el peso de cada variable sea 1, es decir, el mismo. A la hora de construir este indicador, ¿es necesario normalizar? ¿Por qué? Nota: Tened en cuenta que el valor de cada variab le para cada franja de edad es la media del valor de las respuestas correspondientes. Previamente debéis convertir a factor la variab le EDADR (Datos > Modifica variables de la tabla de datos activa > Convertir variables numéricas en factores ) para poder obtener la media para “Resumen por grupos”. Esta media es el valor que debéis considerar en cada una de las celdas de la siguiente matriz y que podéis tratar con Excel para ob tener el indicador sintético. P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 2 3 4 Solución: PEC5. ANÁLISIS MULTIVARIANTE(III) 7/9 P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 5,35 5,65 6,46 6,66 7,75 6,45 5,52 6,68 6,67 7,79 6,76 6,60 6,49 6,23 6,65 6,07 6,16 2 6,51 6,55 7,14 7,33 7,54 6,70 5,50 7,40 7,67 7,83 7,56 6,79 6,93 7,18 7,36 6,45 6,70 3 6,48 6,29 7,02 6,89 8,42 6,64 5,67 7,76 7,80 8,25 7,16 6,34 7,12 7,12 7,13 6,15 6,65 4 6,78 6,21 7,06 7,23 8,39 6,98 6,56 7,57 7,41 7,92 7,43 6,78 7,24 7,38 7,69 6,87 7,00 Luego el indicador sistémico: Para cálculo de los indicadores sistémicos, no fue necesario normalizar, dado que todas las variables están representadas con las mismas unidades. El factor 4, de edades de 56 a 75 años tiene el indicador más alto, 7,21. Por lo tanto, podríamos decir que los individuos pertenecientes a este renglón valoran mejor el centro comercial. 3.2. Repetid la construcción del indicador sintético a partir de las 17 variables de P34_1 a P34_17, pero ahora los pesos de cada variable son los de la tabla siguiente: P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 P34_10 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 0.8 0.8 0.8 1.375 1.725 1 0.8 0.8 1 1.375 0.8 0.8 0.8 0.8 1.725 0.8 0.8 Solución: Con los pesos asignados obtenemos la siguiente tabla: P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 4,28 4,52 5,17 9,16 13,4 6,45 4,42 5,34 6,67 10,72 5,41 5,28 5,19 4,98 11,48 4,86 4,93 2 5,21 5,24 5,71 10,08 13,01 6,70 4,40 5,92 7,67 10,76 6,05 5,43 5,55 5,75 12,70 5,16 5,36 3 5,18 5,03 5,61 9,47 14,52 6,64 4,54 6,21 7,80 11,35 5,73 5,07 5,69 5,69 12,30 4,92 5,32 4 5,43 4,97 5,65 9,94 14,47 6,98 5,25 6,06 7,41 10,89 5,94 5,42 5,79 5,91 13,26 5,50 5,60 Indicador Sistémico A EDADR 1 6,47 2 7,01 3 6,99 4 7,21 PEC5. ANÁLISIS MULTIVARIANTE(III) 8/9 Luego el indicador sistémico: 3.3. A partir de un análisis de correlaciones, comparad el resultado de los indicadores anteriores con el grado de satisfacción general (SATISF_GEN) que hay para cada uno de estos segmentos de edad. ¿A qué conclusiones se llega? ¿Consideráis apropiada la elección de pesos? ¿Por qué? Nota: Podéis calcular con R-Commander la correlación lineal entre cada indicador sintético obtenido en el apartado anterior y la media de SATISF_GEN por grupos de edad definiendo dos variables con sus respectivos valores y ejecutando la función cor para estas dos variab les: indic <- c( i1, i2, i3, i4) satisf <- c(s1, s2 , s3, s4) cor(indic,satisf) Solución: Con los resultados obtenidos para la variable SATISF_GEN, como la variable EDADR como factor, y los resultados de los indicadores anteriores se obtuvo la siguiente tabla: Indicador A Indicador B SATISF_GEN EDADR 1 6,47 6,60 6,96 2 7,01 7,10 7,31 3 6,99 7,12 7,44 4 7,21 7,32 7,47 Procedemos a calcular la correlación entre cada uno de los indicadores y la variable SATISF_GEN, que presentamos a continuación: Indicador Sistémico B EDADR 1 6,60 2 7,10 3 7,12 4 7,32 PEC5. ANÁLISIS MULTIVARIANTE(III) 9/9 Se observa que los resultados fueron iguales dando una correlación de un 85%. Por lo tanto, si es conveniente medir la satisfacción a través de las distintas franjas de edad. Dado que los dos resultados fueron iguales, es evidente que la distribución de los pesos en el indicador B no tuvo ningún efecto, podríamos afirmar que no fue la apropiada.
Compartir