Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
78.581 Análisis Multivariante Curso 2022-23 / 2º semestre 1/8 Nombre y apellidos del estudiante Prueba de evaluación continua 5. ANÁLISIS MULTIVARIANTE(III) Criterios de evaluación Las preguntas y los problemas tienen que estar desarrollados y razonados. No se considerará correcta ninguna respuesta no argumentada. Cada pregunta vale 1/3 del total de puntos. Formato y fecha de entrega Las pruebas de evaluación continuada se tienen que entregar en el buzón específico de Entrega de actividades que se encuentra en el apartado Evaluación del aula en un único fichero en formato WORD o PDF. El último día para entregar esta actividad es el próximo 10 de junio de 2023. Enunciado A partir de los datos que hay en el fichero "Datos_Casopractico5", en cualquiera de sus formatos, en el que se basa el caso práctico de "El triángulo de las Bermudas", se pide que contestéis, de forma razonada, las siguientes cuestiones. El nivel de significación α que debe considerar en todos los contrastes es de 0,05. Pregunta 1: En el apartado 6 del caso práctico, "Fuerza de la marca", se explica que para analizar este factor (marca) se pone en relación con la política de precios del centro comercial, y se pide a los clientes de Barcelona Glòries que respondan a un cuestionario en el que deben valorar, del 1 (valoración alta) al 12 (valoración baja), las siguientes tarjetas: Marca Precio Tarjeta Glòries Diagonal Mar Maquinista Precios = > 5% >10% >15% CONJ1 X X CONJ2 X X CONJ3 X X CONJ4 X X CONJ5 X X CONJ6 X X CONJ7 X X CONJ8 X X CONJ9 X X CONJ10 X X CONJ11 X X CONJ12 X X Los resultados obtenidos por cada tarjeta (CONJ) se pueden ver en las columnas correspondientes de la Base de Datos. De estos resultados y del análisis que hizo el gerente, se observaba que el precio era dos veces más importante que la marca, a la hora de escoger el centro donde ir a comprar. ¿Esto continuaría siendo así por los clientes de fuera del barrio, donde ya hemos visto que la localización del centro es un elemento clave? Para responder a esta pregunta se pide: PEC5. ANÁLISIS MULTIVARIANTE(III) 2/8 1.1. A partir de la base de datos “Datos_Casopractico5”, en cualquiera de sus formatos, cread una nueva tabla de datos de nombre FueraBarrio recogiendo las observaciones de los que usan el parking (P14_M23R==”1”). 1.2. Para los clientes de fuera del barrio, en primer lugar, calculad la valoración media de cada tarjeta. Para hacer esto, debéis calcular la media de cada columna CONJ y después restar esta media a 12. De esta manera podremos interpretar mejor los resultados: valoraciones altas, medias altas. ¿Cuál es la tarjeta mejor valorada? ¿Y la menos valorada? ¿Podemos sacar alguna conclusión inicial? Solución: A partir de los resultados anteriores, restamos a 12 y mostramos los datos ordenados de mayor a menor CONJ2 10,430657 CONJ3 8,678832 CONJ5 8,262774 CONJ1 8,153285 CONJ6 6,467153 CONJ4 5,868613 CONJ8 5,744526 CONJ9 3,875912 CONJ7 3,605839 CONJ11 3,576642 CONJ12 0,956204 CONJ10 0,379562 Se observa que la tarjeta más valorada es CONJ2 ("Diagonal Mar" y "Precios ="). Le siguen las tarjetas CONJ3 ("Maquinista" y "Precios ="), CONJ5 ("Diagonal Mar" y "Precios> 5%"). Y CONJ1 ("Glorias" y "Precios =") Excepto en un caso, al parecer los clientes valoran más el hecho de que los precio no se modifiquen. Teniendo predicción por precio sobre marca. Para reforzar esta idea, nos podemos fijar con las tres menos valoradas: CONJ11, CONJ12 y CONJ10. En estos casos la tarjeta tenía "Precios> 15%". 1.3. La base de datos Conjoint.xlsx contiene 12 filas (una para cada tarjeta CONJ1 – CONJ12) y 8 variables: la primera con las valoraciones (en positivo) calculadas en el apartado anterior y las 7 restantes corresponden a las tres columnas de los atributos de “Marca”, y a las cuatro columnas de los atributos de “Precio” (por ejemplo, y de acuerdo con el cuadro anterior, la última columna tiene primero 9 ceros y 3 unos al final). PEC5. ANÁLISIS MULTIVARIANTE(III) 3/8 A partir de la información de esta base de datos, realizad un análisis de medidas conjuntas. ¿A qué conclusiones se llega? ¿Coinciden con las del caso práctico, en que se consideraba toda la muestra? Razonad las respuestas. Solución: El Programa ha eliminado de forma automática la columna correspondiente a "La Maquinista" y la columna "> 15%", para eliminar los problemas de multicolinealidad. En primer lugar, podemos observar que el modelo de regresión parece correcto: todas las variables son significativas a la hora de explicar la valoración (valores- p más pequeños que 0,05). El modelo es significativo en su conjunto (el valor-p asociado al estadístico F es menor que 0,05), y el R2 es casi 1. Con los resultados anteriores construimos es siguiente cuadro: Factores niveles utilidad Importancia Importancia relativa Marca Glories -0,4927 2,5018 13,94% Diagonal Mar 2,0091 Maquinista 0,0000 Precios Precios Iguales 7,4501 15,4501 86,06% Precios Sup 5 5,2287 Precios Sup 10 2,7713 Precios Sup 15 0,0000 El cuadro anterior ratifica lo observado en el apartado anterior: Donde los precios son más importantes que la marca. Al hacer las valoraciones, los precios tenían una importancia relativa del 86,06%, mientras que la marca sólo del 13,94%. Nuestros clientes de fuera del barrio pueden desplazarse motivados por el precio de los artículos. PEC5. ANÁLISIS MULTIVARIANTE(III) 4/8 Pregunta 2: En PECs anteriores, hemos comparado los diferentes centros comerciales que configuran el "Triángulo de las Bermudas" a partir de las valoraciones sobre diferentes atributos de estos centros. Ahora los queremos comparar a partir de la opinión directa de los clientes, a partir de las respuestas a la pregunta 47 del cuestionario del caso práctico, y que podemos ver al inicio del apartado 5, "Imagen y posicionamiento del centro comercial" . A diferencia del caso práctico, sin embargo, queremos hacer el análisis sólo para aquellos clientes que son de fuera del barrio, ya que son, posiblemente, los mejores candidatos a "cambiar" de centro comercial. Para hacer esta comparación se pide: 2.1 Realizad un Análisis de Escalas Multidimensionales Métricas, a partir de la información de las variables SIM1, SIM2 y SIM3 de la base de datos, para los clientes de fuera del barrio que habéis creado en la pregunta 1. Haced (a mano) la representación gráfica correspondiente, indicando los valores de los centros de las circunferencias. Nota: Recordad que primero debéis calcular la tab la agregada con las medias de las respuestas. Seguid los pasos que se detallan en el material didáctico, concretamente en la segunda parte del apartado 2. Solución: Con estos resultados construimos la siguiente tabla: Glories Diagonal Mar Maquinista Glories - 2,500000 2,529915 Diagonal Mar 2,500000 - 2,321101 Maquinista 2,529915 2,321101 - Tenemos que encontrar tres puntos X= (x1, x2); Y= (y1, y2) y Z= (z1, z2); donde X, Y e Z corresponden a Glories Diagonal Mar y Maquinista respectivamente. Además, deben satisfacer las siguientes ecuaciones (x1 – y1)2 + (x2 – y2)2 = (2,500000)2 (x1 – z1)2 + (x2 – z2)2 = (2,529915)2 (y1 – z1)2 + (y2 – z2)2 = (2,321101)2 Sin perdida de generalidad un de los centros comerciales se sitúa en el origen del eje de coordenadas. Por conveniencia elegimos a Diagonal Mar, Y = (0, 0). Por tanto, las condiciones quedan escritas de la forma siguiente: (x1 – 0)2 + (x2 – 0)2 = (2,500000)2 (x1 – z1)2 + (x2 – z2)2 = (2,529915)2 (0 – z1)2 + (0 – z2)2 = (2,321101)2 (ec1) PEC5. ANÁLISIS MULTIVARIANTE(III) 5/8 A partir de la primera y tercera ecuación podemos ver, que Glories y Maquinista sesituarán en algún punto encima de una circunferencia de centro 2,5 y de radio 2,321101 respectivamente. Sin pérdida de generalidad, situamos en el punto X = (0; 2,500000) para Glories. Ahora solo nos queda situal el centro Maquinista, a partir de la siguiente ecuación: (0 – z1)2 + (2,50000 – z2)2 = (2,529915)2 (ec2) Por tanto, el centro Maquinista se encontrará situado en la intersección de una circunferencia de centro el origen y radio 2,321101, y una circunferencia de origen (0; 2,500000) y de radio 2,529915. Gráficamente De esta forma tenemos que el punto de intersección de las circunferencias es (2,089181; 0,667975). Así, tenemos los siguientes puntos para los centros comerciales: ● Glòries: (0; 2,5) ● Diagonal Mar: (0; 0) ● La Maquinista: (2,071339 ; 1,04740) 2.2. Interpretad los resultados obtenidos en el apartado anterior. ¿A qué conclusiones llegáis? Se observa que hay distancias muy similares entre los tres centros comerciales. Por lo tanto, no sólo configuran el triángulo de las Bermudas desde el punto de vista geográfico, sino que también desde el punto de vista de sus semejanzas. Para los clientes de fuera del barrio visualizan los tres centros comerciales como equidistantes. PEC5. ANÁLISIS MULTIVARIANTE(III) 6/8 Pregunta 3: Finalmente, el gerente tenía dudas sobre si la variable SATISF_GEN, "Grado de satisfacción general", que había considerado en la mayoría de los análisis que había realizado, recogía muy bien la información más detallada que se podía extraer de las valoraciones sobre atributos concretos (variables de P34_1 a P34_17). Por ejemplo, ya habíamos comprobado en el análisis de regresión múltiple que no todas las variables independientes estaban relacionadas con la satisfacción general. Para aclarar estas dudas, quería trabajarlo a partir de una variable que siempre había considerado importante, como era la edad de los clientes, y que ya habíamos analizado en las primeras PECs del curso. Para ayudarle, se pide: 3.1. Trabajando con todas las observaciones de la base de datos “Datos_Casopractico5”, en cualquiera de sus formatos, para cada uno de los 4 grupos de edad que determina la variable EDADR: EDADR = 1 de 18 a 30 EDADR = 2 de 31 a 45 EDADR = 3 de 46 a 55 EDADR = 4 de 56 a 75 Se pide calcular un indicador sintético a partir de las 17 variables de P34_1 a P34_17, en que el peso de cada variable sea 1, es decir, el mismo. A la hora de construir este indicador, ¿es necesario normalizar? ¿Por qué? Nota: Tened en cuenta que el valor de cada variab le para cada franja de edad es la media del valor de las respuestas correspondientes. Previamente debéis convertir a factor la variab le EDADR (Datos > Modifica variables de la tabla de datos activa > Convertir variables numéricas en factores ) para poder obtener la media para “Resumen por grupos”. Esta media es el valor que debéis considerar en cada una de las celdas de la siguiente matriz y que podéis tratar con Excel para obtener el indicador sintético. P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 2 3 4 Solución PEC5. ANÁLISIS MULTIVARIANTE(III) 7/8 Medias en formato Excel P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 4,7 5,1 6,1 6,5 7,4 6,2 5,2 6,4 6,5 7,4 6,5 6,1 6,3 5,9 6,4 6,1 6,1 2 6,4 6,3 6,9 7,0 7,5 6,8 5,6 7,1 7,2 7,7 7,2 6,1 6,7 6,8 7,0 6,2 6,5 3 6,5 6,5 7,1 7,0 8,3 6,7 5,5 7,6 7,8 8,0 7,2 6,1 7,1 7,0 7,2 6,1 6,6 4 6,7 6,6 7,2 7,1 8,2 7,1 6,9 7,4 7,7 8,4 7,4 7,1 7,3 7,7 7,3 7,3 7,3 Indicadores para cada valor de media P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 0,3 0,3 0,4 0,4 0,4 0,4 0,3 0,4 0,4 0,4 0,4 0,4 0,4 0,3 0,4 0,4 0,4 2 0,4 0,4 0,4 0,4 0,4 0,4 0,3 0,4 0,4 0,5 0,4 0,4 0,4 0,4 0,4 0,4 0,4 3 0,4 0,4 0,4 0,4 0,5 0,4 0,3 0,4 0,5 0,5 0,4 0,4 0,4 0,4 0,4 0,4 0,4 4 0,4 0,4 0,4 0,4 0,5 0,4 0,4 0,4 0,5 0,5 0,4 0,4 0,4 0,5 0,4 0,4 0,4 Indicador I EDADR 1 6,17 2 6,77 3 6,96 4 7,34 Para cálculo de los indicadores sistémicos, no fue necesario normalizar, dado que todas las variables están representadas con las mismas unidades. El factor 4, de edades de 56 a 75 años tiene el indicador más alto, 7,34. Por lo tanto, podríamos decir que los individuos pertenecientes a este renglón valoran mejor el centro comercial. 3.2. Repetid la construcción del indicador sintético a partir de las 17 variables de P34_1 a P34_17, pero ahora los pesos de cada variable son los de la tabla siguiente: P34_1 P34_2 P34_3 P34_4 P34_5 P34_6 P34_7 P34_8 P34_9 P34_10 P34_11 P34_12 P34_13 P34_14 P34_15 P34_16 P34_17 0.8 0.8 0.8 1.375 1.725 1 0.8 0.8 1 1.375 0.8 0.8 0.8 0.8 1.725 0.8 0.8 Indicadores para cada valor de media P34_# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 EDADR 1 0,2 0,2 0,3 0,5 0,7 0,4 0,2 0,3 0,4 0,6 0,3 0,3 0,3 0,3 0,6 0,3 0,3 2 0,3 0,3 0,3 0,6 0,8 0,4 0,3 0,3 0,4 0,6 0,3 0,3 0,3 0,3 0,7 0,3 0,3 3 0,3 0,3 0,3 0,6 0,8 0,4 0,3 0,4 0,5 0,6 0,3 0,3 0,3 0,3 0,7 0,3 0,3 4 0,3 0,3 0,3 0,6 0,8 0,4 0,3 0,3 0,5 0,7 0,3 0,3 0,3 0,4 0,7 0,3 0,3 PEC5. ANÁLISIS MULTIVARIANTE(III) 8/8 Indicador 2 1 6,30 2 6,87 3 7,09 4 7,41 A pesar de haber cambiado el peso de las variables, el orden de los factores no fue alterado y nuevamente el factor 4 tiene el indicador más alto de la tabla. 3.3. A partir de un análisis de correlaciones, comparad el resultado de los indicadores anteriores con el grado de satisfacción general (SATISF_GEN) que hay para cada uno de estos segmentos de edad. ¿A qué conclusiones se llega? ¿Consideráis apropiada la elección de pesos? ¿Por qué? Nota: Podéis calcular con R-Commander la correlación lineal entre cada indicador sintético obtenido en el apartado anterior y la media de SATISF_GEN por grupos de edad definiendo dos variables con sus respectivos valores y ejecutando la función cor para estas dos variab les: indic <- c( i1, i2, i3, i4) satisf <- c(s1, s2 , s3, s4) cor(indic,satisf) Solución: Con los resultados obtenidos para la variable SATISF_GEN, como la variable EDADR como factor, y los resultados de los indicadores anteriores se obtuvo la siguiente tabla: Indicador 1 Indicador 2 SATISF_GEN EDADR 1 6,17 6,30 6,92 2 6,77 6,87 7,10 3 6,96 7,09 7,40 4 7,34 7,41 7,77 Calculamos la correlación de las dos primeras columnas de datos de la tabla con la tercera: Se observa una correlación muy alta entre las variables, (0,945 y 0,9444), lo que nos indica que podemos considerar equivalentes las dos formas de medir la satisfacción con el centro comercial, cuando estamos analizando franjas de edad. La elección de pesos del apartado 3.2 no ha sido acertada puesto que los pesos del apartado 3.1 dan como resultados indicadores con mayor correlación.
Compartir