Logo Studenta

Estadistica_AnalisisMultivariante1

¡Estudia con miles de materiales!

Vista previa del material en texto

Estudios de Economía y Empresa 
Métodos de Investigación Cuantitativos 
Curso 2022/23 – 1º semestre 
 
 1/9 
Nombre y apellidos 
 
PEC 2 - Prueba de evaluación continua 2. Análisis multivariante (I) 
 
Presentación, objetivos y competencias 
 
Presentación de la prueba 
 
A partir del trabajo realizado en la primera PEC ya conocemos un poco mejor el comportamiento de una de las 
variables más relevantes a la hora de analizar el modelo de negocio de Airbnb: el precio. Asimismo, también 
tenemos indicios de cuál es su relación con el tipo de piso (medido a partir del número de camas) y con otro de 
los conceptos relevantes que explican el éxito de la plataforma: la credibilidad. 
 
Ahora, en esta segunda PEC nos proponemos ir un poco más allá, y mirar de medir de forma cuantitativa y más 
concreta la interacción del precio con estas y otras variables de la Base de Datos (correlación lineal). 
También nos centraremos en el uso de diferentes técnicas multivariantes para analizar posibles relaciones de 
dependencia (causalidad) entre ellas (regresión lineal). 
 
En esta PEC se proponen un total de 4 ejercicios. Para responder a los tres primeros habéis de utilizar el fichero 
de datos “MIC_PEC2_20221.xlsx”, mientras que para responder al cuarto ejercicio habéis de utilizar e l fichero 
de datos “MIC_PEC2_20221 TimeSeries.xlsx”. 
 
Objetivos 
 
Los principales objetivos asociados a esta PEC son: 
 
1. Facilitar al estudiante un mapa de los diversos métodos estadísticos multivariantes que hay y que son 
susceptibles de ser utilizados en el ámbito de la economía y la empresa. 
2. Analizar y conocer las principales características de las relaciones de dependencia e interdependenc ia 
entre variables. 
3. Identificar qué técnicas son las más apropiadas para analizar datos de serie temporal. 
4. Saber estimar un modelo de regresión, simple o múltiple para, a posteriori, interpretar estadísticamente 
los resultados obtenidos. 
5. Saber valorar si puede haber o no relación entre dos o más variables a partir del coeficiente de 
correlación. 
 
Competencias 
 
Las competencias transversales que se trabajan en esta PEC son: 
 
1. Capacidad para el uso de las TIC de forma avanzada. 
2. Capacidad para el aprendizaje y la actualización permanentes. 
3. Capacidad para adoptar y promover actitudes y comportamientos en consonancia con una práctica 
profesional ética y responsable. 
4. Capacidad para utilizar metodologías avanzadas, tanto cuantitativas como cualitativas, en el ámbito del 
análisis económico aplicado. 
5. Capacidad para extraer conocimiento relevante que sea útil para la definición de estrategias 
empresariales en un contexto globalizado. 
 
Criterios de evaluación 
 
Las preguntas 1 y 4 tienen un valor del 20%, mientras que las preguntes 2 y 3 tienen un valor del 30% respecto 
de la calificación total. 
PEC2. Análisis Multivariante (I) 
 2/9 
 
Fecha de entrega 
 
Las pruebas de evaluación continua deben entregarse en el espacio específico de Registro de EC del 
apartado "Evaluación" que hay en el aula. El último día para hacer la entrega de esta actividad es el día 
04/12/2022. 
 
Enunciado 
 
Para entender un poco mejor el comportamiento de la variable precio, que en la base de datos tiene el 
nombre de "price", se propone responder a las siguientes preguntas: 
 
Pregunta 1. 
 
En la primera PEC hemos visto que el precio de los pisos variaba según el tipo de piso, medido a partir 
del número de camas. Pero, además del número de camas, hay otras características que pueden 
determinar la tipología del piso. En esta pregunta queremos analizar si, además del número de camas, 
hay otras características de los pisos que estén también relacionadas con su precio. 
 
Con este objetivo se pide lo siguiente: 
 
1.1 Para completar el análisis de la PEC1 sobre la relación entre el precio y el número de camas, se 
pide calcular la correlación entre las variables "price" y "beds". ¿A qué conclusión se llega? ¿Es la 
misma que la que se obtuvo en la primera PEC? Razonad la respuesta. 
 
NOTA: Seleccionad los pisos con menos de 7 camas (esto es: beds<7), y con precios 
estrictamente inferiores a $350 (esto es: price<350). Seguid las explicaciones y los pasos 
detallados en la ficha "Correlación lineal" de los materiales. En la opción: 
 
Estadísticos -> Resúmenes -> Matriz de correlaciones 
 
se ha de seleccionar la variable "price", y después la variable “beds”, manteniendo pulsada la tecla 
Ctrl del teclado. Recordad que habéis de marcar la opción “Valores p dos a dos”. 
 
 
SOLUCION 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PEC2. Análisis Multivariante (I) 
 3/9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
La correlación entre Price y beds, en primer lugar, es significativa dado que el valor de p < 0,05. Si observamos 
el coeficiente de correlación tenemos que es r = 0,5363 dando lugar a una correlación positiva moderada dado 
que el r esta en el intervalo 0,4 < r < 0,6, es decir que mientras aumente la variable beds, la variable Price aumenta 
también. 
 
1.2 Se pide realizar un análisis de correlación lineal entre la variable "price", y las siguientes variables : 
 
 “accommodates”: número de personas que se pueden acomodar 
 “bathrooms”: número de baños 
 “bedrooms”: número de dormitorios 
 
¿Hay relación entre la variable "price" y estas variables? ¿Es significaba? ¿Es positiva o negativa? 
De las 4 características analizadas entre el apartado 1.1 y este, ¿cuál es la que tiene una relación 
más fuerte? Razonad la respuesta 
 
NOTA: Seguid las explicaciones y los pasos detallados en la ficha "Correlación lineal" de los 
materiales. En la opción: 
 
Estadísticos -> Resúmenes -> Matriz de correlaciones 
 
se ha de seleccionar la variable "price", y después las 3 variables, manteniendo pulsada la tecla Ctrl 
del teclado. Recordad que habéis de marcar la opción “Valores p dos a dos”. 
 
 
 
SOLUCION 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PEC2. Análisis Multivariante (I) 
 4/9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Nuevamente tenemos que los valores de r para las distintas variables son significatives dado que p < 0,005 
para todos los r. Se observa que entre las variables accommodates y price el r = 0,6297 dando lugar a una 
correlacion positiva alta. Para el par formado por price y bedrooms el r = 0,4614 indicando una correlacion 
positiva moderada y por último el par formado por price y bathrooms tienen un r = 0,2016 indicando una 
correlación positiva baja. 
 
Pregunta 2. 
 
En la pregunta anterior hemos visto que efectivamente había una relación (correlación positiva 
significativa) entre el precio y el número de personas que se pueden hospedar en el piso 
(“accommodates”). Ahora queremos ver si realmente si la variable “accommodates”, por sí sólo, puede 
explicar la variabilidad del precio. Para hacer esto, se pide realizar un análisis de regresión lineal simple 
entre la variable "price" (que será la variable dependiente o explicada) y la variable “accommodates” 
(que será la variable independiente o explicativa). 
 
Responded a las siguientes preguntas. Utilizad el conjunto de datos completo: 
 
2.1. ¿Cuál es el resultado de esta regresión? Considerando un nivel de significación de 0,05, ¿sigue 
siendo significativa la influencia del número de personas que se pueden hospedar en el piso 
(“accommodates”)? Razonad la respuesta. 
 
NOTA: Seguid las explicaciones y los pasos detallados en la f icha "Regresión lineal simple". En la 
opción: 
 
Estadísticos -> Ajuste de modelos -> Regresión lineal... 
 
debéis seleccionar la variable "price" en el recuadro "Variable respuesta", y la variable “accommodates” 
en el recuadro "Variables explicativas". La significación de la influencia de la variable independiente la 
habéis de valorar a partir del valor-p (Pr (> / t /) obtenido en la estimación. 
 
 
 
 
 
 
 
 
PEC2. Análisis Multivariante (I)5/9 
 
SOLUCION 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Se observa que el modelo de regresión lineal simple es significativo con valores de p < 0,05, de esta forma se 
estaría explicando la variable Price = 28,4783*accommodates + 26,6834. De esta forma al subir en uno la variable 
accommodates la variable Price se incrementa en más de 28,4783 veces. 
 
 
2.2.¿Cuál es la bondad de ajuste (varianza explicada) del modelo de regresión? ¿Creéis que tendría 
sentido la inclusión de más variables independientes para tratar de explicar mejor la variabilidad del 
precio? Qué relación hay entre la bondad de ajuste del modelo y la correlación entre la variable 
dependiente e independiente (demuéstralo numéricamente)?. Razonad la respuesta. 
 
NOTA: Para valorar la bondad de ajuste, tenéis que fijaros en valor del (Multiple) R-squared obtenido 
de la estimación del modelo del apartado anterior. 
 
 
 
SOLUCION 
 
La varianza explicada por el modelo o bondad de ajuste es de un 39,66%, con este valor de ajuste si tiene 
sentido anexar otras variables para incrementar el porcentaje de variabilidad explicada por el modelo y en 
consecuencia explicar mejor la variable precio. 
La relación entre la bondad de ajuste y la correlación en un modele lineal simple es r = R2 → el valor de r de 
correlación entre las variables es 0,6297 y la bondad de ajuste es 0,3966. Nótese que (0,6297)2 = 0,3966. 
PEC2. Análisis Multivariante (I) 
 6/9 
La correlación explica la relación o variación entre dos variables, que justamente componen el modelo de 
regresión simple lineal donde la bondad de ajuste indica la variabilidad explicada por el modelo es decir la 
correlación. 
 
2.3. Según el modelo de regresión obtenido, ¿cuál es la estimación del precio que tendría un piso que 
puede hospedar 3 personas? ¿El valor obtenido es similar al precio medio de este tipo de piso calculado 
a partir de la base de datos? 
 
NOTA: Calculad el precio medio de los pisos que pueden hospedar 3 personas de acuerdo con las 
instrucciones del apartado 1.2 de la PEC 1. 
 
SOLUCION 
 
Como mencionamos antes nuestro modelo es Price = 28,4783*accommodates + 26,6834 de esta forma para 
tres personas tendríamos: Price = 28,4783*(3)+26,6834 = 112,1183 
Trabajando con la base de datos de donde se obtuvo el modelo tenemos: 
 
Se observa que el valor de la media es 112,3553 y es muy similar al calculado por el modelo lineal. 
 
Pregunta 3. 
 
En la pregunta anterior hemos intentado explicar la variabilidad del precio únicamente a partir del 
número de camas. Hemos visto que el ajuste del modelo de regresión no era muy bueno. Este resultado 
iba en la misma dirección que el obtenido en la primera pregunta, en que habíamos visto que la 
correlación entre las dos variables no era muy fuerte. De hecho, habíamos visto que otras variables 
tenían una correlación más elevada. En esta pregunta nos proponemos realizar la estimación de un 
modelo de regresión lineal múltiple para tratar de explicar mejor el precio. La variable dependiente del 
modelo continuará siendo la misma ("price"), pero ahora habrá 4 variables independientes o 
explicativas. Al número de camas añadiremos las 3 variables del apartado 1.2 de la primera pregunta: 
 
 Variable dependiente: “price” 
 Variables independientes: “beds”, “accommodates”, “bathrooms”, “bedrooms”. 
 
Responded a las siguientes preguntas. Utilizad el conjunto de datos completo: 
 
3.1. Haced el análisis de regresión lineal múltiple correspondiente a las variables dependiente e 
independientes descritas anteriormente. 
 
NOTA: Seguid las explicaciones y los pasos detallados en la ficha "Regresión lineal simple". En la 
opción: 
 
Estadísticos -> Ajuste de modelos -> Regresión lineal... 
 
debéis seleccionar la variable "price" en el recuadro "Variable respuesta", y las variables "beds", 
“accommodates”, “bathrooms”, “bedrooms” en el recuadro "Variables explicativas". Recordad que para 
marcar estas 4 variables debéis mantener pulsada la tecla Ctrl del teclado 
 
 
 
 
 
PEC2. Análisis Multivariante (I) 
 7/9 
 
SOLUCION 
 
 
3.2. A partir de los resultados obtenidos, ¿podemos afirmar que el modelo es significativo en su 
conjunto? ¿Hay alguna variable independiente que no pueda considerarse significativa a la hora de 
explicar la variabilidad del precio? Razonad la respuesta. 
 
NOTA: Considerad el valor-p del estadístico F y de los diferentes coeficientes de las variables 
independientes. 
 
Se observa que para el estadístico F el p < 0,05 por lo tanto el modelo es significativo, además esta misma 
situación se repite para todas las variables dando como resultado que sean todas significativas para el modelo. 
 
 
3.3. ¿El ajuste del modelo es mejor que el obtenido en la regresión simple de la pregunta anterior? ¿A 
qué conclusión podéis llegar? 
 
NOTA: Comparad el R2 del modelo de la pregunta 2 con el de esta pregunta 3. 
 
Aun siendo el modelo es significativo con la base de datos que hemos trabajado se observa que el R2 es 
notablemente bajo explicando solo un 9,64% de la variabilidad mientras que en el modelo de la sección anterior 
(modelo de regresión simple) se explicaba una variabilidad de 39,66%. 
En estas condiciones el mejor modelo para explicar la variable Price es el modelo de regresión lineal simple por tener 
una mejor bondad de ajuste hacia los datos. 
 
Pregunta 4. 
 
El fichero de datos “MIC_PEC2_20221 Time Series.xlsx” contiene información sobre el número de 
usuarios de Barcelona registrados en Airbnb para ofrecer su piso desde el año 2009. Con el fin de 
valorar la evolución a lo largo del tiempo de la oferta de pisos en Barcelona, se pide lo siguiente: 
 
4.1. Haced la representación gráfica de la serie temporal. A partir del gráfico, ¿cómo creéis que es 
la tendencia de la serie, positiva o negativa? 
 
NOTA: Para hacer la representación gráfica de la serie habéis de ir a: 
PEC2. Análisis Multivariante (I) 
 8/9 
 
Gráficos -> Gráfico de líneas 
 
 y entonces marcar como “variable x” la variable “year”, y como “variable y” la variable 
“host_since_aggregated”. 
 
 
SOLUCION 
 
 
La tendencia de la serie es positiva 
 
 
4.2. Calculad efectivamente la tendencia de la serie temporal. 
 
Para calcular la tendencia tenéis que: 
 
1) Crear una variable de nombre t1= year-2008 
 
Datos > Modificar variables del conjunto de datos activo > Calcular una nueva variable... 
 
Dar nombre a la nueva variable (t1) e introducir la expresión a calcular (year-2008) 
 
2) Hacer la regresión lineal de la variable tiempo (t1) sobre la serie temporal 
(host_since_aggregated) 
 
Estadísticos > Ajustes de modelos > Regresión lineal... 
 
2010 2012 2014 2016 2018 2020 2022
0
5
0
0
0
1
0
0
0
0
1
5
0
0
0
year
h
o
s
t_
s
in
c
e
_
a
g
g
re
g
a
te
d
PEC2. Análisis Multivariante (I) 
 9/9 
Seleccionar como variable explicada la serie temporal (host_since_aggregated) y como 
variable explicativa el tiempo (t1). 
3) El resultado de la regresión lineal os da la ecuación de la tendencia lineal de la serie. 
 
 
SOLUCION 
 
 
 
La ecuación de la tendencia lineal de la serie es host_since_aggregated = 1442,20*(t1) – 2410,46 ; este 
modelo resulto significativo y tiene una bondad de ajuste de un 99,22% 
 
4.3. Calculad las medias móviles (de anchura 3, y centradas) de la variable “host_since_aggregated” i 
mostrad los resultados. 
NOTA: Para solucionar este apartado, debéis de consultar el “Caso Práctico” de la ficha estadística 
“Series Temporales”. Después de calcular las media móviles, seleccionar “View data set” i copiad 
los resultados en una tabla. 
 
SOLUCION 
Se realizaron los cálculos para las medias móviles de la variable “host_since_aggregated” y se presentan en 
la siguiente tabla: 
 
host_since_ 
aggregated 
Medias móviles de 
host_since_aggregated 
30 #N/D 
290 #N/D 
1252 524 
2879 1473,667 
4592 2907,667 
5883 4451,333 
7686 6053,6679140 7569,667 
10805 9210,333 
12428 10791 
14302 12511,67 
15262 13997,33 
16218 15260,67 
16918 16132,67 
 
En la tabla puede observarse lo similar que son los valores de la variable y sus medias móviles centrales

Continuar navegando