Regresión Lineal múltiple

•

ITESM

A01704970

6/4/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Análisis Estadístico

10.089 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Introducción
Análisis de regresión lineal múltiple: Este análisis nos otorga un modelo de regresión que nos
permite predecir una variable de salida, respecto a las variables de entrada que escojamos por
parte de nuestra base de datos que creemos que serán las más representativas.
Antes de poder hacer lo anterior tuvimos que realizar una limpieza a nuestra base de datos de
AIRBNB, ya que con fines de obtener resultados más acertados y específicos trabajamos
únicamente con ciertas variables y descartamos o ignoraremos las variables que no generarán
impacto a nuestra variable de respuesta. En otras palabras, no aportan información relevante
al estudio. De igual manera, imputaremos por diferentes métodos los datos faltantes. Al ser
regresión lineal múltiple nuestras variables tendrán que ser numéricas, por lo que para ‘Wifi’,
‘TV’, ‘parking’, kitchen, Dining room, living room y washer utilizamos una notación binaria.
Dónde 0 significa que no cuenta con alguno de los anteriores y 1 que sí.
Con esto en cuenta, se busca saber el precio en el que se podrá rentar un departamento en la
colonia Roma con las siguientes cualidades: 65 m2 construidos, 2 recámaras con camas
matrimoniales, un baño, sala, comedor, cocina y área de lavado. Además, cuenta con servicio
Wifi y una televisión, pero no tiene estacionamiento.
Después de haber encontrado el modelo de regresión que nos describa el precio para rentar un
departamento, debemos de determinar con qué se debe de equipar el departamento para
aumentar la renta en un 15%.
Nos basaremos en la correlación determinada para definir si podemos confiar o no en este
modelo para realizar predicciones útiles.
Selección de modelo
Una vez que se limpiaron todos los datos, se utilizó un filtro para solamente utilizar datos de
los departamentos que se encuentran en la delegación Cuauhtémoc, misma donde se
encuentra la colonia Roma. Con esto realizamos las siguientes regresiones:
Ecuación S R^2 P
2011.39 17.81% 0.000
2012.55 48.55% 0.000
6.72395 91.23% 0.000
6.72384 91.23% 0.000
6.73126 91.22% 0.000
Durante estas regresiones podemos observar cómo transformamos la regresión para poder
mejorar el coeficiente de correlación, para de esta forma hacer el modelo más confiable.
tomamos como variable de respuesta la variable “price” ya que dentro de ella es en la que
queremos ver reflejados resultados,
En nuestra primera regresión simplemente consideramos las variables “Bathrooms”,
“bedrooms”, “beds”,”washer”, “living room” , “Dining room”, “kitchen”, “Parking”, “TV” y
“Wifi”. Todo esto con una intersección en el modelo. Observamos una relación débil. Por lo
tanto concluimos que este modelo no es confiable y continuamos transformándolo.
Para nuestra segunda regresión eliminamos dicha intersección (condición inicial) con la
finalidad de mejorar la correlación.
Para la tercera regresión utilizamos la transformación de Box-Cox para poder elevar el valor
de la R^2. Durante la cuarta regresión eliminamos la variable de “Living room” por tener un
valor P de 0.851, es decir, mayor a lo esperado (0.05).Esto simplemente demuestra que esta
variable no produce impacto alguno con la variable de salida, por lo cuál no será necesaria.
Para nuestra quinta regresión se eliminó la variable de “beds” ya que contaba con un valor P
de 0.089. Es decir, ya no entraba en la zona de rechazo. Además dicha variable era colineal,
esto lo sabemos porque su VIF es de 11.83.
Durante esta regresión podemos observar un mejor coeficiente de correlación, lo que implica
que ahora podemos confiar en este modelo para hacer predicciones sobre el precio.
El modelo que utilizará para realizar las predicciones y recomendaciones será el último, esto
debido a que cuenta con una r^2 casi idéntica a la de nuestro cuarto modelo, pero no hay
variable alguna que sea colineal o que tenga un valor P mayor a 0.05, por lo que todas las
variables aportan a nuestra variable de salida.
Validación del modelo
Para saber si nuestro modelo es el correcto se debe realizar la prueba de normalidad de
residuales. En dicha prueba nosotros buscamos saber si los residuales se comportan de forma
normal o no. Para la prueba de normalidad de residuales tenemos las siguientes hipótesis.
Los residuales se comportan de forma normal𝐻
0
:
Los residuales no se comportan de forma normal𝐻
𝑎
:
Figura 1: Gráfica de probabilidad de los residuales
El valor-p es menor a 0.05 por lo que entra la región de rechazo, gracias a esto podemos
rechazar la hipótesis nula y por lo tanto los residuales no siguen una distribución normal. Esto
considerando que ya se realizó la transformación de Box-cox, la cual nos ayuda a que los
residuos se comporten de forma normal.
Nuestra segunda prueba busca que las que los residuales sean independientes, por lo que
debemos de buscar que estos no sigan patrón cónico alguno en la gráfica de residuales-orden
ni encontrar una tendencia en la gráfica de residuales-valor ajustado.
Figura 2: Gráfica residuales vs valor ajustado
Figura 3: gráfica residuales-orden
En ninguna de las gráficas se encontraron patrones cónicos o alguna tendencia por lo que esta
prueba es superada.
La tercera prueba nos dice que en los residuales estandarizados no debe de haber datos
atípicos. Consideramos a un dato atípico a cualquier valor absoluto que sea mayor a 1.96.
Para estos casos podemos tener un 5% de tolerancia en cuanto a datos atípicos.Llevamos la
columna de datos atípicos a Excel y contabilizamos la cantidad de datos que entran en esta
categoría.
Se contaron 128 datos atípicos, los cuales representan aproximadamente el 3% de los datos
totales. Esta prueba es superada ya que no se cuenta con un alto porcentaje de datos atípicos.
Predicción y optimización
Para modelar el precio de la renta de un departamento con 2 recámaras con camas
matrimoniales, un baño, sala, comedor, cocina y área de lavado. Además de contar con
servicio Wifi y una televisión, pero no tiene estacionamiento. Se utiliza la ecuación de
nuestra regresión que es la siguiente
Al momento de realizar la predicción, introducimos los siguientes valores para las variables
Con esto se realiza la predicción la cuál nos dice que un departamento con estas
características se puede rentar por $2089.31
Para nuestro segundo punto, debemos de optimizar los valores de nuestras de tal forma que𝑥
𝑖
podamos rentar el departamento a un precio de 2402.7, el cuál es 15% mayor al que se
predijo con anterioridad.
Para este caso poder rentar el departamento nos dice que debemos de tener 34 recamaras y no
importa con lo demás que contemos, lo cual lo hace imposible para hacer en un departamento
de 65 m^2. Pero si no queremos agregar más cuartos, simplemente podemos limitar el
número de cuartos al momento de hacer la optimización, con lo que obtenemos que
ocuparemos 11 baños para poder rentar a ese precio.
Esta al no ser una opción realista, podemos darle al baño la opción de tomar valores entre 1 y
2. Si hacemos esto obtenemos que el departamento se debe de equipar con lo siguiente para
poder rentarlo en un precio de 2402.75. Para esto necesitamos un baño y medio, 2 cuartos ,
Wifi, estacionamiento, cocina, comedor y área de lavado.
Conclusiones
Este modelo si es de utilidad para hacer predicciones, debido a su alto valor de R^2 y que
todas las variables son significativas, además de pasar con todas las verificaciones excepto
una. Mientras que para las optimizaciones, este modelo por sí solo no nos ayuda a realizar
optimizaciones útiles. Debido a que nos puede hacer recomendaciones que simplemente no
son posibles de aplicar. Si nosotros limitamos los valores que pueden tomar cada una de las
variables, para que sea más realista, el modelo si nos es de utilidad.
Documentos anexos:
(link a base de datos)
https://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit?
usp=sharing&ouid=106415941577593940005&rtpof=true&sd=true
https://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit?usp=sharing&ouid=106415941577593940005&rtpof=true&sd=truehttps://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit?usp=sharing&ouid=106415941577593940005&rtpof=true&sd=true
Coevaluación
Tabla de contribución
Participante Contribución
Mariano Limpieza de base de datos, regresiones en minitab, redacción del
documento y predicciones.
Andrés Interpretación de datos y validacion de metodos de analisis
Julio Limpieza de base de datos, regresiones en minitab y redacción del
documento
Brenda Interpretación de las regresiones
César Validación del modelo e interpretaciones.
Paul Limpieza de base de datos y redacción del documento
Tabla de Coevaluación
Regla Penalización
(sobre 100)
Cesar
Castro
Mariano Paul Julio HeinzeBrenda
Gonzalez
Andres
Lozano
Dar el
esfuerzo
necesario para
obtener una
calificación de
100.
A criterio de
cada
miembro del
equipo.
Revisión
general de
cada
integrante.
Penalización
igual para
todo el
equipo
Es obligatorio
asistir a las
reuniones y la
tolerancia es
de 15 minutos
-1 punto cada
5 min. Tarde
y -25 si no
asiste a la
reunión
Empezar a
trabajar las
actividades de
reto con al
menos 2 días
de
anticipación.
- 5 por cada
día que no se
cumple con la
antelación
anterior.
Puntuación
Máx. (100
pts)
100 100 100 100 100 100

Regresión Lineal múltiple

ITESM

Análisis Estadístico

Continuar navegando

Otros materiales