Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Introducción Análisis de regresión lineal múltiple: Este análisis nos otorga un modelo de regresión que nos permite predecir una variable de salida, respecto a las variables de entrada que escojamos por parte de nuestra base de datos que creemos que serán las más representativas. Antes de poder hacer lo anterior tuvimos que realizar una limpieza a nuestra base de datos de AIRBNB, ya que con fines de obtener resultados más acertados y específicos trabajamos únicamente con ciertas variables y descartamos o ignoraremos las variables que no generarán impacto a nuestra variable de respuesta. En otras palabras, no aportan información relevante al estudio. De igual manera, imputaremos por diferentes métodos los datos faltantes. Al ser regresión lineal múltiple nuestras variables tendrán que ser numéricas, por lo que para ‘Wifi’, ‘TV’, ‘parking’, kitchen, Dining room, living room y washer utilizamos una notación binaria. Dónde 0 significa que no cuenta con alguno de los anteriores y 1 que sí. Con esto en cuenta, se busca saber el precio en el que se podrá rentar un departamento en la colonia Roma con las siguientes cualidades: 65 m2 construidos, 2 recámaras con camas matrimoniales, un baño, sala, comedor, cocina y área de lavado. Además, cuenta con servicio Wifi y una televisión, pero no tiene estacionamiento. Después de haber encontrado el modelo de regresión que nos describa el precio para rentar un departamento, debemos de determinar con qué se debe de equipar el departamento para aumentar la renta en un 15%. Nos basaremos en la correlación determinada para definir si podemos confiar o no en este modelo para realizar predicciones útiles. Selección de modelo Una vez que se limpiaron todos los datos, se utilizó un filtro para solamente utilizar datos de los departamentos que se encuentran en la delegación Cuauhtémoc, misma donde se encuentra la colonia Roma. Con esto realizamos las siguientes regresiones: Ecuación S R^2 P 2011.39 17.81% 0.000 2012.55 48.55% 0.000 6.72395 91.23% 0.000 6.72384 91.23% 0.000 6.73126 91.22% 0.000 Durante estas regresiones podemos observar cómo transformamos la regresión para poder mejorar el coeficiente de correlación, para de esta forma hacer el modelo más confiable. tomamos como variable de respuesta la variable “price” ya que dentro de ella es en la que queremos ver reflejados resultados, En nuestra primera regresión simplemente consideramos las variables “Bathrooms”, “bedrooms”, “beds”,”washer”, “living room” , “Dining room”, “kitchen”, “Parking”, “TV” y “Wifi”. Todo esto con una intersección en el modelo. Observamos una relación débil. Por lo tanto concluimos que este modelo no es confiable y continuamos transformándolo. Para nuestra segunda regresión eliminamos dicha intersección (condición inicial) con la finalidad de mejorar la correlación. Para la tercera regresión utilizamos la transformación de Box-Cox para poder elevar el valor de la R^2. Durante la cuarta regresión eliminamos la variable de “Living room” por tener un valor P de 0.851, es decir, mayor a lo esperado (0.05).Esto simplemente demuestra que esta variable no produce impacto alguno con la variable de salida, por lo cuál no será necesaria. Para nuestra quinta regresión se eliminó la variable de “beds” ya que contaba con un valor P de 0.089. Es decir, ya no entraba en la zona de rechazo. Además dicha variable era colineal, esto lo sabemos porque su VIF es de 11.83. Durante esta regresión podemos observar un mejor coeficiente de correlación, lo que implica que ahora podemos confiar en este modelo para hacer predicciones sobre el precio. El modelo que utilizará para realizar las predicciones y recomendaciones será el último, esto debido a que cuenta con una r^2 casi idéntica a la de nuestro cuarto modelo, pero no hay variable alguna que sea colineal o que tenga un valor P mayor a 0.05, por lo que todas las variables aportan a nuestra variable de salida. Validación del modelo Para saber si nuestro modelo es el correcto se debe realizar la prueba de normalidad de residuales. En dicha prueba nosotros buscamos saber si los residuales se comportan de forma normal o no. Para la prueba de normalidad de residuales tenemos las siguientes hipótesis. Los residuales se comportan de forma normal𝐻 0 : Los residuales no se comportan de forma normal𝐻 𝑎 : Figura 1: Gráfica de probabilidad de los residuales El valor-p es menor a 0.05 por lo que entra la región de rechazo, gracias a esto podemos rechazar la hipótesis nula y por lo tanto los residuales no siguen una distribución normal. Esto considerando que ya se realizó la transformación de Box-cox, la cual nos ayuda a que los residuos se comporten de forma normal. Nuestra segunda prueba busca que las que los residuales sean independientes, por lo que debemos de buscar que estos no sigan patrón cónico alguno en la gráfica de residuales-orden ni encontrar una tendencia en la gráfica de residuales-valor ajustado. Figura 2: Gráfica residuales vs valor ajustado Figura 3: gráfica residuales-orden En ninguna de las gráficas se encontraron patrones cónicos o alguna tendencia por lo que esta prueba es superada. La tercera prueba nos dice que en los residuales estandarizados no debe de haber datos atípicos. Consideramos a un dato atípico a cualquier valor absoluto que sea mayor a 1.96. Para estos casos podemos tener un 5% de tolerancia en cuanto a datos atípicos.Llevamos la columna de datos atípicos a Excel y contabilizamos la cantidad de datos que entran en esta categoría. Se contaron 128 datos atípicos, los cuales representan aproximadamente el 3% de los datos totales. Esta prueba es superada ya que no se cuenta con un alto porcentaje de datos atípicos. Predicción y optimización Para modelar el precio de la renta de un departamento con 2 recámaras con camas matrimoniales, un baño, sala, comedor, cocina y área de lavado. Además de contar con servicio Wifi y una televisión, pero no tiene estacionamiento. Se utiliza la ecuación de nuestra regresión que es la siguiente Al momento de realizar la predicción, introducimos los siguientes valores para las variables Con esto se realiza la predicción la cuál nos dice que un departamento con estas características se puede rentar por $2089.31 Para nuestro segundo punto, debemos de optimizar los valores de nuestras de tal forma que𝑥 𝑖 podamos rentar el departamento a un precio de 2402.7, el cuál es 15% mayor al que se predijo con anterioridad. Para este caso poder rentar el departamento nos dice que debemos de tener 34 recamaras y no importa con lo demás que contemos, lo cual lo hace imposible para hacer en un departamento de 65 m^2. Pero si no queremos agregar más cuartos, simplemente podemos limitar el número de cuartos al momento de hacer la optimización, con lo que obtenemos que ocuparemos 11 baños para poder rentar a ese precio. Esta al no ser una opción realista, podemos darle al baño la opción de tomar valores entre 1 y 2. Si hacemos esto obtenemos que el departamento se debe de equipar con lo siguiente para poder rentarlo en un precio de 2402.75. Para esto necesitamos un baño y medio, 2 cuartos , Wifi, estacionamiento, cocina, comedor y área de lavado. Conclusiones Este modelo si es de utilidad para hacer predicciones, debido a su alto valor de R^2 y que todas las variables son significativas, además de pasar con todas las verificaciones excepto una. Mientras que para las optimizaciones, este modelo por sí solo no nos ayuda a realizar optimizaciones útiles. Debido a que nos puede hacer recomendaciones que simplemente no son posibles de aplicar. Si nosotros limitamos los valores que pueden tomar cada una de las variables, para que sea más realista, el modelo si nos es de utilidad. Documentos anexos: (link a base de datos) https://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit? usp=sharing&ouid=106415941577593940005&rtpof=true&sd=true https://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit?usp=sharing&ouid=106415941577593940005&rtpof=true&sd=truehttps://docs.google.com/spreadsheets/d/1JkZDoaQoeHESBKTFZxc5w9WV51HCD4Iv/edit?usp=sharing&ouid=106415941577593940005&rtpof=true&sd=true Coevaluación Tabla de contribución Participante Contribución Mariano Limpieza de base de datos, regresiones en minitab, redacción del documento y predicciones. Andrés Interpretación de datos y validacion de metodos de analisis Julio Limpieza de base de datos, regresiones en minitab y redacción del documento Brenda Interpretación de las regresiones César Validación del modelo e interpretaciones. Paul Limpieza de base de datos y redacción del documento Tabla de Coevaluación Regla Penalización (sobre 100) Cesar Castro Mariano Paul Julio HeinzeBrenda Gonzalez Andres Lozano Dar el esfuerzo necesario para obtener una calificación de 100. A criterio de cada miembro del equipo. Revisión general de cada integrante. Penalización igual para todo el equipo Es obligatorio asistir a las reuniones y la tolerancia es de 15 minutos -1 punto cada 5 min. Tarde y -25 si no asiste a la reunión Empezar a trabajar las actividades de reto con al menos 2 días de anticipación. - 5 por cada día que no se cumple con la antelación anterior. Puntuación Máx. (100 pts) 100 100 100 100 100 100
Compartir