Vista previa del material en texto
Pontificia Universidad Católica de Chile Facultad de Ciencias Económicas y Administrativas Análisis de Big Data: EAA361A Proyecto 2 En el portal web del curso se encuentra disponible el set de datos ’Auto.csv’ que tiene información sobre el rendimiento en millas por galón de diferentes modelos de automóviles de la década de los 70 y 80, teniendo en cuenta sus cilindros, desplazamiento, potencia, peso, año de aceleración y origen. El set de datos dispone de 397 diferentes modelos de veh́ıculos (392 con datos completos) y las siguientes variables mpg Millas por galón cylinders Número de cilindros displacement Desplazamiento horsepower Caballos de fuerza weight Peso del veh́ıculo (lbs.) acceleration Aceleración en segundos desde 0 a 60 mph year Año de modelo origin Origen del veh́ıculo (1. Americano, 2. Europeo, 3. Japones) name Modelo Para desarrollar el proyecto debe eliminar del set de datos todos los veh́ıculos donde ’horsepower’ es missing (eliminar filas). Utilizando R realice lo siguiente con el nuevo dataset: 1. [1.0 puntos] Haga una estad́ıstica descriptiva de las variables en estudio (excluyendo el modelo). Para las variables cuantitativas utilice medidas de localización, dispersión y forma, para las variables de agrupación (nominales y ordinales) utilice tablas de frecuencia y frecuencia relativa. Interprete el resultado para ’origin’. 2. [0.5 puntos] Construya gráficos adecuados para ’origin’, ’mpg’ y ’horsepower’. 3. [0.5 puntos] Construya la variable ’YearGroup’ a partir de la variable year, con rangos <= 72, 73 − 76, 77 − 79 y 80 − Más. Describa esta variable desde la perspectiva de una variable de agrupación. 4. [0.5 puntos] Construya la variable ’CylGroup’ a partir de la variable cylinders, con rangos <= 4, 5−6 y 7−Más. Describa esta variable desde la perspectiva de una variable de agrupación. 5. [0.5 puntos] Construya la variable ’RatioHW’ (RatioHW = horsepower/weight) y descŕıbala. 6. [0.5 puntos] Entregue una tabla donde indique la media, desviación estándar y número de casos para la variable ’mpg’, según ’origin’. Grafique un boxplot por ’origin’. Comente. 7. [0.5 puntos] Entregue una tabla donde indique la media, desviación estándar y número de casos para la variable ’RatioHW’, según ’origin’ (considere aquellos casos en que el ’RatioHW’ es menor 0 igual a 0.025). Comente. Análisis de Big Data EAA361A 1 8. [0.5 puntos] Realice una tabla de contingencia (frecuencia relativa) entre las variables ’origin’ y ’CylGroup’. Comente. 9. [0.5 puntos] Reporte la matriz de correlación entre las variables cuantitativas. Comente los resultados. 10. [1.0 puntos] Suponga que se desea realizar un modelo de regresión lineal considerando como variable respuesta mpg y como variables independientes horsepower, cylinders y origin, de la siguiente manera mpgi = β0+β1horsepoweri+β2horsepower 2 i+β3cylindersi+β4origini+εi, i = 1, . . . , 392 Utilizando las operaciones y funciones de matrices encuentre los estimadores de ḿınimos cuadra- dos ordinarios para los parámetros β0, β1, β2, β3 y β4. Recuerde que la variable origin es nominal y debe tener un tratamiento especial. Bonus: Recuerde que para un modelo de regresión lineal multiple Y = Xβ + ε, El estimados MCO está dado por β̂ = ( X′X )−1 X′Y, donde Y = (y1, . . . , yn) es el vector de respuesta, β = (β0, β1, . . . , βp) es el vector de parámetros p+ 1 dimensional y X es la matriz de diseño. X = 1 x11 · · · x1p 1 x21 · · · x2p ... ... . . . ... 1 xn1 · · · xnp Indicaciones: En el archivo ‘‘Lista Alumnos y grupos proyecto 2.pdf’’ se encuentran los participantes de ca- da grupo. Deben desarrollar un documento explicando y reportando los resultados, además debe enviar el script en R para poder replicar los resultados presentados en el informe. El documento más el script se debe enviar al correo de Pablo González (pagonzalez20@uc.cl), con asunto “Proyecto 2 Big Data”, indicando en el cuerpo y en el documento los integrantes del grupo. Cada alumno integrantes del grupo debe enviar la evaluación del resto de sus compañeros a Pablo González (pagonzalez20@uc.cl). Para esto debe enviar un correo con el asunto “coevaluación proyec- to 2 big data” y en el cuerpo del correo una tabla con la evaluación. Análisis de Big Data EAA361A 2 Si alguno de los integrantes del grupo no colabora en el desarrollo del trabajo, debe informar por el mismo medio a los profesores. Mucha Suerte !!!! Análisis de Big Data EAA361A 3