Logo Studenta
¡Estudia con miles de materiales!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Análisis de Big Data: EAA361A
Proyecto 2
En el portal web del curso se encuentra disponible el set de datos ’Auto.csv’ que tiene información
sobre el rendimiento en millas por galón de diferentes modelos de automóviles de la década de los 70 y
80, teniendo en cuenta sus cilindros, desplazamiento, potencia, peso, año de aceleración y origen.
El set de datos dispone de 397 diferentes modelos de veh́ıculos (392 con datos completos) y las siguientes
variables
mpg Millas por galón
cylinders Número de cilindros
displacement Desplazamiento
horsepower Caballos de fuerza
weight Peso del veh́ıculo (lbs.)
acceleration Aceleración en segundos desde 0 a 60 mph
year Año de modelo
origin Origen del veh́ıculo (1. Americano, 2. Europeo, 3. Japones)
name Modelo
Para desarrollar el proyecto debe eliminar del set de datos todos los veh́ıculos donde ’horsepower’ es
missing (eliminar filas). Utilizando R realice lo siguiente con el nuevo dataset:
1. [1.0 puntos] Haga una estad́ıstica descriptiva de las variables en estudio (excluyendo el modelo).
Para las variables cuantitativas utilice medidas de localización, dispersión y forma, para las variables
de agrupación (nominales y ordinales) utilice tablas de frecuencia y frecuencia relativa. Interprete
el resultado para ’origin’.
2. [0.5 puntos] Construya gráficos adecuados para ’origin’, ’mpg’ y ’horsepower’.
3. [0.5 puntos] Construya la variable ’YearGroup’ a partir de la variable year, con rangos <= 72,
73 − 76, 77 − 79 y 80 − Más. Describa esta variable desde la perspectiva de una variable de
agrupación.
4. [0.5 puntos] Construya la variable ’CylGroup’ a partir de la variable cylinders, con rangos
<= 4, 5−6 y 7−Más. Describa esta variable desde la perspectiva de una variable de agrupación.
5. [0.5 puntos] Construya la variable ’RatioHW’ (RatioHW = horsepower/weight) y descŕıbala.
6. [0.5 puntos] Entregue una tabla donde indique la media, desviación estándar y número de casos
para la variable ’mpg’, según ’origin’. Grafique un boxplot por ’origin’. Comente.
7. [0.5 puntos] Entregue una tabla donde indique la media, desviación estándar y número de casos
para la variable ’RatioHW’, según ’origin’ (considere aquellos casos en que el ’RatioHW’ es
menor 0 igual a 0.025). Comente.
Análisis de Big Data EAA361A 1
8. [0.5 puntos] Realice una tabla de contingencia (frecuencia relativa) entre las variables ’origin’
y ’CylGroup’. Comente.
9. [0.5 puntos] Reporte la matriz de correlación entre las variables cuantitativas. Comente los
resultados.
10. [1.0 puntos] Suponga que se desea realizar un modelo de regresión lineal considerando como
variable respuesta mpg y como variables independientes horsepower, cylinders y origin, de la
siguiente manera
mpgi = β0+β1horsepoweri+β2horsepower
2
i+β3cylindersi+β4origini+εi, i = 1, . . . , 392
Utilizando las operaciones y funciones de matrices encuentre los estimadores de ḿınimos cuadra-
dos ordinarios para los parámetros β0, β1, β2, β3 y β4. Recuerde que la variable origin es nominal
y debe tener un tratamiento especial.
Bonus: Recuerde que para un modelo de regresión lineal multiple
Y = Xβ + ε,
El estimados MCO está dado por
β̂ =
(
X′X
)−1
X′Y,
donde Y = (y1, . . . , yn) es el vector de respuesta, β = (β0, β1, . . . , βp) es el vector de parámetros
p+ 1 dimensional y X es la matriz de diseño.
X =

1 x11 · · · x1p
1 x21 · · · x2p
...
...
. . .
...
1 xn1 · · · xnp

Indicaciones:
En el archivo ‘‘Lista Alumnos y grupos proyecto 2.pdf’’ se encuentran los participantes de ca-
da grupo. Deben desarrollar un documento explicando y reportando los resultados, además debe enviar
el script en R para poder replicar los resultados presentados en el informe. El documento más el script
se debe enviar al correo de Pablo González (pagonzalez20@uc.cl), con asunto “Proyecto 2 Big Data”,
indicando en el cuerpo y en el documento los integrantes del grupo.
Cada alumno integrantes del grupo debe enviar la evaluación del resto de sus compañeros a Pablo
González (pagonzalez20@uc.cl). Para esto debe enviar un correo con el asunto “coevaluación proyec-
to 2 big data” y en el cuerpo del correo una tabla con la evaluación.
Análisis de Big Data EAA361A 2
Si alguno de los integrantes del grupo no colabora en el desarrollo del trabajo, debe informar por el
mismo medio a los profesores.
Mucha Suerte !!!!
Análisis de Big Data EAA361A 3

Más contenidos de este tema