Guía Ejercicios Examen

•

Outros

0

Apuntes Generales

31/5/2022

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Administración

600.832 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Primer Semestre 2020
Curso : Análisis de Big Data
Sigla : EAA361
Profesor : Cristian Vásquez
Gúıa Problemas Examen
1. El archivo uci.txt contiene información sobre 200 pacientes, incluidos en un estudio de sobrevivencia
luego de ser internados en la Unidad de Tratamiento Intensivo en diferentes recintos hospitalarios. El
objetivo de este problema es modelar la probabilidad de sobrevivencia de los pacientes al momento
de dejar el recinto en términos de un conjunto de variables explicativas. Las variables disponibles
corresponden a:
Descripción Nombre Codificación
Estado vital estado 0: Fallece
1: Sobrevive
Edad edad años
Sexo sexo 0: Masculino
1: Femenino
Cáncer es parte de problema cancer 0 : No
1: otra
Historia de insuficiencia renal renal 0 : No
1 : Si
Problema coronario previo coronario 0 : No
1 : Si
Presión sistólica en la admisión presion mmHg
Frecuencia card́ıaca a la admisión frecuencia latidos/min
Tipo de admisión tipo 0: Electivo
1:Emergencia
PO2 medición inicial de gases po2 0 :> 60
1 :≤ 60
Nivel de consciencia en la admisión conciencia 0: consciente
1: Estupor profundo
2: Coma
a) Ilustración a modo de ejemplo: Suponga que se desea ajustar el siguiente modelo de regresión
loǵıstica y ∼ edad + sexo. Utilizando la función glm() ajuste el modelo deseado, luego utilice la
función summary() para extraer los parámetros estimados y la información del ajuste:
EAA361 -Análisis de Big Data 1 Primer Semestre 2020
modelo = glm(estado ~ edad + sexo, data = uci, family = "binomial")
summary(modelo)
Call:
glm(formula = estado ~ edad + sexo, data = uci)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9466 0.0549 0.1858 0.2426 0.3258
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.018489 0.086402 11.788 < 2e-16 ***
edad -0.003784 0.001405 -2.692 0.00771 **
sexo -0.001996 0.057918 -0.034 0.97255
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1566051)
Null deviance: 32.000 on 199 degrees of freedom
Residual deviance: 30.851 on 197 degrees of freedom
AIC: 201.75
Number of Fisher Scoring iterations: 2
------------------------------------------------------------------
Aqúı hay varios objetos relevantes de la regresión loǵıstica: La tabla ’Coefficients’ dispone de
los parámetros estimados y las estad́ısticas para evaluar si el modelo es significativo:
La columna Estimate tiene los parámetros estimados β̂0, β̂1, . . . , β̂p. En el ejemplo:
β̂0 = 1.0185
β̂1 = −0.0038
β̂2 = −0.0020
La segunda columna ’Std. Error’ contiene la desviación estándar (estimada) de los estima-
dores. En nuestro ejemplo:
ŜD(β̂0) = 0.086402
ŜD(β̂1) = 0.001405
ŜD(β̂2) = 0.057918
La tercera columna ’t value’ y la cuarta columna ’Pr(>|t|)’ son para realizar el test de
hipótesis individual y evaluar los parámetros significativos:
Las hipótesis para todo j = 1, 2, . . . , p:
H0 : βj = 0 vs H1 : βj 6= 0
EAA361 -Análisis de Big Data 2 Primer Semestre 2020
Bajo H0 para cada j se tiene:
t-value =
β̂j
ŜD(β̂j)
Pr(>|t|) = Pr(Z > |t-value|), Z ∼ Normal(0,1)
= 2 (1− φ(|t-value|))
Una vez que se tiene el nivel de riesgo o significancia α, uno puede tomar decisiones con
el ’t-value’ o con ’Pr(>|t|)’. Si |t-value| > z1−α/2 existe evidencia estad́ıstica para
rechazar H0 (es significativo), por otro lado, si Pr(>|t|) ≤ α entonces existe evidencia para
rechazar H0 (es significativo). En el ejemplo:
t-value(β0) =
1.018489
0.086402
= 11.788 Pr(>|t|) < 2e− 16
t-value(β1) =
− 0.003784
0.001405
= −2.692 Pr(>|t|) = 0.001405
t-value(β2) =
− 0.001996
0.057918
= −0.034 Pr(>|t|) = 0.97255
Por temas de redondeo los valores son aproximados. Con esa información y con el nivel de riesgo
asumido (usualmente α = 0.05) se toman las decisiones sobre los parámetros.
b) Según estudios previos la probabilidad de sobrevivencia está relacionada con la edad del paciente,
el tipo de admisión, el nivel de consciencia al momento de la admisión al recinto hospitalario, la
presión, y si tiene algún historial de cáncer al momento de la hospitalización. Utilice la función
glm() de R para ajustar el modelo propuesto:
y ∼ conciencia + tipo + edad + cancer + presion
.
c) Reporte las estimaciones obtenidas en el punto anterior. Grafique la proporción estimada de
sobrevivencia sobre el log de las covariables involucradas.
d) Según el modelo escogido, ¿cuál es la probabilidad estimada de sobrevivencia de un paciente con
las siguientes caracteŕısticas: 30 años, cáncer involucrado en la hospitalización, presión sistólica
de 115 ”mmHg”, admisión de emergencia, y estado consciente?
2. Un estudio considera que existe relación entre el hecho de que un estudiante asista a clases de repaso
de lectura (śı = 1, no = 0), la nota que obtiene en un examen de lectura estándar (realizado antes de
iniciar las clases de repaso) y el sexo (hombre = 1, mujer = 0). Se quiere generar un modelo en el que
a partir de las variables puntuación del examen y sexo, prediga la probabilidad de que el estudiante
tenga que asistir a clases de repaso. Suponga que se ajusta el siguiente modelo de regresión loǵıstica
> modeloglm <- glm(clases_repaso ~ examen_lectura + sexo, data = datos, family = "binomial")
De ese ajuste se obtienen los siguientes resultados:
> summary(modeloglm)
Call:
EAA361 -Análisis de Big Data 3 Primer Semestre 2020
glm(formula = clases_repaso ~ examen_lectura + sexo, family = "binomial",
data = datos)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.2079 -0.8954 -0.7243 1.2592 2.0412
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -------- 0.78559 ------ 0.1319
examen_lectura -0.02617 0.01223 ------ ------ *
sexomujer -0.64749 ------- ------ 0.0462 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 234.67 on 188 degrees of freedom
Residual deviance: 224.64 on 186 degrees of freedom
AIC: 230.64
Number of Fisher Scoring iterations: 4
-----------------------------------------------------------
Con la misma información de la tabla complete la salida de R.
3. El fichero datosEjercicio2.csv contiene la información utilizada en el ejercicio 2, utilizando este set
de datos realice lo siguiente:
a) Genere una variable de agrupación llamada GrupoCR utilizando el campo examen_lectura con
los siguientes ĺımites [40,50], (50,60], (60,80] y (80,130]. Realice una tabla de frecuencia de
esta variable y un gráfico de barra.
b) Utilizando la función aggregate() determine la proporción de estudiantes que asisten a clase de
repaso de lectura.
c) Construya una tabla con los siguientes campos: La agrupación GrupoCR, el campo Frecuencia que
corresponde al número de datos por cada grupo, la variable Tasa que corresponde a la proporción
de estudiantes que asisten a clase de repaso de lectura y la variable Logit que corresponde al
logito de la variable Tasa.
d) Realice un gráfico entre GrupoCR y Logit, ¿Qué interpretación le da usted a la variable examen_lectura
en el contexto de una regresión loǵıstica para predecir si el estudiantes asiste a clase de repaso de
lectura?.
4. El dataset Credit de la libreŕıa ISLR es un conjunto de datos que contiene información sobre diez mil
clientes. Las variables:
EAA361 -Análisis de Big Data 4 Primer Semestre 2020
Variable Descripción
ID: identificación
Income: Ingresos en $10,000.
Limit: ĺımite de crédito
Rating: Calificación crediticia
Cards: número de tarjetas de crédito
Age: edad en años
Education: número de años de educación
Gender: un factor con niveles masculino y femenino
Student: un factor con niveles No y Śı que indica si el individuo era estudiante
Married: un factor con los niveles No y Śı que indica si la persona estaba casada
Ethnicity: un factor con niveles afroamericanos, asiáticos y caucásicos queindican la etnia del individuo
Balance: saldo promedio de la tarjeta de crédito en $.
Con el set de datos realice lo siguiente:
a) Considere la variable Balance como objetivo y ajuste los siguientes modelos de regresión lineal
múltiple:
Modelo 1 : Balancei = β0 + β1Agei + β2Limiti+i,
Modelo 2 : Balancei = β0 + β1Ratingi + β2Limiti+i,
donde εi
iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. ¿Cuál de los dos modelos prefiere usted?, Justifique su
respuesta.
b) Para el modelo 1 reporte los intervalos de confianza de los parámetros de la media al 95 %.
c) Suponga que desea incorportar en el modelo 1 la variable Student, es decir, desea realizar el
siguiente ajuste:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + εi, i
iid∼ N(0, 1),
¿Qué categoŕıa eligiŕıa como celda de referencia en la matriz de diseño?, justifique su respuesta.
d) Considere ahora el siguiente modelo:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + β5Ratingi + β6Educationi
+ β7Cards + εi,
donde εi
iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. Para la variable Student utilice como referencia la
categoŕıa Yes. Realice un gráfico de la matriz de correlación y determine el ı́ndice de inflación de
la varianza. ¿Qué variable descartaŕıa del modelo?, justifique su respuesta.
e) A partir del modelo propuesto en d), seleccione el mejor modelo utilizando regsubsets(). Justi-
fique la elección del mejor modelo.
f ) Se ajusta el siguiente modelo en R:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + εi,
Y mediante la función summary() se obtienen los siguientes resultados:
EAA361 -Análisis de Big Data 5 Primer Semestre 2020
Call:
lm(formula = Balance ~ Age + Limit + Student + Income, data = datacredit)
Residuals:
Min 1Q Median 3Q Max
-172.99 -79.46 -17.32 60.29 310.14
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.039e+02 2.070e+01 ------- ------- ***
Age --------- 3.078e-01 -1.719 0.0864 .
Limit 2.671e-01 3.711e-03 71.986 <2e-16 ***
StudentYes 4.259e+02 --------- 24.501 <2e-16 ***
Income --------- 2.457e-01 -31.891 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 104.2 on 395 degrees of freedom
Multiple R-squared: 0.9492, Adjusted R-squared: 0.9487
F-statistic: 1845 on 4 and 395 DF, p-value: < 2.2e-16
#################################################################
Con la misma información en la salida de R complete la tabla.
EAA361 -Análisis de Big Data 6 Primer Semestre 2020