Logo Studenta

Guía Ejercicios Examen

¡Estudia con miles de materiales!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Primer Semestre 2020
Curso : Análisis de Big Data
Sigla : EAA361
Profesor : Cristian Vásquez
Gúıa Problemas Examen
1. El archivo uci.txt contiene información sobre 200 pacientes, incluidos en un estudio de sobrevivencia
luego de ser internados en la Unidad de Tratamiento Intensivo en diferentes recintos hospitalarios. El
objetivo de este problema es modelar la probabilidad de sobrevivencia de los pacientes al momento
de dejar el recinto en términos de un conjunto de variables explicativas. Las variables disponibles
corresponden a:
Descripción Nombre Codificación
Estado vital estado 0: Fallece
1: Sobrevive
Edad edad años
Sexo sexo 0: Masculino
1: Femenino
Cáncer es parte de problema cancer 0 : No
1: otra
Historia de insuficiencia renal renal 0 : No
1 : Si
Problema coronario previo coronario 0 : No
1 : Si
Presión sistólica en la admisión presion mmHg
Frecuencia card́ıaca a la admisión frecuencia latidos/min
Tipo de admisión tipo 0: Electivo
1:Emergencia
PO2 medición inicial de gases po2 0 :> 60
1 :≤ 60
Nivel de consciencia en la admisión conciencia 0: consciente
1: Estupor profundo
2: Coma
a) Ilustración a modo de ejemplo: Suponga que se desea ajustar el siguiente modelo de regresión
loǵıstica y ∼ edad + sexo. Utilizando la función glm() ajuste el modelo deseado, luego utilice la
función summary() para extraer los parámetros estimados y la información del ajuste:
EAA361 -Análisis de Big Data 1 Primer Semestre 2020
modelo = glm(estado ~ edad + sexo, data = uci, family = "binomial")
summary(modelo)
Call:
glm(formula = estado ~ edad + sexo, data = uci)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9466 0.0549 0.1858 0.2426 0.3258
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.018489 0.086402 11.788 < 2e-16 ***
edad -0.003784 0.001405 -2.692 0.00771 **
sexo -0.001996 0.057918 -0.034 0.97255
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1566051)
Null deviance: 32.000 on 199 degrees of freedom
Residual deviance: 30.851 on 197 degrees of freedom
AIC: 201.75
Number of Fisher Scoring iterations: 2
------------------------------------------------------------------
Aqúı hay varios objetos relevantes de la regresión loǵıstica: La tabla ’Coefficients’ dispone de
los parámetros estimados y las estad́ısticas para evaluar si el modelo es significativo:
La columna Estimate tiene los parámetros estimados β̂0, β̂1, . . . , β̂p. En el ejemplo:
β̂0 = 1.0185
β̂1 = −0.0038
β̂2 = −0.0020
La segunda columna ’Std. Error’ contiene la desviación estándar (estimada) de los estima-
dores. En nuestro ejemplo:
ŜD(β̂0) = 0.086402
ŜD(β̂1) = 0.001405
ŜD(β̂2) = 0.057918
La tercera columna ’t value’ y la cuarta columna ’Pr(>|t|)’ son para realizar el test de
hipótesis individual y evaluar los parámetros significativos:
Las hipótesis para todo j = 1, 2, . . . , p:
H0 : βj = 0 vs H1 : βj 6= 0
EAA361 -Análisis de Big Data 2 Primer Semestre 2020
Bajo H0 para cada j se tiene:
t-value =
β̂j
ŜD(β̂j)
Pr(>|t|) = Pr(Z > |t-value|), Z ∼ Normal(0,1)
= 2 (1− φ(|t-value|))
Una vez que se tiene el nivel de riesgo o significancia α, uno puede tomar decisiones con
el ’t-value’ o con ’Pr(>|t|)’. Si |t-value| > z1−α/2 existe evidencia estad́ıstica para
rechazar H0 (es significativo), por otro lado, si Pr(>|t|) ≤ α entonces existe evidencia para
rechazar H0 (es significativo). En el ejemplo:
t-value(β0) =
1.018489
0.086402
= 11.788 Pr(>|t|) < 2e− 16
t-value(β1) =
− 0.003784
0.001405
= −2.692 Pr(>|t|) = 0.001405
t-value(β2) =
− 0.001996
0.057918
= −0.034 Pr(>|t|) = 0.97255
Por temas de redondeo los valores son aproximados. Con esa información y con el nivel de riesgo
asumido (usualmente α = 0.05) se toman las decisiones sobre los parámetros.
b) Según estudios previos la probabilidad de sobrevivencia está relacionada con la edad del paciente,
el tipo de admisión, el nivel de consciencia al momento de la admisión al recinto hospitalario, la
presión, y si tiene algún historial de cáncer al momento de la hospitalización. Utilice la función
glm() de R para ajustar el modelo propuesto:
y ∼ conciencia + tipo + edad + cancer + presion
.
c) Reporte las estimaciones obtenidas en el punto anterior. Grafique la proporción estimada de
sobrevivencia sobre el log de las covariables involucradas.
d) Según el modelo escogido, ¿cuál es la probabilidad estimada de sobrevivencia de un paciente con
las siguientes caracteŕısticas: 30 años, cáncer involucrado en la hospitalización, presión sistólica
de 115 ”mmHg”, admisión de emergencia, y estado consciente?
2. Un estudio considera que existe relación entre el hecho de que un estudiante asista a clases de repaso
de lectura (śı = 1, no = 0), la nota que obtiene en un examen de lectura estándar (realizado antes de
iniciar las clases de repaso) y el sexo (hombre = 1, mujer = 0). Se quiere generar un modelo en el que
a partir de las variables puntuación del examen y sexo, prediga la probabilidad de que el estudiante
tenga que asistir a clases de repaso. Suponga que se ajusta el siguiente modelo de regresión loǵıstica
> modeloglm <- glm(clases_repaso ~ examen_lectura + sexo, data = datos, family = "binomial")
De ese ajuste se obtienen los siguientes resultados:
> summary(modeloglm)
Call:
EAA361 -Análisis de Big Data 3 Primer Semestre 2020
glm(formula = clases_repaso ~ examen_lectura + sexo, family = "binomial",
data = datos)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.2079 -0.8954 -0.7243 1.2592 2.0412
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -------- 0.78559 ------ 0.1319
examen_lectura -0.02617 0.01223 ------ ------ *
sexomujer -0.64749 ------- ------ 0.0462 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 234.67 on 188 degrees of freedom
Residual deviance: 224.64 on 186 degrees of freedom
AIC: 230.64
Number of Fisher Scoring iterations: 4
-----------------------------------------------------------
Con la misma información de la tabla complete la salida de R.
3. El fichero datosEjercicio2.csv contiene la información utilizada en el ejercicio 2, utilizando este set
de datos realice lo siguiente:
a) Genere una variable de agrupación llamada GrupoCR utilizando el campo examen_lectura con
los siguientes ĺımites [40,50], (50,60], (60,80] y (80,130]. Realice una tabla de frecuencia de
esta variable y un gráfico de barra.
b) Utilizando la función aggregate() determine la proporción de estudiantes que asisten a clase de
repaso de lectura.
c) Construya una tabla con los siguientes campos: La agrupación GrupoCR, el campo Frecuencia que
corresponde al número de datos por cada grupo, la variable Tasa que corresponde a la proporción
de estudiantes que asisten a clase de repaso de lectura y la variable Logit que corresponde al
logito de la variable Tasa.
d) Realice un gráfico entre GrupoCR y Logit, ¿Qué interpretación le da usted a la variable examen_lectura
en el contexto de una regresión loǵıstica para predecir si el estudiantes asiste a clase de repaso de
lectura?.
4. El dataset Credit de la libreŕıa ISLR es un conjunto de datos que contiene información sobre diez mil
clientes. Las variables:
EAA361 -Análisis de Big Data 4 Primer Semestre 2020
Variable Descripción
ID: identificación
Income: Ingresos en $10,000.
Limit: ĺımite de crédito
Rating: Calificación crediticia
Cards: número de tarjetas de crédito
Age: edad en años
Education: número de años de educación
Gender: un factor con niveles masculino y femenino
Student: un factor con niveles No y Śı que indica si el individuo era estudiante
Married: un factor con los niveles No y Śı que indica si la persona estaba casada
Ethnicity: un factor con niveles afroamericanos, asiáticos y caucásicos queindican la etnia del individuo
Balance: saldo promedio de la tarjeta de crédito en $.
Con el set de datos realice lo siguiente:
a) Considere la variable Balance como objetivo y ajuste los siguientes modelos de regresión lineal
múltiple:
Modelo 1 : Balancei = β0 + β1Agei + β2Limiti+i,
Modelo 2 : Balancei = β0 + β1Ratingi + β2Limiti+i,
donde εi
iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. ¿Cuál de los dos modelos prefiere usted?, Justifique su
respuesta.
b) Para el modelo 1 reporte los intervalos de confianza de los parámetros de la media al 95 %.
c) Suponga que desea incorportar en el modelo 1 la variable Student, es decir, desea realizar el
siguiente ajuste:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + εi, i
iid∼ N(0, 1),
¿Qué categoŕıa eligiŕıa como celda de referencia en la matriz de diseño?, justifique su respuesta.
d) Considere ahora el siguiente modelo:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + β5Ratingi + β6Educationi
+ β7Cards + εi,
donde εi
iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. Para la variable Student utilice como referencia la
categoŕıa Yes. Realice un gráfico de la matriz de correlación y determine el ı́ndice de inflación de
la varianza. ¿Qué variable descartaŕıa del modelo?, justifique su respuesta.
e) A partir del modelo propuesto en d), seleccione el mejor modelo utilizando regsubsets(). Justi-
fique la elección del mejor modelo.
f ) Se ajusta el siguiente modelo en R:
Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + εi,
Y mediante la función summary() se obtienen los siguientes resultados:
EAA361 -Análisis de Big Data 5 Primer Semestre 2020
Call:
lm(formula = Balance ~ Age + Limit + Student + Income, data = datacredit)
Residuals:
Min 1Q Median 3Q Max
-172.99 -79.46 -17.32 60.29 310.14
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.039e+02 2.070e+01 ------- ------- ***
Age --------- 3.078e-01 -1.719 0.0864 .
Limit 2.671e-01 3.711e-03 71.986 <2e-16 ***
StudentYes 4.259e+02 --------- 24.501 <2e-16 ***
Income --------- 2.457e-01 -31.891 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 104.2 on 395 degrees of freedom
Multiple R-squared: 0.9492, Adjusted R-squared: 0.9487
F-statistic: 1845 on 4 and 395 DF, p-value: < 2.2e-16
#################################################################
Con la misma información en la salida de R complete la tabla.
EAA361 -Análisis de Big Data 6 Primer Semestre 2020

Continuar navegando