Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Pontificia Universidad Católica de Chile Facultad de Ciencias Económicas y Administrativas Primer Semestre 2020 Curso : Análisis de Big Data Sigla : EAA361 Profesor : Cristian Vásquez Gúıa Problemas Examen 1. El archivo uci.txt contiene información sobre 200 pacientes, incluidos en un estudio de sobrevivencia luego de ser internados en la Unidad de Tratamiento Intensivo en diferentes recintos hospitalarios. El objetivo de este problema es modelar la probabilidad de sobrevivencia de los pacientes al momento de dejar el recinto en términos de un conjunto de variables explicativas. Las variables disponibles corresponden a: Descripción Nombre Codificación Estado vital estado 0: Fallece 1: Sobrevive Edad edad años Sexo sexo 0: Masculino 1: Femenino Cáncer es parte de problema cancer 0 : No 1: otra Historia de insuficiencia renal renal 0 : No 1 : Si Problema coronario previo coronario 0 : No 1 : Si Presión sistólica en la admisión presion mmHg Frecuencia card́ıaca a la admisión frecuencia latidos/min Tipo de admisión tipo 0: Electivo 1:Emergencia PO2 medición inicial de gases po2 0 :> 60 1 :≤ 60 Nivel de consciencia en la admisión conciencia 0: consciente 1: Estupor profundo 2: Coma a) Ilustración a modo de ejemplo: Suponga que se desea ajustar el siguiente modelo de regresión loǵıstica y ∼ edad + sexo. Utilizando la función glm() ajuste el modelo deseado, luego utilice la función summary() para extraer los parámetros estimados y la información del ajuste: EAA361 -Análisis de Big Data 1 Primer Semestre 2020 modelo = glm(estado ~ edad + sexo, data = uci, family = "binomial") summary(modelo) Call: glm(formula = estado ~ edad + sexo, data = uci) Deviance Residuals: Min 1Q Median 3Q Max -0.9466 0.0549 0.1858 0.2426 0.3258 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.018489 0.086402 11.788 < 2e-16 *** edad -0.003784 0.001405 -2.692 0.00771 ** sexo -0.001996 0.057918 -0.034 0.97255 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be 0.1566051) Null deviance: 32.000 on 199 degrees of freedom Residual deviance: 30.851 on 197 degrees of freedom AIC: 201.75 Number of Fisher Scoring iterations: 2 ------------------------------------------------------------------ Aqúı hay varios objetos relevantes de la regresión loǵıstica: La tabla ’Coefficients’ dispone de los parámetros estimados y las estad́ısticas para evaluar si el modelo es significativo: La columna Estimate tiene los parámetros estimados β̂0, β̂1, . . . , β̂p. En el ejemplo: β̂0 = 1.0185 β̂1 = −0.0038 β̂2 = −0.0020 La segunda columna ’Std. Error’ contiene la desviación estándar (estimada) de los estima- dores. En nuestro ejemplo: ŜD(β̂0) = 0.086402 ŜD(β̂1) = 0.001405 ŜD(β̂2) = 0.057918 La tercera columna ’t value’ y la cuarta columna ’Pr(>|t|)’ son para realizar el test de hipótesis individual y evaluar los parámetros significativos: Las hipótesis para todo j = 1, 2, . . . , p: H0 : βj = 0 vs H1 : βj 6= 0 EAA361 -Análisis de Big Data 2 Primer Semestre 2020 Bajo H0 para cada j se tiene: t-value = β̂j ŜD(β̂j) Pr(>|t|) = Pr(Z > |t-value|), Z ∼ Normal(0,1) = 2 (1− φ(|t-value|)) Una vez que se tiene el nivel de riesgo o significancia α, uno puede tomar decisiones con el ’t-value’ o con ’Pr(>|t|)’. Si |t-value| > z1−α/2 existe evidencia estad́ıstica para rechazar H0 (es significativo), por otro lado, si Pr(>|t|) ≤ α entonces existe evidencia para rechazar H0 (es significativo). En el ejemplo: t-value(β0) = 1.018489 0.086402 = 11.788 Pr(>|t|) < 2e− 16 t-value(β1) = − 0.003784 0.001405 = −2.692 Pr(>|t|) = 0.001405 t-value(β2) = − 0.001996 0.057918 = −0.034 Pr(>|t|) = 0.97255 Por temas de redondeo los valores son aproximados. Con esa información y con el nivel de riesgo asumido (usualmente α = 0.05) se toman las decisiones sobre los parámetros. b) Según estudios previos la probabilidad de sobrevivencia está relacionada con la edad del paciente, el tipo de admisión, el nivel de consciencia al momento de la admisión al recinto hospitalario, la presión, y si tiene algún historial de cáncer al momento de la hospitalización. Utilice la función glm() de R para ajustar el modelo propuesto: y ∼ conciencia + tipo + edad + cancer + presion . c) Reporte las estimaciones obtenidas en el punto anterior. Grafique la proporción estimada de sobrevivencia sobre el log de las covariables involucradas. d) Según el modelo escogido, ¿cuál es la probabilidad estimada de sobrevivencia de un paciente con las siguientes caracteŕısticas: 30 años, cáncer involucrado en la hospitalización, presión sistólica de 115 ”mmHg”, admisión de emergencia, y estado consciente? 2. Un estudio considera que existe relación entre el hecho de que un estudiante asista a clases de repaso de lectura (śı = 1, no = 0), la nota que obtiene en un examen de lectura estándar (realizado antes de iniciar las clases de repaso) y el sexo (hombre = 1, mujer = 0). Se quiere generar un modelo en el que a partir de las variables puntuación del examen y sexo, prediga la probabilidad de que el estudiante tenga que asistir a clases de repaso. Suponga que se ajusta el siguiente modelo de regresión loǵıstica > modeloglm <- glm(clases_repaso ~ examen_lectura + sexo, data = datos, family = "binomial") De ese ajuste se obtienen los siguientes resultados: > summary(modeloglm) Call: EAA361 -Análisis de Big Data 3 Primer Semestre 2020 glm(formula = clases_repaso ~ examen_lectura + sexo, family = "binomial", data = datos) Deviance Residuals: Min 1Q Median 3Q Max -1.2079 -0.8954 -0.7243 1.2592 2.0412 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -------- 0.78559 ------ 0.1319 examen_lectura -0.02617 0.01223 ------ ------ * sexomujer -0.64749 ------- ------ 0.0462 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 234.67 on 188 degrees of freedom Residual deviance: 224.64 on 186 degrees of freedom AIC: 230.64 Number of Fisher Scoring iterations: 4 ----------------------------------------------------------- Con la misma información de la tabla complete la salida de R. 3. El fichero datosEjercicio2.csv contiene la información utilizada en el ejercicio 2, utilizando este set de datos realice lo siguiente: a) Genere una variable de agrupación llamada GrupoCR utilizando el campo examen_lectura con los siguientes ĺımites [40,50], (50,60], (60,80] y (80,130]. Realice una tabla de frecuencia de esta variable y un gráfico de barra. b) Utilizando la función aggregate() determine la proporción de estudiantes que asisten a clase de repaso de lectura. c) Construya una tabla con los siguientes campos: La agrupación GrupoCR, el campo Frecuencia que corresponde al número de datos por cada grupo, la variable Tasa que corresponde a la proporción de estudiantes que asisten a clase de repaso de lectura y la variable Logit que corresponde al logito de la variable Tasa. d) Realice un gráfico entre GrupoCR y Logit, ¿Qué interpretación le da usted a la variable examen_lectura en el contexto de una regresión loǵıstica para predecir si el estudiantes asiste a clase de repaso de lectura?. 4. El dataset Credit de la libreŕıa ISLR es un conjunto de datos que contiene información sobre diez mil clientes. Las variables: EAA361 -Análisis de Big Data 4 Primer Semestre 2020 Variable Descripción ID: identificación Income: Ingresos en $10,000. Limit: ĺımite de crédito Rating: Calificación crediticia Cards: número de tarjetas de crédito Age: edad en años Education: número de años de educación Gender: un factor con niveles masculino y femenino Student: un factor con niveles No y Śı que indica si el individuo era estudiante Married: un factor con los niveles No y Śı que indica si la persona estaba casada Ethnicity: un factor con niveles afroamericanos, asiáticos y caucásicos queindican la etnia del individuo Balance: saldo promedio de la tarjeta de crédito en $. Con el set de datos realice lo siguiente: a) Considere la variable Balance como objetivo y ajuste los siguientes modelos de regresión lineal múltiple: Modelo 1 : Balancei = β0 + β1Agei + β2Limiti+i, Modelo 2 : Balancei = β0 + β1Ratingi + β2Limiti+i, donde εi iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. ¿Cuál de los dos modelos prefiere usted?, Justifique su respuesta. b) Para el modelo 1 reporte los intervalos de confianza de los parámetros de la media al 95 %. c) Suponga que desea incorportar en el modelo 1 la variable Student, es decir, desea realizar el siguiente ajuste: Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + εi, i iid∼ N(0, 1), ¿Qué categoŕıa eligiŕıa como celda de referencia en la matriz de diseño?, justifique su respuesta. d) Considere ahora el siguiente modelo: Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + β5Ratingi + β6Educationi + β7Cards + εi, donde εi iid∼ N(0, 1) ∀i = 1, 2, . . . , 10000. Para la variable Student utilice como referencia la categoŕıa Yes. Realice un gráfico de la matriz de correlación y determine el ı́ndice de inflación de la varianza. ¿Qué variable descartaŕıa del modelo?, justifique su respuesta. e) A partir del modelo propuesto en d), seleccione el mejor modelo utilizando regsubsets(). Justi- fique la elección del mejor modelo. f ) Se ajusta el siguiente modelo en R: Modelo : Balancei = β0 + β1Agei + β2Limiti + β3Studenti + β4Incomei + εi, Y mediante la función summary() se obtienen los siguientes resultados: EAA361 -Análisis de Big Data 5 Primer Semestre 2020 Call: lm(formula = Balance ~ Age + Limit + Student + Income, data = datacredit) Residuals: Min 1Q Median 3Q Max -172.99 -79.46 -17.32 60.29 310.14 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.039e+02 2.070e+01 ------- ------- *** Age --------- 3.078e-01 -1.719 0.0864 . Limit 2.671e-01 3.711e-03 71.986 <2e-16 *** StudentYes 4.259e+02 --------- 24.501 <2e-16 *** Income --------- 2.457e-01 -31.891 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 104.2 on 395 degrees of freedom Multiple R-squared: 0.9492, Adjusted R-squared: 0.9487 F-statistic: 1845 on 4 and 395 DF, p-value: < 2.2e-16 ################################################################# Con la misma información en la salida de R complete la tabla. EAA361 -Análisis de Big Data 6 Primer Semestre 2020
Compartir