Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Pontificia Universidad Católica de Chile Facultad de Ciencias Económicas y Administrativas Primer Semestre 2020 Curso : Inferencia Estad́ıstica Sigla : EAS201a Profesores : M Ignacia Vicuña (Sec 1), Cristian Vásquez (Sec 2), Ricardo Olea (Sec 3) Pauta Examen Problema 1 Ante la crisis sanitaria causada por el Coronavirus en el páıs, diferentes empresas han tenido que verse en la necesidad de acogerse a la Ley de protección del empleo, reduciendo los salarios a sus trabajadores de manera temporal, en donde el empleado cubre el sueldo restante con su seguro de cesant́ıa. En una empresa de servicios, la distribución de los salarios con el reajuste temporal, puede ser modelado con una variables aleatoria X cuya función de densidad está dada por f(x) = β αβ xβ−1e−( x α ) β , x > 0 donde β es una constante conocida y E(Xr) = αrΓ ( r β + 1 ) (a) [3.0 Ptos] Encuentre el estimador máximo verośımil de αβ y demuestre que es un estimador insesgado. Realice todos los pasos en sus cálculos. (b) [3.0 Ptos] Demuestre que el estimador máximo verośımil de αβ es un estimador consistente. Solución: (a) La función de verosimilitud de una muestra de tamaño n está dada por L(α) = n∏ i=1 ( β αβ ) Xβ−1i e −(Xiα ) β = βn αnβ n∏ i=1 Xβ−1i e − ∑n i=1( Xi α ) β [0.4 Ptos] De esta manera, aplicando logaritmo y derivando con respecto a α, se obtiene ln(L(α)) = n ln(β)− nβ ln(α) + (β − 1) n∑ i=1 ln(Xi)− n∑ i=1 ( Xi α )β [0.4 Ptos] ∂ ln(L(α)) ∂α = −nβ α − β n∑ i=1 ( Xi α )β−1(−Xi α ) = 0 [0.4 Ptos] ⇒ αβ = 1 n n∑ i=1 Xβi ⇒ α̂ = ( 1 n n∑ i=1 Xβi )1/β [0.4 Ptos] Piden encontrar el EMV de g(α) = αβ . Como g( ) es una función continua, por principio de invarianza se tiene que el EMV de g(α) es g(α̂) = α̂β = 1 n n∑ i=1 Xβi [0.4 Ptos] EAS201A -Inferencia Estad́ıstica 1 Primer Semestre 2020 Para ver si es insesgado, calculamos E(α̂β), E(α̂β) = 1 n n∑ i=1 E(Xβi ) = α βΓ(2) = αβ [0.8 Ptos] Por lo tanto, α̂β es un estimador insesgado de αβ . [0.2 Ptos] (b) Para evaluar la consistencia del estimador debemos probar si ĺımn→∞ ECM(α̂ β) = 0. [0.3 Ptos] Como α̂β es insesgado, se tiene que ECM(α̂β) = Var(α̂β) [0.3 Ptos] Var(α̂β) [0.2 Ptos] = Var ( 1 n n∑ i=1 Xβi ) [0.4 Ptos] = 1 n2 n∑ i=1 Var(Xβi ) [0.4 Ptos] = 1 n2 n∑ i=1 [E(X2βi )− E 2(Xβi )] [0.4 Ptos] = 1 n [α2βΓ(4)− α2β ] = α 2β n [0.4 Ptos] Por lo tanto, ĺımn→∞ ECM(α̂ β) = ĺımn→∞ α2β n = 0 , [0.3 Ptos] y se concluye que α̂ β es un estimador consistente de αβ . [0.3 Ptos] EAS201A -Inferencia Estad́ıstica 2 Primer Semestre 2020 Problema 2 En poĺıticas públicas de salud, el estado nutricional de las personas es muy importante. Le encargan realizar un análisis para evaluar si existe evidencia para afirmar que la media del ı́ndice de masa corporal (IMC) de la población adulta es mayor a 25. Al ver los datos usted tiene dudas si puede asumir Normalidad o utilizar mejor una distribución asimétrica de tipo Log-Normal. (a) [4.0 Ptos] A partir de los EMV, se estimaron las probabilidades (Log-Normal y Normal) para los siguientes intervalos de IMC: ----------------------------------------------------------- IMC Observado Probabilidad Probabilidad LogNormal Normal ----------------------------------------------------------- <=20 7 0.0577 0.0827 (20-25] 36 0.2875 0.2410 (25-30] 45 0.3680 0.3580 (30-35] 23 0.2023 0.2379 >35 11 0.0845 0.0804 ----------------------------------------------------------- En base a los valores-p de una prueba de bondad de ajuste y un nivel de significancia del 5 %. ¿Cuál modelo ajusta mejor? ¿Ambos modelos pasan la prueba de bondad de ajuste? (b) [2.0 Ptos] En base a la información disponible en la muestra de tamaño n = 122: 122∑ i=1 xi = 3350.035 122∑ i=1 x2i = 95516.78 122∑ i=1 log(xi) = 401.9215 122∑ i=1 (log(xi)) 2 = 1328.496 Realice una prueba de hipótesis aproximada, para ver si es posible apoyar la afirmación que la media poblacional del IMC es mayor a 25. Utilice α = 0.05. Solución: (a) Piden evaluar cual distribución ajusta mejor a los datos. Para ello se realiza test de bondad de ajuste para cada una de las distribuciones. H01 : X ∼ LogNormal(λ, ξ2) v/s H11: X � LogNormal(λ, ξ2) [0.2 Ptos] H02 : X ∼ Normal(µ, σ2) v/s H12: X � Normal(µ, σ2) [0.2 Ptos] El estad́ıstico del test está dado por Dj = ∑5 i=1(Oi − Êij)2 Êij [0.2 Ptos] para j = 1, 2 Cuya distribución bajo H0 es χ 2 con 2 grados de libertad. [0.2 Ptos] A partir de los datos observados en la muestra se obtiene d1 = 0.1856112 [0.8 Ptos] y d2 = 3.861635. [0.8 Ptos] El valor-p de cada prueba es: valor-pLN = P (D1 > d1) |H0) = 1− P (D1 ≤ 0.1856112 |H0) [0.2 Ptos] valor-pN = P (D2 > d2) |H0) = 1− P (D2 ≤ 3.861635 |H0) [0.2 Ptos] Buscando en la tabla χ2 con 2 grados de libertad podemos reportar un rango de valores para el valor-p, 0.9 < valor-pLN < 0.95 [0.4 Ptos] 0.1 < valor-pN < 0.9 [0.4 Ptos] Por lo tanto, con un 5 % de significancia ambos modelos ajusta a los datos, pero en base a los valores-p, el modelo LogNormal ajusta mejor a los datos. [0.4 Ptos] EAS201A -Inferencia Estad́ıstica 3 Primer Semestre 2020 (b) Se quiere evaluar si H0 : µ ≤ 25 v/s H1 : µ > 25. [0.2 Ptos] El estad́ıstico del test está dado por T = X − 25 S/ √ n [0.2 Ptos] cuya distribución aproximada bajo H0 es N(0,1). [0.2 Ptos] A partir de los datos se tiene que X = 3350.035122 = 27.4593 [0.2 Ptos] y S 2 = ∑n i=1(xi−x) 2 n−1 =∑n i=1 x 2 i−nx 2 n−1 = 95516.78−122·27.45932 121 = 29.15021. [0.5 Ptos]Aśı el estad́ıstico observado del test es tobs = 27.4593−25√ 29.15021/122 = 5.031195. [0.2 Ptos] Para α = 0.05, se tiene que se rechaza H0 si tobs > 1.64. [0.2 Ptos] Como tobs = 5.03119 > 1.64 , existe evidencia para rechazar H0, lo que se concluye con un 5 % de significancia que la media del ı́ndice de masa corporal en los adultos es mayor a 25. [0.3 Ptos] EAS201A -Inferencia Estad́ıstica 4 Primer Semestre 2020 Problema 3 La información analizada, corresponde al número de contagiados acumulados según la fecha de inicio de śıntomas (FIS) por covid-19 en nuestro páıs, desde “2020-04-01” hasta “2020-05-31” reportados por el Mi- nisterio de Salud. A continuación se presentan un gráfico de doble eje de ordenadas (eje Y ), la primera curva con azul corresponde al número de contagios acumulados según fecha de inicio de śıntomas (eje de la izquierda) y la segunda curva corresponde logaritmo natural del número de contagiados acumulados por fecha de inicio de śıntomas (eje de la derecha). Para describir el comportamiento de los contagiados acumulados se plantean dos modelos estad́ısticos se- cuenciales a través del tiempo: Modelo 1: Yi = α0 + α1 × tiempoi + �i, Modelo 2: log(Yi) = β0 + β1 × tiempoi + εi, donde i = 1, 2, . . . , 61 es un correlativo a las fechas “2020-04-01”, “2020-04-02”, . . . , “2020-05-31”. Por ejem- plo, Y1 representa el número de contagiados acumulados a la fecha “2020-04-01”, Y2 representa el número de contagiados acumulados a la fecha “2020-04-02” y aśı sucesivamente. Aqúı la variable Yi representa el número de contagiados acumulados, log() es el logaritmo natural, la variable tiempoi = i para todo i = 1, 2. . . . , 61 y los errores son iid con distribución normal, es decir, �i ∼ Normal(0, σ2� ) y εi ∼ Normal(0, σ2ε). A partir de los datos se registran las siguientes estad́ısticas: 61∑ i=1 yi = 3545697, 61∑ i=1 (tiempoi − tiempo)yi = 54004052, 61∑ i=1 (tiempoi − tiempo) 2 = 18910, 61∑ i=1 log(yi) = 638.302, 61∑ i=1 (tiempoi − tiempo) log(yi) = 1131.221, 61∑ i=1 tiempoi = 1891. Si bajo el Modelo 1, se obtuvo que la estimación de mı́nimos cuadrados de σ2 es S21 = 396013552 y bajo el Modelo 2 es de S22 = 0.008498191. Con los antecedentes anteriores, usted debe elegir sólo uno de los dos modelos planteados y realizar las siguientes actividades: (a) [1.0 Pto] Justificar la elección de su modelo según el gráfico. EAS201A -Inferencia Estad́ıstica 5 Primer Semestre 2020 (b) [1.0 Pto] A partir de los datos, calculelos estimadores máximos verośımiles de los parámetros del modelo seleccionado. (c) [1.5 Ptos] Determine un intervalo de confianza al 95 % para el intercepto del modelo elegido. (d) [1.5 Ptos] Realice un test de hipótesis para evaluar si la pendiente del modelo elegido es significativa con un nivel de riesgo de 5 %. (e) [1.0 Pto] A partir del modelo seleccionado, entregue una estimación puntual del número de casos confirmados acumulados para el d́ıa “2020-06-01” Observación: Si realiza una mala selección del modelo se considerará un máximo de 1/4 del puntaje en cada pregunta por error de arrastre. Solución: (a) Al analizar los gráficos, se puede notar que la relación entre Y y el tiempo no es lineal, no es posible trazar una linea recta del tipo Y = β0+β1tiempo dada la curvatura. Sin embargo, parece más razonable utilizar el modelo log(Y ) = β0 + β1tiempo donde se aprecia una linealidad en los parámetros, es decir, independiente de las transformaciones de las variables respuestas y covariables se ve una linealidad sobre estas. El modelo 2 es el apropiado para modelar los datos. [1.0 Ptos] (b) Aqúı se deben utilizar los estimadores de máxima verosimilitud vistos en clases para los parámetros (β0, β1, σ 2), con la modificación que la variable respuesta será log(yi). Para β̂1 existen varias identidades equivalentes: β̂0 = log y − β1tiempo, β̂1 = ∑61 i=1(tiempoi − tiempo) log(yi)∑61 i=1(tiempoi − tiempo)2 , σ̂2 = 1 61 61∑ i=1 (log(yi)− β̂0 − β̂1tiempoi) 2 = Reemplazando con los datos, se obtiene de manera directa que la pendiente estimada es β̂1 = 131.221 18910 = 0.0598, [0.4 Ptos] el intercepto estimado β̂0 = 638.302 61 − 0.0598 1891 61 = 8.6102 [0.2 Ptos] y para σ̂2 se debe utilizar la siguiente relación: σ̂2 = 1 n n∑ i=1 (log(yi)− l̂og(yi))2 = (n− 2) n 1 (n− 2) n∑ i=1 (log(yi)− l̂og(yi))2 = (n− 2) n S22 = 59 61 0.0085 = 0.00822. [0.4 Ptos] donde S22 es el estimador de mı́nimos cuadrados de σ 2 bajo el modelo 2. (c) El intervalo al 95 % para β0 está dado por:β̂0 − t0.975,n−2 S2 √∑n i=1 tiempo 2 i√ n ∑n i=1 ( tiempoi − tiempo )2 , β̂0 + t0.975,n−2 S2 √∑n i=1 tiempo 2 i√ n ∑n i=1 ( tiempoi − tiempo )2 [0.5 Ptos] que reemplazando con los datos se obtiene I(β0, 95 %) = ( 8.6102∓ 1.96 · 0.0922 √ 77531 √ 61 · 18910 ) = (8.563 , 8.6569) [1.0 Ptos] EAS201A -Inferencia Estad́ıstica 6 Primer Semestre 2020 (d) Piden evaluar las hipótesis H0 : β1 = 0 vs H1 : β1 6= 0, [0.3 Ptos] donde el pivote bajo H0 está dado por: T = β̂1 S2√∑n i=1 ( tiempoi − tiempo )2 ∼ tn−2 [0.3 Ptos] Reemplazando se tiene Tobs = √ 18910 0.0598 0.0922 = 89.19 [0.3 Ptos] y con un nivel de riesgo de α = 0.05 se tiene que t0.975,59 ≈ 1.96. [0.3 Ptos] Dado que |Tobs| = 89.19 > 1.96 pertenece a la región de rechazo, por lo tanto existe evidencia estad́ıstica para rechazar H0. Con un nivel de riesgo α = 0.05, se concluye que la pendiente β1 es estad́ısticamente significativa en el modelo. [0.3 Ptos] e) Aqúı se utiliza el modelo estimado: Para la fecha “2020-06-01” su correlativo en tiempo es tiempo62 = 62, [0.3 Ptos] por lo tanto su estimación puntual es l̂og(yi) = 8.6102 + 0.0598 · 62, = 12.3178 [0.3 Ptos] Finalmente, se aplica la función exponencial para obtener la predicción de el número de contagiados acumulados Yi: Ŷi = exp(12.3178) = 223641.6 [0.4 Ptos] EAS201A -Inferencia Estad́ıstica 7 Primer Semestre 2020
Compartir