Logo Studenta

Examen

¡Estudia con miles de materiales!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Primer Semestre 2020
Curso : Inferencia Estad́ıstica
Sigla : EAS201a
Profesores : M Ignacia Vicuña (Sec 1), Cristian Vásquez (Sec 2), Ricardo Olea (Sec 3)
Pauta Examen
Problema 1
Ante la crisis sanitaria causada por el Coronavirus en el páıs, diferentes empresas han tenido que verse en
la necesidad de acogerse a la Ley de protección del empleo, reduciendo los salarios a sus trabajadores de
manera temporal, en donde el empleado cubre el sueldo restante con su seguro de cesant́ıa.
En una empresa de servicios, la distribución de los salarios con el reajuste temporal, puede ser modelado
con una variables aleatoria X cuya función de densidad está dada por
f(x) =
β
αβ
xβ−1e−(
x
α )
β
, x > 0
donde β es una constante conocida y E(Xr) = αrΓ
(
r
β + 1
)
(a) [3.0 Ptos] Encuentre el estimador máximo verośımil de αβ y demuestre que es un estimador insesgado.
Realice todos los pasos en sus cálculos.
(b) [3.0 Ptos] Demuestre que el estimador máximo verośımil de αβ es un estimador consistente.
Solución:
(a) La función de verosimilitud de una muestra de tamaño n está dada por
L(α) =
n∏
i=1
(
β
αβ
)
Xβ−1i e
−(Xiα )
β
=
βn
αnβ
n∏
i=1
Xβ−1i e
−
∑n
i=1(
Xi
α )
β
[0.4 Ptos]
De esta manera, aplicando logaritmo y derivando con respecto a α, se obtiene
ln(L(α)) = n ln(β)− nβ ln(α) + (β − 1)
n∑
i=1
ln(Xi)−
n∑
i=1
(
Xi
α
)β
[0.4 Ptos]
∂ ln(L(α))
∂α
= −nβ
α
− β
n∑
i=1
(
Xi
α
)β−1(−Xi
α
)
= 0 [0.4 Ptos]
⇒ αβ = 1
n
n∑
i=1
Xβi
⇒ α̂ =
(
1
n
n∑
i=1
Xβi
)1/β
[0.4 Ptos]
Piden encontrar el EMV de g(α) = αβ . Como g( ) es una función continua, por principio de invarianza
se tiene que el EMV de g(α) es
g(α̂) = α̂β =
1
n
n∑
i=1
Xβi [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 1 Primer Semestre 2020
Para ver si es insesgado, calculamos E(α̂β),
E(α̂β) =
1
n
n∑
i=1
E(Xβi ) = α
βΓ(2) = αβ [0.8 Ptos]
Por lo tanto, α̂β es un estimador insesgado de αβ . [0.2 Ptos]
(b) Para evaluar la consistencia del estimador debemos probar si ĺımn→∞ ECM(α̂
β) = 0. [0.3 Ptos]
Como α̂β es insesgado, se tiene que ECM(α̂β) = Var(α̂β) [0.3 Ptos]
Var(α̂β)
[0.2 Ptos]
= Var
(
1
n
n∑
i=1
Xβi
)
[0.4 Ptos]
=
1
n2
n∑
i=1
Var(Xβi )
[0.4 Ptos]
=
1
n2
n∑
i=1
[E(X2βi )− E
2(Xβi )]
[0.4 Ptos]
=
1
n
[α2βΓ(4)− α2β ] = α
2β
n
[0.4 Ptos]
Por lo tanto, ĺımn→∞ ECM(α̂
β) = ĺımn→∞
α2β
n = 0 , [0.3 Ptos] y se concluye que α̂
β es un estimador
consistente de αβ . [0.3 Ptos]
EAS201A -Inferencia Estad́ıstica 2 Primer Semestre 2020
Problema 2
En poĺıticas públicas de salud, el estado nutricional de las personas es muy importante. Le encargan realizar
un análisis para evaluar si existe evidencia para afirmar que la media del ı́ndice de masa corporal (IMC) de
la población adulta es mayor a 25. Al ver los datos usted tiene dudas si puede asumir Normalidad o utilizar
mejor una distribución asimétrica de tipo Log-Normal.
(a) [4.0 Ptos] A partir de los EMV, se estimaron las probabilidades (Log-Normal y Normal) para los
siguientes intervalos de IMC:
-----------------------------------------------------------
IMC Observado Probabilidad Probabilidad
LogNormal Normal
-----------------------------------------------------------
<=20 7 0.0577 0.0827
(20-25] 36 0.2875 0.2410
(25-30] 45 0.3680 0.3580
(30-35] 23 0.2023 0.2379
>35 11 0.0845 0.0804
-----------------------------------------------------------
En base a los valores-p de una prueba de bondad de ajuste y un nivel de significancia del 5 %. ¿Cuál
modelo ajusta mejor? ¿Ambos modelos pasan la prueba de bondad de ajuste?
(b) [2.0 Ptos] En base a la información disponible en la muestra de tamaño n = 122:
122∑
i=1
xi = 3350.035
122∑
i=1
x2i = 95516.78
122∑
i=1
log(xi) = 401.9215
122∑
i=1
(log(xi))
2 = 1328.496
Realice una prueba de hipótesis aproximada, para ver si es posible apoyar la afirmación que la media
poblacional del IMC es mayor a 25. Utilice α = 0.05.
Solución:
(a) Piden evaluar cual distribución ajusta mejor a los datos. Para ello se realiza test de bondad de ajuste
para cada una de las distribuciones.
H01 : X ∼ LogNormal(λ, ξ2) v/s H11: X � LogNormal(λ, ξ2) [0.2 Ptos]
H02 : X ∼ Normal(µ, σ2) v/s H12: X � Normal(µ, σ2) [0.2 Ptos]
El estad́ıstico del test está dado por
Dj =
∑5
i=1(Oi − Êij)2
Êij
[0.2 Ptos] para j = 1, 2
Cuya distribución bajo H0 es χ
2 con 2 grados de libertad. [0.2 Ptos]
A partir de los datos observados en la muestra se obtiene d1 = 0.1856112 [0.8 Ptos] y d2 = 3.861635. [0.8
Ptos] El valor-p de cada prueba es:
valor-pLN = P (D1 > d1) |H0) = 1− P (D1 ≤ 0.1856112 |H0) [0.2 Ptos]
valor-pN = P (D2 > d2) |H0) = 1− P (D2 ≤ 3.861635 |H0) [0.2 Ptos]
Buscando en la tabla χ2 con 2 grados de libertad podemos reportar un rango de valores para el valor-p,
0.9 < valor-pLN < 0.95 [0.4 Ptos]
0.1 < valor-pN < 0.9 [0.4 Ptos]
Por lo tanto, con un 5 % de significancia ambos modelos ajusta a los datos, pero en base a los valores-p,
el modelo LogNormal ajusta mejor a los datos. [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 3 Primer Semestre 2020
(b) Se quiere evaluar si H0 : µ ≤ 25 v/s H1 : µ > 25. [0.2 Ptos] El estad́ıstico del test está dado por
T =
X − 25
S/
√
n
[0.2 Ptos]
cuya distribución aproximada bajo H0 es N(0,1). [0.2 Ptos]
A partir de los datos se tiene que X = 3350.035122 = 27.4593 [0.2 Ptos] y S
2 =
∑n
i=1(xi−x)
2
n−1 =∑n
i=1 x
2
i−nx
2
n−1 =
95516.78−122·27.45932
121 = 29.15021. [0.5 Ptos]Aśı el estad́ıstico observado del test es
tobs =
27.4593−25√
29.15021/122
= 5.031195. [0.2 Ptos]
Para α = 0.05, se tiene que se rechaza H0 si tobs > 1.64. [0.2 Ptos] Como tobs = 5.03119 > 1.64 , existe
evidencia para rechazar H0, lo que se concluye con un 5 % de significancia que la media del ı́ndice de
masa corporal en los adultos es mayor a 25. [0.3 Ptos]
EAS201A -Inferencia Estad́ıstica 4 Primer Semestre 2020
Problema 3
La información analizada, corresponde al número de contagiados acumulados según la fecha de inicio de
śıntomas (FIS) por covid-19 en nuestro páıs, desde “2020-04-01” hasta “2020-05-31” reportados por el Mi-
nisterio de Salud. A continuación se presentan un gráfico de doble eje de ordenadas (eje Y ), la primera
curva con azul corresponde al número de contagios acumulados según fecha de inicio de śıntomas (eje de
la izquierda) y la segunda curva corresponde logaritmo natural del número de contagiados acumulados por
fecha de inicio de śıntomas (eje de la derecha).
Para describir el comportamiento de los contagiados acumulados se plantean dos modelos estad́ısticos se-
cuenciales a través del tiempo:
Modelo 1: Yi = α0 + α1 × tiempoi + �i,
Modelo 2: log(Yi) = β0 + β1 × tiempoi + εi,
donde i = 1, 2, . . . , 61 es un correlativo a las fechas “2020-04-01”, “2020-04-02”, . . . , “2020-05-31”. Por ejem-
plo, Y1 representa el número de contagiados acumulados a la fecha “2020-04-01”, Y2 representa el número de
contagiados acumulados a la fecha “2020-04-02” y aśı sucesivamente. Aqúı la variable Yi representa el número
de contagiados acumulados, log() es el logaritmo natural, la variable tiempoi = i para todo i = 1, 2. . . . , 61
y los errores son iid con distribución normal, es decir, �i ∼ Normal(0, σ2� ) y εi ∼ Normal(0, σ2ε). A partir de
los datos se registran las siguientes estad́ısticas:
61∑
i=1
yi = 3545697,
61∑
i=1
(tiempoi − tiempo)yi = 54004052,
61∑
i=1
(tiempoi − tiempo)
2 = 18910,
61∑
i=1
log(yi) = 638.302,
61∑
i=1
(tiempoi − tiempo) log(yi) = 1131.221,
61∑
i=1
tiempoi = 1891.
Si bajo el Modelo 1, se obtuvo que la estimación de mı́nimos cuadrados de σ2 es S21 = 396013552 y bajo el
Modelo 2 es de S22 = 0.008498191.
Con los antecedentes anteriores, usted debe elegir sólo uno de los dos modelos planteados y realizar las
siguientes actividades:
(a) [1.0 Pto] Justificar la elección de su modelo según el gráfico.
EAS201A -Inferencia Estad́ıstica 5 Primer Semestre 2020
(b) [1.0 Pto] A partir de los datos, calculelos estimadores máximos verośımiles de los parámetros del
modelo seleccionado.
(c) [1.5 Ptos] Determine un intervalo de confianza al 95 % para el intercepto del modelo elegido.
(d) [1.5 Ptos] Realice un test de hipótesis para evaluar si la pendiente del modelo elegido es significativa
con un nivel de riesgo de 5 %.
(e) [1.0 Pto] A partir del modelo seleccionado, entregue una estimación puntual del número de casos
confirmados acumulados para el d́ıa “2020-06-01”
Observación: Si realiza una mala selección del modelo se considerará un máximo de 1/4 del puntaje en
cada pregunta por error de arrastre.
Solución:
(a) Al analizar los gráficos, se puede notar que la relación entre Y y el tiempo no es lineal, no es posible
trazar una linea recta del tipo Y = β0+β1tiempo dada la curvatura. Sin embargo, parece más razonable
utilizar el modelo log(Y ) = β0 + β1tiempo donde se aprecia una linealidad en los parámetros, es decir,
independiente de las transformaciones de las variables respuestas y covariables se ve una linealidad
sobre estas. El modelo 2 es el apropiado para modelar los datos. [1.0 Ptos]
(b) Aqúı se deben utilizar los estimadores de máxima verosimilitud vistos en clases para los parámetros
(β0, β1, σ
2), con la modificación que la variable respuesta será log(yi). Para β̂1 existen varias identidades
equivalentes:
β̂0 = log y − β1tiempo,
β̂1 =
∑61
i=1(tiempoi − tiempo) log(yi)∑61
i=1(tiempoi − tiempo)2
,
σ̂2 =
1
61
61∑
i=1
(log(yi)− β̂0 − β̂1tiempoi)
2 =
Reemplazando con los datos, se obtiene de manera directa que la pendiente estimada es β̂1 =
131.221
18910
=
0.0598, [0.4 Ptos] el intercepto estimado β̂0 =
638.302
61
− 0.0598
1891
61
= 8.6102 [0.2 Ptos] y para σ̂2
se debe utilizar la siguiente relación:
σ̂2 =
1
n
n∑
i=1
(log(yi)− l̂og(yi))2 =
(n− 2)
n
1
(n− 2)
n∑
i=1
(log(yi)− l̂og(yi))2 =
(n− 2)
n
S22
=
59
61
0.0085 = 0.00822. [0.4 Ptos]
donde S22 es el estimador de mı́nimos cuadrados de σ
2 bajo el modelo 2.
(c) El intervalo al 95 % para β0 está dado por:β̂0 − t0.975,n−2 S2
√∑n
i=1 tiempo
2
i√
n
∑n
i=1
(
tiempoi − tiempo
)2 , β̂0 + t0.975,n−2 S2
√∑n
i=1 tiempo
2
i√
n
∑n
i=1
(
tiempoi − tiempo
)2
 [0.5 Ptos]
que reemplazando con los datos se obtiene
I(β0, 95 %) =
(
8.6102∓ 1.96 · 0.0922
√
77531
√
61 · 18910
)
= (8.563 , 8.6569) [1.0 Ptos]
EAS201A -Inferencia Estad́ıstica 6 Primer Semestre 2020
(d) Piden evaluar las hipótesis H0 : β1 = 0 vs H1 : β1 6= 0, [0.3 Ptos] donde el pivote bajo H0 está dado
por:
T =
β̂1
S2√∑n
i=1
(
tiempoi − tiempo
)2
∼ tn−2 [0.3 Ptos]
Reemplazando se tiene Tobs =
√
18910
0.0598
0.0922
= 89.19 [0.3 Ptos] y con un nivel de riesgo de α = 0.05
se tiene que t0.975,59 ≈ 1.96. [0.3 Ptos] Dado que |Tobs| = 89.19 > 1.96 pertenece a la región de
rechazo, por lo tanto existe evidencia estad́ıstica para rechazar H0. Con un nivel de riesgo α = 0.05,
se concluye que la pendiente β1 es estad́ısticamente significativa en el modelo. [0.3 Ptos]
e) Aqúı se utiliza el modelo estimado: Para la fecha “2020-06-01” su correlativo en tiempo es tiempo62 =
62, [0.3 Ptos] por lo tanto su estimación puntual es
l̂og(yi) = 8.6102 + 0.0598 · 62,
= 12.3178 [0.3 Ptos]
Finalmente, se aplica la función exponencial para obtener la predicción de el número de contagiados
acumulados Yi: Ŷi = exp(12.3178) = 223641.6 [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 7 Primer Semestre 2020

Continuar navegando