Examen

•

Outros

0

Central de Apuntes

26/5/2022

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Administración

602.018 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Primer Semestre 2020
Curso : Inferencia Estad́ıstica
Sigla : EAS201a
Profesores : M Ignacia Vicuña (Sec 1), Cristian Vásquez (Sec 2), Ricardo Olea (Sec 3)
Pauta Examen
Problema 1
Ante la crisis sanitaria causada por el Coronavirus en el páıs, diferentes empresas han tenido que verse en
la necesidad de acogerse a la Ley de protección del empleo, reduciendo los salarios a sus trabajadores de
manera temporal, en donde el empleado cubre el sueldo restante con su seguro de cesant́ıa.
En una empresa de servicios, la distribución de los salarios con el reajuste temporal, puede ser modelado
con una variables aleatoria X cuya función de densidad está dada por
f(x) =
β
αβ
xβ−1e−(
x
α )
β
, x > 0
donde β es una constante conocida y E(Xr) = αrΓ
(
r
β + 1
)
(a) [3.0 Ptos] Encuentre el estimador máximo verośımil de αβ y demuestre que es un estimador insesgado.
Realice todos los pasos en sus cálculos.
(b) [3.0 Ptos] Demuestre que el estimador máximo verośımil de αβ es un estimador consistente.
Solución:
(a) La función de verosimilitud de una muestra de tamaño n está dada por
L(α) =
n∏
i=1
(
β
αβ
)
Xβ−1i e
−(Xiα )
β
=
βn
αnβ
n∏
i=1
Xβ−1i e
−
∑n
i=1(
Xi
α )
β
[0.4 Ptos]
De esta manera, aplicando logaritmo y derivando con respecto a α, se obtiene
ln(L(α)) = n ln(β)− nβ ln(α) + (β − 1)
n∑
i=1
ln(Xi)−
n∑
i=1
(
Xi
α
)β
[0.4 Ptos]
∂ ln(L(α))
∂α
= −nβ
α
− β
n∑
i=1
(
Xi
α
)β−1(−Xi
α
)
= 0 [0.4 Ptos]
⇒ αβ = 1
n
n∑
i=1
Xβi
⇒ α̂ =
(
1
n
n∑
i=1
Xβi
)1/β
[0.4 Ptos]
Piden encontrar el EMV de g(α) = αβ . Como g( ) es una función continua, por principio de invarianza
se tiene que el EMV de g(α) es
g(α̂) = α̂β =
1
n
n∑
i=1
Xβi [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 1 Primer Semestre 2020
Para ver si es insesgado, calculamos E(α̂β),
E(α̂β) =
1
n
n∑
i=1
E(Xβi ) = α
βΓ(2) = αβ [0.8 Ptos]
Por lo tanto, α̂β es un estimador insesgado de αβ . [0.2 Ptos]
(b) Para evaluar la consistencia del estimador debemos probar si ĺımn→∞ ECM(α̂
β) = 0. [0.3 Ptos]
Como α̂β es insesgado, se tiene que ECM(α̂β) = Var(α̂β) [0.3 Ptos]
Var(α̂β)
[0.2 Ptos]
= Var
(
1
n
n∑
i=1
Xβi
)
[0.4 Ptos]
=
1
n2
n∑
i=1
Var(Xβi )
[0.4 Ptos]
=
1
n2
n∑
i=1
[E(X2βi )− E
2(Xβi )]
[0.4 Ptos]
=
1
n
[α2βΓ(4)− α2β ] = α
2β
n
[0.4 Ptos]
Por lo tanto, ĺımn→∞ ECM(α̂
β) = ĺımn→∞
α2β
n = 0 , [0.3 Ptos] y se concluye que α̂
β es un estimador
consistente de αβ . [0.3 Ptos]
EAS201A -Inferencia Estad́ıstica 2 Primer Semestre 2020
Problema 2
En poĺıticas públicas de salud, el estado nutricional de las personas es muy importante. Le encargan realizar
un análisis para evaluar si existe evidencia para afirmar que la media del ı́ndice de masa corporal (IMC) de
la población adulta es mayor a 25. Al ver los datos usted tiene dudas si puede asumir Normalidad o utilizar
mejor una distribución asimétrica de tipo Log-Normal.
(a) [4.0 Ptos] A partir de los EMV, se estimaron las probabilidades (Log-Normal y Normal) para los
siguientes intervalos de IMC:
-----------------------------------------------------------
IMC Observado Probabilidad Probabilidad
LogNormal Normal
-----------------------------------------------------------
<=20 7 0.0577 0.0827
(20-25] 36 0.2875 0.2410
(25-30] 45 0.3680 0.3580
(30-35] 23 0.2023 0.2379
>35 11 0.0845 0.0804
-----------------------------------------------------------
En base a los valores-p de una prueba de bondad de ajuste y un nivel de significancia del 5 %. ¿Cuál
modelo ajusta mejor? ¿Ambos modelos pasan la prueba de bondad de ajuste?
(b) [2.0 Ptos] En base a la información disponible en la muestra de tamaño n = 122:
122∑
i=1
xi = 3350.035
122∑
i=1
x2i = 95516.78
122∑
i=1
log(xi) = 401.9215
122∑
i=1
(log(xi))
2 = 1328.496
Realice una prueba de hipótesis aproximada, para ver si es posible apoyar la afirmación que la media
poblacional del IMC es mayor a 25. Utilice α = 0.05.
Solución:
(a) Piden evaluar cual distribución ajusta mejor a los datos. Para ello se realiza test de bondad de ajuste
para cada una de las distribuciones.
H01 : X ∼ LogNormal(λ, ξ2) v/s H11: X � LogNormal(λ, ξ2) [0.2 Ptos]
H02 : X ∼ Normal(µ, σ2) v/s H12: X � Normal(µ, σ2) [0.2 Ptos]
El estad́ıstico del test está dado por
Dj =
∑5
i=1(Oi − Êij)2
Êij
[0.2 Ptos] para j = 1, 2
Cuya distribución bajo H0 es χ
2 con 2 grados de libertad. [0.2 Ptos]
A partir de los datos observados en la muestra se obtiene d1 = 0.1856112 [0.8 Ptos] y d2 = 3.861635. [0.8
Ptos] El valor-p de cada prueba es:
valor-pLN = P (D1 > d1) |H0) = 1− P (D1 ≤ 0.1856112 |H0) [0.2 Ptos]
valor-pN = P (D2 > d2) |H0) = 1− P (D2 ≤ 3.861635 |H0) [0.2 Ptos]
Buscando en la tabla χ2 con 2 grados de libertad podemos reportar un rango de valores para el valor-p,
0.9 < valor-pLN < 0.95 [0.4 Ptos]
0.1 < valor-pN < 0.9 [0.4 Ptos]
Por lo tanto, con un 5 % de significancia ambos modelos ajusta a los datos, pero en base a los valores-p,
el modelo LogNormal ajusta mejor a los datos. [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 3 Primer Semestre 2020
(b) Se quiere evaluar si H0 : µ ≤ 25 v/s H1 : µ > 25. [0.2 Ptos] El estad́ıstico del test está dado por
T =
X − 25
S/
√
n
[0.2 Ptos]
cuya distribución aproximada bajo H0 es N(0,1). [0.2 Ptos]
A partir de los datos se tiene que X = 3350.035122 = 27.4593 [0.2 Ptos] y S
2 =
∑n
i=1(xi−x)
2
n−1 =∑n
i=1 x
2
i−nx
2
n−1 =
95516.78−122·27.45932
121 = 29.15021. [0.5 Ptos]Aśı el estad́ıstico observado del test es
tobs =
27.4593−25√
29.15021/122
= 5.031195. [0.2 Ptos]
Para α = 0.05, se tiene que se rechaza H0 si tobs > 1.64. [0.2 Ptos] Como tobs = 5.03119 > 1.64 , existe
evidencia para rechazar H0, lo que se concluye con un 5 % de significancia que la media del ı́ndice de
masa corporal en los adultos es mayor a 25. [0.3 Ptos]
EAS201A -Inferencia Estad́ıstica 4 Primer Semestre 2020
Problema 3
La información analizada, corresponde al número de contagiados acumulados según la fecha de inicio de
śıntomas (FIS) por covid-19 en nuestro páıs, desde “2020-04-01” hasta “2020-05-31” reportados por el Mi-
nisterio de Salud. A continuación se presentan un gráfico de doble eje de ordenadas (eje Y ), la primera
curva con azul corresponde al número de contagios acumulados según fecha de inicio de śıntomas (eje de
la izquierda) y la segunda curva corresponde logaritmo natural del número de contagiados acumulados por
fecha de inicio de śıntomas (eje de la derecha).
Para describir el comportamiento de los contagiados acumulados se plantean dos modelos estad́ısticos se-
cuenciales a través del tiempo:
Modelo 1: Yi = α0 + α1 × tiempoi + �i,
Modelo 2: log(Yi) = β0 + β1 × tiempoi + εi,
donde i = 1, 2, . . . , 61 es un correlativo a las fechas “2020-04-01”, “2020-04-02”, . . . , “2020-05-31”. Por ejem-
plo, Y1 representa el número de contagiados acumulados a la fecha “2020-04-01”, Y2 representa el número de
contagiados acumulados a la fecha “2020-04-02” y aśı sucesivamente. Aqúı la variable Yi representa el número
de contagiados acumulados, log() es el logaritmo natural, la variable tiempoi = i para todo i = 1, 2. . . . , 61
y los errores son iid con distribución normal, es decir, �i ∼ Normal(0, σ2� ) y εi ∼ Normal(0, σ2ε). A partir de
los datos se registran las siguientes estad́ısticas:
61∑
i=1
yi = 3545697,
61∑
i=1
(tiempoi − tiempo)yi = 54004052,
61∑
i=1
(tiempoi − tiempo)
2 = 18910,
61∑
i=1
log(yi) = 638.302,
61∑
i=1
(tiempoi − tiempo) log(yi) = 1131.221,
61∑
i=1
tiempoi = 1891.
Si bajo el Modelo 1, se obtuvo que la estimación de mı́nimos cuadrados de σ2 es S21 = 396013552 y bajo el
Modelo 2 es de S22 = 0.008498191.
Con los antecedentes anteriores, usted debe elegir sólo uno de los dos modelos planteados y realizar las
siguientes actividades:
(a) [1.0 Pto] Justificar la elección de su modelo según el gráfico.
EAS201A -Inferencia Estad́ıstica 5 Primer Semestre 2020
(b) [1.0 Pto] A partir de los datos, calculelos estimadores máximos verośımiles de los parámetros del
modelo seleccionado.
(c) [1.5 Ptos] Determine un intervalo de confianza al 95 % para el intercepto del modelo elegido.
(d) [1.5 Ptos] Realice un test de hipótesis para evaluar si la pendiente del modelo elegido es significativa
con un nivel de riesgo de 5 %.
(e) [1.0 Pto] A partir del modelo seleccionado, entregue una estimación puntual del número de casos
confirmados acumulados para el d́ıa “2020-06-01”
Observación: Si realiza una mala selección del modelo se considerará un máximo de 1/4 del puntaje en
cada pregunta por error de arrastre.
Solución:
(a) Al analizar los gráficos, se puede notar que la relación entre Y y el tiempo no es lineal, no es posible
trazar una linea recta del tipo Y = β0+β1tiempo dada la curvatura. Sin embargo, parece más razonable
utilizar el modelo log(Y ) = β0 + β1tiempo donde se aprecia una linealidad en los parámetros, es decir,
independiente de las transformaciones de las variables respuestas y covariables se ve una linealidad
sobre estas. El modelo 2 es el apropiado para modelar los datos. [1.0 Ptos]
(b) Aqúı se deben utilizar los estimadores de máxima verosimilitud vistos en clases para los parámetros
(β0, β1, σ
2), con la modificación que la variable respuesta será log(yi). Para β̂1 existen varias identidades
equivalentes:
β̂0 = log y − β1tiempo,
β̂1 =
∑61
i=1(tiempoi − tiempo) log(yi)∑61
i=1(tiempoi − tiempo)2
,
σ̂2 =
1
61
61∑
i=1
(log(yi)− β̂0 − β̂1tiempoi)
2 =
Reemplazando con los datos, se obtiene de manera directa que la pendiente estimada es β̂1 =
131.221
18910
=
0.0598, [0.4 Ptos] el intercepto estimado β̂0 =
638.302
61
− 0.0598
1891
61
= 8.6102 [0.2 Ptos] y para σ̂2
se debe utilizar la siguiente relación:
σ̂2 =
1
n
n∑
i=1
(log(yi)− l̂og(yi))2 =
(n− 2)
n
1
(n− 2)
n∑
i=1
(log(yi)− l̂og(yi))2 =
(n− 2)
n
S22
=
59
61
0.0085 = 0.00822. [0.4 Ptos]
donde S22 es el estimador de mı́nimos cuadrados de σ
2 bajo el modelo 2.
(c) El intervalo al 95 % para β0 está dado por:β̂0 − t0.975,n−2 S2
√∑n
i=1 tiempo
2
i√
n
∑n
i=1
(
tiempoi − tiempo
)2 , β̂0 + t0.975,n−2 S2
√∑n
i=1 tiempo
2
i√
n
∑n
i=1
(
tiempoi − tiempo
)2
 [0.5 Ptos]
que reemplazando con los datos se obtiene
I(β0, 95 %) =
(
8.6102∓ 1.96 · 0.0922
√
77531
√
61 · 18910
)
= (8.563 , 8.6569) [1.0 Ptos]
EAS201A -Inferencia Estad́ıstica 6 Primer Semestre 2020
(d) Piden evaluar las hipótesis H0 : β1 = 0 vs H1 : β1 6= 0, [0.3 Ptos] donde el pivote bajo H0 está dado
por:
T =
β̂1
S2√∑n
i=1
(
tiempoi − tiempo
)2
∼ tn−2 [0.3 Ptos]
Reemplazando se tiene Tobs =
√
18910
0.0598
0.0922
= 89.19 [0.3 Ptos] y con un nivel de riesgo de α = 0.05
se tiene que t0.975,59 ≈ 1.96. [0.3 Ptos] Dado que |Tobs| = 89.19 > 1.96 pertenece a la región de
rechazo, por lo tanto existe evidencia estad́ıstica para rechazar H0. Con un nivel de riesgo α = 0.05,
se concluye que la pendiente β1 es estad́ısticamente significativa en el modelo. [0.3 Ptos]
e) Aqúı se utiliza el modelo estimado: Para la fecha “2020-06-01” su correlativo en tiempo es tiempo62 =
62, [0.3 Ptos] por lo tanto su estimación puntual es
l̂og(yi) = 8.6102 + 0.0598 · 62,
= 12.3178 [0.3 Ptos]
Finalmente, se aplica la función exponencial para obtener la predicción de el número de contagiados
acumulados Yi: Ŷi = exp(12.3178) = 223641.6 [0.4 Ptos]
EAS201A -Inferencia Estad́ıstica 7 Primer Semestre 2020