Logo Studenta

Ayudantia7

Vista previa del material en texto

EAS201a - Inferencia Estad́ıstica
Escuela de Administración
Material de Apoyo
Ayudant́ıa 7
: , 1
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV.
I Intervalos para dos muestras.
I Ejercicios Propuestos
: , 2
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
I Intervalos para dos muestras
I Ejercicios Propuestos
: , 3
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV
Recordatorio
Sea θ̂ el EMV del parámetro θ construido con (Y1,Y2, . . . ,Yn) m. a. de
una población f (Y ; θ).
Si el recorrido de los Yi no depende del parámetro θ (condición de regu-
laridad), y sea g(θ) una función continua en θ, entonces g
(
θ̂
)
es el EMV
de g(θ) cuya distribución asintótica está dada por
g
(
θ̂
)
∼ Normal
(
g(θ),CCR(θ) ·
(
∂g(θ)
∂θ
)2)
,
donde CCR(θ) es la Cota de Crámer-Rao vista en la clase 4.
: , 4
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV
Un intervalo aproximado de (1 − α) · 100 % de confianza para g(θ) está
dado por
g(θ̂)− z1−α
2
√√√√CCR(θ̂) ·( ∂̂g(θ)
∂θ
)2
, g
(
θ̂
)
+ z1−α
2
√√√√CCR(θ̂) ·( ∂̂g(θ)
∂θ
)2
: , 5
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
Ejercicio 1
I Intervalos para dos muestras
I Ejercicios Propuestos
: , 6
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Ejercicio 1
Sea Y1,Y2, . . . ,Yn una muestra aleatoria simple de tamaño n de una dis-
tribución de Poisson con media λ. Encuentre un intervalo de confianza de
95 % para g(λ) = e−λ = Pr(Y = 0).
: , 7
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 1
Recuerde que el estimador de máxima verosimilitud de λ a partir de una
m. a. Y1,Y2, . . . ,Yn está dado por λ̂ = Y n. La función g(λ) es continua,
por lo tanto podemos aplicar directamente el intervalo de confianza para
funciones de EMV. En la ayudant́ıa 5 (también clase 5) se identificó la
CCR(λ) para el modelo de Poisson, y la cantidad ∂g(λ)∂λ se puede determinar
de manera directa
CCR(λ) =
λ
n
,
∂g(λ)
∂λ
=
∂e−λ
∂λ
= −e−λ.
: , 8
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 1
Aśı,
z0.975 = 1.96,
g
(
λ̂
)
= e−Y n ,
CCR
(
λ̂
)
=
Y n
n
,
∂̂g(λ)
∂λ
= −e−Y n .
Finalmente el intervalo de 95 % confianza para e−λ está dado por:
eY n − 1.96
√
Y n
n
e−2Y n , eY n + 1.96
√
Y n
n
e−2Y n
 .
: , 9
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
Ejercicio 2
I Intervalos para dos muestras
I Ejercicios Propuestos
: , 10
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Ejercicio 2
Una importante empresa de estudios públicos está interesado en conocer
la opinión de los ciudadanos Chilenos sobre la posibilidad de que la se-
lección Chilena de fútbol clasifique al mundial de Rusia 2018, para esto
desarrolla una aplicación digital donde consulta de manera directa la opi-
nión (SI o NO) de que la selección Chilena de fútbol clasifique al mundial.
Ellos cuentan con una base de datos de contactabilidad y env́ıan la con-
sulta a 1000 ciudadanos, de los cuales 357 opinan SI y 643 opinan que NO.
Uno de los analistas está interesado en construir un intervalo de confianza
del 95 % aproximado para la variabilidad (varianza) de la respuesta de
los encuestados (sobre la afirmación positiva). Entregue el intervalo de
confianza para ayudar al analista. Suponga que los datos son i.i.d.
: , 11
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2
Defina la siguiente variable aleatoria
Yi =
{
1, el individuo i opina que Chile SI ira al mundial de Rusia 2018,
0, el individuo i opina que Chile NO ira al mundial de Rusia 2018.
Note que contamos con {Y1,Y2, . . . ,Y1000} una m. a. de la población
Y ∼ Bernoulli(θ). Para esta población la media y la varianza están dados
por:
E(Y ) = θ,
Var(Y ) = θ(1− θ).
: , 12
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2
Dado que el analista está interesado en un intervalo de confianza para la
variabilidad (varianza), vamos a definir g(θ) por
g(θ) = θ(1− θ).
Para construir el intervalo de confianza para g(θ) necesitamos la derivada
y la cota de Crámer-Rao.
∂g(θ)
∂θ
=
d
dθ
[
θ(1− θ)
]
=
d
dθ
[
θ − θ2
]
= 1− 2θ
: , 13
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2
De los apuntes de la clase 5 podemos obtener la cota de Crámer-Rao para
una población Bernoulli, que es
CCR(θ) =
θ(1− θ)
n
.
Para la construcción del intervalo de confianza necesitamos el EMV de θ
que está dado por
θ̂ =
∑n
i=1 Yi
n
= Y n.
: , 14
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2
Según los datos observados θ̂ = y1000 = 0.357 entonces
CCR
(
θ̂
)
=
θ̂
(
1− θ̂
)
n
=
0.357(1− 0.357)
1000
= 0.0002296
y
∂̂g(θ)
∂θ
= 1− 2θ̂
= 1− 2 · 0.357
= 0.286
: , 15
Intervalos de Confianza
Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2
Finalmente g
(
θ̂
)
= 0.357(1 − 0.357) = 0.2296. Entonces el intervalos de
confianza para g(θ) está dado por
IC(g(θ); 95 %)
=
(
0.2296− 1.96
√
0.00023 · (0.286)2, 0.2296 + 1.96
√
0.00023 · (0.286)2
)
= (0.2211, 0.2381).
: , 16
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
I Intervalos para dos muestras
I Ejercicios Propuestos
: , 17
Intervalos de Confianza
Intervalos para dos muestras
Este tópico del curso considera que se dispone de dos muestras aleatorias
de dos poblaciones. Usualmente aqúı estamos interesados en contrastar:
I La diferencia de las medias de las poblaciones:
• En el caso de muestras pareadas.
• En el caso de muestras independientes.
I El cociente entre las varianzas de las dos poblaciones:
• En el caso de muestras independientes
: , 18
Intervalos de Confianza
Intervalos para dos muestras
La interpretación estará dada por los valores contenidos en los intervalos de
confianza. A continuación un resumen de los intervalos para dos muestras:
Parámetro Población IC Bilateral
µX − µY X ∼ N(µX , σ2x ), σx conocido,
(
x̄ − ȳ ∓ z1−α/2
√
σ2x
n +
σ2y
m
)
Y ∼ N(µY , σ2y ), σy conocido
µX − µY X ∼ N(µX , σ2x ), σx desconocido,
(
x̄ − ȳ ∓ tg,1−α/2
√
S2x
n +
S2y
m
)
Y ∼ N(µY , σ2y ), σy desconocido g =
∣∣∣∣∣∣
([
S2x /n
]
+
[
S2y /m
])2
(S2x /n)
2
n−1 +
(S2y /m)
2
m−1
∣∣∣∣∣∣
µX − µY X ∼ N(µX , σ2x ), σx = σy = σ conocido,
(
x̄ − ȳ ∓ z1−α/2σ
√
1
n +
1
m
)
Y ∼ N(µY , σ2y )
: , 19
Intervalos de Confianza
Intervalos para dos muestras
Sigue
Parámetro Población IC Bilateral
µX − µY X ∼ N(µX , σ2x ), σx = σy = σ,
(
x̄ − ȳ ∓ z1−α/2Sp
√
1
n +
1
m
)
Y ∼ N(µY , σ2y ), σ desconocido S
2
p =
(n−1)S2X +(m−1)S
2
Y
m+n−2
µX − µY X ∼ fX (·), E(X ) = µX , Var(X ) des,
(
x̄ − ȳ ∓ z1−α/2
√
S2x
n +
S2y
m
)
Y ∼ fY (·), E(Y ) = µY , Var(Y ) des n, m grandes
θ1 − θ2 X ∼ f (x ; θ1),
(
θ̂1 − θ̂2 ∓ z1−α/2
√
CCR
(
θ̂1
)
+ CCR
(
θ̂2
))
Y ∼ f (y ; θ1) θ̂1 y θ̂2 son EMV
: , 20
Intervalos de Confianza
Intervalos para dos muestras
Sigue
Parámetro Población IC Bilateral
σ2X
σ2
Y
X ∼ N(µX , σ2x ), µX desconocido,
(
S2x
S2y
1
Fn−1,m−1,1−α/2
;
S2x
S2y
1
Fn−1,m−1,α/2
)
Y ∼ N(µY , σ2y ), µY desconocido
µX − µY
(
X
Y
)
∼ N
((
µX
µY
)
,
(
σ2X ρσXσY
ρσXσY σ
2
Y
)) (
D ∓ tn−1,1−α/2
SD√
n
)
Datos pareados ,Di = Xi − Yi D = 1n
∑n
i=1 Di
σ2D = σ
2
X + σ
2
Y − 2ρσXσY S
2
D =
1
n−1
∑n
i=1(Di − D)
2
σx , σy y ρ desconocidos
: , 21
Intervalos de Confianza
Intervalos para dos muestras
Finalmente
Parámetro Población IC Bilateral
ρ
(
X
Y
)
∼ N
((
µX
µY
)
,
(
σ2X ρσXσY
ρσXσY σ
2
Y
)) (
e2a−1
e2a+1
, e
2b−1
e2b+1
)
ρ = E(X−E(X ))(Y−E(Y ))√
E(X−E(X ))2
√
E(Y−E(Y ))2
=
σxy
σxσy
a = 12 ln
(
1+ρ̂
1−ρ̂ − z1−α/2√
1
n−2
)
ρ̂ =
∑
(Xi−X̄ )(Yi−Ȳ )
n−1√∑
(Xi−X̄ )2
n−1
√∑
(Yi−Ȳ )2
n−1
b = 12 ln
(
1+ρ̂
1−ρ̂ + z1−α/2
√
1
n−2
)
σx , σy y ρ desconocidos
: , 22
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
I Intervalos para dos muestras
Ejercicio 1
I Ejercicios Propuestos
: , 23
Intervalos de Confianza
Intervalos para dos muestras: Ejercicio 1
El śındrome del comportamiento anterior crónico es un mal que se mani-
fiesta por un dolor en el muslo debido al ejercicio. Inflamación y daño al
nervio y a la función muscular se suman al dolor, que disminuye con reposo.
Susan Beckham y colaboradores (expertos en medicina deportiva) realiza-
ron un experimento que inclúıa a 10 corredores y a 10 ciclistas saludables
para determinar si las mediciones de la presión sobre el comportamiento del
músculo anterior difieren en los corredores y en los ciclistas. En la siguiente
tabla se resumen los datos (presión ejercida sobre el comportamiento se
mide en miĺımetros de mercurio).
Corredores Ciclistas
Estado Media Desviación Media Desviación
Reposo 14.5 3.92 11.1 3.98
80 % de consumo máx O2 12.2 3.49 11.5 4.95
: , 24
Intervalos de Confianza
Intervalos para dos muestras: Ejercicio 1
a) Construya un intervalo de confianza de 95 % para la diferencia en las
presiones medias sobre el comportamiento entre los corredores y los
ciclistas que están en reposo. Asuma varianzas iguales.
b) Construya un intervalo de confianza de 95 % para la diferencia en las
presiones medias sobre el comportamiento entre los corredores y los
ciclistas que hacen ejercicio con un 80 % de consumo máximo de O2.
Asuma varianzas distintas.
c) Analice los intervalos a) y b). ¿Cómo interpretaŕıa usted los resultados
que obtuvo?.
: , 25
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 1
a) Aqúı debemos considerar varianzas iguales pero desconocidas y tamaño
muestral pequeño, es decir, un intervalo t. Consideremos a X como la
presión de los corredores en reposo y a Y como la presión de los ciclistas en
reposo. Dado los tamaños muestrales y las desviaciones podemos calcular
el S2p .
x = 14.5
y = 11.1
n + m − 2 = 18
t18(0.975) = 2.1009
S2p =
(n − 1)S2x + (m − 1)S2y
n + m − 2
=
9 · (3.92)2 + 9 · (3.98)2
18
= 15.60
: , 26
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 1
Aśı el intervalo de confianza será
IC(µX − µY ; 95 %)
=
(
x − y − tn+m−2,0.975 Sp
√
1
n
+
1
m
, x − y + tn+m−2,0.975Sp
√
1
n
+
1
m
)
=
(
3.4− 2.1009 ·
√
15.60
√
1
10
+
1
10
, 3.4 + 2.1009 ·
√
15.60
√
1
10
+
1
10
)
= (−0.311, 7.111)
: , 27
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 1
b) En este caso las varianzas son distintas y desconocidas (con tamaño
muestral pequeño), por lo tanto debemos considerar un intervalo t pero
aproximando los grados de libertad. Consideremos a X como la presión de
los corredores con 80 % de consumo máximo y a Y como la presión de
los ciclistas con 80 % de consumo máximo. Con los antecedentes podemos
estimar los grados de libertad g
x = 12.2
y = 11.5
S2x = 3.49
2 = 12.18
S2y = 4.95
2 = 24.50
t16(0.975) = 2.120
g =
∣∣∣∣∣∣
([
S2x /n
]
+
[
S2y /m
])2
(S2x /n)
2
n−1 +
(S2y /m)
2
m−1
∣∣∣∣∣∣
=
∣∣∣∣∣
([
12.18/10
]
+
[
24.50/10
])2
(12.18/10)2
9 +
(24.50/10)2
9
∣∣∣∣∣
= 16.175
≈ 16
: , 28
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 1
Finalmente el intervalo de confianza será
IC(µX − µY ; 95 %)
=
(
x − y − tg,1−α/2
√
S2x
n
+
S2y
m
, x − y + tg,1−α/2
√
S2x
n
+
S2y
m
)
=
(
0.7− 2.120
√
12.18
10
+
24.50
10
, 0.7 + 2.120
√
12.18
10
+
24.50
10
)
= (−3.36, 4.76)
: , 29
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 1
c) Notemos que cuando realizamos hacer comparaciones sobre la media,
el interés está puesto sobre el valor cero, y en ambos intervalos el cero está
contenido, por lo tanto para ambos intervalos concluimos con un nivel de
confianza del 95 % que no existe diferencia entre los ciclistas y corredores
en el comportamiento del músculo al aplicar la presión.
: , 30
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
I Intervalos para dos muestras
Ejercicio 2
I Ejercicios Propuestos
: , 31
Intervalos de Confianza
Intervalos para dos muestras: Ejercicio 2
Una fábrica trabaja con dos tipos de máquinas, A y B. El costo semanal
X de la reparación de las máquinas A tiene una distribución normal con
media µX y varianza σ
2. El costo semanal Y de reparación de las máquinas
tipo B también tiene distribución normal con media µY y varianza 3σ
2.
El costo semanal esperado por la fábrica es de 2µX + µY . Si tenemos una
muestra aleatoria X1,X2, . . . ,Xn de costos para las máquinas del tipo A
y una muestra aleatoria independiente Y1,Y2, . . . ,Ym de costos para las
máquinas tipo B, describa cómo construiŕıa un intervalo de confianza de
100(1− α) % para 2µX + µY si
a) Se conoce el valor de σ2.
b) Se desconoce el valor de σ2.
: , 32
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
a) El parámetro que estamos interesados en evaluar es 2µX + µY , por lo
tanto usamos los siguientes antecedentes:
X ∼ N(µX , σ2), Y ∼ N(µY , 3σ2)
Entonces,
⇒ X n ∼ N
(
µX ,
σ2
n
)
,
⇒ 2X n ∼ N
(
2µX ,
4σ2
n
) ⇒ Ym ∼ N (µY , 3σ2
m
)
.
además sabemos que las muestras son independientes, por lo tanto X n ⊥⊥
Ym.
: , 33
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
De esta forma
2X n + Ym ∼ N
(
2µX + µY ,
4σ2
n
+
3σ2
m
)
,
aśı, una función pivote es considerar la cantidad
Q =
2X n + Ym − (2µX + µY )
σ
√
4
n +
3
m
∼ N (0, 1) .
: , 34
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
Ahora usamos la relación entre los percentiles de la distribución normal y
la confianza
1− α
= Pr
−z1−α/2 ≤ 2X n + Ym − (2µX + µY )
σ
√
4
n +
3
m
≤ z1−α/2

= Pr
(
−z1−α/2σ
√
4
n
+
3
m
≤ 2X n + Ym − (2µX + µY ) ≤ z1−α/2σ
√
4
n
+
3
m
)
= Pr
(
2X n + Ym − z1−α/2σ
√
4
n
+
3
m
≤ 2µX + µY ≤ 2X n + Ym + z1−α/2σ
√
4
n
+
3
m
)
: , 35
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
Finalmente
IC(2µX + µY , 1− α)
=
(
2X n + Y m − z1−α/2σ
√
4
n
+
3
m
, 2X n + Y m + z1−α/2σ
√
4
n
+
3
m
)
: , 36
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
b) El ejercicio es similar al anterior, sin embargo, aqúı no conocemos el
parámetro σ2. Dado que como X ∼ N(µX , σ2) y Y ∼ N(µY , 3σ2) entonces
tenemos las siguientes relaciones
(n − 1) S
2
x
σ2
∼ χ2n−1,
(m − 1)
S2y
3σ2
∼ χ2m−1,
aśı, podemos sumas ambas cantidades
(n − 1)S
2
x
σ2
+ (m − 1)
S2y
3σ2
∼ χ2n+m−2
: , 37
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
Luego,
(n − 1)S
2
x
σ2
+ (m − 1)
S2y
3σ2
=
1
σ2
[
(n − 1)S2x + (m − 1)
S2y
3
]
=
(n + m − 2)
σ2
[
(n − 1)S2x + (m − 1)S2y /3
n + m − 2
]
=
(n + m − 2)
σ2
S2p
Por lo tanto,
(n + m − 2)
σ2
S2p ∼ χ2n+m−2
donde S2p =
(n − 1)S2x + (m − 1)S2y /3
n + m − 2
.
: , 38
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
Para construir el pivote para varianza desconocida utilizamos la t- Student,
que se deriva de la siguiente relación Q =
Z√
χ2ν
ν
∼ tν , donde Z ∼ N(0, 1)
y ν son los grados de libertad de la chi cuadrado. Entonces
Q =
Z√
χ2ν
ν
=
2Xn+Ym−(2µX +µY )
σ
√
4
n
+ 3
m√
(n + m − 2)
(n + m − 2)
S2p
σ2
=
2Xn+Ym−(2µX +µY )
σ
√
4
n
+ 3
m
Sp
σ
=
2X n + Y m − (2µX + µY )
Sp
√
4
n
+ 3
m
: , 39
Intervalos de Confianza
Intervalos para dos muestras: Solución Ejercicio 2
El pivote queda definido por
Q =
2X n + Y m − (2µX + µY )
Sp
√
4
n
+ 3
m
∼ tn+m−2,
despejando de la misma manera de lo realizado en a), el intervalo para
2µX + µY de nivel (1− α) % está dado por
IC(2µX + µY , 1− α) =
(
2X n + Y m ∓tn+m−2,1−α/2Sp
√
4
n
+
3
m
)
donde S2p =
(n−1)S2x +(m−1)S
2
y /3
n+m−2 .
: , 40
Intervalos de Confianza
Tópicos de la Ayudant́ıa
I Intervalos Asintóticos para funciones de EMV
I Intervalos para dos muestras
I Ejercicios Propuestos
: , 41
Intervalos de Confianza
Ejercicios Propuestos
1. Un ingeniero en computación está investigando la utilidad de dos
lenguajes de diseño para mejorar las tareas de programación. Se pide
a 12 programadores expertos, familiarizados con los dos lenguajes,
que codifiquen una función estándar en ambos lenguajes, anotando el
tiempo, en minutos, que requieren para hacer esta tarea. Los datos
obtenidos son los siguientes:
Programador Leng A Leng B Programador Leng A Leng B
1 17 18 7 16 10
2 16 14 8 14 13
3 21 19 9 21 19
4 14 11 10 23 24
5 18 23 11 13 15
6 24 21 12 18 20
¿Es alguno de los dos programas más óptimo en cuanto al tiempo?
: , 42
Intervalos de Confianza
Ejercicios Propuestos
2. Un relevante art́ıculo del área de la salud publicado en Amer. J. Public
Health (año 1983) reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recién nacidos con madres fumadoras
de tabaco y de madres que no consuḿıan.
Fumadora No Fumadora
Tamaño muestral 1246 11178
Número de disfunciones importantes 42 294
p̂ 0.0337 0.00263
Reporte el intervalo de confianza al 95 % para la diferencia de pro-
porciones de disfunciones importantes (entre madres fumadoras y no
fumadoras). ¿Cual seŕıa su conclusión?
: , 43
Intervalos de Confianza
Ejercicios Propuestos
3. Se encontró que la desviación estándar muestral de concentración de
sodio en la sangre entera (mEq/l) para m = 20 anguilas marinas fue
Sx = 40.5, mientras que la desviación estándar muestral de concen-
tración para n = 20 anguilas de agua dulce fue Sy = 32.1 (“Ionic
composition of the plasma and whole blood of marine and freshwater
eels”, Comp. Biochemistry and Physiology, 1974, pp. 541-544). Si se
supone normalidad de las dos distribuciones de concentración, con un
nivel de confianza del 90 % determine si son iguales las varianzas en
la concentración.
: , 44

Otros materiales