Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
EAS201a - Inferencia Estad́ıstica Escuela de Administración Material de Apoyo Ayudant́ıa 7 : , 1 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV. I Intervalos para dos muestras. I Ejercicios Propuestos : , 2 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV I Intervalos para dos muestras I Ejercicios Propuestos : , 3 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV Recordatorio Sea θ̂ el EMV del parámetro θ construido con (Y1,Y2, . . . ,Yn) m. a. de una población f (Y ; θ). Si el recorrido de los Yi no depende del parámetro θ (condición de regu- laridad), y sea g(θ) una función continua en θ, entonces g ( θ̂ ) es el EMV de g(θ) cuya distribución asintótica está dada por g ( θ̂ ) ∼ Normal ( g(θ),CCR(θ) · ( ∂g(θ) ∂θ )2) , donde CCR(θ) es la Cota de Crámer-Rao vista en la clase 4. : , 4 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV Un intervalo aproximado de (1 − α) · 100 % de confianza para g(θ) está dado por g(θ̂)− z1−α 2 √√√√CCR(θ̂) ·( ∂̂g(θ) ∂θ )2 , g ( θ̂ ) + z1−α 2 √√√√CCR(θ̂) ·( ∂̂g(θ) ∂θ )2 : , 5 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV Ejercicio 1 I Intervalos para dos muestras I Ejercicios Propuestos : , 6 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Ejercicio 1 Sea Y1,Y2, . . . ,Yn una muestra aleatoria simple de tamaño n de una dis- tribución de Poisson con media λ. Encuentre un intervalo de confianza de 95 % para g(λ) = e−λ = Pr(Y = 0). : , 7 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 1 Recuerde que el estimador de máxima verosimilitud de λ a partir de una m. a. Y1,Y2, . . . ,Yn está dado por λ̂ = Y n. La función g(λ) es continua, por lo tanto podemos aplicar directamente el intervalo de confianza para funciones de EMV. En la ayudant́ıa 5 (también clase 5) se identificó la CCR(λ) para el modelo de Poisson, y la cantidad ∂g(λ)∂λ se puede determinar de manera directa CCR(λ) = λ n , ∂g(λ) ∂λ = ∂e−λ ∂λ = −e−λ. : , 8 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 1 Aśı, z0.975 = 1.96, g ( λ̂ ) = e−Y n , CCR ( λ̂ ) = Y n n , ∂̂g(λ) ∂λ = −e−Y n . Finalmente el intervalo de 95 % confianza para e−λ está dado por: eY n − 1.96 √ Y n n e−2Y n , eY n + 1.96 √ Y n n e−2Y n . : , 9 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV Ejercicio 2 I Intervalos para dos muestras I Ejercicios Propuestos : , 10 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Ejercicio 2 Una importante empresa de estudios públicos está interesado en conocer la opinión de los ciudadanos Chilenos sobre la posibilidad de que la se- lección Chilena de fútbol clasifique al mundial de Rusia 2018, para esto desarrolla una aplicación digital donde consulta de manera directa la opi- nión (SI o NO) de que la selección Chilena de fútbol clasifique al mundial. Ellos cuentan con una base de datos de contactabilidad y env́ıan la con- sulta a 1000 ciudadanos, de los cuales 357 opinan SI y 643 opinan que NO. Uno de los analistas está interesado en construir un intervalo de confianza del 95 % aproximado para la variabilidad (varianza) de la respuesta de los encuestados (sobre la afirmación positiva). Entregue el intervalo de confianza para ayudar al analista. Suponga que los datos son i.i.d. : , 11 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2 Defina la siguiente variable aleatoria Yi = { 1, el individuo i opina que Chile SI ira al mundial de Rusia 2018, 0, el individuo i opina que Chile NO ira al mundial de Rusia 2018. Note que contamos con {Y1,Y2, . . . ,Y1000} una m. a. de la población Y ∼ Bernoulli(θ). Para esta población la media y la varianza están dados por: E(Y ) = θ, Var(Y ) = θ(1− θ). : , 12 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2 Dado que el analista está interesado en un intervalo de confianza para la variabilidad (varianza), vamos a definir g(θ) por g(θ) = θ(1− θ). Para construir el intervalo de confianza para g(θ) necesitamos la derivada y la cota de Crámer-Rao. ∂g(θ) ∂θ = d dθ [ θ(1− θ) ] = d dθ [ θ − θ2 ] = 1− 2θ : , 13 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2 De los apuntes de la clase 5 podemos obtener la cota de Crámer-Rao para una población Bernoulli, que es CCR(θ) = θ(1− θ) n . Para la construcción del intervalo de confianza necesitamos el EMV de θ que está dado por θ̂ = ∑n i=1 Yi n = Y n. : , 14 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2 Según los datos observados θ̂ = y1000 = 0.357 entonces CCR ( θ̂ ) = θ̂ ( 1− θ̂ ) n = 0.357(1− 0.357) 1000 = 0.0002296 y ∂̂g(θ) ∂θ = 1− 2θ̂ = 1− 2 · 0.357 = 0.286 : , 15 Intervalos de Confianza Intervalos Asintóticos para funciones de EMV: Solución Ejercicio 2 Finalmente g ( θ̂ ) = 0.357(1 − 0.357) = 0.2296. Entonces el intervalos de confianza para g(θ) está dado por IC(g(θ); 95 %) = ( 0.2296− 1.96 √ 0.00023 · (0.286)2, 0.2296 + 1.96 √ 0.00023 · (0.286)2 ) = (0.2211, 0.2381). : , 16 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV I Intervalos para dos muestras I Ejercicios Propuestos : , 17 Intervalos de Confianza Intervalos para dos muestras Este tópico del curso considera que se dispone de dos muestras aleatorias de dos poblaciones. Usualmente aqúı estamos interesados en contrastar: I La diferencia de las medias de las poblaciones: • En el caso de muestras pareadas. • En el caso de muestras independientes. I El cociente entre las varianzas de las dos poblaciones: • En el caso de muestras independientes : , 18 Intervalos de Confianza Intervalos para dos muestras La interpretación estará dada por los valores contenidos en los intervalos de confianza. A continuación un resumen de los intervalos para dos muestras: Parámetro Población IC Bilateral µX − µY X ∼ N(µX , σ2x ), σx conocido, ( x̄ − ȳ ∓ z1−α/2 √ σ2x n + σ2y m ) Y ∼ N(µY , σ2y ), σy conocido µX − µY X ∼ N(µX , σ2x ), σx desconocido, ( x̄ − ȳ ∓ tg,1−α/2 √ S2x n + S2y m ) Y ∼ N(µY , σ2y ), σy desconocido g = ∣∣∣∣∣∣ ([ S2x /n ] + [ S2y /m ])2 (S2x /n) 2 n−1 + (S2y /m) 2 m−1 ∣∣∣∣∣∣ µX − µY X ∼ N(µX , σ2x ), σx = σy = σ conocido, ( x̄ − ȳ ∓ z1−α/2σ √ 1 n + 1 m ) Y ∼ N(µY , σ2y ) : , 19 Intervalos de Confianza Intervalos para dos muestras Sigue Parámetro Población IC Bilateral µX − µY X ∼ N(µX , σ2x ), σx = σy = σ, ( x̄ − ȳ ∓ z1−α/2Sp √ 1 n + 1 m ) Y ∼ N(µY , σ2y ), σ desconocido S 2 p = (n−1)S2X +(m−1)S 2 Y m+n−2 µX − µY X ∼ fX (·), E(X ) = µX , Var(X ) des, ( x̄ − ȳ ∓ z1−α/2 √ S2x n + S2y m ) Y ∼ fY (·), E(Y ) = µY , Var(Y ) des n, m grandes θ1 − θ2 X ∼ f (x ; θ1), ( θ̂1 − θ̂2 ∓ z1−α/2 √ CCR ( θ̂1 ) + CCR ( θ̂2 )) Y ∼ f (y ; θ1) θ̂1 y θ̂2 son EMV : , 20 Intervalos de Confianza Intervalos para dos muestras Sigue Parámetro Población IC Bilateral σ2X σ2 Y X ∼ N(µX , σ2x ), µX desconocido, ( S2x S2y 1 Fn−1,m−1,1−α/2 ; S2x S2y 1 Fn−1,m−1,α/2 ) Y ∼ N(µY , σ2y ), µY desconocido µX − µY ( X Y ) ∼ N (( µX µY ) , ( σ2X ρσXσY ρσXσY σ 2 Y )) ( D ∓ tn−1,1−α/2 SD√ n ) Datos pareados ,Di = Xi − Yi D = 1n ∑n i=1 Di σ2D = σ 2 X + σ 2 Y − 2ρσXσY S 2 D = 1 n−1 ∑n i=1(Di − D) 2 σx , σy y ρ desconocidos : , 21 Intervalos de Confianza Intervalos para dos muestras Finalmente Parámetro Población IC Bilateral ρ ( X Y ) ∼ N (( µX µY ) , ( σ2X ρσXσY ρσXσY σ 2 Y )) ( e2a−1 e2a+1 , e 2b−1 e2b+1 ) ρ = E(X−E(X ))(Y−E(Y ))√ E(X−E(X ))2 √ E(Y−E(Y ))2 = σxy σxσy a = 12 ln ( 1+ρ̂ 1−ρ̂ − z1−α/2√ 1 n−2 ) ρ̂ = ∑ (Xi−X̄ )(Yi−Ȳ ) n−1√∑ (Xi−X̄ )2 n−1 √∑ (Yi−Ȳ )2 n−1 b = 12 ln ( 1+ρ̂ 1−ρ̂ + z1−α/2 √ 1 n−2 ) σx , σy y ρ desconocidos : , 22 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV I Intervalos para dos muestras Ejercicio 1 I Ejercicios Propuestos : , 23 Intervalos de Confianza Intervalos para dos muestras: Ejercicio 1 El śındrome del comportamiento anterior crónico es un mal que se mani- fiesta por un dolor en el muslo debido al ejercicio. Inflamación y daño al nervio y a la función muscular se suman al dolor, que disminuye con reposo. Susan Beckham y colaboradores (expertos en medicina deportiva) realiza- ron un experimento que inclúıa a 10 corredores y a 10 ciclistas saludables para determinar si las mediciones de la presión sobre el comportamiento del músculo anterior difieren en los corredores y en los ciclistas. En la siguiente tabla se resumen los datos (presión ejercida sobre el comportamiento se mide en miĺımetros de mercurio). Corredores Ciclistas Estado Media Desviación Media Desviación Reposo 14.5 3.92 11.1 3.98 80 % de consumo máx O2 12.2 3.49 11.5 4.95 : , 24 Intervalos de Confianza Intervalos para dos muestras: Ejercicio 1 a) Construya un intervalo de confianza de 95 % para la diferencia en las presiones medias sobre el comportamiento entre los corredores y los ciclistas que están en reposo. Asuma varianzas iguales. b) Construya un intervalo de confianza de 95 % para la diferencia en las presiones medias sobre el comportamiento entre los corredores y los ciclistas que hacen ejercicio con un 80 % de consumo máximo de O2. Asuma varianzas distintas. c) Analice los intervalos a) y b). ¿Cómo interpretaŕıa usted los resultados que obtuvo?. : , 25 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 1 a) Aqúı debemos considerar varianzas iguales pero desconocidas y tamaño muestral pequeño, es decir, un intervalo t. Consideremos a X como la presión de los corredores en reposo y a Y como la presión de los ciclistas en reposo. Dado los tamaños muestrales y las desviaciones podemos calcular el S2p . x = 14.5 y = 11.1 n + m − 2 = 18 t18(0.975) = 2.1009 S2p = (n − 1)S2x + (m − 1)S2y n + m − 2 = 9 · (3.92)2 + 9 · (3.98)2 18 = 15.60 : , 26 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 1 Aśı el intervalo de confianza será IC(µX − µY ; 95 %) = ( x − y − tn+m−2,0.975 Sp √ 1 n + 1 m , x − y + tn+m−2,0.975Sp √ 1 n + 1 m ) = ( 3.4− 2.1009 · √ 15.60 √ 1 10 + 1 10 , 3.4 + 2.1009 · √ 15.60 √ 1 10 + 1 10 ) = (−0.311, 7.111) : , 27 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 1 b) En este caso las varianzas son distintas y desconocidas (con tamaño muestral pequeño), por lo tanto debemos considerar un intervalo t pero aproximando los grados de libertad. Consideremos a X como la presión de los corredores con 80 % de consumo máximo y a Y como la presión de los ciclistas con 80 % de consumo máximo. Con los antecedentes podemos estimar los grados de libertad g x = 12.2 y = 11.5 S2x = 3.49 2 = 12.18 S2y = 4.95 2 = 24.50 t16(0.975) = 2.120 g = ∣∣∣∣∣∣ ([ S2x /n ] + [ S2y /m ])2 (S2x /n) 2 n−1 + (S2y /m) 2 m−1 ∣∣∣∣∣∣ = ∣∣∣∣∣ ([ 12.18/10 ] + [ 24.50/10 ])2 (12.18/10)2 9 + (24.50/10)2 9 ∣∣∣∣∣ = 16.175 ≈ 16 : , 28 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 1 Finalmente el intervalo de confianza será IC(µX − µY ; 95 %) = ( x − y − tg,1−α/2 √ S2x n + S2y m , x − y + tg,1−α/2 √ S2x n + S2y m ) = ( 0.7− 2.120 √ 12.18 10 + 24.50 10 , 0.7 + 2.120 √ 12.18 10 + 24.50 10 ) = (−3.36, 4.76) : , 29 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 1 c) Notemos que cuando realizamos hacer comparaciones sobre la media, el interés está puesto sobre el valor cero, y en ambos intervalos el cero está contenido, por lo tanto para ambos intervalos concluimos con un nivel de confianza del 95 % que no existe diferencia entre los ciclistas y corredores en el comportamiento del músculo al aplicar la presión. : , 30 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV I Intervalos para dos muestras Ejercicio 2 I Ejercicios Propuestos : , 31 Intervalos de Confianza Intervalos para dos muestras: Ejercicio 2 Una fábrica trabaja con dos tipos de máquinas, A y B. El costo semanal X de la reparación de las máquinas A tiene una distribución normal con media µX y varianza σ 2. El costo semanal Y de reparación de las máquinas tipo B también tiene distribución normal con media µY y varianza 3σ 2. El costo semanal esperado por la fábrica es de 2µX + µY . Si tenemos una muestra aleatoria X1,X2, . . . ,Xn de costos para las máquinas del tipo A y una muestra aleatoria independiente Y1,Y2, . . . ,Ym de costos para las máquinas tipo B, describa cómo construiŕıa un intervalo de confianza de 100(1− α) % para 2µX + µY si a) Se conoce el valor de σ2. b) Se desconoce el valor de σ2. : , 32 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 a) El parámetro que estamos interesados en evaluar es 2µX + µY , por lo tanto usamos los siguientes antecedentes: X ∼ N(µX , σ2), Y ∼ N(µY , 3σ2) Entonces, ⇒ X n ∼ N ( µX , σ2 n ) , ⇒ 2X n ∼ N ( 2µX , 4σ2 n ) ⇒ Ym ∼ N (µY , 3σ2 m ) . además sabemos que las muestras son independientes, por lo tanto X n ⊥⊥ Ym. : , 33 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 De esta forma 2X n + Ym ∼ N ( 2µX + µY , 4σ2 n + 3σ2 m ) , aśı, una función pivote es considerar la cantidad Q = 2X n + Ym − (2µX + µY ) σ √ 4 n + 3 m ∼ N (0, 1) . : , 34 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 Ahora usamos la relación entre los percentiles de la distribución normal y la confianza 1− α = Pr −z1−α/2 ≤ 2X n + Ym − (2µX + µY ) σ √ 4 n + 3 m ≤ z1−α/2 = Pr ( −z1−α/2σ √ 4 n + 3 m ≤ 2X n + Ym − (2µX + µY ) ≤ z1−α/2σ √ 4 n + 3 m ) = Pr ( 2X n + Ym − z1−α/2σ √ 4 n + 3 m ≤ 2µX + µY ≤ 2X n + Ym + z1−α/2σ √ 4 n + 3 m ) : , 35 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 Finalmente IC(2µX + µY , 1− α) = ( 2X n + Y m − z1−α/2σ √ 4 n + 3 m , 2X n + Y m + z1−α/2σ √ 4 n + 3 m ) : , 36 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 b) El ejercicio es similar al anterior, sin embargo, aqúı no conocemos el parámetro σ2. Dado que como X ∼ N(µX , σ2) y Y ∼ N(µY , 3σ2) entonces tenemos las siguientes relaciones (n − 1) S 2 x σ2 ∼ χ2n−1, (m − 1) S2y 3σ2 ∼ χ2m−1, aśı, podemos sumas ambas cantidades (n − 1)S 2 x σ2 + (m − 1) S2y 3σ2 ∼ χ2n+m−2 : , 37 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 Luego, (n − 1)S 2 x σ2 + (m − 1) S2y 3σ2 = 1 σ2 [ (n − 1)S2x + (m − 1) S2y 3 ] = (n + m − 2) σ2 [ (n − 1)S2x + (m − 1)S2y /3 n + m − 2 ] = (n + m − 2) σ2 S2p Por lo tanto, (n + m − 2) σ2 S2p ∼ χ2n+m−2 donde S2p = (n − 1)S2x + (m − 1)S2y /3 n + m − 2 . : , 38 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 Para construir el pivote para varianza desconocida utilizamos la t- Student, que se deriva de la siguiente relación Q = Z√ χ2ν ν ∼ tν , donde Z ∼ N(0, 1) y ν son los grados de libertad de la chi cuadrado. Entonces Q = Z√ χ2ν ν = 2Xn+Ym−(2µX +µY ) σ √ 4 n + 3 m√ (n + m − 2) (n + m − 2) S2p σ2 = 2Xn+Ym−(2µX +µY ) σ √ 4 n + 3 m Sp σ = 2X n + Y m − (2µX + µY ) Sp √ 4 n + 3 m : , 39 Intervalos de Confianza Intervalos para dos muestras: Solución Ejercicio 2 El pivote queda definido por Q = 2X n + Y m − (2µX + µY ) Sp √ 4 n + 3 m ∼ tn+m−2, despejando de la misma manera de lo realizado en a), el intervalo para 2µX + µY de nivel (1− α) % está dado por IC(2µX + µY , 1− α) = ( 2X n + Y m ∓tn+m−2,1−α/2Sp √ 4 n + 3 m ) donde S2p = (n−1)S2x +(m−1)S 2 y /3 n+m−2 . : , 40 Intervalos de Confianza Tópicos de la Ayudant́ıa I Intervalos Asintóticos para funciones de EMV I Intervalos para dos muestras I Ejercicios Propuestos : , 41 Intervalos de Confianza Ejercicios Propuestos 1. Un ingeniero en computación está investigando la utilidad de dos lenguajes de diseño para mejorar las tareas de programación. Se pide a 12 programadores expertos, familiarizados con los dos lenguajes, que codifiquen una función estándar en ambos lenguajes, anotando el tiempo, en minutos, que requieren para hacer esta tarea. Los datos obtenidos son los siguientes: Programador Leng A Leng B Programador Leng A Leng B 1 17 18 7 16 10 2 16 14 8 14 13 3 21 19 9 21 19 4 14 11 10 23 24 5 18 23 11 13 15 6 24 21 12 18 20 ¿Es alguno de los dos programas más óptimo en cuanto al tiempo? : , 42 Intervalos de Confianza Ejercicios Propuestos 2. Un relevante art́ıculo del área de la salud publicado en Amer. J. Public Health (año 1983) reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de tabaco y de madres que no consuḿıan. Fumadora No Fumadora Tamaño muestral 1246 11178 Número de disfunciones importantes 42 294 p̂ 0.0337 0.00263 Reporte el intervalo de confianza al 95 % para la diferencia de pro- porciones de disfunciones importantes (entre madres fumadoras y no fumadoras). ¿Cual seŕıa su conclusión? : , 43 Intervalos de Confianza Ejercicios Propuestos 3. Se encontró que la desviación estándar muestral de concentración de sodio en la sangre entera (mEq/l) para m = 20 anguilas marinas fue Sx = 40.5, mientras que la desviación estándar muestral de concen- tración para n = 20 anguilas de agua dulce fue Sy = 32.1 (“Ionic composition of the plasma and whole blood of marine and freshwater eels”, Comp. Biochemistry and Physiology, 1974, pp. 541-544). Si se supone normalidad de las dos distribuciones de concentración, con un nivel de confianza del 90 % determine si son iguales las varianzas en la concentración. : , 44
Compartir