Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
INFERENCIA ESTADISTICA – PROBLEMAS DE ESTIMACION La INFERENCIA ESTADISTICA consiste en aquellos métodos con los cuales se pueden realizar inferencias o generalizaciones acerca de una población utilizando datos muestrales INFERENCIA ESTADISTICA ESTIMACIÓN PRUEBA DE HIPOTESIS EJEMPLOS: 1)Un candidato para un puesto público desea estimar la proporción real de votantes que lo apoyan ¿Cómo? Mediante la obtención de una muestra al azar de 100 votantes por ejemplo. La fracción de ellos que lo apoya puede usarse como una estimación de la proporción total de votantes. Este probablemente pertenece al área de ESTIMACIÓN EL GRADO DE PRECISION DE LA ESTIMACIÓN PERMITE ESTABLECER UN CONOCIMIENTO DE LA DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN (P) 1) Un ama de casa está interesada en determinar si el detergente para pisos de la marca A es más resistente al desgaste que el de la marca B. Podría suponer que: “LA MARCA A ES MEJOR QUE LA B” y después de realizar las pruebas apropiadas, aceptar o rechazar esta hipótesis. En este ejemplo NO se intenta estimar un parámetro SINO: TOMAR UNA DECISION CORRECTA RESPECTO A LA HIPOTESIS PREESTABLECIDA Una vez más DEPENDE de la teoría del muestreo para obtener alguna medida de precisión para la decisión que se tome. ESTIMACIÓN MÉTODOS CLÁSICOS ESTIMACIÓN PUNTUAL Una estimación puntual de un parámetro es simplemente una selección UNICA del valor del parámetro. ESTIMACIÓN POR INTERVALO Reconociendo a incertidumbre de que la muestra no es la población estimaremos un intervalo dentro del cual se esperaría encontrar el parámetro. NOTACION: Θ (Tita minúscula) Parámetro a estimar 𝚯 (Tita mayúscula y el “^” indica estimación) Estadístico que se usa para obtener una estimación puntual del parámetro. Recibe el nombre de ESTIMADOR PUNTUAL 𝛉 Estimación puntual de θ. Es un valor de 𝚯 para una muestra seleccionada EJEMPLO: Para estimar el parámetro µ θ se usa el estimador X Θ Para una muestra x1, x2, …, xn se calcula: X = x1+ x2 + ….+ xn 𝑛 𝛉 X será una estimación de µ PARAMETROS ESTIMADOR ESTIMACION Θ Θ (x1, ….. , xn) Var. Aleatoria 𝛉 (x1, ….., xn) E (X) ó (µX) Media Muestral Var (x) ó (X) S 2 Varianza Muestral s2= 𝐯𝐚𝐫 (𝒙) 𝟐 E (X) ó (µX) 𝐗 Mediana Muestral 𝐱 P P= 𝑻 𝒏 proporción muestral p = 𝐍° é𝐱𝐢𝐭𝐨𝐬 𝐝𝐞 𝐥𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚 𝐧 Números estiman Números PROPIEDADES DE UN BUEN ESTIMADOR (que influyen en la selección de un estimador sobre otro) INSESGAMIENTO VARIANZA MINIMA ESTIMADORES INSESGADOS Sería deseable que el estimador Θ tuviera un valor esperado IGUAL al parámetro a estimar Ej: µ : parámetro a estimar µ: esperanza de la población DEF: Θ es un estimador INSESGADO DE Θ sii E( Θ) = Θ Si un estimador no es insesgado se conoce como sesgado Θ - E( Θ)= SESGO EJEMPLOS DE ESTIMADORES INSESGADOS para E (X) encualquier población para µ X de población N (µx , x 2) 𝒫 para p de una población Bernoulli con parámetro p S2 para Var (x) en cualquier población S2 para 2en una población N (µ , 2) S2 para µ una población Poisson para µ una población Poisson VARIANZA DE UN ESTIMADOR PUNTUAL Si Θ 1 y Θ 2 son dos estimadores insesgados del mismo parámetro poblacional Θ, se elegirá al estimador cuya distribución muestral tuviera la varianza más pequeña Si Var( Θ1 ) < Var( Θ2) Se afirma que “ Θ1 es un estimador más eficiente de Θ que Θ2” DEF: Si se consideran TODOS los posibles estimadores INSESGADOS de algún parámetro Θ, aquel con la varianza más pequeña recibe el nombre de “ESTIMADOR MAS EFICIENTE DE Θ” Estimadores de Θ Θ1, Θ2 y Θ3 •INSESGADOS •SESGADOS ¿Cuál estimador de Θ seleccionaría? Var (Θ1) < Var (Θ1) Para poblaciones normales N( µ, ) y 𝐗 son estimadores insesgados de la media poblacional µ Para VAR ( ) < VAR ( 𝐗) Luego aunque ambas estimaciones y 𝐗 serán iguales, en PROMEDIO a la media poblacional µ, probablemente está mas CERCA del valor de µ para una muestra dada y entonces es más eficiente que 𝐗 ESTIMACIÓN POR INTERVALOS DE CONFIANZA Una estimación puntual, con frecuencia es inadecuada como una estimación de un parámetro, ya que raramente coincide con este. Un tipo de estimación alternativo es una estimación por intervalo. Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma L ≤ θ ≤ U, Donde L es el límite inferior y U es el límite superior. L y U dependen del valor de 𝛉 del estadístico Θ para una muestra en particular y también de la distribución muestral de Θ. Esto es L = L( 𝛉 , Θ) y U = U ( 𝛉 , Θ) Ya que muestras distintas generalmente dan valores distintos de Θ y, por lo tanto de L y U, a partir de la distribución muestral de Θ, será posible determinar L y U tales que P(L( Θ) ≤ θ ≤ U ( Θ)) sea igual a cualquier valor fraccionario positivo menor que 1, que se desee especificar. Si, por ejemplo P(L( 𝜣) ≤ θ ≤ U ( 𝜣)) = 1 - para 0 < < 1, entonces hay una probabilidad dada 1 - de seleccionar una muestra que produzca un intervalo que contenga a θ. El intervalo L ≤ θ ≤ U que se calcula a partir de la muestra seleccionada, se denomina entonces INTERVALO DE CONFIANZA del (1-) 100% La fracción de 1- recibe el nombre de COEFICIENTE DE CONFIANZA o GRADO DE CONFIANZA. L y U se llaman LIMITES DE CONFIANZA INFERIOR Y SUPERIOR respectivamente. Por ejemplo, si el coeficiente de confianza es 0.95 entonces a largo plazo puede esperarse que el 95% de los límites de confianza calculados incluyan el verdadero valor de θ. Población X ˜ N ( µ,2) MEDIA µ DESCONOCIDA, VARIANZA 2 CONOCIDA X1, X2, … Xn muestra aleatoria de tamaño n de esa población. La media muestral es un estimador puntual razonable de la media desconocida µ Distribución muestral de ˜ N ( µ, 2 n ) Luego Z = x−µ 𝑛 ˜ N (0, 1) Normal Estándar INTERVALO DE CONFANZA PARA LA MEDIA, VARIANZA CONOCIDA De la figura se observa que: P( -Z /2 ≤ Z ≤ Z /2) = 1 - De modo que P( -Z /2 ≤ x−µ 𝑛 ≤ Z /2) = 1 - La expresión puede escribirse como P ( - Z /2 𝒏 ≤ µ ≤ + Z /2 𝒏 ) = 1 - Si es la media muestral de una muestra aleatoria de tamaño n de una población normal con varianza conocida 2 un intervalo de confianza del 100 ( 1 - )% para µ, está dado por: - Z /2 𝒏 ≤ µ ≤ + Z /2 𝒏 L ≤ µ ≤ U Donde Z /2 es el punto de la distribución normal estándar que deja a la derecha un área de /2 DEFINICION: Walpole (capítulo Estimación) dice: “Muestras diferentes darán valores diferentes de y por lo tanto, producirán diferentes estimaciones del parámetro como se observa en la figura siguiente. Los puntos circulares al centro de cada intervalo indican la posición de la estimación puntual para cada muestra aleatoria. Se ve que la mayoría de los intervalos contiene , pero no en todos los casos. Note que todos los intervalos son del mismo ancho, pues esto solo depende de la elección de z/2 un vez que se determina . Cuanto más grande sea el valor z/2 que elijamos, más anchos haremos los intervalos, y podremos tener más confianza en que la muestra particular que se seleccione producirá un intervalo que contenga al parámetro desconocido .” Estimaciones por intervalos de para muestras diferentes Ejemplo (Berenson Levine- capítulo Estimación).- Supongamos que en el proceso del llenado de cereales, que se desconocía la media poblacional , pero que se conocía la desviación estándar real de la población y que era 15 gramos. En primer lugar estimamos puntualmente a . Para ello se toma una muestra de n=25 cajas que se han llenado un día determinado y usamos a como estimador puntual. 1- /2 Z/2 0,80 0,200 0,100 1,282 0,85 0,150 0,075 1,440 0,90 0,100 0,050 1,645 0,95 0,050 0,025 1,960 0,98 0,025 0,013 2,240 0,99 0,010 0,005 2,576 Puesto que la media poblacional (igual a 368) también está incluida dentro del intervalo, se concluye que esta afirmación sobre es correcta. Ahora, antes de pensar que siempre habráafirmaciones correctas sobre a partir de la media muestral , estimamos un tercer ejemplo hipotético para una muestra que arrojó una media muestral igual a 360 gramos. El intervalo desarrollado aquí sería 360 ± (1,96)(15)/ 25 o 360 ± 5,88 . En este caso el estimado de es 354,12 ≤ ≤ 365,88 Obsérvese que este estimado no es una afirmación correcta puesto que no está incluida en el intervalo desarrollado a partir de esta muestra. Por lo tanto, aquí se presenta un dilema. Para algunas muestras la estimación por intervalo de será correcta, mientras que para otras no lo será. Además en la práctica sólo se selecciona una muestra y, puesto que no se conoce la media real de la población, no se puede determinar si esta afirmación particular es correcta. Sin embargo, por el estudio de la distribución muestral de se sabe que el 95% de las medias muestrales se encuentran entre 362,12 y 373, 88 gramos ( ± z/2 ; 𝜎 𝑛 ). Por lo tanto, el 95% de TODAS las medias muestrales incluirán la media poblacional dentro del intervalo desarrollado. En esto nos basamos al desarrollar el IC para en la página anterior. En general se puede interpretar que una estimación por intervalo de confianza del 95% significa que se tomaron TODAS las muestras posibles del mismo tamaño n, de las cuales el 95% incluiría la media real de la población en algún lugar dentro del intervalo alrededor de las medias muestrales, mientras que solo el 5% de ellas no lo harían. De hecho, aunque solo se selecciona una muestra y se desconoce µ , nunca se sabe con seguridad si el intervalo específico obtenido incluye la media poblacional. No obstante se puede afirmar que se tiene una confianza del 95% de incluir la media de la población dentro del intervalo. En algunos casos se desearía un grado de seguridad más alto (como pudiera ser el 99%) de incluir la media de la población en el intervalo. En otros casos se podría aceptar una seguridad menor (un 90%) de estimar correctamente la media de la población. Estimaciones por intervalos de confianza para 5 muestras diferentes de tamaño n=25 tomadas de una población con µx = 368 x = 15 MUESTRAS GRANDES (VARIANZA 2 CONOCIDA) El intervalo de confianza (1) proporciona buenos resultados para muestras de tamaño n ≥30, sin importar la forma que tenga la población (población desconocida o no normal). JUSTIFICACION x−µ 𝑛 ˜ N (0, 1) APROXIMADAMENTE n GRANDE (Teor.Límite Central) Además de los intervalos de confianza estudiados que son los intervalos “BILATERALES” es posible determinar también intervalos de confianza “UNILATERALES” para los parámetros. Un I.C. Unilateral Inferior para un parámetro θ, estimará que θ es mayor o igual que algún límite inferior L ≤ θ ó [L, ∞] Se obtiene de (1) haciendo U = + ∞ y reemplazando Z /2 por Z - Z 𝒏 ≤ µ I. C. Unilateral Inferior del 100 ( 1- ) % para µ Un I.C. Unilateral Superior µ ≤ + Z 𝒏 I. C. Unilateral Superior del 100 ( 1- ) % para µ La CONFIANZA se mide con una probabilidad que denotamos con 1- ( probabilidad de seleccionar una muestra que produzca un intervalo que contenga en su interior a ). 1- = 0,90 (un error de cada 10) = 0,95 (5 errores de cada 100) = 0,99 (un error de cada 100) = 0,999 (un error de cada 1000) Mientras más anchos son los intervalos, podremos tener más confianza de que la muestra particular que se seleccione producirá un intervalo que contenga al parámetro desconocido .” La PRECISION se mide por la longitud (ancho) l del intervalo, para el caso analizado, l = + z /2 - ( - z /2 𝝈 𝒏 ) = 2 z /2 𝝈 𝒏 Mientras más grande sea el intervalo, será mayor la longitud y menor la precisión. Obviamente un intervalo más preciso será el que tenga la menor longitud. En el ejemplo del IC del 95% para el peso medio de las cajas de cereal, obtenido para una muestra de tamaño n = 25 es l = 11,76 grs. Si 1- (la confianza) aumenta , z/2 (número de la tabla) aumenta, luego ¡¡CONFIANZA Y PRECISION SON COMPETITIVOS!! n también controla la precisión a través de 𝑛 Diseño a priori: Antes de sacar la muestra y hacer todo el análisis, si el cliente quiere el 95% de confianza y una precisión l determinada, entonces el tamaño de muestra lo determinamos haciendo ⇒ 𝑛 = 2∗𝑧𝛼 2 ∗ 𝑙 𝑛 = 2∗𝑧𝛼 2 ∗ 𝑙 2 En el ejemplo de las cajas de cereal, si el cliente quiere el 95% de confianza y una precisión dada por l = 5, 𝑛 = 2 ∗ 1,96 ∗ 15 5 2 = 138,2976 = 139 Se necesita una muestra de tamaño139 para tener la precisión pedida. Conclusión: I es directamente proporcional a 𝜎 𝑛 inversamente proporcional a 𝑛 y directamente proporcional a 𝑧𝛼 2 ERROR EN LA ESTIMACIÓN Tamaño error e = |µ- | Si se utiliza como una estimación de µ podemos tener una confianza del (1-) 100% de que l error no excederá de z /2 𝝈 𝒏 . ¿Qué tan grande debe ser la muestra para asegurar que el error al estimar µ será menor que una cantidad específica e? Debemos elegir “n” de modo que de z /2 𝝈 𝒏 = e Resolviendo la ecuación para n (1) 𝑛 = 𝑧𝛼 2 𝑒 2 redondear al entero siguiente cuando se tiene n valor fraccionario. Si se usa como una estimación de µ, podemos tener una confianza del (1-) 100% que el error no excederá una cantidad específica e cuando el tamaño de la muestra sea (1) ES TI M A C IÓ N D E µ = E (X ) 2 = VAR (X) ES CONOCIDA a) X1, X2, … Xn muestra aleatoria de tamaño n de esa población de N ( µ , 2) µ = E(X) 2 = VAR (X) I.C. para µ ± Z /2 𝒏 para cualquier n RESULTADO EXACTO b) X1, X2, … Xn muestra aleatoria de cualquier población (no Normal) b1) n grande ± Z /2 𝒏 resultado APROXIMADO justificado por el TLC b2) n chico ? el TLC no se puede usar 2 = VAR (X) NO ES CONOCIDA a) X1, X2, … Xn muestra aleatoria de tamaño n de esa población de N ( µ , 2) I.C. para µ ± t /2; n-1 S 𝒏 para cualquier n RESULTADO EXACTO b) X1, X2, … Xn muestra aleatoria de cualquier población (desconocida o no Normal) b1) n grande ± Z /2 S 𝒏 resultado APROXIMADO justificado por el TLC b2) n chico ? NO SE CUMPLEN LAS HIPOTESIS DEL TLC (Por ejemplo la varianza no es finita) a) X1, X2, … Xn muestra aleatoria de esa población a1) n grande ? a2) n chico ? DEFINICION: Si 𝑝 es la proporción de éxitos de una muestra de tamaño n de una población Bernoulli, entonces un intervalo de confianza del 100 (1 - ) % para la proporción p (de éxitos) de la población es 𝑝 - 𝑧 2 𝑝(1− 𝑝) 𝑛 ≤ p ≤ 𝑝 + 𝑧 2 𝑝(1− 𝑝) 𝑛 𝑧 2 punto de la Distribución Normal estándar que deja un área igual a 2 a la derecha SUGERENCIA: Para una aproximación apropiada, requerir que n p ≥ 5 y también n ( 1 - p ) ≥ 5 INTERVALO DE CONFIANZA PARA UN PROPORCION p Queremos construir un IC para una proporción. La población puede representarse por una v.a. Bernoulli X B(p). Se toma una muestra aleatoria X1, X2, … Xn de esa población . Entonces la proporción muestral 𝒫s = T 𝑛 = 𝑁° 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 = Es un “estimador puntual” de la proporción p ¿por qué?. La distribución muestral de 𝒫 es aproximadamente normal si p no está muy próximo a 0 o 1, y si n es relativamente grande. Por lo tanto Z = 𝒫s−𝑝 p (1−p) 𝑛 ˜ N (0, 1) APROXIMADAMENTE Recordar E(𝒫s) = p Var (𝒫s) = p(1−p) n error estándar de 𝒫s p (1−p) 𝑛 Para construir un IC para p, nótese que P(- 𝑧 2 ≤ Z ≤ +𝑧 2 ) = 1 - P(𝒫s - 𝑧 2 p(1−p) 𝑛 ≤ p ≤ p + 𝑧 2 p(1−p) 𝑛 = 1 - error estándar de 𝒫 (estimador) depende de p ESTIMACION DE LA VARIANZA OBJETIVO: Estimar un intervalo de confianza para la varianza 2 (desconocida) de una población Normal.Si X1, X2, … Xn es una muestra aleatoria de tamaño n tomada de esa población NORMAL y S2 es la varianza muestral, entonces S2 es un estimador puntual razonable de 2 ¿Por qué? Usamos S2 para encontrar un IC para 2. Si la población es NORMAL vimos que 𝜒 2 = (𝑛−1)𝑆2 𝜎2 Tiene Distribución CHI-CUADRADOcon n-1 grados de libertad P (𝜒 2 1-/2; n-1 ≤ 𝜒 2 ≤ 𝜒 2 /2; n-1 ) = 1- P (𝜒 2 1-/2; n-1 ≤ (𝑛−1)𝑆2 𝜎2 ≤ 𝜒 2 /2; n-1 ) = 1- P ( (𝑛−1)𝑆2 𝜒 2 / 2 ; n − 1 ≤ 𝜎2 ≤ (𝑛−1)𝑆2 𝜒 2 1 − / 2 ; n − 1 ) = 1- DEFINICION: Si S2 es la varianza muestral de una muestra aleatoria de tamaño n de una población normal, un IC del 100 (1 - ) % para 𝜎2 es: (𝑛−1)𝑆2 𝜒 2 /2; n−1 ≤ 𝜎2 ≤ (𝑛−1)𝑆2 𝜒 2 1−/2; n−1 Donde 𝜒2 2 ; n−1 y 𝜒2 1− 2 ; n−1 son valores de 𝜒 2 con =n-1 grados de libertad, con áreas de 2 y 1 − 2 , respectivamente, a la derecha DOS MUESTRAS ESTIMACIÓN DE LA DIFERENCIA ENTRE MAS MEDIAS DE DOS POBLACIONES: MUESTRAS INDEPENDIENTES Se tienen DOS poblaciones X e Y X tienen media µ1 y varianza 1 2 Y tienen media µ2 y varianza 2 2 Estimados Puntual de µ1 - µ2 lo da el estadístico X − Y Procedimiento Para obtener una ESTIMACIÓN PUNTUAL de µ1 - µ2: Seleccionar dos muestras aleatorias independientes, una de cada población de tamaños n1 y n2. Calcular x − y (diferencia entre medias muestrales) X tiene distribución aproximadamente normal con media µ1 y varianza 1𝟐 𝒏𝟏 La aproximación mejora conforme n1 se incrementa Y tiene distribución aproximadamente normal con media µ2 y varianza 2𝟐 𝒏𝟐La aproximación mejora conforme n2 se incrementa Justificado por el TLC CONSIDERACION DE LA DISTRIBUCION MUESTRAL DE X- Y Bajo las consideraciones anteriores () X- Y tiene distribución Aproximadamente normal. Si n1 y n2 son grandes y X- Y tienen distribución exactamente normal si X e Y con normales ¿por qué? E ( X − Y) = E( X) - E( Y) = µ1 - µ2 (1) VAR ( X − Y) = VAR( X) + VAR( Y) = 1 𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 (2) X − Y ˜ N (µ1 - µ2 ; 1𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 ) Z = X− Y−(µ1−µ2) 1 𝟐 𝒏𝟏 + 2 𝟐 𝒏𝟐 ˜ N (0, 1) Si n1 y n2 con mayores o iguales a 30, la aproximación normal para X − Y es MUY BUENA, sin importar las formas de las dos poblaciones. Sin embargo, aun cuando n1 y n2 sea menores que 30 la aproximación normal es razonablemente buena excepto cuando las poblaciones no son definitivamente normales. Si AMBAS poblaciones son NORMALES entonces X − Y tiene una distribución normal SIN IMPORTAR que valores tengan n1 y n2. PROPIEDADES DEL ESTIMADOR 𝐗 − 𝐘 ¿Es un estimador insesgado de µ1 - µ2? si por (1) Puede demostrarse que VAR ( 𝐗 − 𝐘) (2) es la más pequeña entre las de todos los estimadores INSESGADOS, es decir 𝐗 − 𝐘 es estimador más eficiente de µ1 - µ2 Con una probabilidad de 1 - se puede afirmar que la variable normal estándar (1) caerá entre −𝑍 2 y 𝑍 2 P( −𝑍 2 ≤ Z ≤ 𝑍 2 ) = 1 - P( −𝑍 2 ≤ X− Y−(µ1−µ2) 1 𝟐 𝒏𝟏 + 2 𝟐 𝒏𝟐 ≤ 𝑍 2 ) = 1 - P( 𝐗 − 𝐘 − 𝑍 2 1𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 ≤ µ1 − µ2 ≤ 𝐗 − 𝐘 + 𝑍 2 1𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 )= 1 - DEFINICION: Intervalo de confianza para la diferencia de dos medias, varianzas conocidas. Si 𝐗 e 𝐘 son las medias de dos muestras aleatorias independientes de tamaños n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 1 2 y 2 2, respectivamente, entonces un intervalo de confianza del 100 ( 1- )% para µ1 − µ2 es: 𝐗− 𝐘− 𝑍 2 1𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 ≤ µ1 − µ2 ≤ 𝐗− 𝐘+ 𝑍 2 1𝟐 𝒏𝟏 + 2𝟐 𝒏𝟐 Donde 𝑍 2 es el valor de la distribución estándar que deja la derecha un área de 2 . El grado de confianza 1 - es EXACTO cuando las poblaciones son normales. Para las poblaciones que no lo son, el nivel de confianza es aproximadamente válido para muestras de tamaño razonable. El procedimiento para estimar “la diferencia entre dos medias” es aplicable SI SE CONOCEN 1 2 y 2 2. Si 1 2 y 2 2 no se conocen y las distribuciones involucradas son aproximadamente normales, debe considerarse la distribución t (como en el caso de una muestra) Si 1 2 y 2 2 no se conocen y no se está dispuesto a suponer normalidad de las poblaciones, muestras GRANDES (n1 ≥30 y n2≥30) permitirán el uso de S1 y S2 en lugar de 1 2 y 2 2 respectivamente, entendiendo que S1 ≈1 2 y S2 ≈2 2 El IC del 100 ( 1 - ) % para µ1 − µ2 será 𝐗 − 𝐘 − 𝑍 2 S1 𝟐 𝒏𝟏 + S2 𝟐 𝒏𝟐 ≤ µ1 − µ2 ≤ 𝐗 − 𝐘 + 𝑍 2 S1 𝟐 𝒏𝟏 + S2 𝟐 𝒏𝟐 Un vez más el intervalo de confianza es una aproximación. Interpretación del intervalo de confianza + ≤ µ𝟏 − µ𝟐 ≤ + Significa que µ1 > µ2 - ≤ µ𝟏 − µ𝟐 ≤ + 0 ∈ al intervalo que µ1≊µ2 - ≤ µ𝟏 − µ𝟐 ≤ - Significa que µ2 > µ1 Caso 2 INTERVALO DE CONFIANZA PARA µ𝟏 − µ𝟐 DE POBLACIONES NORMALES – VARIANZAS DESCONOCIDAS Consideremos dos poblaciones con medias (µ1 − µ2 ) y varianzas (1 2 y 2 2 ) desconocidas. CASO 2.1 Consideremos también que es razonable suponer que 1 2 = 2 2 = 2 Se desea encontrar un IC del 100 (1-)% para µ1 − µ2 Se forman muestras aleatorias de tamaño n1 y n2 de las dos poblaciones representadas por X e Y respectivamente; sean x e y las medias muestrales, y S1 2 y S2 2 las varianzas muestrales, vimos que Z = X− Y−(µ1−µ2) 1 𝟐 𝒏𝟏 + 2 𝟐 𝒏𝟐 ˜ N (0, 1) SI 1 2 = 2 2 = 2 , se obtiene una normal estándar de la forma Z = X− Y−(µ1−µ2) 1𝟐 ( 1 𝒏𝟏 + 1 𝒏𝟐) = 𝐗− 𝐘−(µ𝟏−µ𝟐) ( 𝟏 𝒏𝟏 + 𝟏 𝒏𝟐) Puesto que S1 2 y S2 2 son estimadores de 2 (varianza común) entonces puede obtenerse un estimador combinado de 2 , mejor que S1 2 y S2 2 por separado. Este estimador es Sp2 Sp2 = 𝑛1−1 S1 𝟐 + 𝑛2−1 S2 𝟐 𝑛1+𝑛2−2 Para desarrollar el IC para µ1 − µ2, nótese que t = X− Y−(µ1−µ2) 𝑆𝑝 ( 1 𝒏𝟏 + 1 𝒏𝟐) tiene distribución “t” con n1+n2-2 grados de libertad P( −𝑡 2 ;𝑛1+𝑛2−2 ≤ t ≤ 𝑡 2 ;𝑛1+𝑛2−2 ) = 1 - P( −𝑡 2 ≤ X− Y−(µ1−µ2) 𝑆𝑝 ( 1 𝒏𝟏 + 1 𝒏𝟐) ≤ 𝑡 2 ) = 1 - P( 𝐗 − 𝐘 − 𝑡 2 𝑆𝑝 1 𝒏𝟏 + 1 𝒏𝟐 ≤ µ1 − µ2 ≤ 𝐗 − 𝐘 + 𝑡 2 𝑆𝑝 1 𝒏𝟏 + 1 𝒏𝟐 ) = 1- DEFINICION: Si x, y, S1 2 , y S2 2 son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas pero iguales, entonces un IC del 100 (1-) % para µ1 − µ2 es: 𝐱 − 𝐲 − 𝑡 2 𝑆𝑝 1 𝒏𝟏 + 1 𝒏𝟐 ≤ µ1 − µ2 ≤ 𝐱 − 𝐲 + 𝑡 2 𝑆𝑝 1 𝒏𝟏 + 1 𝒏𝟐 En donde: Sp= 𝑛1−1 S1 𝟐 + 𝑛2−1 S2 𝟐 𝑛1+𝑛2−2 estimador combinado de 𝑡 2 valor de la distribución de t con n1 + n2 -2 GL con un área de 2 a la derecha NOTA: El procedimiento para determinar los IC para µ1 − µ2 con 1 2 = 2 2 = 2 desconocidas requiere la SUPOSICION que las POBLACIONES SEAN NORMALES Desviaciones ligeras de la suposición de varianzas iguales o de la normalidad no alteran el grado de confianza del intervalo. Si las varianzas poblacionales son considerablemente diferentes, AUN se obtienen resultados razonables CUANDO las poblaciones son NORMALES, SIEMPRE QUE n1 = n2. CASO 2.2 Consideremos el problema de encontrar una estimación de µ1 − µ2 por un I.C. cuando las varianzas poblacionales desconocidas no parecen ser iguales. Estadístico más frecuente que se usa es 2 𝑇′ = 𝑋− 𝑌−(µ1−µ2 ) 𝑆 12 𝑛1 + 𝑆 22 𝑛2 Tiene aproximadamente distribución t con grados de libertad. = 𝑆12 𝑛1 + 𝑆22 𝑛2 2 𝑆12 𝑛1 2 𝑛1 − 1 + 𝑆22 𝑛1 2 𝑛2 − 1 (3) se redondea al entero más cercano Por lo tanto P( −𝑡𝛼 2, ≤ 𝑇′ ≤ −𝑡𝛼 2, ) ≅ 1 − 𝛼 Reemplazando T’ por (2) y despejando µ1 − µ2en las desigualdades se obtiene DEFINICION Si x, y, S1 2 , y S2 2 son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas y distintas, entonces un Intervalo de Confianza del 100 (1-) % para µ1 − µ2 es: ESTIMACION DE LA RAZON DE DOS VARIANZAS Supongamos que se tienen dos poblaciones NORMALES e INDEPENDIENTES (X e Y), con varianzas desconocidas 1 2 = 2 2, respectivamente. Se dispone de dos muestras aleatorias detamaños n1 = n2, respectivamente, de esas poblaciones. Sean S1 2 , y S2 2 las dos varianzas muestrales ESTIMADOR PUNTUAL DE 𝜎1 2 𝜎2 2 : 𝑠1 2 𝑠2 2 Para hallar un IC para 𝜎1 2 𝜎2 2utilizamos el estadístico 𝐹 = 𝑠1 2 𝜎1 2 𝑠2 2 𝜎2 2 tiene una Distribución F con n1 -1= n2-1 Grados de libertad 𝜒1 2 = 𝑛1−1 𝑆1 2 𝜎1 2 tiene distribución CHI CUADRADO con 𝑛1 − 1 Grados de libertad 𝜒2 2 = 𝑛2−1 𝑆2 2 𝜎2 2 tiene distribución CHI CUADRADO con 𝑛2 − 1 Grados de libertad ¿Por qué? Luego 𝜒1 2 𝑛1−1 𝜒2 2 𝑛2−1 tiene Distribución F con 𝑛1 − 1 y 𝑛2 − 1 GL 𝑛1−1 𝑆1 2 𝜎1 2 𝑛1−1 𝑛2−1 𝑆2 2 𝜎2 2 𝑛2−1 = 𝑠1 2 𝜎1 2 𝑠2 2 𝜎2 2 “ Luego se puede escribir P ( 𝐹1−𝛼 2 ;1;2 ≤ F ≤𝐹𝛼 2 ;1;2 ) = 1 - 1 = 𝑛1 − 1 2 = 𝑛2 − 1 P ( 𝐹1−𝛼 2 ;1;2 ≤ 𝑠1 2 𝜎1 2 𝑠2 2 𝜎2 2 ≤𝐹𝛼 2 ;1;2 ) = 1 - P ( 𝑠1 2 𝑠2 2 1 𝐹𝛼 2 ;1;2 ≤ 𝜎1 2 𝜎2 2 ≤ 𝑠1 2 𝑠2 2 1 𝐹 1− 𝛼 2 ;1;2 ) = 1 - DEFINICION Sean S1 2 , y S2 2 las dos varianzas muestrales de muestras aleatorias de tamaños n1 = n2, respectivamente, de poblaciones NORMALES e INDEPENDIENTES, entonces un IC del 100 (1- )% para 𝜎1 2 𝜎2 2 es 𝑠1 2 𝑠2 2 1 𝐹𝛼 2 ; 𝑛1−1;𝑛2−1 ≤ 𝜎1 2 𝜎2 2 ≤ 𝑠1 2 𝑠2 2 𝐹𝛼 2 ; 𝑛2−1;𝑛1−1 Recordar que 𝐹 1− 𝛼 2 ;1;2 = 1 𝐹𝛼 2;2;1 Interpretación: si el 1 está contenido en el intervalo, las varianzas son iguales Problema: Un cierto estimulante va a ser usado para comprobar sus efectos en la presión sanguínea. Se midió la presión sanguínea a 12 hombres, antes y después del estimulante. Los resultados se presentan en la tabla siguiente. ¿Hay diferencias entre la presión antes y después de tomar el estimulante?
Compartir