Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 INFERENCIA ESTADÍSTICA- PROBLEMAS DE ESTIMACIÓN (Filminas de Clases Teóricas) La INFERENCIA ESTADISTICA consiste en aquellos métodos con los cuales se pueden realizar inferencias o generalizaciones acerca de una población utilizando datos muestrales. La Inferencia estadística puede dividirse en 2 áreas principales: Para distinguir entre ambas, consideremos los siguientes ejemplos. EJEMPLOS: 1) Un candidato para un puesto público desea estimar la proporción real de votantes que lo apoyan ¿Cómo? Mediante la obtención de una muestra al azar de 100 votantes por ejemplo. La fracción de ellos que lo apoya puede usarse como una estimación de la proporción total de votantes. Este problema pertenece al área de ESTIMACIÓN 2) Un ama de casa está interesada en determinar si el detergente para pisos de la marca A es más resistente al desgaste que el de la marca B. Podría suponer que: “LA MARCA A ES MEJOR QUE LA B” y después de realizar las pruebas apropiadas, aceptar o rechazar esta hipótesis. En este ejemplo NO se intenta estimar un parámetro SINO: TOMAR UNA DECISION CORRECTA RESPECTO A LA HIPOTESIS PREESTABLECIDA Una vez más se DEPENDE de la teoría del muestreo para obtener alguna medida de precisión para la decisión que se tome. ESTIMACIÓN MÉTODOS CLÁSICOS ESTIMACIÓN PUNTUAL: Una estimación puntual de un parámetro es simplemente una selección UNICA del valor del parámetro. ESTIMACIÓN POR INTERVALO: Reconociendo a incertidumbre de que la muestra nos es la población estimaremos un intervalo dentro del cual se esperaría encontrar el parámetro. NOTACION: Parámetro a estimar Estadístico que se usa para obtener una estimación puntual del parámetro. Recibe el nombre de ESTIMADOR PUNTUAL Estimación puntual de . Es un valor de para una muestra seleccionada O sea, para estimar un parámetro se usa el estimador (estadístico). Para una muestra particular, se obtiene una estimación . Por lo general muestras diferentes conducen a estimaciones diferentes de . INFERENCIA ESTADISTICA ESTIMACIÓN PRUEBA DE HIPOTESIS EL GRADO DE PRECISION DE LA ESTIMACIÓN PERMITE ESTABLACER UN CONOCIMIENTO DE LA DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN (Ps) 2 Ejemplo: Para estimar el parámetro µ se usa el estimador . Para una muestra particular x1, x2, …, xn se calcula será una estimación de µ. PARAMETROS ESTIMADOR ESTIMACION (X1, ….. ,Xn) (x1, ….., xn) E (X) (ó µX) Media Muestral Var (x) (ó X 2) S 2 Varianza Muestral s2= a E (X) (ó µX) Mediana Muestral p PS proporción muestral p = Números Números No se espera que un estimador estime sin error el parámetro poblacional, sino se espera que no se aleje mucho del valor real. Por ejemplo: Para una muestra que comprenda los valores 2, 5, 11 de una población cuya media E(X) = 4, aunque supuestamente se la desconoce; se podría estimar que el E(X) fuera: = 6 usando la media muestral como estimador ó = 5 usando la mediana muestral como estimador. En este caso el estimador produce una estimación MAS CERCANA al valor real del parámetro que la del estimador . Por otra parte, si la muestra aleatoria, de la misma población, contiene los valores 2, 6, 7 entonces = 5 y = 6 de tal manera que es ahora el MEJOR estimador. SIN CONOCER EL VALOR REAL DE E(X) se debe DECIDIR DE ANTEMANO SI SE EMPLEARA ó COMO ESTIMADOR DE E(X). IMPORTANTE: NOTAR QUE UN ESTIMADOR ES UNA VARIABLE ALEATORIA Y NO PUEDE JUZGARSE CON BASE EN SU OPERACIÓN EN UN CASO PARTICULAR; MAS BIEN DEBE SER JUZGADO POR SU OPERACIÓN A LARGO PLAZO PROPIEDADES DE UN BUEN ESTIMADOR (que influyen en la selección de un estimador sobre otro) INSESGAMIENTO VARIANZA MINIMA ESTIMADORES INSESGADOS Sería deseable que el estimador tuviera un valor esperado IGUAL al parámetro a estimar. Definición: El estimador se conoce como estimador insesgado de , si su valor esperado IGUAL a . O sea, es un estimador INSESGADO DE si y solo si E( Ejemplo: µ : parámetro a estimar, es el valor esperado de la población X, lo estimamos con es un estimador insesgado de pues (demostrado en Apunte muestreo 10.1_1°) Otra notación: Ejemplo: S2 es un estimador insesgado de 2 . Es ti m an = E( ) = 3 Se demuestra en el punto 13.- a) del apunte de Muestreo que E(S2)= 2. Si un estimador no es insesgado se conoce como SESGADO y - E( se conoce como SESGO. EJEMPLOS DE ESTIMADORES INSESGADOS para E (X) en cualquier población para de población N (µ , 2) s para p de una población Bernoullí (p) S2 para Var (X) en cualquier población S2 para 2en una población N (µ, 2) para µ una población Poisson S2 para µ una población Poisson VARIANZA DE UN ESTIMADOR PUNTUAL Si 1 y 2 son dos estimadores insesgados del mismo parámetro poblacional , se elegirá al estimador cuya distribución muestral tuviera la varianza más pequeña Si Var( 1 ) < Var( 2) se afirma que “ 1 es un estimador más eficiente de que 2” Definición: Si se consideran TODOS los posibles estimadores INSESGADOS de algún parámetro , aquel con la varianza más pequeña recibe el nombre de “ESTIMADOR MAS EFICIENTE DE ” Ejemplo: Se presentan en la figura las distribuciones muestrales de tres estimadores de : 1, 2 y 3. Se observa claramente que solo 1 y 2 son insesgados, dado que sus distribuciones se centran en el estimador 1 tiene varianza más pequeña que 2 y por lo tanto es más eficiente. Por consiguiente el estimador de que seleccionaría, de entre los 3, sería 1. Para poblaciones normales se puede demostrar que tanto como son estimadores insesgados de la media poblacional pero la VAR ( ) < VAR ( ). Entonces aunque ambas estimaciones y serán iguales en PROMEDIO, a la media poblacional µ, probablemente está mas CERCA del valor de µ para una muestra dada y entonces es más eficiente que En efecto si la población X ∿ N(µ, 2) y X1, X2, …. Xn son v.a. iid de esa población E( ) = E( ) = µ Var( ) = = Var ( ) E se llama “corrección por eficiencia” Por ejemplo , si n = 10 E = 0,723 Si n → ∞ E = 0,637 y Var( ) = 1,56 Var ( ) Es probable que incluso el estimador insesgado más eficiente, no estime el parámetro poblacional con exactitud. Es cierto que la precisión se incrementa con muestras grandes, pero no hay razón por la cual esperar que la estimación puntual de una muestra dada deba ser exactamente igual que el parámetro poblacional que se supone que estima. Existen muchas situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperaría encontrar el valor del parámetro. Tal intervalo se conoce como una estimación por intervalo. E( ) Sesgo 4 ESTIMACIÓN POR INTERVALOS DE CONFIANZA (IC) Una estimación puntual, con frecuencia es inadecuada como una estimación de un parámetro, ya que raramente coincide con este. Un tipo de estimación alternativo es una estimación por intervalo. Un IC es tan solo una ampliación de la estimación puntual para considerar la precisión de la misma. Una estimación por intervalo de u parámetro poblacional es un intervalo de la forma L ≤ ≤ U, donde L es el límite inferior y U es el límite superior. L y U dependen del valor de del estadístico para una muestra en particular y también de la distribución muestral de . Esto es L = L( , ) y U = U ( , ) Ya que muestras distintas generalmente dan valores distintos de y, por lo tanto de L y U, a partir de la distribución muestral de será posible determinar L y U tales queP(L( ) ≤ ≤ U ( )) sea igual a cualquier valor fraccionario positivo menor que 1, que se desee especificar. Si, por ejemplo P(L( ) ≤ ≤ U ( )) = 1 - para 0 < < 1, entonces hay una probabilidad dada 1 - de seleccionar una muestra que produzca un intervalo que contenga a . El intervalo L ≤ ≤ U que se calcula a partir de la muestra seleccionada, se denomina entonces INTERVALO DE CONFIANZA del (1-) 100%. La fracción de 1- recibe el nombre de COEFICIENTE DE CONFIANZA o GRADO DE CONFIANZA. L y U se llaman LIMITES DE CONFIANZA INFERIOR Y SUPERIOR respectivamente. Por ejemplo, si el coeficiente de confianza es 0,95 entonces a largo plazo puede esperarse que el 95% de los límites de confianza calculados incluyan el verdadero valor de . Si se obtienen IC del 95% se espera que estos intervalos incluyan a , 95 veces en 100; es decir si se afirma que está dentro de los límites calculados, se esperaría que la afirmación fuera correcta 95 veces en 100 e incorrectas 5 veces en 100. Sin embargo en la práctica un experimento se realiza generalmente una sola vez. Se toma una muestra aleatoria y se obtiene un IC [L, U] para , basado en el resultado del experimento. Una afirmación típica hecha por el experimentador es “ el parámetro está en el intervalo de confianza calculado [L, U]; esta afirmación se hace con una confianza del 95%” No hay significado operacional en la siguiente afirmación “hay una probabilidad de 0,95 que el peso medio verdadero esta dentro de los limites calculados en este caso” ya que µ estará o no dentro de los limites; no es variable. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACION con VARIANZA CONOCIDA Sea la población X ∿ N ( µ, 2) con media µ DESCONOCIDA y varianza 2 CONOCIDA y sea X1, X2, … Xn una muestra aleatoria de tamaño n de esa población. La media muestral es un estimador puntual razonable de la media desconocida µ, entonces usaremos el estadístico para estimar . Queremos, por ejemplo, estimar un intervalo del 100 (1- )% para le media = E(X). La distribución muestral de ∿ N µ Luego Z = ∿ N (0, 1) (Normal estándar) De la figura se observa que: P( -Z /2 ≤ Z ≤ Z /2) = 1 - La expresión puede escribirse como P( -z /2 ≤ ≤ z /2) = 1 - 1- 5 P ( - z/2 ≤ ≤ + z /2 ) = 1 - DEFINICION: Si es la media muestral de una muestra aleatoria de tamaño n de una población normal con varianza conocida 2 un intervalo de confianza del 100 ( 1 - )% para µ, está dado por: – z /2 ≤ µ ≤ + z /2 (1) L U Donde Z /2 es el punto de la distribución normal estándar que deja a la derecha un área de /2 Walpole (capítulo Estimación) dice: “Muestras diferentes darán valores diferentes de y por lo tanto, producirán diferentes estimaciones del parámetro como se observa en la figura siguiente. Los puntos circulares al centro de cada intervalo indican la posición de la estimación puntual para cada muestra aleatoria. Se ve que la mayoría de los intervalos contiene , pero no en todos los casos. Note que todos los intervalos son del mismo ancho, pues esto solo depende de la elección de z/2 un vez que se determina . Cuanto más grande sea el valor z/2 que elijamos, más anchos haremos los intervalos, y podremos tener más confianza en que la muestra particular que se seleccione producirá un intervalo que contenga al parámetro desconocido .” Ejemplo (Berenson Levine- capítulo Estimación).- Supongamos que en el proceso del llenado de cereales, que se desconocía la media poblacional , pero que se conocía la desviación estándar real de la población y que era 15 gramos. En primer lugar estimamos puntualmente a . Para ello se toma una muestra de n=25 cajas que se han llenado un día determinado y usamos a como estimador puntual. Luego = 363,5 gramos. Debido a que la media poblacional no será exactamente igual a la media muestral de 363,5 gramos, es mejor construir un intervalo de por ejemplo, el 95% de confianza alrededor de 363,5 gr., que quizá contenga a . Luego, reemplazando en (1), obtenemos el IC deseado. (1 – ) 100% = 95%; 1 – = 0,95; = 0,05; /2 = 0,025; z/2= 1,96 – z/2 ≤ µ ≤ + z/2 ⇒ 363,5 – 1,96 ≤ µ ≤ 363,5 + 1,96 ⇒ 363,5 –5,88≤ µ ≤ 363,5 + 5,88 357,62 ≤ ≤ 369,38 IC del 95% para Puesto que la media poblacional (igual a 368 gr) se incluye dentro del intervalo, nótese que esta muestra ha conducido a una declaración correcta sobre . (Vease figura 10.1- Berenson y Levine. Para una muestra diferente de n=25 cajas la media fue de 369,5 gr. El intervalo desarrollado a partir de esta muestra sería 369,5 ± (1,96)(15)/ o 369,5 ± 5,88 , es decir el estimado de sería 363,62 ≤ ≤ 375,38 6 Puesto que la media poblacional (igual a 368) también está incluida dentro del intervalo, se concluye que esta afirmación sobre es correcta. Ahora, antes de pensar que siempre habrá afirmaciones correctas sobre a partir de la media muestral , estimamos un tercer ejemplo hipotético para una muestra que arrojó una media muestral igual a 360 gramos. El intervalo desarrollado aquí sería 360 ± (1,96)(15)/ o 360 ± 5,88 . En este caso el estimado de es 354,12 ≤ ≤ 365,88 Obsérvese que este estimado no es una afirmación correcta puesto que no está incluida en el intervalo desarrollado a partir de esta muestra. Por lo tanto, aquí se presenta un dilema. Para algunas muestras la estimación por intervalo de será correcta, mientras que para otras no lo será. Además en la práctica sólo se selecciona una muestra y, puesto que no se conoce la media real de la población, no se puede determinar si esta afirmación particular es correcta. Sin embargo, por el estudio de la distribución muestral de se sabe que el 95% de las medias muestrales se encuentran entre 362,12 y 373, 88 gramos ( ± z/2 ). Por lo tanto, el 95% de TODAS las medias muestrales incluirán la media poblacional dentro del intervalo desarrollado. En esto nos basamos al desarrollar el IC para en la página anterior. En general se puede interpretar que una estimación por intervalo de confianza del 95% significa que se tomaron TODAS las muestras posibles del mismo tamaño n, de las cuales el 95% incluiría la media real de la población en algún lugar dentro del intervalo alrededor de las medias muestrales, mientras que solo el 5% de ellas no lo harían. De hecho, aunque solo se selecciona una muestra y se desconoce , nunca se sabe con seguridad si el intervalo específico obtenido incluye la media poblacional. No obstante se puede afirmar que se tiene una confianza del 95% de incluir la media de la población dentro del intervalo. En algunos casos se desearía un grado de seguridad más alto (como pudiera ser el 99%) de incluir la media de la población en el intervalo. En otros casos se podría aceptar una seguridad menor (un 90%) de estimar correctamente la media de la población. 7 MUESTRAS GRANDES DE POBLACIONES NO NORMALES (VARIANZA 2 CONOCIDA) Para muestras pequeñas que se seleccionan de poblaciones no normales, no podemos esperar que nuestro grado de confianza sea preciso. Sin embargo, para muestras grandes, donde la forma de la distribución no esté muy sesgada, la teoría de muestreo garantiza buenos resultados. El intervalo de confianza (1) proporciona buenos resultados para muestras de tamaño n ≥30, sin importar la forma que tenga la población (población no normal). JUSTIFICACION : ∿ N (0, 1) aproximadamente, si n es GRANDE (Teorema del Límite Central) Además de los intervalos de confianza estudiadosque son los intervalos “BILATERALES” es posible determinar también intervalos de confianza “UNILATERALES” para los parámetros. (Leer Walpole) Un I.C. Unilateral Inferior para un parámetro , estimará que es mayor o igual que algún límite inferior L L ≤ ó [L, ∞) se obtiene de (1) haciendo U = + ∞ y reemplazando z /2 por z - z ≤ µ Intervalo de Confianza Unilateral Inferior del 100 ( 1- ) % para µ Un IC Unilateral superior para , estimará que es menor o igual que algún límite superior U, ≤ U ó (- ∞, U] se obtiene de (1) haciendo L = - ∞ y reemplazando z /2 por z µ ≤ + z Intervalo de Confianza Unilateral Superior del 100 ( 1- ) % para µ La CONFIANZA se mide con una probabilidad que denotamos con 1- ( probabilidad de seleccionar una muestra que produzca un intervalo que contenga en su interior a ). 1- = 0,90 (un error de cada 10) = 0,95 (5 errores de cada 100) = 0,99 (un error de cada 100) = 0,999 (un error de cada 1000) La PRECISION se mide por la longitud (ancho) l del intervalo, para el caso analizado, l = + z /2 - ( - z /2 ) = 2 z /2 ; Mientras más grande sea el intervalo, será mayor la longitud y menor la precisión. Obviamente un intervalo más preciso será el que tenga la menor longitud. En el ejemplo del IC del 95% para el peso medio de las cajas de cereal, obtenido para una muestra de tamaño n = 25 es l = 11,76 grs. Si 1- (la confianza) aumenta , z/2 (número de la tabla) aumenta, luego ¡¡CONFIANZA Y PRECISION SON COMPETITIVOS!! n también controla la precisión a través de Diseño a priori: Antes de sacar la muestra y hacer todo el análisis, si el cliente quiere el 95% de confianza y una precisión l determinada, entonces el tamaño de muestra lo determinamos haciendo ⇒ En el ejemplo de las cajas de cereal, si el cliente quiere el 95% de confianza y una precisión dada por l = 5, 8 Se necesita una muestra de tamaño 139, para tener la precisión pedida. Conclusión: l es: directamente proporcional a ; inversamente proporcional a y directamente proporcional a ¿Cómo estimamos un intervalo de confianza para la media si la varianza es desconocida Vamos a suponer que se desea encontrar un intervalo de confianza para la media µ de una distribución, pero que la varianza 2 no es conocida. Específicamente: se tiene una muestra aleatoria X1, X2,…, Xn y y S 2 son la media y la varianza muestrales ¿Para que calculamos S2? Si 2 era conocida, determinamos un IC para estimar µ (de una poblacion normal o población no normal con n ≥ 30) usando la distribución muestral de ∿ N(µ, ) Luego ∿ N (0, 1) Ahora bien, si 2 es DESCONOCIDO estimamos 2 con S2 (estimador insesgado de 2) y resulta un estadístico natural para tratar con las inferencias sobre µ t = Si n ≥ 30, la distribución de t no difiere de una manera CONSIDERABLE de la normal estándar. Si n < 30, la distribución de t se desvía de forma apreciable de la distribución normal estándar, luego si n < 30 es UTIL tratar con la distribución exacta de t. Esta cuestión la resolvió STUDENT. Se dice que t = tiene distribución t de student con n-1 grados de libertad. 9 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCION NORMAL, VARIANZA DESCONOCIDA Sea la población X ∿ N ( µ, 2) y la varianza 2 es desconocida. Deseamos estimar la media mediante un intervalo de confianza. Sea X1, X2, … Xn es una muestra aleatoria de tamaño n de esa población. A 2 podríamos estimarla con S2 (ESTIMADOR INSESGADO DE 2) Recordemos que t = tiene distribución t de Student con n-1 grados de libertad. Usamos t = para determinar un IC para µ Se puede asegurar que: P( - ≤ t ≤ ) = 1 - P( - ≤ ≤ ) = 1 - P( - ≤ µ ≤ + ) = 1 - conduce a la siguiente definición: 1- 10 DEFINICION: Si y s son respectivamente la media y la desviación estándar de una muestra aleatoria tomada de una población normal con varianza 2 desconocida, entonces un intervalo de confianza del 100 (1 - ) % para µ está dado por - ≤ µ ≤ + (2) Donde es el valor t con n-1 grados de libertad que deja a la derecha un área de Concepto de intervalo de confianza de una muestra grande (Walpole) Los especialistas recomiendan que incluso cuando no se pueda suponer normalidad (de la población), con 2 desconocida y n ≥ 30; se podría reemplazar a y se podría usar el IC (1) – z /2 ≤ µ ≤ + z /2 En general, éste se conoce como intervalo de confianza de muestras grandes. La justificación yace solo en la presunción de que con una muestra tan grande como 30 y la distribución de la población no sesgada, s estará muy cerca de la real y entonces sigue siendo aplicable el Teorema del Límite Central. Debe quedar en claro que esto es solo una aproximación y que la calidad de la misma mejora conforme el tamaño de la muestra se hace más grande. OBSERVACIÓN: El error estándar de un estimador es su desviación estándar. Por ejemplo: Error estándar de es = ES TI M A C IÓ N D E µ = E (X ) 2 = VAR (X) ES CONOCIDA a) x1, x2, … xn muestra aleatoria de tamaño n de esa población N ( µ , 2) µ = E(X); 2 = VAR (X) I.C. para µ ± z /2 para cualquier n, resultado exacto b) x1, x2, … xn muestra aleatoria de cualquier población (no Normal) b1) n grande ± z /2 resultado aproximado, justificado por el TLC b2) n chico ? el TLC no se puede usar 2 = VAR (X) NO ES CONOCIDA a) x1, x2, … xn muestra aleatoria de tamaño n de esa población N ( µ , 2) I.C. para µ ± t /2; n-1 para cualquier n, resultado exacto b) X1, X2, … Xn muestra aleatoria de cualquier población (no Normal) b1) n grande ± z /2 resultado aproximado justificado por el TLC b2) n chico ? NO SE CUMPLEN LAS HIPOTESIS DEL TLC (Por ejemplo la varianza no es finita) a) x1, x2, … xn muestra aleatoria de esa población a1) n grande ? a2) n chico ? Los resultados obtenidos corresponden a la estimación básica paramétrica. El otro caso corresponde a la estadística no paramétrica. Hay otra estadística moderna llamada “ESTADISTICA ROBUSTA” que permitiría resolver los ? interrogantes planteados. También podríamos usar la desigualdad de Tchebyshev para hallar IC, lo único que necesitamos es que Exista la varianza (1° Caso Var(X) CONOCIDA). 11 INTERVALO DE CONFIANZA PARA UNA PROPORCION p Queremos construir un IC para una proporción p poblacional. La población puede representarse por una v.a. Bernoulli X ∿ B(p) Se toma una muestra aleatoria X1, X2, … Xn de esa población Entonces la proporción muestral s = = s es un “estimador puntual” de la proporción p ¿por qué? La distribución muestral de s es aproximadamente normal si p no está muy próximo a 0 o 1, y si n es relativamente grande. Por lo tanto Z = ∿N (0, 1) Aproximadamente Recordar que E( s) = p ; Var ( s) = El error estándar de s será Para construir un IC para p, nótese que ≤ ≤ = 1 - Reemplazando Z por p p ≤ p ≤ p p El error estándarde S (indicado) depende de p; luego los límites superior e inferior del IC obtenido contienen el parámetro desconocido p. SOLUCION SATISFACTORIA: Si n es grande, reemplazar p por en el error estándar y conduce a un intervalo de confianza aproximado de 100 ( 1- ) % para p ≤ p ≤ DEFINICION: Si es la proporción de éxitos de una muestra de tañamo n de una población Bernoullí, entonces un intervalo de confianza del 100 (1 - ) % para la proporción p (de éxitos) de la población es - ≤ p ≤ + punto de la distribución normal estándar que deja un área igual a a la derecha SUGERENCIA: Para una aproximación apropiada, requerir que n p ≥ 5 y también n ( 1 - p ) ≥ 5 12 ESTIMACION DE LA VARIANZA OBJETIVO: Estimar un intervalo de confianza para la varianza 2 (desconocida) de una población Normal Si X1, X2, … Xn es una muestra aleatoria de tamaño n tomada de esa población NORMAL y S 2 es la varianza muestral, entonces S2 es un estimador puntual razonable de 2 ¿Por qué? Usamos S2 para encontrar un IC para 2. Si la población X es NORMAL vimos que 2 = tiene Distribución CHI-CUADRADO con n-1 grados de libertad P ( ≤ ≤ ) = 1 - P ( ≤ ≤ ) = 1- P ( ≤ ≤ ) = 1- DEFINICION: Si s2 es la varianza muestral de una muestra aleatoria de tamaño n de una población normal, un IC del 100 (1 - ) % para es: ≤ ≤ Donde y son valores de la con =n-1 grados de libertad, con áreas de y , respectivamente, a la derecha. 13 ESTIMACIÓN DE LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES CASO 1: ESTIMACIÓN DE LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES, CON VARIANZAS CONOCIDAS: MUESTRAS INDEPENDIENTES Se tienen dos poblaciones X e Y: X tiene media y varianza 12 Y tiene media y varianza 22 Un Estimador Puntual de es el estadístico Procedimiento para obtener una ESTIMACIÓN PUNTUAL de : Seleccionar dos muestras aleatorias independientes, una de cada población de tamaños n1 y n2. Calcular (diferencia entre medias muestrales) Consideración de la distribución muestral de Bajo las consideraciones anteriores (), tiene distribución exactamente normal si las poblaciones X e Y con normales. es aproximadamente normal, si n1 y n2 son grandes ¿por qué? tiene distribución aproximadamente normal con media y varianza . La aproximación mejora conforme n1 se incrementa tiene distribución aproximadamente normal con media y varianza La aproximación mejora conforme n2 se incrementa Justificado por el TLC E ( = E ) - E ) = (1) VAR ( = VAR ) + VAR ) = + (2) ∿ N ( ; + ) Z = ∿ N (0, 1) (3) Si n1 y n2 con mayores o iguales a 30, la aproximación normal para es MUY BUENA, sin importar las formas de las dos poblaciones. Sin embargo, aún cuando n1 y n2 sea menores que 30 la aproximación normal es razonablemente buena excepto cuando las poblaciones no son definitivamente normales. Si AMBAS poblaciones son NORMALES entonces tiene una distribución normal SIN IMPORTAR que valores tengan n1 y n2. Propiedades del estimador ¿Es un estimador insesgado de ? Si por (1) Puede demostrarse que VAR ( ) (2) es la más pequeña entre las de todos los estimadores INSESGADOS, es decir es el MVUE de (estimador más eficiente) Desarrollamos un intervalo de confianza del 100 ( 1- )% para : Con una probabilidad de 1 - se puede afirmar que la variable normal estándar (3) caerá entre y P( ≤ Z ≤ ) = 1 - P( ≤ ≤ ) = 1 - P ≤ ≤ = 1 - -z /2 1- z /2 14 DEFINICION: Intervalo de confianza para la diferencia de dos medias, varianzas conocidas. Si e son las medias de dos muestras aleatorias independientes de tamaños n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 12 y 22 respectivamente, entonces un intervalo de confianza del 100 ( 1- )% para es: ≤ ≤ Donde es el valor de la distribución normal estándar que deja a la derecha un área de . El grado de confianza 1 - es EXACTO cuando las poblaciones son normales. Para las poblaciones que no lo son, el nivel de confianza es aproximadamente válido para muestras de tamaño razonable. CASO 2: INTERVALO DE CONFIANZA PARA DE POBLACIONES NORMALES y VARIANZAS DESCONOCIDAS Consideremos dos poblaciones con medias y varianzas 12 y 22 desconocidas. CASO 2.1: Consideremos también que es razonable suponer que 12 = 22 = 2 Se desea encontrar un IC del 100 (1-)% para Se toman muestras aleatorias de tamaño n1 y n2 respectivamente, de las dos poblaciones representadas por X e Y; sean e las medias muestrales y S12 y S22 las varianzas muestrales, vimos que Z = ∿ N (0, 1) Si 12 = 22 = 2 , se obtiene una normal estándar de la forma Z = = Puesto que S12 y S22 son estimadores de 2 (varianza común), entonces puede obtenerse un estimador combinado de 2 , mejor que S12 y S22 por separado. Este estimador es = estimador combinado (pooled) de 2 Para desarrollar el IC para , nótese que t = tiene di t ibución “t” con grados de libertad P( ≤ t ≤ ) = 1- P( ≤ ≤ )=1- P ≤ ≤ = 1- -t /2 1- t /2 15 DEFINICION: Si , s12 y s22 son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas pero iguales, entonces un IC del 100 (1-) % para es: ≤ ≤ En donde: ; valor de la distribución de t con n1 + n2 -2 GL con un área de a la derecha NOTA: (Leer Walpole) El procedimiento para determinar los IC para con 12 = 22 = 2 desconocidas requiere la SUPOSICION que las POBLACIONES SEAN NORMALES Desviaciones ligeras de la suposición de varianzas iguales o de la normalidad no alteran el grado de confianza del intervalo. Si las varianzas poblacionales son considerablemente diferentes, aun se obtienen resultados razonables cuando las poblaciones son NORMALES, SIEMPRE QUE n1 = n2. CASO 2.2: Consideremos el problema de encontrar una estimación de por un I.C. cuando las varianzas poblacionales desconocidas no parecen ser iguales. Estadístico más frecuente que se usa es tiene aproximadamentedistribución t con grados de libertad. se redondea al entero más cercano (5) Por lo tanto P ( ≤ ≤ Reemplazando T’ po 4) y despejando en las desigualdades se obtiene DEFINICION Si , y son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas y distintas, entonces un Intervalo de Confianza del 100 (1-) % para es: ≤ ≤ donde está dado por (5) y es el valor de la distribución t con un área a la derecha y grados de libertad CASO 3: INTERVALO DE CONFIANZA PARA DE POBLACIONES NO NORMALES y VARIANZAS DESCONOCIDAS El procedimiento indicado en el caso 1 para estimar un intervalo de confianza para la diferencia entre dos medias es aplicable si se conocen y Si no se conocen y las distribuciones involucradas son aproximadamente normales, debe considerarse la distribución t (como en el caso de una muestra), especificado en el caso 2. Si y no se conocen y no se está dispuesto a suponer normalidad de las poblaciones, muestras GRANDES (n1 ≥ 0 n2≥ 0 pe miti án el u o de y en lugar de y respectivamente, entendiendo que en muestras grandes ≈ y ≈ El IC del 100 ( 1 - % para será ≤ ≤ Un vez más el intervalo de confianza es una aproximación. 16 CASO 4: INTERVALO DE CONFIANZA PARA DE POBLACIONES NORMALES CUANDO LAS MUESTRAS NO SON INDEPENDIENTES OBSERVACIONES APAREADAS Consideramos procedimientos de estimación para la diferencia de medias cuando las muestras no son independientes y las varianzas de las dos poblaciones no son necesariamente iguales. Un caso importante se presenta cuando las observaciones se toman en pares, siendo tomados cada par bajo las mismas condiciones experimentales, con las condiciones variando de par en par. Ejemplo: En un experimento para contrastar cual de dos tipos de fertilizante A o B es mejor, se plantan dos parcelas de trigo en cada una de 10 zonas experimentales. Una de las parcelas se abona con fertilizante A y la otra con fertilizante B. Sea el rendimiento X “peso del grano de cada parcela (kg./parcela) con fertilizante A” y el rendimiento Y “peso del grano de cada parcela (kg./parcela) con fertilizante B”. Luego 1 = E(X) será el peso medio del grano con fertilizante A y 2 = E(Y) será el peso medio del grano con fertilizante B. Queremos estimar 1 – 2 . Si el promedio x de las 10 parcelas con A se comparan con el promedio y de las 10 parcelas con B, y evaluamos x - y , parte de la diferencia (si hay alguna) puede deberse a los diversos tipos de terreno o a las distintas condiciones atmosféricas en lugar de a los distintos fertilizantes. Otra posibilidad es que los fertilizantes originen una diferencia, pero esta diferencia queda encubierta por los otros factores. Otro diseño de experimentos, que algunas veces supera parte de las dificultades anteriores, es el artificio de tomar las observaciones de a pares. Queremos estar seguros de que los dos miembros de cualquier par son parecidos en todos los aspectos excepto en el que tratamos de medir. Esto es un IDEAL desde luego, y está limitado por la disponibilidad de pares que sean similares y por nuestra habilidad para elegir pares semejantes. En el ejemplo se eligen en cada zona, cada par de parcelas que tendrá aproximadamente los mismos tipos de terreno, condiciones atmosféricas, etc. El procedimiento comprende la diferencia entre cada par de observaciones (x1, y1), (x2, y2), ..., (xn, yn). Sea (X1, Y1), (X2, Y2), ..., (Xn, Yn) un conjunto de n pares de variables aleatorias que representan las cantidades medibles asociadas con los ensayos 1, 2, ..., n respectivamente. Si tomamos las diferencias entre cada par de observaciones, es decir, d1 = x1 - y1, d1 = x2 -y2, ..., dn = xn - yn, estas diferencias d1, d2, ..., dn son los valores de una muestra aleatoria D1, D2, ..., Dn D1 = X1 - Y1, D1 = X2 -Y2, ..., Dn = Xn - Yn. Pueden haber ciertos factores extraños que afecten a algunos elementos, pero esperamos (y suponemos) que AFECTAN exactamente de la misma manera a cada uno de los miembros de un par. También suponemos que el efecto sea esencialmente el de aumentar (o disminuir) mediante alguna constante cada una de las medias, de modo que la resta elimine dicho efecto. Redondeando: Tenemos diferencias d1, d2, ..., dn que son los valores de una muestra aleatoria de variables aleatorias D1, D2, ..., Dn de una población de diferencias que supondremos distribuidas normalmente cada una con una media común desconocida D y una varianza común desconocida D 2 . D = E(D) = E(X – Y) = E(X) – E(Y) = 1 – 2; D N (D , D 2 ) El estimador puntual de D está dado por D . Estimamos D 2 con SD 2 Se puede establecer un IC del 100(1 – ) % para D al escribir P(- 12 n/ ,t ≤ t ≤ 12 n/ ,t ) = 1 - donde t = n/S D D D y t /2 es un valor de la distribución t con n-1 grados de libertad. Si d y sd son la media y la desviación estándar de las diferencias distribuidas normalmente de n pares aleatorios de mediciones, un intervalo de confianza del 100(1 - )% para D = 1 – 2 es d - n s ,t Dn 1 2 ≤ D ≤ d + n s ,t Dn 1 2 El apareamiento controla los efectos de factores extraños. Si no hay efectos extraños perdemos información al aparear. 17 Problema: Un cierto estimulante va a ser usado para comprobar sus efectos en la presión sanguínea. Se midió la presión sanguínea a 12 hombres, antes y después del estimulante. Los resultados se presentan en la tabla siguiente. ¿Hay diferencias entre la presión antes y después de tomar el estimulante? HOMBRE 1 2 3 4 5 6 7 8 9 10 11 12 ANTES (y) 120 124 130 118 140 128 140 135 126 130 126 127 DESPUÉS (x) 128 131 131 127 132 125 141 137 118 132 129 135 d= x - y 8 7 1 9 -8 -3 1 2 -8 2 3 8 ESTIMACION DE LA RAZON DE DOS VARIANZAS Supongamos que se tienen dos poblaciones NORMALES e INDEPENDIENTES (X e Y), con varianzas desconocidas 12 y 22, respectivamente. Se dispone de dos muestras aleatorias independientes de tamaños n1 y n2 respectivamente, de esas poblaciones. Sean S12 , y S22 las dos varianzas muestrales Un Estimador Puntual de es Para hallar un IC para utilizamos el estadístico F= que tiene distribución F con n1 -1 y n2-1 grados de libertad. (Demostrado en oportunidad de la distribución muestral de Luego se puede escribir P ( ≤ F ≤ ) = 1 - P ( ≤ ≤ ) = 1 - P ( ≤ ≤ ) = 1 - DEFINICION Sean y las varianzas muestrales de muestras aleatorias independientes de tamaños n1 y n2 respectivamente, de poblaciones NORMALES, entonces un IC del 100 (1- )% para es ≤ ≤ Recordar que = Tomando la raíz cuadrada de cada extremos del intervalo hallado, obtenemos un intervalo de confianza para la razón de las desviaciones estándar 18 ESTIMACION DE LA DIFERENCIA DE DOS PROPORCIONES Problema: En un estudio, Germination and emergence of Broccoli, que lleva a cabo el Departamento deHorticultura del Instituto Politécnico y Universidad Estatal de Virginia, un investigador encuentra que a 5°C, 10 semillas de 20 germinaron; en tanto que a 15°C, 15 semillas de 20 lo hicieron. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de germinación eb las dos diferentes temperaturas, y decida si hay una diferencia significativa.
Compartir