Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Inferencia Estadística – Pruebas de hipótesis - 2016 1 Facultad de Ciencias Naturales, UNSa Área de Estadística Material de apoyo didáctico elaborado por Silvia Sühring INFERENCIA ESTADÍSTICA: PUREBAS DE HIPÓTESIS La prueba de hipótesis es un procedimiento de la inferencia estadística mediante el cual podemos tomar la decisión de rechazar o no una hipótesis nula planteada con base en la información proporcionada por una muestra. Este procedimiento consta de una serie de pasos que nos guían a tomar la decisión en forma objetiva. Una hipótesis es un supuesto o afirmación que se hace respecto de una característica de la población. A partir de hipótesis científicas se establecen hipótesis estadísticas que pueden referirse al valor del/los parámetros de una población, a la distribución de una variable estudiada, o a la relación entre dos o más variables, etc. Hipótesis nula (H 0): es el supuesto acerca de la población que debemo s rechazar o no rechazar sobre la base de la evidenci a de la muestra. Es decir, es la hipótesis que se establece como verdadera y q ue se pone a prueba. Hipótesis alternativa (H 1): es un supuesto que se hace respecto de la población en el caso en que la H 0 sea rechazada. Ho H1 Supuesto que se considera Niega la Ho provisoriamente verdadero ejemplo: Ho µµµµ ≤≤≤≤ 50 vs. H1 µµµµ > 50 Una vez que se planteó la hipótesis nula debemos: - Obtener los datos para validar o no esa hipótesis - Seleccionar un estadístico que tenga una distribución de probabilidad definida bajo el supuesto de que la Ho es verdadera Si conocemos la distribución podremos asociar probabilidades a los eventos que pudieran ocurrir bajo Ho verdadera: delimitar zonas de rechazo y no rechazo, y definir la probabilidad de cometer un error al tomar la decisión. Procedimiento de la prueba de hipótesis: 1- Formular las hipótesis: Ho y H 1 La Ho es el supuesto referido a la población que se establece como verdadero y que se pone a prueba. La H1 es un supuesto complementario a la Ho que se aceptará como cierto en caso de rechazar la Ho. 2- Establecer el nivel de significación, P(e ΙΙΙΙ) = αααα El investigador determina la máxima probabilidad de cometer un error de tipo Ι (rechazar la Ho nula cuando es verdadera), al tomar la decisión. En general se utilizan los valores de αααα = 0,05 o 0,01. Inferencia Estadística – Pruebas de hipótesis - 2016 2 3- Establecer cuál será el estadístico de prueba a utilizar, cuya distribución quede completamente especificada bajo el supuesto de que la hipótesis nula es verdadera. Los estadísticos de prueba siguen algún modelo teórico de distribución. Estadístico de prueba Es la medida de la discrepancia entre la información que proporciona la muestra y lo expresado en la Ho. Es un valor que se calcula a partir de los datos de la muestra y que se utiliza para tomar la decisión de rechazar o no la Ho. Los estadísticos de prueba tienen alguna distribución teórica conocida que es utilizada para determinar la probabilidad de error. Cuantifican las diferencias entre las observaciones actuales (datos de la muestra) y las que hubiéramos esperado si la Ho fuera verdadera. Los estadísticos de prueba nos ayudan a decidir si estas diferencias son tan leves como para considerarlas un simple reflejo de la variación al azar (las que tienen una probabilidad grande de ocurrir cuando Ho es cierta), o si son tan grandes que pueden considerarse que Ho no es verdadera (las que tienes una probabilidad pequeña de ocurrir cuando Ho es cierta). 4- Fijar los criterios de decisión Se establecen los criterios que se seguirán en el momento de tomar la decisión de rechazar o no la Ho, es decir bajo qué condiciones la decisión será rechazar la Ho. Para esto es necesario establecer qué intervalo de valores del estadístico de prueba conducen al rechazo de la Ho (zona de rechazo), y qué intervalo de valores conducen al no rechazo de la misma (zona de no rechazo). Estas zonas están delimitadas por los valores críticos. Valor crítico (VC): punto que delimita la región o zona en que la hipótesis nula es rechazada y la región donde la hipótesis nula no es rechazada. Los criterios se fijan sobre la base de los pasos anteriores (1 a 3) de la prueba de hipótesis: la H1 define si la prueba planteada es de dos colas o de una cola, el nivel de significación definen la amplitud de la región de rechazo y la distribución del estadístico de prueba define cuáles son los valores críticos. 5- Realizar los cálculos necesarios Se realizan todos los cálculos necesarios para obtener el valor del estadístico de prueba teniendo en cuenta los datos de la muestra y lo propuesto en la Ho. 6- Tomar una decisión estadística Con base en el valor del estadístico de prueba calculado se decide si se rechaza o no la Ho siguiendo los criterios de decisión planteados en el paso 4. Si el valor del estadístico de prueba calculado cae en la región de no rechazo entonces se asume que los datos son compatibles con la hipótesis nula, entonces no existen evidencias suficientes para rechazar la Ho con un nivel de significación α y se dice que el estadístico de prueba no es significativo. Si, por el contrario, el estadístico cae en la región de rechazo entonces se asume que los datos no son compatibles con la hipótesis nula y se rechaza a un nivel de significación α. En este caso se dice que el estadístico de prueba es estadísticamente significativo. Al tomar una decisión en este paso podríamos cometer un error (de tipo I o II). Inferencia Estadística – Pruebas de hipótesis - 2016 3 - 5 0 5 0 , 0 0 , 1 0 , 2 0 , 3 0 , 4 1 - αα / 2 α / 2 Z o n a d e n o r e c h a z o Z o n a d e r e c h a z o Z o n a d e r e c h a z o V C 1 V C 2 - 5 0 5 0 , 0 0 , 1 0 , 2 0 , 3 0 , 4 1 - αα / 2 α / 2 Z o n a d e n o r e c h a z o Z o n a d e r e c h a z o Z o n a d e r e c h a z o V C 1 V C 2 7- Interpretar el resultado de la decisión en térmi nos del problema planteado (conclusión) TIPOS DE ERROR Teniendo en cuenta dos cosas: la decisión que se tome en el 6º paso del procedimiento de prueba de hipótesis, y la veracidad de la Ho, se pueden plantear las siguientes situaciones: Hipótesis nula Decisión Verdadera Falsa Rechazar Error de tipo Ι P(eΙ) = α decisión correcta P = (1 - β) No rechazar Decisión correcta P = (1 - α) error de tipo ΙΙ P(eΙΙ) = β El error de tipo Ι consiste en rechazar la Ho cuando es verdadera. El error de tipo ΙΙ consiste en no rechazar la Ho cuando es falsa. αααα es la probabilidad de cometer un error de tipo Ι. ββββ es la probabilidad de cometer un error de tipo ΙΙ. (1 - ββββ ): potencia del test , es decir, la probabilidad de rechazar la hipótesis nula cuando es falsa. Es la capacidad del test de detectar una diferencia entre lo planteado en la hipótesis nula y lo que se evidencia a partir de la muestra, si es que esta diferencia en realidad existe, es decir, la capacidad de afirmar que la Ho es falsa cuando realmente lo es. Valor p : probabilidad asociada al valor del estadístico de prueba calculado a partir de los datos, es decir, la probabilidad de obtener un valor más extremo que el calculado dado que la hipótesis nula es verdadera. Cuanto menor sea el valor p mayor es el grado de incompatibilidad de la muestra con Ho, lo que lleva a rechazar Ho. El criterio de decisión a partir del valor p será: • Si el valor p es más chico que el nivel de significación la hipótesis nula es rechazada. • Si el valor p es igual o más grande que el nivel de significación la hipótesis nula no es rechazada. Caso de una prueba bilateral (extraído de di Rienzo etal.) Inferencia Estadística – Pruebas de hipótesis - 2016 4 POTENCIA DE UNA PRUEBA Corresponde a la probabilidad de rechazar la hipótesis nula cuando es falsa (1 - β). La representación gráfica de la curva definida según lo planteado en la H0 permite ubicar la probabilidad de error de tipo I (α), y su complemento (1 - α). Por otro lado la curva definida según lo planteado en la H1 permite graficar la probabilidad de cometer un error de tipo II (β) y su complemento (1 - β) o potencia de la prueba. El valor crítico es el que separa la zona de rechazo de la de no rechazo de la Ho. -5.00 -2.50 0.00 2.50 5.00 0.00 0.10 0.20 0.30 0.40 D e ns id ad Normal(0,1): p(evento)=0.0500; Normal(2.5,1): p(evento)=0.1962 CÓMO AUMENTAR LA POTENCIA DE UNA PRUEBA Cuando la Ho expresa lo que el investigador cree que no es verdadero, mientras que la H1 expresa lo que el investigador cree que es verdadero, resulta obvio que debe plantear una prueba con alta potencia. Para lograr mayor potencia podemos usar alguno de los siguientes recursos: 1) AUMENTAR EL VALOR DE αααα Como β y α son inversamente proporcionales, al aumentar α disminuye β y por lo tanto aumenta la potencia (1 - β). -3.00 -1.00 1.00 3.00 5.00 0.00 0.10 0.20 0.30 0.40 D e ns id a d Normal(0,1): p(evento)=0.0228; Normal(2.5,1): p(evento)=0.3085 vc No rechazo Ho Rechazo Ho ββββ αααα θθθθ0 θθθθ1 H1 H0 Inferencia Estadística – Pruebas de hipótesis - 2016 5 -3.00 -1.00 1.00 3.00 5.00 0.00 0.10 0.20 0.30 0.40 D e ns id a d Normal(0,1): p(evento)=0.0505; Normal(2.5,1): p(evento)=0.1949 2) AUMNETAR LA DISTANCIA ENTRE θθθθ0 y θθθθ1 Al aumentar la distancia entre el valor que se asigna al parámetro en la Ho (θ0) y en la H1 (θ1), las curvas de H0 y H1 estarán menos solapadas, por lo tanto la probabilidad β disminuye y su complemento (1 - β) aumenta. -3.00 -0.75 1.50 3.75 6.00 0.00 0.10 0.20 0.30 0.40 D e ns id a d Normal(0,1): p(evento)=0.0505; Normal(2.5,1): p(evento)=0.1949 -3.00 -0.75 1.50 3.75 6.00 0.00 0.10 0.20 0.30 0.40 D e ns id a d Normal(0,1): p(evento)=0.0505; Normal(3.5,1): p(evento)=0.0314 3) AUMENTAR EL TAMAÑO DE LA MUESTRA Al aumentar el tamaño de la muestra el error estándar del estadístico disminuye, las curvas son más bajas en las colas y más altas en el centro (más leptocúrticas), por lo tanto estarán menos solapadas. Inferencia Estadística – Pruebas de hipótesis - 2016 6 -5.00 -2.00 1.00 4.00 7.00 0.00 0.15 0.30 0.45 0.60 -5.00 -2.00 1.00 4.00 7.00 0.00 0.15 0.30 0.45 0.60 # Prueba de hipótesis para la MEDIA POBLACIONAL ( µµµµ) El propósito de esta prueba es comprobar si la media de una población tiene un valor determinado (µ0). Los datos necesarios provienen de una muestra extraída al azar de una población para la que se registró en cada unidad estadística el valor de una variable cuantitativa. Cuando el tamaño de la muestra de la cual se obtuvo la estimación de la media poblacional es grande (≥30) y se conoce el valor de la varianza, se utiliza la distribución Z (normal estandarizada) para realizar pruebas de hipótesis referidas a µ. Esto surge a partir del Teorema Central del Límite, que afirma que la media muestral tendrá una distribución normal, independientemente de la distribución de la variable original. Las hipótesis que se plantean son: Ho : µ = µ0 H1 : µ ≠ µ0 ó H1: µ > µ0 ó H1: µ < µ0 -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0500 -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0500 -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0505 Inferencia Estadística – Pruebas de hipótesis - 2016 7 El estadístico de prueba utilizado para la prueba referida a µ es: Cuando el tamaño de la muestra de la cual se obtuvo la estimación de la media poblacional es pequeño (<30), y se desconoce el valor de la varianza poblacional, se utiliza la distribución t de Student. En este caso si la población es normal, el estadístico de prueba para el test para µ será en este caso: δ µ t n S x t c ≈ −= El estadístico tc sigue una distribución t de Student con δ = (n - 1) grados de libertad. En general, dado que si el tamaño de la muestra es grande (n >30) la distribución t de Student converge a una normal, se puede utilizar siempre el segundo estadístico de prueba planteado. Por esta razón la prueba para la media poblacional también se llama “prueba t para una media”. Ejemplo prueba de hipótesis para µµµµ (n>30) Un organismo de control ambiental está investigando el ruido que producen camiones pesados que circulan en una calle de acceso a una ciudad. Para ello toma una muestra de 40 camiones registrando sus respectivos niveles de ruido en decibeles. Con los datos obtenidos se determina que el promedio es de 86 db con una desviación típica de 0,81 db. Si el máximo nivel de ruido aceptado es 85,7 decibeles, el organismo decidirá permitir la circulación de estos camiones? (utilice una confianza del 95%) Solución Los datos corresponden a valores de una variable cuantitativa continua registrada en cada individuo de una muestra de camiones tomada de la población de camiones que circulan en el acceso a la ciudad. Datos: x = 86 db S = 0,81 db n = 40 En función del tamaño de la muestra se espera que x tenga distribución normal Prueba de hipótesis para µµµµ 1) Ho : µ ≤ 85,7 db ⇒ los camiones pueden circular Hi : µ > 85,7 db ⇒ los camiones no deben circular 2) Nivel de significación: α = 0,05 3) Estadístico de prueba: Zc = ( x - µ)/ σ x ∼∼∼∼ Z / Ho es V 4) Criterios de decisión: Rechazo la Ho si y sólo si el Zc es mayor que 1,64 -5,00 -2,50 0,00 2,50 5,00 0,00 0,10 0,20 0,30 0,40 Normal(0,1): p(evento)=0,0500 5) Cálculos: z x s n c = − µ Inferencia Estadística – Pruebas de hipótesis - 2016 8 S x = 0,81 / √40 = 0,128 Zc = (86 – 85m7) / 0m128 = 2.34 6) Decisión: como Zc es mayor que 1,64 rechazo la Ho. 7) Conclusión: Podemos afirmar con un 95% de confianza que el nivel de ruido excede el límite aceptado de 85,7 db, por lo tanto el organismo ambiental no permitirá la circulación de estos camiones. Ejemplo prueba de hipótesis para µµµµ (n<30) Un investigador desea analizar la relación que existe entre la temperatura ambiental y la temperatura corporal en los cangrejos que habitan las zonas intertidiales. Para ello mide la temperatura corporal de 8 cangrejos expuestos a una temperatura ambiente de 26,2 ºC, obteniendo los siguientes resultados: 25,8 24,6 26,1 24,9 25,3 24,0 24,5 25,1 Pruebe la hipótesis de que la temperatura corporal de los cangrejos es inferior a la temperatura ambiente. Solución Los datos corresponden a valores de una variable cuantitativa continua registrada en cada individuo de una muestra pequeña tomada de la población de cangrejos. Prueba de hipótesis para la media poblacional 1) Ho : µ = 26,2 ºC ⇒ la temperatura corporal de los cangrejos es igual a la ambiental Hi : µ < 26,2 ⇒ la temperatura corporal de los cangrejos es menor a la ambiental 2) Nivel de significación: α = 0,05 3) Estadístico de prueba: tc ∼ t7 / Ho es Verdadera 4) Criterios de decisión: Rechazo la Ho si y sólo si el tc es menor que -1,895 -5,92 -2,96 0,00 2,96 5,92 0,00 0,10 0,19 0,29 0,39 T Student(7): p(evento)=0,0500 5) Cálculos: x= 25,04 ºC S = 0,69 ºC S x = 0,69 / √ 8 = 0,244 ºC 75.4 244.0 2.2604.26 8 69.0 2.2604.25 −=−=−=−= n S x t c µ 6) Decisión: como tc es menor que -1,895, rechazola Ho. 7) Conclusión: Se puede afirmar con una confianza del 95% que la temperatura corporal de los cangrejos es menor que la temperatura ambiental. Con InfoStat podemos hacer esta prueba si tenemos los datos cargados. La salida sería: Prueba T para un parámetro Valor del parámetro probado: 26.2 Variable n Media DE LS(95) T p(Unilateral I) Temperatura 8 25,04 0,69 25,50 -4,75 0,0010 Notar que T = tc, la probabilidad para el valor T es 0,001 ⇒ menor que el nivel de significación ⇒ debo rechazar Ho. LS (95) corresponde la límite superior del intervalo de confianza para µ. Inferencia Estadística – Pruebas de hipótesis - 2016 9 # Prueba de hipótesis para la PROPORCIÓN POBLACIONAL ( ππππ) El propósito de esta prueba es comprobar si la proporción de una población tiene un valor determinado (π0). Los datos necesarios provienen de una muestra extraída al azar de una población para la que se registró, en cada unidad estadística, el valor de una variable cualitativa. A partir de estos datos se puede calcular p = nº de éxitos/ n. Cuando estimamos a π a partir de una muestra de tamaño suficientemente grande, se utiliza la distribución Z (normal estandarizada) para realizar pruebas de hipótesis sobre este parámetro. Esto es posible ya que de acuerdo con la teoría estadística, la proporción muestral p tendrá en este caso, una distribución normal. Las hipótesis que se plantean son: Ho : π = π0 H1 : π ≠ π0 ó H1: π > π0 ó H1: π < π0 El estadístico de prueba utilizado para el test referido a π es: p c p Z σ π−= donde n pp p )1( −=σ # Prueba de hipótesis para la VARIANZA POBLACIONAL (σσσσ 2) El propósito de esta prueba es comprobar si la varianza de una población tiene un valor determinado (σ20). Los datos necesarios provienen de una muestra extraída al azar de una población para la que se registró, en cada unidad estadística, el valor de una variable cuantitativa con distribución normal. Las hipótesis que se plantean son: Ho : σ2 = σ20 H1 : σ2 ≠ σ20 ó H1: σ2 > σ20 ó H1:σ2 < σ20 0.00 3.81 7.62 11.44 15.25 Variable 0.00 0.06 0.12 0.18 0.24 D en si d a d 0.00 3.81 7.62 11.44 15.25 Variable 0.00 0.06 0.12 0.18 0.24 D e n si d a d 0.00 3.81 7.62 11.44 15.25 Variable 0.00 0.06 0.12 0.18 0.24 D e n si d a d -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0505 -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0500 -5.00 -2.50 0.00 2.50 5.00 0.00 0.20 0.40 Normal(0,1): p(evento)=0.0500 Inferencia Estadística – Pruebas de hipótesis - 2016 10 El estadístico de prueba que se utiliza tiene distribución Chi cuadrado y es: 2 2 2 2 ).1( δχσ ≈−= SnXc donde δ = (n - 1) Ejemplo prueba de hipótesis para σ2 Según un proveedor de fertilizantes, el contenido de fósforo de uno de sus productos es de 460 kg/ton, con una varianza de 280 kg2/ton2. El comprador está interesado en que la variabilidad en el contenido de fósforo no supere esa cantidad. Se tomó una muestra de 51 productos y se determinó una varianza de 340 kg2/ton2. ¿Qué decisión tomará el comprador con una confianza del 95%? Solución: Prueba de hipótesis para la varianza poblacional 1) Ho : σ2 ≤ 280 kg2/ton2 ⇒ la varianza no supera la cantidad establecida ⇒ comprará el producto Hi : σ2 > 280 kg2/ton2 ⇒ la varianza supera la cantidad establecida ⇒ no comprará el producto 2) Nivel de significación: α = 0,05 3) Estadístico de prueba: X2 ∼ X250 / Ho es Verdadera 4) Criterios de decisión: Rechazo la Ho si y sólo si el X2c es mayor que X 2 (50;0.05): 67,5 0,00 25,00 50,00 75,00 100,00 0,000 0,010 0,020 0,030 0,041 Chi cuadrado(50): p(evento)=0,0500 5) Cálculos: 71.60 280 340).151().1( 2 2 2 =−=−= σ Sn Xc 6) Decisión: como X2c es menor que 67.5, no existen evidencias suficientes para rechazar la Ho. 7) Conclusión: Dado que la varianza del contenido de fósforo no supera el nivel establecido el comprador decidirá comprar el producto. # Prueba para COMPARAR DOS PROPORCIONES POBLACIONALE S (∆∆∆∆ππππ) El propósito de esta prueba es comprobar si dos poblaciones tienen el mismo valor para el parámetro proporción poblacional, es decir, si π1 es igual a π2. El parámetro que se pone a prueba es ∆π = (π1 - π2). Los datos necesarios provienen de dos muestras, una extraída al azar de la población 1 y otra de la población 2, para las que se registró, en cada unidad estadística, el valor de una variable cualitativa. A partir de estos datos se puede calcular p1 = nº de éxitos/ n1 y p2 = nº de éxitos/ n2. De acuerdo con la teoría estadística, la diferencia de proporciones muestrales ∆p (p1 - p2) tendrá distribución normal si las muestras son Inferencia Estadística – Pruebas de hipótesis - 2016 11 σ ∆p p p n p p n = − + −1 1 1 2 2 2 1 1( ) ( ) suficientemente grandes. Así, podemos poner a prueba hipótesis referidas a la diferencia de proporciones poblacionales. Las hipótesis que se plantean son: Ho : ∆π = 0 H1 : ∆π ≠ 0 ó ∆π > 0 ó ∆π < 0 El estadístico de prueba es: donde # Prueba para COMPARAR LAS VARIANZAS DE DOS POBLACI ONALES (Prueba de Homogeneidad de Varianzas o "Prueba F") El propósito de esta prueba es comprobar si dos poblaciones normales tienen el mismo valor para el parámetro varianza, es decir, si σ21 es igual a σ22. Los datos necesarios provienen de dos muestras, una extraída al azar de la población 1 y otra de la población 2, para las que se registró, en cada unidad estadística, el valor de una variable cuantitativa con distribución normal. Si S21 y S 2 2 son varianzas de muestras aleatorias independientes de tamaño n1 y n2, tomadas de poblaciones con distribución normal con varianzas respectivas σ21 y σ22, entonces el estadístico: F S S F= ≈ 1 2 1 2 2 2 2 2 1 2 σ σ δ δ( , ) tiene distribución F de Snedecor con δ1 = (n1 – 1) y δ2 = (n2 – 1) grados de libertad. Este estadístico se utiliza para probar si las varianzas poblacionales son iguales. Las hipótesis que se plantean son: Ho : 12 2 2 12 2 2 1 =⇒= σ σσσ H1 : 111 2 2 2 1 2 2 2 1 2 2 2 12 2 2 1 <>≠⇒≠ σ σ σ σ σ σσσ óó En general se utiliza como H1 (σ21/σ22) >1, por lo que se toma como población 1 a la que tiene mayor varianza. Dado que la hipótesis nula que se plantea en esta prueba es que las varianzas poblacionales son iguales, el estadístico de prueba se simplifica: 21;2 2 2 1 δδFS S Fc ≈= donde δ1 = n1 – 1 y δ2 = n2 – 1 p p Z ∆ ∆−∆= σ π Inferencia Estadística – Pruebas de hipótesis - 2016 12 El valor obtenido se compara con el valor crítico de la distribución F (δ2; δ1) para determinado nivel de significación. # Prueba de hipótesis para COMPARAR LAS MEDIAS DE D OS POBLACIONES ("prueba t") El propósito de esta prueba es comprobar si dos poblaciones tienen el mismo valor para el parámetro media, es decir, si µ1 es igual a µ2. Los datos necesarios provienen de dos muestras, una extraída al azar de la población 1 y otra de la población 2, para las que se registró, en cada unidad estadística, el valor de una variable cuantitativa. Lo primero que debemos tener en cuenta para elegir qué prueba realizar es si las muestras que se utilizan como fuente de información son independientes o dependientes. a) El Caso de Muestras Independientes (los resultados de una muestra son independientes d e los de la otra muestra) Al comparar las medias de dos muestras independientes para establecer si dichas muestras provienen de la misma población o de poblaciones con medias iguales, las hipótesis que se plantean son:Ho : ∆µ = 0 H1 : ∆µ ≠ 0 ó ∆µ < 0 ó ∆µ > 0 El estadístico de prueba que se utiliza es: donde Sd = S∆ x es la desviación típica de la diferencia de medias. El cálculo de los valores de Sd y δ varían según: -si las varianzas poblacionales (σ 1 2 y σ 2 2 ) son o no iguales -si los tamaños de las muestras (n1 y n2 ) son o no iguales Para saber si las varianzas poblacionales son o no iguales (cuando no se dispone de estos valores), se realiza la prueba de homogeneidad de varianzas . En función de las distintas situaciones, los cálculos de Sd y δ serán: a) Si σ21 = σ22 ; n1 = n2 S d S S n = +1 2 2 2 y δ = 2n - 2 b) Si σ21 = σ22 ; n1 ≠ n2 δ µ t S x t d c ≈ ∆−∆= Inferencia Estadística – Pruebas de hipótesis - 2016 13 +⋅ −+ −+− = 2121 2 22 2 11 11 2 )1()1( nnnn SnSn Sd y δ = n1 + n2 – 2 c) Si σ21 ≠ σ22 ; n1 = n2 S d S S n = +1 2 2 2 y 2 11 2 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 − − + − + = n n S n n S n S n S δ d) Si σ21 ≠ σ22 ; n1 ≠ n2 Sd S n S n = +1 2 1 2 2 2 y δ se calcula como en c) Ejemplo prueba de hipótesis para ∆µ Un grupo de conejos fue sometido a una serie de situaciones de tensión que producían una respuesta de temor. Después de un período de tiempo bajo estas condiciones, los conejos fueron comparados con los de un grupo control, que no había sido sometido a tensión. La variable de respuesta fue el peso (en mg) de la glándula suprarrenal. A partir de los datos obtenidos, presentados más abajo, pruebe si la situación de tensión produce una modificación en el tamaño de la glándula suprarrenal. Grupo Experimental 3,8 6,8 8,0 3,6 3,9 5,9 6,0 5,7 5,6 4,5 3,9 4,5 Grupo control 4,2 4,8 4,8 2,3 6,5 4,9 3,6 2,4 3,2 4,9 Solución : Interesa comparar las medias de las poblaciones “experimental” y “control” para evaluar si la situación de tensión produce cambio en el tamaño promedio de la glándula. Dado que las muestras son independientes se aplica la prueba t para muestras independientes. Hipótesis: Ho : ∆µ = 0 Hi : ∆µ ≠ 0 Nivel de significación: α = 0.05 El InfoStat provee esta salida: Prueba T para muestras Independientes Variable:peso - Clasific:Grupo - prueba:Bilateral Grupo 1 Grupo 2 Grupo control Grupo Experimental n 10 12 Media 4,16 5,18 Varianza 1,69 1,89 Media(1)-Media(2) -1,02 LI(95) -2,22 LS(95) 0,17 pHomVar 0,8773 T -1,78 gl 20 p-valor 0,0900 Inferencia Estadística – Pruebas de hipótesis - 2016 14 Decisión: Dado que la probabilidad de encontrar valores de tc más extremos que -1.78 es 0,09 (valor mayor que el nivel de significación), no existen evidencias suficientes para rechazar Ho. La decisión es no rechazo Ho. Conclusión: Las situación de tensión no modifica el tamaño de la glándula suprarrenal en los conejos. Interpretación del intervalo de confianza: la probabilidad de que el intervalo de valores de diferencia de peso de la glándula comprendido entre -2,22 y 0,17 mg contenga al parámetro ∆µ es 0,95. Nota: la columna p(Var.Hom.) indica el valor P de la prueba de homogeneidad de varianzas. En este ejemplo la probabilidad es alta (mayor que 0,05) por lo que la decisión en esta prueba es no rechazar la Ho. Concluimos que las varianzas de las poblaciones estudiadas son iguales (homogéneas), ya que la Ho en esta prueba es: 22 2 1 σσ = . 2) Caso de Muestras Dependientes o Pareadas (los resultados de una muestra no son independiente s de los de la otra muestra) Cuando las muestras no son independientes implica que las observaciones de cada muestra están pareadas o relacionadas entre sí. Se dicen muestras apareadas cuando las observaciones en las dos poblaciones de interés se recaban de a pares, con la premisa que cada par se toma en condiciones homogéneas, aunque estas condiciones pueden cambiar de un par a otro. Generalmente este tipo de datos pareados provienen de experimentos planeados para evaluar el efecto de una variable, controlando el efecto de otras variables (variables exógenas) que pudieran interferir en los resultados de dicho experimento. Si las medias poblacionales son iguales esperaríamos que las diferencias entre pares de observaciones (di) se compensen, y su promedio µd sea cero. Las hipótesis planteadas son entonces: Ho: µd = 0 H1: µd ≠ 0 ó µd < 0 ó µd > 0 En algunas situaciones se le puede asignar un valor diferente a cero a la media de las diferencias. El estadístico de prueba que se utiliza para comparar las medias poblacionales en todos los casos es: δ µ t S d t d d c ≈ − = donde δ = (n – 1) donde di = diferencia de cada par de valores, d es la media de estas diferencias y: El intervalo de confianza para la media de la diferencia (µµµµd) se calcula utilizando la expresión: S d d nd i= − − ∑ ( )2 1 S S nd d= Inferencia Estadística – Pruebas de hipótesis - 2016 15 αµ αα −=+≤≤− 1)..( 22 ddd StdStdP Ejemplo prueba de hipótsis para µµµµd Para comparar la efectividad de dos insecticidas A y B, en la plantación infectada se fumigó cada planta con ambos productos aplicándolos al azar en cada mitad de la planta. Al tiempo se seleccionaron 10 hojas en cada mitad de cada planta fumigada y se registró el número medio de insectos por hoja. Los datos registrados fueron los siguientes: Solución: Se deben comparar las medias poblacionales. Las muestras son dependientes, ya que cada valor de número medio de insectos por hoja de una mitad de la planta que recibió insecticida A se aparea con el promedio de insectos por hoja de la otra mitad de la misma planta que recibió el insecticida B. Cada par de datos corresponde a una planta, se utiliza la prueba t para muestras apareadas. 1) Ho: µd = 0 ⇒ los insecticidas tienen la misma efectividad H1: µd ≠ 0 ⇒ los insecticidas no tienen la misma efectividad 2) Nivel de significación: α = 0,05 3) Estadístico de prueba: 14tS d t d d c ≈ −= µ / Ho es Verdadera para δ = (8 – 1) = 7 4) Criterios de decisión: Rechazo la Ho si y sólo si el tc es mayor que t(7; 0.025): 2,365 ó si tc es menor que -t(7; 0.025): -2,365 -5,40 -2,70 0,00 2,70 5,40 0,00 0,10 0,20 0,29 0,39 T Student(14): p(evento)=0,0500 5) Cálculos: Debo calcular los valores de di, su media y su desviación estándar: Planta 1 2 3 4 5 6 7 8 Insecticida A 1,3 0,8 3,5 1,2 5,1 4,3 10,7 1,4 Insecticida B 2,1 1,5 3,9 1,8 5,0 5,4 12,9 1,1 d i -0,8 -0,7 -0,4 -0,6 0,1 -1,1 -2,2 0,3 d = -0.68 Sd = 0.77 27.0 8 77.0 === n SS dd 48.2 27.0 0)68.0( −=−−=−= d d c S d t µ 6) Decisión: como tc es menor que -2,365, rechazo la Ho. 7) Conclusión: Se puede afirmar con una confianza del 95% que los insecticidas A y B no tienen la misma efectividad. Además, como la diferencia se calculó como (A – B) y es negativa, podemos deducir que el promedio de insectos por hoja del insecticida A es menor que el del B, por lo tanto el insecticida A es más efectivo. Inferencia Estadística – Pruebas de hipótesis - 2016 16 Si realizamos el análisiscon InfoStat, la salida es: Prueba T (muestras apareadas) Obs(1) Obs(2) N media(dif) Media(1) Media(2) Insecticida A Insecticida B 8 -0.68 3.54 4.21 DE(dif) LI(95%)) LS(95%)) T Bilateral 0.77 -1.32 -0.03 -2.48 0.0423 El valor de P es menor que 0,05, por lo que rechazo la Ho. La probabilidad de cometer un error de tipo I al tomar esta decisión es de 0,0423. Los valores de las columnas LI(95%) y LS (95%) corresponden a los límites inferior y superior del intervalo de confianza del 95% para el parámetro µd , que en este caso estima al promedio de la diferencia en el número medio de insectos por hoja.
Compartir