Logo Studenta

Inferencia Estadistica - ALICAR OCANTO

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad de Los Andes
Núcleo Universitario “Rafael Rangel”
Departamento de Ciencias Económicas, Administrativas y Contables
Pampanito, Estado Trujillo
 
 
 
 
 
 
INFERENCIA ESTADÍSTICA
 
 
 
 
 
 
Elaborado por:
Alicar Paulino Ocanto Bastidas
V-29.541.891
Estadística Aplicada
Prof: Lcda. Alba Hernández
 
Marzo, 2023
Inferencia Estadística
 La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad. Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos se basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral que se utiliza como estimador de un parámetro.
Estimación de parámetros 
 La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros que caracterizan la distribución de probabilidad de la población. Cuando se estima un parámetro poblacional, aunque el estimador que se utiliza posea todas las propiedades deseables, se comete un error de estimación que es la diferencia entre la estimación y el verdadero valor del parámetro. El error de estimación es desconocido por lo cual es imposible saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el grado de precisión asociado con una estimación puntual se parte de dicha estimación para construir un intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto de valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del parámetro puede fijarse tan grande como se quiera. Esta probabilidad se denomina grado de confianza del intervalo, y la amplitud de éste constituye una medida del grado de precisión con el que se estima el parámetro.
Ejemplo estimación de parámetros
Queremos información sobre el resultado de las elecciones generales e intentar predecir qué porcentaje de votos tendrá cada partido político. Tras utilizar las técnicas pertinentes se extraen los siguientes resultados:
· Partido A: 32%
· Partido B: 51%
· Partido C: 17%
Sin embargo, somos conscientes, de que es una estimación. Así pues, utilizando las fórmulas adecuadas, establecemos los intervalos de confianza al 95%.
· Partido A: [30 – 34]%
· Partido B: [47 – 53]%
· Partido C: [15-19]%
Tras los resultados obtenidos se puede interpretar que existe un 95% de probabilidades de que el resultado de los partidos políticos estén en ese rango. Aun así, existe un 5% de probabilidades de que los resultados estén fuere de ese rango.
Intervalo de confianza para la media poblacional
Siguiendo el razonamiento anterior, se deduce que la probabilidad de que la media tipificada obtenida en una muestra extraída al azar (que sigue una distribución muestral normal estándar) se encuentre entre −zα/2 y +zα/2 tiene que ser igual a (1−α), lo que matemáticamente se expresa como:
En la fórmula anterior se puede despejar el valor de la media poblacional μ, resultando un intervalo para está última:
Esta expresión significa que la media de la población, μ, se esperaría encontrar con una probabilidad o confianza (1−α) en el intervalo comprendido entre los límites:
El intervalo de confianza resultante tiene su punto medio en m y se extiende por encima y por debajo de ese valor una longitud dada por el término que acompaña al símbolo ±, que es el error máximo, ε; la amplitud total del intervalo es de dos veces el error máximo. El intervalo de confianza sobre la curva normal se puede visualizar en la siguiente infografía (pinchar sobre ella para abrir el enlace):
Para un nivel de confianza (1−α) previamente fijado y un error máximo ε aceptable también fijado, el tamaño de la muestra se puede despejar de las expresiones anteriores, resultando:
EJEMPLO
Se lleva a cabo una investigación sobre el gasto medio mensual por persona en alimentación en España, que sigue una distribución normal de desviación típica σ = 20 euros. Se extrae una muestra al azar de 50 personas, cuyo gasto medio resulta ser de 290 euros. ¿En qué intervalo se encuentra la media en España para un nivel de confianza del 95%? Si se quisiera reducir la amplitud del intervalo a 6 euros, ¿cuál debería ser el tamaño de la muestra estudiada?
El nivel de confianza es (1−α) = 0,95 y el de significación es α = 0,05. El valor zα/2 = z0,025 es el que deja a su derecha un área bajo la curva normal estándar de 0,025, y por tanto a su izquierda un área de 0,975. Buscando esta última área (o la más cercana a ella) en la tabla, se encuentra que está situada en la columna 1,00 y en la fila 0,96, es decir, corresponde al valor z0,025 = 1,96. El error máximo es ε = 1,96 x 20/√50 = 5,54 euros, y por tanto los límites del intervalo de confianza para la media poblacional son 290 ± 5,54 euros. Es decir, el gasto medio mensual en alimentación de la población española se encontrará entre 284,46 y 295,54 euros con una probabilidad del 95%.
El intervalo obtenido para la media tiene una amplitud de dos veces el error máximo, es decir, 11,08 euros. Si se quisiera reducir a 6 euros, que corresponde a un error máximo de 3, habría que estudiar una muestra de tamaño n = (1,96 x 20 / 3)2 = 171 personas aproximadamente.
 
Cuando la varianza en la población no se conoce y se usa en su lugar la varianza en la muestra, el estadístico de inferencia de la media sigue una distribución muestral t de Student bajo ciertas condiciones. En ese caso, el intervalo de confianza para la media viene definido por los límites:
Es decir, los valores límite se refieren ahora a áreas bajo la distribución t de Student, no la normal, que se pueden consultar en otras tablas. No obstante, para muestras grandes (n>30) se puede seguir usando la distribución normal porque es muy buena aproximación.
Prueba de Hipótesis
 Las pruebas de hipótesis evalúan la probabilidad asociada a la hipótesis nula (Ho) de que no hay efecto o diferencia. El valor de p obtenido refleja la probabilidad de rechazar la Ho siendo esta verdadera; en ningún caso prueba que la hipótesis alternativa, de que si hay efecto o diferencia, sea verdadera. Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. 
· La hipótesis nula: es la afirmación que se está comprobando. Normalmente la hipótesis nula es una afirmación de "sin efecto" o "sin diferencia". 
· La hipótesis alternativa: es la afirmación que se desea ser capaz de concluir que es verdadera basándose en la evidencia proporcionada por los datos de la muestra. 
 Para realizar una prueba de hipótesis, se hacen algunas inferencias o supuestos con sentido acerca de la población. El embotellador de bebidas suaves, puede asumir, o plantear la hipótesis que el contenido promedio es de 16 onzas (µ = 16). Esta hipótesis nula (Ho :) se prueba contra la hipótesis alternativa (HA :) que establece lo contrario. En este caso, el contenido promedio no es de 16 onzas (µ ≠ 16). Por tanto, se tendría que:
Ho: µ = 16 			HA: µ ≠ 16
 El término nula implica nada o nulo. El término surge de sus primeras aplicaciones por parte de los investigadores agrícolas quienes probaron la efectividad de un nuevo fertilizante para determinar su impacto en la producción de la cosecha. Asumieron que el fertilizante no hacía ninguna diferencia en el rendimiento hasta que éste produjo algún efecto. Por tanto, la hipótesis nula, tradicionalmente contiene alguna referencia de un signo con igual como “=”, “≥” “≤”. Se analiza esta idea de forma más completa en una discusión posterior de las pruebas de hipótesis de una cola.
 Con base en los datos muéstrales, esta hipótesis nula es rechazada o no rechazada. Nunca se puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente significa que la evidencia muestralno es lo suficientemente fuerte como para llevar a su rechazo. Incluso si X= 16, no prueba que µ = 16. Podría ser que µ sea 15.8 ( o cualquier otro número), y debido al error de muestreo la media muestral acaba de igualar al valor de 16 que se plantea como hipótesis. Una analogía es que probar una hipótesis es como poner una persona en juicio. El acusado se halla o culpable o no culpable. Un veredicto de “inocente” nunca se considera. Un veredicto no culpable simplemente significa que la evidencia no es lo suficientemente fuerte como para encontrar culpable al acusado. No significa que él o ella sea inocente.
 Cuando se realiza una prueba de hipótesis, la hipótesis nula se supone que es “inocente” (verdadero) hasta que una preponderancia de la evidencia indique que es “culpable” (falso). Al igual que en un escenario legal, la evidencia de culpable debe establecerse más allá de toda duda razonable. Antes que se rechace la hipótesis nula, la media muestral debe diferir significativamente de la media poblacional planteada como hipótesis. Es decir, que la evidencia debe ser muy convincente y concluyente. Una conclusión con base en un rechazo de la hipótesis nula es más significativa que una que termine en una decisión de no rechazo.
 Se asume que se toma una muestra de n botellas y se halla una media de X = 16.15 onzas. ¿Se puede concluir que la media poblacional no es 16? Después de todo, ¡16.15 no es 16! Probablemente no. Esta pequeña diferencia podría ser estadísticamente insignificante puesto que podría explicarse fácilmente como un simple error de muestreo. Es decir, que debido al error de muestreo es posible tener una población con una media de 16 y salir con una media muestral de X = 16.15. Debido al azar, algunas botellas de la muestra pueden estar algo más llenas, produciendo una media muestral que sobrestime levemente la media poblacional. La evidencia muestral que X = 16.15 no es lo suficientemente fuerte como para desencadenar un rechazo de la hipótesis nula de que µ = 16.
 Si la diferencia entre el valor de la media de 16 bajo la hipótesis y el hallado en la muestra de 16.15 es insuficiente para rechazar la hipótesis nula, el asunto entonces se vuelve simplemente qué tan grande debe ser la diferencia para que sea estadísticamente significativa y conduzca un rechazo de la hipótesis nula. Vale la pena recordar de nuestra discusión sobre distribuciones de muestreo lo cual indica que se puede transformar toda unidad de medida, como las onzas del embotellador, hasta los valores correspondientes de Z con la fórmula Z:
Si σ es desconocida, se utiliza la desviación estándar muestral s.
 La distribución normal resultante de los valores de Z tiene una media de cero y una desviación estándar de uno. La regla empírica dice que el 95% de las X's en la distribución de muestreo están a 1.96 errores estándar de la media poblacional desconocida, tal y como se muestra en la figura 
Hipótesis estadística 
 La hipótesis estadística es la suposición que se realiza acerca de las características de una población. Es utilizada para verificarla o rechazarla tras realizar el estudio estadístico pertinente. Las hipótesis podrán verificarse o rechazarse en función de los resultados que arroje el estudio estadístico realizado
Ejemplo de hipótesis estadística
 Supongamos que tenemos una fábrica de bicicletas. Queremos conocer si uno de nuestros modelos pesa lo mismo tras la producción que lo calculado en su diseño. Para ello, debemos de establecer tanto la hipótesis nula como la alternativa. Como hemos visto anteriormente, ambas hipótesis son hipótesis estadísticas y tratan de verificar o rechazar si el peso estipulado en el diseño del producto se corresponde con el peso tras ser producido. De este modo, nuestro ingeniero afirma en el diseño del modelo que estamos estudiando que la bicicleta pesaría 7kg. Para poder verificar si finalmente se cumple esta suposición, estableceremos como hipótesis nula que la bicicleta pese 7kg y como hipótesis alternativa que el peso difiera de dicha cantidad.
En conclusión, una hipótesis estadística es la suposición de la característica o características que tiene una población. Su función es verificar o rechazar dicha afirmación tras realizar el estudio estadístico acordado para el análisis de dicha hipótesis.
Pasos para construir un contraste de Prueba de Hipótesis
Una hipótesis es una proposición que puede o no ser verdadera pero que se adopta provisionalmente hasta recabar información que sugiera lo contrario. Si hay inconsistencia, se rechaza la hipótesis. Las pruebas de hipótesis se usan precisamente para evaluar el grado de esa inconsistencia. Se puede describir formalmente los pasos a seguir:
1. Formular la hipótesis y su alternativa. Normalmente la hipótesis de trabajo (por ejemplo, tal tratamiento es mejor que el control o tal procedimiento tiene menos morbilidad) es contrastada con una hipótesis estadística que supone que no existe tal efecto o tal diferencia. La razón para hacer esto es que se puede calcular de antemano la distribución de probabilidades asociadas con tal situación. Esta hipótesis se conoce con el nombre de hipótesis nula que se abrevia como H0 (Nullus: Nula, falto de valor y fuerza para obligar o tener efecto). La expresión matemática es H0: 1= 2. La hipótesis alternativa es que el efecto sí existe, que es distinto de cero, y que en algunos casos se puede especificar el signo de esa diferencia. Normalmente corresponde a la hipótesis de trabajo, se abrevia como H1 y tiene tres alternativas: µ 1≠ µ 2, µ 1< µ 2 o bien µ 1> µ 2.
2. Elegir la prueba estadística apropiada de acuerdo al diseño experimental, el tipo de datos y el número de grupos que se comparan. La cifra que resulta de usar la prueba (aplicar la o las fórmulas) en los datos recolectados se conoce como el estadístico del test en cuestión: z; estadístico t o de Student, la r de Pearson, F del análisis de varianza, 2. La distribución del estadístico puede ser calculada de antemano cuando la H0 es verdadera y por lo tanto conocer los valores que delimitarán distintas porciones del área bajo la curva de esa distribución; éstas se conocen como distribuciones de muestreo. Vale la pena decir aquí, y lo reiteraremos luego, que las pruebas de hipótesis en ningún caso prueban la veracidad de la hipótesis alternativa o de trabajo, limitándose a decir que no hay suficiente evidencia para rechazar la hipótesis nula basándose en un nivel preestablecido de probabilidades.
3. Elegir el nivel de significación α de la prueba, el límite para rechazar H0. En general, se acepta α = 0,01 ó 0,05, cifras que implican un 1%, o un 5% respectivamente, de posibilidades de equivocarse cuando se rechaza H0, de decir que hay una diferencia cuando en realidad no la hay. Este es el llamado error tipo I.
4. Calcular el valor de P. Esta es la probabilidad de obtener los resultados observados u otros más extremos si la H0 es verdadera, cifra que es determinada por el área de la distribución que queda más allá del valor calculado.
5. Si p es menor que α, rechazar H0 y aceptar la alternativa; en caso contrario, se acepta la hipótesis nula. El conjunto de valores que resultarían en el rechazo de H0 – calculados conociendo la prueba usada, α y el número de observaciones – se conoce con el nombre de región crítica (Figura 1). Este punto puede refrasearse así: se rechaza la H0 si el estadístico cae en la región crítica. En los apéndices de los textos de estadística aparecen tablas con la distribución de estos estadísticos, dando el valor de p y donde el tamaño de la muestra se considera en los grados de libertad.
 Figura: Distribución de un estadístico, en este caso z, y decisión entre la hipótesis nula o su alternativa. En blanco, área de aceptación y sombreada área crítica de rechazo de la H0. En A, se destaca el área crítica en un extremo o cola de la distribución correspondiente a p = 0,05; en B, las áreas se distribuyen por mitades en los dos extremos o colas. Es aparente que se necesita un valor menordel estadístico para rechazar H0 cuando se trata sólo de un extremo.
 Como se evalúa el estadístico calculando la probabilidad de observar el valor encontrado u otro más extremo, el valor de P constituye la cola de la distribución. Este concepto es importante pues permite entender qué significa un test de una cola o de dos colas. Si la hipótesis de trabajo implica que existe una diferencia, sin especificar la dirección de esa diferencia (1 ≠ µ 2) debe usarse una prueba de dos colas. Si se es capaz de especificar de antemano el signo de ella (µ 1 < 2 o bien µ 1> µ 2), se puede y se debe usar una prueba de una cola. El punto es importante pues el área crítica es mayor en este último caso lo que equivale a decir que se puede rechazar con un valor menor del estadístico. Como veremos luego, esto equivale a aumentar la potencia de la prueba en cuestión.
Contraste de Prueba de hipótesis para medias, diferencia de medias, proporción y varianza
Contraste de hipótesis para la media
El contraste de hipótesis comienza estableciendo la hipótesis nula, que supone que la media poblacional toma un cierto valor, μ0. La hipótesis alternativa afirma entonces que el valor de la media poblacional es distinto del que supone la hipótesis nula. Ambas se escriben simbólicamente de la siguiente manera:
Ya vimos anteriormente que el estadístico de inferencia asociado a la media poblacional es la media muestral tipificada, cuya distribución muestral, bajo ciertas condiciones, es la normal. Por tanto, la probabilidad de encontrarla en el intervalo comprendido entre -zα/2 y +zα/2 es igual a (1−α), que se escribía como:
Si en ese intervalo se despeja la media muestral para expresarla en función de la poblacional (al contrario de lo que se hizo para los intervalos de confianza), y se supone el valor μ0 para esta última como indica la hipótesis nula, se obtiene:
Es decir, la media de una muestra extraída al azar se esperaría encontrar con una probabilidad (1−α) en el intervalo definido por los límites:
Si el valor empírico de la media en la muestra en estudio, m, se encuentra efectivamente dentro de este intervalo, se acepta la hipótesis nula, es decir, no hay razones estadísticas para rechazar que la población tenga media μ0. Si, por el contrario, la media de la muestra estuviese fuera de este intervalo, se rechazaría la hipótesis nula y se aceptaría la alternativa.
Este contraste, donde la hipótesis nula supone que la media poblacional es igual a un cierto valor, se llama bilateral, porque el intervalo de aceptación se extiende hasta un cierto límite a ambos lados de la supuesta media, definiendo un área bajo la curva normal igual a (1−α). Por encima y por debajo de ese intervalo se sitúan dos intervalos de rechazo, cada uno de los cuales delimita un área bajo la curva normal igual a α/2, que juntas corresponden al nivel de significación α.
La siguiente infografía (pinchar sobre ella) muestra el intervalo de aceptación para el contraste de hipótesis bilateral de la media poblacional, centrado en el valor supuesto en la hipótesis nula, μ0, junto con las áreas (probabilidades) bajo la curva normal asociadas a él. Se señalan dos posibles valores empíricos de la media muestral, m, uno que se encuentra dentro del intervalo de aceptación, con el que se aceptaría la hipótesis nula, y otro que se encuentra fuera, con el que se rechazaría la hipótesis nula.
EJEMPLO
La duración media de las bombillas de una determinada marca, según el fabricante, es de 10000 horas, con una desviación típica de 800 horas. Se eligen al azar 80 bombillas de ese fabricante y se mide su duración, que en promedio resulta ser de 9720 horas. Para un nivel de confianza del 99%, ¿es cierta la información que proporciona el fabricante?
El contraste de hipótesis (bilateral) que puede plantearse para responder este pregunta es el siguiente:
H0: μ = 10000 horas
H1: μ ≠ 10000 horas
A continuación, se obtiene el intervalo en el que cabría esperar que se encontrase la media muestral suponiendo cierta la hipótesis nula, con una confianza (1−α) = 0,99 (significación α = 0,01). El valor zα/2 = z0,005 es el que deja a su derecha un área bajo la curva normal estándar de 0,005, y por tanto a su izquierda un área de 0,995. Buscando esta área (o la más cercana a ella) en la tabla, se encuentra que está situada en la columna 2,00 y en la fila 0,58, que corresponde al valor z0,005 = 2,58. Los límites del intervalo de aceptación vienen dados entonces por 10000 ± 2,58 x 800/√80 = 10000 ± 230,76 horas.
Por otro lado, el valor empírico de la media en la muestra es m = 9720 horas. Este valor se encuentra fuera del intervalo que va desde 9769,24 hasta 10230,76, es decir, está fuera del intervalo de aceptación de la hipótesis nula. La conclusión del contraste es por tanto que, con un nivel de confianza del 99%, la información proporcionada por el fabricante es falsa, habiendo exagerado ligeramente la duración de sus bombillas.
 
También se puede establecer una hipótesis nula en la que la media poblacional se supone menor o mayor que un cierto valor μ0, en lugar de igual. Cuando la media de la muestra es mayor que ese valor supuesto (m>μ0), las hipótesis se escriben como:
Así, la hipótesis nula expresa que la media de la población es menor o igual que el valor supuesto, mientras que la hipótesis alternativa afirma que es mayor. Aunque la media de la muestra con la que se trabaja es mayor que el valor supuesto, podría deberse al azar, y la probabilidad de que eso ocurra es lo que se calcula en el contraste. El intervalo de aceptación para la media muestral sería en este caso el de todos los valores menores que un cierto límite superior, es decir, desde menos infinito hasta ese límite, que viene dado por:
Si la media de la muestra es menor que el valor supuesto para la población (m<μ0), las hipótesis nula y alternativa se formulan al contrario, es decir, la nula expresa que la media poblacional es mayor o igual que el valor supuesto. En este caso, el intervalo de aceptación es el opuesto al anterior: todos los valores mayores que un cierto límite inferior, que es igual al superior pero remplazando el signo más por el signo menos en su fórmula.
Este tipo de contraste se llama unilateral, porque el intervalo de aceptación se extiende desde un único límite hasta el infinito hacia la izquierda o hacia la derecha, y la única región de rechazo se extiende hasta el infinito opuesto. Esa única región de rechazo delimita el área total que corresponde al nivel de significación α, razón por la cual el valor límite del intervalo depende de zα y no de zα/2 como en el contraste bilateral.
El intervalo de aceptación y las áreas bajo la curva normal resultantes pueden verse en la siguiente infografía (pinchar sobre ella), análoga a la anterior, pero para un contraste unilateral con hipótesis nula μ ≤ μ0:
Contraste de hipótesis para la diferencia de medias
También se puede establecer un contraste de hipótesis para la diferencia entre las medias de dos poblaciones distintas, estableciendo en la hipótesis nula que lambas medias son iguales y en la hipótesis alternativa, que son distintas (contraste bilateral):
Siguiendo un procedimiento análogo al del contraste para una única media, los límites del intervalo de aceptación de la hipótesis nula se obtienen a partir del estadístico de inferencia (diferencia de medias muestrales tipificada) y de la curva normal estándar, y resultan:
donde, según la hipótesis nula, μ1 − μ2 es 0. Si la diferencia de medias muestrales, m1 − m2, se encuentra dentro de este intervalo, se acepta la hipótesis nula, es decir, las dos poblaciones tienen la misma media.
Al igual que en el caso de una sola media, también son posibles aquí los contrastes unilaterales. Y el contraste también puede ser más general fijando un valor distinto de 0 para la diferencia de medias en las hipótesis nula y alternativa.
El contraste para la diferencia de medias es muy importante en la investigación cuantitativa porque permite comparar los valores de la variable dependiente en dos gruposdistintos, cada uno de los cuales está asociado a un valor diferente (categórico) de la variable independiente. Se puede estudiar así si existe algún efecto estadísticamente significativo de la variable independiente sobre la dependiente. En las primeras secciones de este bloque se introdujeron los diseños de investigación en los que se forman varios grupos según los valores de la variable independiente, que pueden usarse para estudiar, por ejemplo, la eficacia de un nuevo tratamiento médico, una nueva metodología educativa, una nueva política económica, etc.
EJEMPLO
Dos grupos de 40 alumnos cada uno, elegidos al azar, han seguido metodologías distintas para el aprendizaje de inglés (variable independiente) durante un curso académico, al final del cual se han medido las competencias adquiridas mediante la realización de un test (variable dependiente). El grupo 1 ha obtenido en el test una puntuación media de 8,24 con varianza 4,49 y el grupo 2 ha obtenido una puntuación media de 7,32 con varianza 4,21. Para un nivel de confianza del 99%, ¿puede decirse que las dos metodologías aplicadas producen diferencias significativas en los resultados de la competencia en inglés?
La resolución comienza estableciendo el contraste de hipótesis, que en este caso es para la igualdad de medias de dos poblaciones, o diferencia de medias entre ambas:
H0: μ1 = μ2, que equivale a H0: μ1 − μ2 = 0
H1: μ1 ≠ μ2, que equivale a H1: μ1 − μ2 ≠ 0
A continuación, se obtiene el intervalo en el que cabría esperar que se encontrase la diferencia de medias muestrales suponiendo cierta la hipótesis nula, con una confianza (1−α) = 0,99 (significación α = 0,01). Se trata de un contraste bilateral cuyo valor zα/2 = z0,005 es el que deja a su derecha un área bajo la curva normal estándar de 0,005, y por tanto a su izquierda un área de 0,995. Buscando esta área en la tabla, se encuentra que corresponde al valor z0,005 = 2,58. Los límites del intervalo de aceptación vienen dados entonces por 0 ± 2,58 √(4,49/40 + 4,21/40) = ± 1,20.
Por otro lado, el valor empírico de la diferencia de medias en la muestra es m1 − m2 = 8,24 − 7,32 = 0,92. Este valor se encuentra dentro del intervalo que va desde -1,20 hasta 1,20, es decir, está en el intervalo de aceptación de la hipótesis nula. La conclusión del contraste es por tanto que las dos metodologías de enseñanza de inglés no introducen diferencias estadísticamente significativas en cuanto a los resultados académicos, con un nivel de confianza del 99%. Si alguno de los dos métodos era novedoso y se pretendía comparar con el tradicional, la investigación ha concluido que no introduce ningún cambio significativo. En los dos grupos de la muestra en estudio sí existía una clara diferencia de medias en la variable dependiente, pero el contraste estadístico ha establecido que se debe a efectos del azar, no a una influencia real de la variable independiente (todo ello dentro de la probabilidad fijada del 99%).
Contraste de hipótesis para la proporción
En este caso las hipótesis para el contraste (bilateral) son las siguientes:
Los límites del intervalo de aceptación de la hipótesis nula se obtienen a partir del estadístico de inferencia (proporción muestral tipificada) y de la curva normal estándar (para muestras grandes, n>30), y resultan:
Si la proporción en la muestra, p, se encuentra dentro de este intervalo, se acepta la hipótesis nula, es decir, la población de la que se ha extraído la muestra tiene la proporción supuesta π0.
EJEMPLO
Se quiere comprobar la hipótesis de que el nivel de desempleo de una región es igual al del promedio de las regiones de su entorno, que se sitúa en un 12,6%. Para ello se entrevista a un grupo de 800 personas escogidas al azar, de las que 120 resultan encontrarse en situación de desempleo. Para un nivel de confianza del 99%, ¿se puede aceptar la hipótesis de partida?
La hipótesis de partida (nula), junto a su hipótesis alternativa, pueden expresarse como:
H0: π = 0,126
H1: π ≠ 0,126
Se trata de un contraste bilateral para la proporción poblacional. Dado que la muestra es grande, se puede suponer una distribución normal para la proporción muestral tipificada, con zα/2 = z0,005 = 2,58, de donde se obtienen los siguientes límites del intervalo de aceptación: 0,126 ± 2,58 x √(0,126 x (1-0,126) / 800) = 0,126 ± 0,030.
Por otro lado, el valor empírico de la proporción en la muestra es p = 120/800 = 0,15. Este valor se encuentra dentro del intervalo que va desde 0,096 hasta 0,156, es decir, está en el intervalo de aceptación de la hipótesis nula. Se concluye por tanto que no existen evidencias estadísticas que permitan descartar que el porcentaje de población desempleada en la región es igual al promedio de las regiones de su entorno, con un nivel de confianza del 99%.
Prueba de hipótesis para la varianza
Si se extrae una muestra aleatoria de tamaño n de una población normal con media µ y varianza σ2, y se calcula la varianza muestral, se obtiene el valor del estadístico s2 que se utilizará para conocer la σ2, mediante una variable aleatoria chi cuadrada con “n-1” grados de libertad. Formalizando con el siguiente teorema: si s2 es la varianza de una muestra aleatoria de tamaño “n” que se toma de una población normal que tiene varianza σ2, entonces el estadístico:
Tiene una distribución chi cuadrado con v= n-1 , grados de libertad.
Ejemplo de hipótesis para la varianza
Un fabricante de baterías garantiza que su producto dura en promedio 2,5 años con una desviación estándar de 0,8 años. Si se toma una muestra aleatoria de 8 baterías y resultó que
 
Y
,
 ¿con la evidencia tomada tiene razón el fabricante respecto a la desviación estándar poblacional? Utilice un nivel de significancia de 0,01.
La hipótesis:
Se calcula el estadístico:
Para el nivel de significancia de 0,99, hay que remitirse a la distribución chi cuadrado con v=8-1 = 7 grados de libertad. El valor crítico será:
Como el estadístico quedó dentro de la región de aceptación, con la evidencia tomada se puede aceptar la afirmación del fabricante.

Continuar navegando