Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 1 Unidad Pruebas de Hipótesis: Prueba=Dócima=Test=Contraste Palabras claves: Población, muestra, parámetro, estadístico, hipótesis, decisión, valor de la prueba, error tipo I, error tipo II Algunas Ideas generales: Hasta el momento, hemos visto un procedimiento ampliamente usado cuando no tenemos ningún conocimiento acerca del valor de un parámetro, esto es, como estimar un parámetro a partir de los datos contenidos en la muestra, empleando ya sea un único valor (estimación puntual) o un intervalo de valores (estimación por intervalos). Sin embargo, muchos problemas requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis, y el procedimiento de toma de decisión sobre la hipótesis se conoce como prueba de hipótesis. A diferencia del problema de estimación en la cual no tenemos ningún conocimiento respecto del valor del parámetro, en la prueba de hipótesis si se tiene conocimiento respecto de este valor, valor que puede ser el resultado de la experiencia pasada o del conocimiento del proceso. Entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. Una gran diferencia entre la prueba de hipótesis y el proceso de estimación es que en la prueba de hipótesis la muestra se extrae desde una población totalmente definida en cambio en la estimación sólo conocemos la forma y a partir de aquí inferimos el valor del o los parámetros. A la hipótesis que se prueba se le llama hipótesis nula y se denota por H0. Esta representa a la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, en otras palabras es la afirmación sobre una o más características de la población que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Al rechazar la hipótesis nula implícitamente estamos aceptando una hipótesis alternativa que H0 sea falsa, tal hipótesis es denotada por H1 . Observe que las dos decisiones posibles en una prueba de hipótesis, son rechazar H o o no rechazar H o . En toda prueba de hipótesis se debe tener presente que rechazar una hipótesis nula no constituye prueba que esta sea falsa, de la misma forma, el hecho de no rechazar la hipótesis H0 tampoco es prueba que esta sea verdadera, luego en el rechazo o no de la hipótesis nula podemos cometer uno de los errores siguientes: i) Rechazar una hipótesis nula verdadera, denominado error tipo I. ii) No rechazar una hipótesis nula falsa, denominado error tipo II. A la probabilidad de cometer un error tipo I se le conoce como nivel de significación y se denota por α , es decir, =α P(rechazar H0 / H0 verdadero) Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 2 A la probabilidad de cometer error tipo II se le denota por β , donde, =β P(no rechazar H0 / H0 falso) y 1 β− = P( rechazar H0 / H0 falso) recibe el nombre de potencia de la prueba En la prueba de hipótesis la metodología a seguir es: i) Definir las hipótesis a contrastar o probar. Si θ es el parámetro y 0 θ es el valor que asignamos a este parámetro entonces las hipótesis pueden ser i.1) H0 : 0θθ = i.2) H0 : 0θθ = i.3) H0 : 0θθ = H1 : 0θθ > H1 : 0θθ < H1 : 0θθ ≠ En los tres casos la hipótesis H0 define una hipótesis simple respecto del valor del parámetro. Las hipótesis (i.1) y (i.2) se conocen como hipótesis unilaterales o de una cola, en cambio la hipótesis (i.3) recibe el nombre de hipótesis bilateral o de dos colas. Nota: Las hipótesis (i.1) y (i.2) son equivalentes a i.1) H0 : 0θθ = i.2) H0 : 0θθ = H1 : 1θ θ= H1 : 1θ θ= Si 1 0 θ θ> Si 1 0 θ θ< ii) Definir una medida de discrepancia o estadístico de prueba entre el estimador y el valor del parámetro bajo la hipótesis nula del tipo: ɵ 0 ( ; )d d θ θ= la que debe tener una distribución conocida cuando la hipótesis H0 es cierta. iii) Tomar una muestra aleatoria de tamaño n de la población especificada por el parámetro, y calcular el valor del estadístico de prueba d. iv) Determinar la región de rechazo RC o el valor de la prueba pvalue, el que depende de la hipótesis 1 H . Este será explicado junto a los ejercicios a resolver. Definición: pvalue corresponde al menor valor de significancia para el cual H0 es rechazada, así, si pvalue < α , H0 es rechazada en caso contrario H0 no es rechazada Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 3 Pruebas de hipótesis respecto de la media de una población. Las posibles hipótesis que podemos formular respecto del parámetro µ son: i) 01 00 : : µµ µµ > = H H ii) 01 00 : : µµ µµ < = H H iii) 01 00 : : µµ µµ ≠ = H H con 0 µ valor del parámetro de acuerdo a nuestra creencia a priori. Recordemos que el estimador puntual de la media poblacional µ es el estadístico ˆ Xµ = , cuya distribución muestral ya ha sido ampliamente discutida. Caso 1: Población distribuida normal con media µ y varianza 2 σ conocida. En esta situación, la distribución de ˆ Xµ = es normal con media µ=µ X y varianza n 2 2 X σ =σ ,así, la variable aleatoria ( ) ~ (0;1) X Z N n µ σ − = . Observe que bajo la hipótesis nula, la distribución del estadístico X=µ̂ está completamente definida, es decir );(~ 2 0 n NX σ µ , luego el estadístico n X Z σ µ )( 0 − = es nuestra medida de discrepancia d, puesto que depende del valor 0 µ , del estimador de µ , X y su distribución es conocida. Una vez seleccionada la muestra aleatoria y evaluada la medida de discrepancia estamos en condiciones de calcular el valor de pvalue, donde a) Si la hipótesis H1 está dada por (i), pvalue = P(Z > Zc), donde Zc es el valor de la medida de discrepancia calculado a partir de los datos muestrales. z c La región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 4 RC = { }0/Z Z z> donde 0z es tal que 0( )P Z z α> = b) En caso que hipótesis H1 está dada por (ii), pvalue = P(Z < Zc) -z c En este caso, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, RC = { }0/Z Z z< donde cz es tal que 0( )P Z z α< = , observe que ahora 0z < 0 c) Si la hipótesis H1 está dada por (iii), pvalue = 2P(Z > |Zc|) -z c z c Ahora, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, RC = { }0/Z Z z> donde 0z es tal que 0( ) 2P Z z α > = Caso 2: Población distribuida normal con media µ y varianza 2 σ desconocida. La diferencia de este caso respecto del caso 1, es que ahora usamos como medida de discrepancia al estadístico: n S X t )( 0 µ− = el cual como sabemos tiene distribución t-Student con n-1 grados de libertad. Una vez seleccionada la muestra aleatoria y evaluada la medida de discrepancia estamos en condiciones de calcular el pvalue, donde a) Si la hipótesis H1 está dada por (i), pvalue = P(t > tc), donde tc es el valor de la medida de discrepancia calculado a partir de los datos muestrales Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 5 t c La región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, RC = { }0/tt t> donde 0t es tal que 0( )P t t α> = b) En caso que hipótesis H1 está dada por (ii), pvalue = P(t < tc) -t c En este caso, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, RC = { }0/t t t< donde cz es tal que 0( )P t t α< = , observe que ahora 0t < 0 c) Si la hipótesis H1 está dada por (iii), pvalue = 2P(t > |tc|) -t c t c Ahora, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, RC = { }0/t t t> donde 0t es tal que 0( ) 2P t t α > = Caso 3: Población no distribuida normal. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 6 Sabemos que si 30≥n , por teorema del limite central la distribución muestral de X=µ̂ es aproximadamente normal con media µ=µ X y varianza 2 X σ , donde la forma de calculo de 2 X σ depende si la población es finita o infinita y si el muestreo se ha realizado con o sin reemplazo. Una vez identificado el escenario de trabajo, aplicamos el caso 1 o el caso 2 según la varianza poblacional sea conocida o desconocida. Ejercicio 1: Se sabe que el puntaje medio que han obtenido los alumnos en determinada asignatura ha sido de 62 con una desviación estándar de 28 puntos. El profesor piensa que si realiza una serie de clases de reforzamiento podrá incrementar el puntaje medio y para verificar su conjetura invita a 20 estudiantes seleccionados aleatoriamente a que participen de dicho reforzamiento encontrando en una nueva evaluación un puntaje medio de 65 puntos. Bajo el supuesto que los puntajes son distribuidos normal: a) A un 5% de significación ¿a que conclusión llegó el profesor?. Use pvalue y región de rechazo para responder. b) Si la región de rechazo es ( ){ }1 20,..., / 64RC x x x= > . Determine la probabilidad de error tipo I y la probabilidad de error tipo II. Para la probabilidad de error tipo II suponga que 1 µ = 66. Solución: Sea X v.a puntaje obtenido por alumnos en determinada asignatura ( ;784)X N µ∼ a) Para responder nuestra pregunta, lo haremos con el parámetro µ , esto es: 0 : 62H µ = v/s 1 : 62H µ > a) Para responder nuestra pregunta, lo haremos con el parámetro µ , esto es: 0 : 62H µ = v/s 1 : 62H µ > Como se trata de población normal con varianza conocida, usamos como medida de discrepancia ( ) 65 62 0.48 6.26 X Z n µ σ − − = = = Como esta es una hipótesis de la forma (i.1), pvalue = P(Z > 0.48) = 0.315614 Para el nivel de significación del 5%, pvalue > 0.05 por lo que nuestra decisión es no rechazar H0. Si lo hacemos, con región de rechazo, consideramos el tamaño de la probabilidad de cometer error tipo I, es decir { }0/RC Z Z z= > donde 0( ) 0.05P Z z> = , así 0 1.64z = , luego Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 7 { }/ 1.64RC Z Z= > Ahora, como Z = 2.14 ∉ RC, no rechazamos H0. Conclusión: Los antecedentes no muestran evidencia significativa que los puntajes obtenidos por los estudiantes después del reforzamiento se vean incrementadas. b) P(error tipo I) = P( rechazar H0/µ = 62) = P( x > 64/ µ =62) = P(Z > 0.32) = 0.374484 P(error tipo II) = P(no rechazar H0/ µ = 66) = P( x ≤ 64/ µ =66) = P(Z ≤ -0.32) = 0.374484 Gráficamente Pruebas de hipótesis respecto de la varianza de una población distribuida normal. Las hipótesis que podemos formular respecto del parámetro 2 σ son: i) 2 0 2 1 2 0 2 0 : : σσ σσ > = H H ii) 2 0 2 1 2 0 2 0 : : σσ σσ < = H H iii) 2 0 2 1 2 0 2 0 : : σσ σσ ≠ = H H donde 2 0 σ es algún valor conocido. Recordemos que el estimador puntual de la varianza 2 σ es el estadístico � 2 2 Sσ = , donde S2 es la varianza de una muestra aleatoria seleccionada de una población distribuida normal y, que bajo la hipótesis nula la distribución del estadístico 2 0 2 2 )1( σ χ Sn − = es Chi-cuadrado con n-1 grados de libertad. Observe que el estadístico 2 0 2 2 )1( σ χ Sn − = es la medida de discrepancia, puesto que depende del valor hipotético 2 0 σ , del estadístico 2 S y su distribución es conocida. El pvalue y región de rechazo es en este caso: 62 6664 αβ Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 8 a) Si hipótesis H1 está dada por (i), pvalue = P( 22 c χχ > ) donde 2 c χ es el valor de la medida de discrepancia evaluada por los datos 2 c χ Para un nivel de significación α , { }2 2 20/RC χ χ χ= > con 20χ tal que 2 20( )P χ χ α> = b) pvalue = P( 22 c χχ < ) si la hipótesis H1 está dada por (ii), donde 2 c χ es el valor de la medida de discrepancia evaluada por los datos 2 c χ Para un nivel de significación α , { }2 2 20/RC χ χ χ= < con 2 0 χ tal que 2 2 0 ( )P χ χ α< = c) pvalue = P( 2222 ba χχχχ >∨< ) si hipótesis está dada por (iii), donde 2 a χ y 2 b χ es el valor de la medida de discrepancia evaluada por los datos 2 a χ 2 b χ Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 9 Para un nivel de significación α , { }2 2 2 2 2/ a bRC χ χ χ χ χ= < ∨ > donde 2aχ y 2bχ tal que 2 2 2 2( ) ( ) 2a b P P αχ χ χ χ< = > = Ejercicio 2: Un negocio debe pagar horas extras dada la demanda incierta de su producto, por lo cual se pagan 50 horas extra a la semana. El gerente de recursos humanos considera que siempre se ha tenido una varianza de 25 en las horas extras demandadas. Si se toma una muestra de 16 semanas se obtiene una varianza muestral de 28.1. Si las horas extras demandadas es una variable aleatoria distribuida normal, a un 10% de significación ¿la varianza poblacional de las horas extras demandadas puede considerarse igual a 25? Solución: Sea X v.a horas extras demandadas 2( ; )X N µ σ∼ De acuerdo a los antecedentes 2 0 : 25H σ = 2 1 : 25H σ ≠ De los antecedentes 2 2 2 0 ( 1) 15(28.1) 16.86 25 n S χ σ − = = = Para obtener pvalue, debemos tener en cuenta H1, así debemos determinar pvalue = 2P( 2 (25)χ <16.86). Como este valor en 15 grados de libertad no aparece en tabla podemos, a partir de la tabla, referenciar dicha probabilidad, veamos para ello la figura siguiente: De la figura, P( 2 (15)χ >16.86) > 0.1, lo que indica que pvalue = 2P( 2 (15)χ >16.86) > 0.2. Valor real obtenido con Excel es 0.6546 Como este valor es mayor que α = 0.1, la hipótesis H0 no es rechazada. Ahora si lo vemos con región de rechazo, para α = 0.1, { }2 2 2(15) (15) (15)/ 7.2609 24.9958RC χ χ χ= < ∨ > . Ahora bien, 16.86 22.3071 0.1 > 0.1 Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 10 como 2 χ = 16.86 ∉RC, H0 no es rechazada, de esta forma, los antecedentes no muestran evidencia en contra de Ho, por lo que la varianza no ha cambiado de 25. Pruebas de hipótesis respecto de la proporción de una población. La metodología de prueba de hipótesis para la proporción depende por cierto del tamaño de la muestra. Cuando la muestra es pequeña (n ≤ 20) se debe usar la distribución binomial, en cambio, para n > 20 siempre y cuando np ≥ 5 y np(1-p) ≥ 5, se debe usar la distribución normal. Las hipótesis que podemos formular respecto del parámetro p son: i) 0 0 1 0 : : H P p H P p = > ii) 0 0 1 0 : : H P p H P p = < iii) 0 0 1 0 : : H P p H P p = ≠ Sabemos que el estimador puntual de P es � x p n = , donde x es el número de elementos de la muestra de tamaño n que cumplen con una ciertacaracterística de estudio. Para muestras grandes o np ≥ 5 y np(1-p)≥ 5, se sabe que � 0 0 0 (1 ) ~ ; p p p N p n − , luego bajo la hipótesis nula, el estadístico de prueba es: � 0 0 0 (1 ) p p Z p p n − = − El pvalue y la región de rechazo en este caso se obtiene igual que en el caso de prueba de hipótesis para la media, distribución normal con varianza conocida (caso 1, pag. 3 y parte de 4). Ejercicio 3: Un estudio ha revelado que el 67% de los clientes de los supermercados piensa que los productos de las marcas de los supermercados son tan buenos como las marcas de productos reconocidos. Para investigar si estos resultados aplican a sus propios productos, un fabricante de uno de estos productos reconocidos realizó una encuesta a 320 clientes, consultando si consideraban a los productos de supermercado tan buenos como los productos reconocidos, encontrando que 189 respondió afirmativamente a dicha pregunta. A un 5% de significancia ¿a qué conclusión llegó el comerciante?. Solución: Sea X v.a número de clientes que piensan que los productos de las marcas de los supermercados son tan buenos como las marcas de productos reconocidos. 0 1 : 0.67 : 0.67 H P H P = ≠ Como n es grande, podemos usar la distribución normal, así Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 11 � 0 0 0 0.591 0.67 3.01 (1 ) 0.67(0.33) 320 p p Z p p n − − = = = − − Para el cálculo de la región de rechazo o pvalue debemos tomar en cuenta la siguiente figura -z c z c Calculo de pvalue, pvalue = 2P(Z < - 3.01) = 2(0.001306) = 0.002612 valor menor a 0.05, luego rechazamos H0. Cálculo de región de rechazo, para α =0.05, { }/ 1.96 1.96RC Z Z Z= < − ∨ > . Ahora bien, como Z = -3.01∈RC, rechazamos H0, en conclusión, los antecedentes muestran evidencia suficiente que la proporción de clientes que piensan que los productos de las marcas de los supermercados son tan buenos como las marcas de productos reconocidos no es igual a lo revelado por el estudio, por el contario es inferior. Pruebas de Hipótesis con dos Poblaciones. En algunas ocasiones es de mucho interés comparar dos poblaciones con la finalidad de determinar si se pueden considerar iguales o diferentes. En general las pruebas de dos muestras se usan para evaluar afirmaciones sobre la igualdad de las varianzas, medias o proporciones de dos poblaciones. Prueba de hipótesis sobre el cuociente de varianzas: La utilidad practica de la hipótesis sobre cuociente de varianzas, es que nos muestra si dos poblaciones distribuidas normal tienen o no igual varianzas, así la hipótesis a formular es: i) 1 1 2 2 2 1 1 2 2 2 1 0 > = σ σ σ σ : : H H ii) 1 1 2 2 2 1 1 2 2 2 1 0 < = σ σ σ σ : : H H iii) 1 1 2 2 2 1 1 2 2 2 1 0 ≠ = σ σ σ σ : : H H Sabemos que si tomamos dos muestras aleatorias independientes, una de cada población, el estimador puntual de 2 2 2 1 σ σ es 2 2 2 1 S S y la variable aleatoria: Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 12 F c F c Fa Fb 2 2 2 1 2 2 2 2 2 1 2 1 S S S S F == σ σ bajo H0, es usada como medida de discrepancia, y que F tiene distribución F de Fisher con n-1 y m-1 grados de libertad al numerador y denominador respectivamente. Una vez evaluado el valor de F en la muestra podemos obtener el pvalue o la región de rechazo, donde: a) pvalue = P(F > Fc) si hipótesis H1 es dado por (i), con Fc valor de la medida de discrepancia. Para un nivel de significación α , { }0/RC F F f= > con 0f tal que P(F > 0f ) = α b) Si la hipótesis H1 es dada por (ii), pvalue =P(F < Fc) En cambio, para un nivel de significación α , { }0/RC F F f= < con 0f tal que P(F < 0f ) = α c) Si hipótesis H1 es dada por (iii), pvalue = P(F< Fa v F > Fb), con Fa, Fb valor de la medida de discrepancia una vez evaluada por la muestra. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 13 La región de rechazo de tamaño α es ahora, { }/ a bRC F F F F F= < ∨ > , donde aF y bF son valores obtenidos de tal forma que ( ) ( ) 2a b P F F P F F α< = > = Pruebas de hipótesis sobre la diferencia entre medias de dos poblaciones. Cuando hacemos pruebas sobre la igualdad de medias, podemos plantear una hipótesis en términos si 21 µµ = , lo cual es equivalente a decir si 0 21 =−µµ , cuyo estimador puntual es YX − , de esta forma las hipótesis que podemos formular ahora son: i) 0:H 0:H 211 210 >− =− µµ µµ ii) 0:H 0:H 211 210 <− =− µµ µµ iii) 0:H 0:H 211 210 ≠− =− µµ µµ Para poder evaluar cualquiera de estas tres hipótesis, debemos extraer dos muestras aleatorias independientes, una de cada población. Si ambas muestras son obtenidas de poblaciones distribuidas normal entonces por teorema, el estadístico YX − tiene distribución normal con media 21 µ−µ y varianza mn 2 2 2 1 σ + σ , de esta forma, bajo H0 el estadístico de prueba o medida de discrepancia es ( )1 2 2 2 1 2 X Y Z n m µ µ σ σ − − − = + que bajo H0 , 021 =− µµ El pvalue o región de rechazo es obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. En caso que las varianzas sean desconocidas surge el problema que no sabemos si las varianzas pueden ser iguales o distintas y además si las muestras son grandes o pequeñas, de aquí que en el análisis debemos tener ambos supuestos. Si las varianzas son desconocidas pero se suponen iguales y los tamaños de muestras pequeños, el estadístico de prueba es ( )1 2 1 1 p X Y T S n m µ µ− − − = + , que bajo H0 , 021 =− µµ Esta variable aleatoria tiene distribución t de Student con n+m-2 grados de libertad. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 14 2 11 2 2 2 12 −+ −+− = mn SmSn S p )()( es la varianza ponderada. El pvalue o región de rechazo es obtenido de la misma forma que en el caso 2 (pag. 4-5), hipótesis para la media de una población. Si las varianzas no pueden suponerse iguales y las muestras son pequeñas, entonces el estadístico de prueba es ( )1 2 2 2 1 2 X Y T S S n m µ µ− − − = + que bajo H0 , 021 =− µµ cuyos grados de libertad son 2 2 2 1 2 2 2 2 2 1 2 2 1 1 S S n m k S S n m n m + = − + + + si n ≠m o k = 2(n-1) si n=m. E valor-p es obtenido de la misma forma que en el caso 2 (pag. 4-5), hipótesis para la media de una población. Cuando las muestras son grandes, el estadístico de prueba es entonces: ( )1 2 2 2 1 2 X Y Z S S n m µ µ− − − = + , que bajo H0 , 021 =− µµ Una vez evaluada la medida de discrepancia por la muestra, el pvalue o región de rechazo es obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. Ejercicio 4: Un reponedor supermercados de un producto de alta demanda, cree que el tiempo en horas en que su producto está en vitrina hasta que se vende, es el mismo independiente de la ubicación del supermercado en una ciudad. Para ello consideró datos de 25 días elegidos aleatoriamente desde dos supermercados ubicados en dos puntos diferentes en la cuidad encontrando que en el supermercado 1 el producto permanece en vitrina un promedio de 7.4 hrs con una desviación estándar de 2.1 hrs en cambio en el supermercado 2 el producto permanece en vitrina un tiempo medio de6.9 con desviación estándar de 1.5 hrs. Suponiendo que los tiempos de permanencia en vitrina siguen una distribución normal, a un 5% de significación ¿A qué conclusión llegó el reponedor?. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 15 Solución: Sea X v.a. tiempo de permanencia en vitrina de producto en supermercado 1. Sea Y v.a. tiempo de permanencia en vitrina de producto en supermercado 2.. 2( ; ) x x X N µ σ∼ con x µ y x σ ambas desconocidas 2 ( ; ) y y Y N µ σ∼ con y µ y y σ ambas desconocidas Datos: Supermercado 1 Supermercado 2 n = 25 m = 25 x = 7.4 y = 6.9 x S = 2.1 y S = 1.5 Como las muestras son pequeñas, un primer paso, antes de realizar la hipótesis para diferencia de medias debemos investigar si las varianzas desconocidas se pueden suponer iguales o distintas, para ello planteamos la siguiente hipótesis: 2 2 1 1 0 12 2 2 2 : 1 : 1H H σ σ σ σ = ≠ La medida de discrepancia es 2 1 2 2 4.41 1.96 2.25 S F S = = = Para α = 0.05, { }/ a bRC F F F F F= < ∨ > donde aF y bF son valores obtenidos de tal forma que ( ) ( ) 2a b P F F P F F α< = > = De la tabla F para ( 24; 24) grados de libertad a F = 1 2.3 = 0.4348 y b F = 2.3, luego { }/ 0.4348 2.3RC F F F= < ∨ > Como F = 1.96 ∉ RC, H0 no es rechazada, luego a un 5% de significancia, 2 2 x y σ σ= Ahora estamos en condiciones de resolver 0 : 0 x y H µ µ− = 1 : 0 x y H µ µ− ≠ Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 16 ( )2 2 2 ( 1) 1 24(4.41) 24(2.25) 3.33 2 48 x y p n S m S S n m − + − + = = = + − ⇒ p S = 1.82 El estadístico de prueba es ( )1 2 7.4 6.9 1 1 1 1 1.82 24 24 p X Y T S n m µ µ− − − − = = + + = 0.952 RC = { }0/t t t> donde 0t es tal que 0( ) 2P t t α > = , así Para 48 g.de l , RC = { }/ 2.0106t t > Como t = 0.952 ∉ RC, H0 no es rechazada, luego a un 5% de significación los datos avalan la sospecha del reponedor. Ejercicio 5: El retraso (psicomotor, psicolingüistico, psicosocial) que sufren los niños afectados con el síndrome de Down puede mejorarse con la estimulación precoz adecuada. Los estudios realizados sobre el ritmo de adaptación y aprendizaje en estos niños pone de manifiesto que esos procesos se relacionan de forma directamente proporcional a los estímulos recibidos en los ambientes más próximos al niño (familia y escuela). En uno de estos estudios, realizado con 91 niños de 8 años de edad, teniendo todos ellos igual grado de deficiencia, se decidió que 52 niños elegidos aleatoriamente fueran sometidos a estimulación precoz a diferencia del resto (que fue considerado grupo control). De todos ellos, se obtuvo un coeficiente de desarrollo (CD) a partir de datos neuromotrices de control postural, coordinación óculo-manual así como de lenguaje y sociabilidad mediante los test de Terman-Merril, los de Guzburg (PAC) y un inventario de Perfomance de Hayde y Dimitrev. Los resultados fueron los siguientes: Grupo Estimulación precoz: n = 52 CD medio = 69 desviación estándar = 3.2 Grupo Control : m = 39 CD medio =61 desviación estándar = 4.7 A un 1% de significación, en base a los antecedentes ¿existe diferencia significativa entre los dos grupos?. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 17 Solución: Sea X v.a. puntajes de CD obtenido en grupo con estímulo precoz. Sea Y v.a. puntajes de CD obtenido en grupo control. ( )X f∼ i con x µ y x σ ambas desconocidas ( )Y g∼ i con y µ y y σ ambas desconocidas 0 : 0 x y H µ µ− = 1 : 0 x y H µ µ− ≠ Como los tamaños de muestra son grandes trabajamos con ( )1 2 2 2 1 2 69 61 9.15 10.24 22.09 52 39 X Y Z S S n m µ µ− − − − = = = ++ Como la hipótesis H1 es bilateral, para un nivel de significación α = 0.01, la región de rechazo es { }/ 2.28 2.58RC Z Z Z= < − ∨ > Como Z = 9.15 ∈ RC, rechazamos H0, luego los antecedentes muestran evidencia fuertemente significativa que nos lleva a concluir que la estimulación precoz mejora el coeficiente de desarrollo. Pruebas de Hipótesis para muestras pareadas. Cuando se toman dos conjuntos de medidas sobre los mismos sujetos, o cuando se toman dos conjuntos de medidas sobre sujetos lo más similares posibles, decimos que los datos son pareados, en cuyo caso las muestras no son independientes puesto que dentro sujeto hay dependencia, por lo que podemos suponer una única población, diferencias de ambas medidas, mediante la expresión dj=x1j – x2j , donde jx1 corresponde al valor j-ésimo de la variable aleatoria X1 y jx2 corresponde al valor j-ésimo de la variable aleatoria X2 Las hipótesis que podemos formular son: i) 0d1 0d0 :H :H µµ µµ > = ii) 0d1 0d0 :H :H µµ µµ < = iii) 0d1 0d0 :H :H µµ µµ ≠ = donde d µ = 1 µ - 2 µ , con 1 µ media de la población X1 y 2µ media de la población X2. Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 18 Si la variable 21 XXD −= se distribuyen normal, entonces bajo H0 el estadístico de prueba es, n S d T d 0 µ− = donde ∑ = = n 1j jd n 1 d y ∑ = − − = n 1j 2 j 2 d )dd( 1n 1 S . Por lo general el valor hipotético de d µ es cero. Una vez evaluada la medida de discrepancia por la muestra, el pvalue es obtenido de la misma forma que en el caso 2 (pag. 4-5), hipótesis para la media de una población. Pruebas de hipótesis para diferencia Proporciones de dos Poblaciones. El procedimiento que se sigue en las pruebas hipótesis para comparar dos poblaciones sobre la base de las proporciones es similar a las pruebas de hipótesis para la diferencia de medias. Las hipótesis a probar en esta situación son: i) 0 1 2 1 1 2 : 0 : 0 H H π π π π − = − > ii) 0 1 2 1 1 2 : 0 : 0 H H π π π π − = − < iii) 0 1 2 1 1 2 : 0 : 0 H H π π π π − = − ≠ Sabemos que el estimador puntual de la proporción 1 π es n x p̂ 1 1 = y el estimador puntual de la proporción 2 π es m x p̂ 2 2 = . Si tanto 1 p̂ como 2 p̂ tienen distribución aproximadamente normal, entonces el estimador puntual de 1 2 π π− , dado por 21 p̂p̂ − , aproxima a la distribución normal con media 1 2 π π− y varianza +−= − m 1 n 1 )p~1(p~ 2 p̂p̂ 21 σ donde mn xx p + + = 21~ es la proporción combinada, estimador de la proporción común dada por H0 : π 1=π 2=π . En estas condiciones el estadístico de prueba es dado por, 21 p̂p̂ 21 p̂p̂Z − − = σ Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 19 Una vez evaluada la medida de discrepancia por la muestra, el pvalue es obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. Ahora, si la hipótesis nula fuera 0 1 2 0 :H pπ π− = , con p0 ≠ 0, el estadístico de prueba es: 21 p̂p̂ 21 p̂p̂Z − − = σ , donde m )p̂(p̂ n )p̂(p̂ p̂p̂ 22112 11 21 − + − =σ − y el pvalue es obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. Ejercicio 6: A fin de regularizar los impuestos que deben cancelar los contribuyentes de una ciudad se ha decidido utilizar dos métodos para registrar las propiedades. En el primero el dueño de lapropiedad se presenta en la oficina fiscal para proporcionar la información. En el segundo método el dueño de la propiedad llena una proforma que envía por correo. El alcalde de la ciudad piensa que el método que requiere la presencia de la persona produce menos errores que el otro. A fin de corroborar esto autoriza un estudio en el se muestrean 50 documentos del primer método y de 75 documentos del segundo método. Después de revisado minuciosamente los documentos, en el 10% de las formas llenadas en la oficina fiscal por el dueño de la propiedad y en el 13.3% de las formas enviadas por correos se encontraron errores. A un 5% de significación ¿Tiene razón el alcalde? Solución: Sea X v.a cantidad de documentos llenados en la oficina fiscal que tienen errores. Sea Y v.a cantidad de documentos enviados por correo que tienen errores. 0 1 : 0 / : 0 x y x y H v s Hπ π π π− = − < Las proporciones muestrales � x x p n = y � y y p m = De los datos n = 50 y m = 75, � 0.1 x p = y � 0.133 y p = Por otra parte, como n = 50 es grande, la distribución muestral de � x p se aproxima a la normal Como m = 75 es grande, la distribución muestral de � y p se aproxima a la normal, luego la estadística de prueba es 21 p̂p̂ 21 p̂p̂Z − − = σ , pero Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 20 1 2 5 10 0.12 50 75 x x p n m + + = = = + + ɶ y 1 2 2 ˆ ˆ 1 1 1 1 (1 ) 0.12(0.88) 0.00352 50 75 p p p p n m σ − = − + = + = ɶ ɶ ⇒ 1 2 2 ˆ ˆ 0.059 p p σ − = De 1 2 1 2 ˆ ˆ ˆ ˆ 0.1 0.133 0.56 0.059 p p p p Z σ − − − = = = − Respuesta con pvalue; pvalue =P(Z < - 0.56) = 0.28774 > 0.05, luego no se rechaza H0. Respuesta con región de rechazo: Para α =0.05, { }/ 1.65RC Z Z= < − . Ahora como Z = - 0.56 no pertenece a la región de rechazo, no se rechaza H0. Conclusión: A un 5% de significación, los datos no mostraron evidencia en contra de H0, luego el alcalde tenía razón, el método de registro de la propiedad en la oficina fiscal produce menos errores en comparación con el método de enviar la información por correo. Ejercicios propuestos 1) Estudios han revelado que los profesionales con más de cinco años de antigüedad en sus trabajos tienen autos con una edad promedio de 3.7 años con desviación estándar de 1.2 años. En una muestra aleatoria de 45 de estos profesionales se encontró que sus autos tienen una edad promedio de 4.2 años. a) A un 5% de significación, ¿Qué puede concluir respecto del estudio?. Responda con pvalue y región de rechazo b) Si { }1 45( , , ) / 3.34 4.06RC x x x x= < ∨ >⋯ . Determine la probabilidad de error tipo I y Tipo II. Para la probabilidad de error tipo II use 3.87µ = . 2) Una Isapre afirma que los reembolsos realizados a sus clientes en el año anterior fue en promedio de 230 miles de pesos. Una agrupación de protección a los clientes de Isapre piensa que esta cifra es mucho menor, para verificar la afirmación de la Isapre, consulta a 60 afiliados en la Isapre que habían recibido reembolso encontrando que esta cifra es en promedio de 218 miles de pesos con una desviación estándar de 50 miles de pesos. a) A un 1% de significancia, ¿se puede creer en lo afirmado por la Isapre?. Responda con pvalue y con Región de rechazo. b) Si { }1 60( , , ) / 221.74RC x x x= <⋯ , determine la probabilidad de cometer error tipo I y Tipo II, para esta última use 200µ = Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 21 3) Consumidores han realizado denuncias que el peso de 500 gr con una desviación estándar de 20 gr rotulado en cajas de determinado producto, difiere entre diferentes cajas. Un organismo de protección al consumidor ha decido probar dicha denuncia, para ello compra 26 cajas aleatoriamente seleccionadas encontrando que en promedio el peso es de 490 gr por caja con una desviación estándar de 25 gr. El organismo de protección al consumidor determinó que podía correr un riesgo de 2.5% de afirmar que las cajas pesan menos de 500 gr cuando en realidad su peso es de 500 gr. a) En base a los antecedentes ¿qué concluyó el organismo de protección al consumidor? b) A un 5% de significación ¿podemos afirmar que la desviación estándar es superior a 20? 4) El administrador de una empresa de buses desea dar una imagen de confiabilidad en su servicio. El piensa que los conductores no son tan puntuales en sus llegadas a los paraderos y que los tiempos de llegada a estos tienen una varianza superior a los 4 minutos que se había impuesto como máximo. Para comprobar esto, el administrador toma una muestra aleatoria de 24 llegadas a cierta parada encontrando una varianza de 4.9. Si la distribución de los tiempos de llegada es normal, a un 1% de significancia ¿A qué conclusión llegó? 5) Un taller de mantención de vehículos asociado a un marca de bastante prestigio afirma que sólo el 8% de sus clientes ha quedado insatisfecho, sin embargo una muestra de 130 clientes a quienes se consultó si estaban conforme con el trabajo realizado en el taller revelo que un 12% estaba insatisfecho. A un 1% de significación ¿Qué puede Ud. concluir? 6) Estudios anteriores han indicado que la proporción de clientes de telefonía móvil que han presentado quejas por fallas en la comunicación es de un 10%, pero Ud. de acuerdo a lo observado piensa que es más, para ello decide tomar una muestra aleatoria de 200 usuarios encontrando que 29 han presentado problema de comunicación . En base a los antecedentes mostrados, a un 5% de significación ¿Qué concluye?. Responda con pvalue y con región de rechazo? 7) Una operación de ensamblaje de una planta industrial requiere que un empleado nuevo se someta a un período de entrenamiento de aproximadamente un mes para alcanzar su máxima eficacia. Se sugirió un nuevo método de entrenamiento y se llevó a cabo una prueba para comparar el método nuevo con el procedimiento estándar. Dos grupos de nueve empleados nuevos se entrenaron durante un período de tres semanas, un grupo usando el nuevo método y el otro siguiendo el procedimiento de entrenamiento estándar. Al final del período de tres semanas se observó el tiempo en minutos que le tomó a cada empleado ensamblar el dispositivo. Los resultados aparecen en la tabla siguiente: Procedimiento Estándar (x) Procedimiento Nuevo (y) 32 37 35 31 Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 22 35 28 41 44 35 31 34 29 25 34 40 27 3231 Bajo el supuesto de distribución normal en los tiempos de ensamblajes, un nivel de significación de 5%. ¿Presentan los datos suficiente evidencia que indique que el tiempo medio de ensamblaje al final del período de entrenamiento de tres semanas es menor para el nuevo método? 8) Un productor de agua embotellada desea saber si el consumo promedio diario de agua es superior en una región 1, más calurosa, que en una región 2, más cálida. Para ello toma una muestra aleatoria de sus registros de 150 consumidores de la región 1, encontrando que en promedio consumen 265 mililitros de agua diarios con una desviación estándar de 30 mililitros. Seleccionó una muestra aleatoria de 120 consumidores de la región 2 encontrando un consumo promedio de 250 mililitros de agua diarios con una desviación estándar de 35 mililitros a) En base a los antecedentes, a un 5% de significancia, ¿existe evidencia de un mayor consumo en la región 1?. Responda con pvalue b) Si { }( , ) / 9.46RC x y x y= − > , Determine la probabilidad de cometer error tipo I
Compartir