Logo Studenta

hipotesis_estadistica

¡Este material tiene más páginas!

Vista previa del material en texto

Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
1
Unidad Pruebas de Hipótesis: 
Prueba=Dócima=Test=Contraste 
 
Palabras claves: Población, muestra, parámetro, estadístico, hipótesis, decisión, valor de la prueba, 
error tipo I, error tipo II 
Algunas Ideas generales: Hasta el momento, hemos visto un procedimiento ampliamente 
usado cuando no tenemos ningún conocimiento acerca del valor de un parámetro, esto es, como 
estimar un parámetro a partir de los datos contenidos en la muestra, empleando ya sea un único 
valor (estimación puntual) o un intervalo de valores (estimación por intervalos). Sin embargo, 
muchos problemas requieren que se tome una decisión entre aceptar o rechazar una proposición 
sobre algún parámetro. Esta proposición recibe el nombre de hipótesis, y el procedimiento de toma 
de decisión sobre la hipótesis se conoce como prueba de hipótesis. 
A diferencia del problema de estimación en la cual no tenemos ningún conocimiento respecto del 
valor del parámetro, en la prueba de hipótesis si se tiene conocimiento respecto de este valor, valor 
que puede ser el resultado de la experiencia pasada o del conocimiento del proceso. Entonces el 
objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 
 
Una gran diferencia entre la prueba de hipótesis y el proceso de estimación es que en la prueba de 
hipótesis la muestra se extrae desde una población totalmente definida en cambio en la estimación 
sólo conocemos la forma y a partir de aquí inferimos el valor del o los parámetros. 
A la hipótesis que se prueba se le llama hipótesis nula y se denota por H0. Esta representa a la 
hipótesis que mantendremos a no ser que los datos indiquen su falsedad, en otras palabras es la 
afirmación sobre una o más características de la población que al inicio se supone cierta (es decir, la 
"creencia a priori"). 
La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. 
Al rechazar la hipótesis nula implícitamente estamos aceptando una hipótesis alternativa que H0 sea 
falsa, tal hipótesis es denotada por H1 . 
Observe que las dos decisiones posibles en una prueba de hipótesis, son rechazar H
o
 o no rechazar 
H
o
. 
En toda prueba de hipótesis se debe tener presente que rechazar una hipótesis nula no constituye 
prueba que esta sea falsa, de la misma forma, el hecho de no rechazar la hipótesis H0 tampoco es 
prueba que esta sea verdadera, luego en el rechazo o no de la hipótesis nula podemos cometer uno 
de los errores siguientes: 
i) Rechazar una hipótesis nula verdadera, denominado error tipo I. 
ii) No rechazar una hipótesis nula falsa, denominado error tipo II. 
 
A la probabilidad de cometer un error tipo I se le conoce como nivel de significación y se denota 
por α , es decir, 
 =α P(rechazar H0 / H0 verdadero) 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
2
A la probabilidad de cometer error tipo II se le denota por β , donde, 
 =β P(no rechazar H0 / H0 falso) 
y 1 β− = P( rechazar H0 / H0 falso) recibe el nombre de potencia de la prueba 
En la prueba de hipótesis la metodología a seguir es: 
i) Definir las hipótesis a contrastar o probar. 
Si θ es el parámetro y 
0
θ es el valor que asignamos a este parámetro entonces las hipótesis 
pueden ser 
i.1) H0 : 0θθ = i.2) H0 : 0θθ = i.3) H0 : 0θθ = 
 H1 : 0θθ > H1 : 0θθ < H1 : 0θθ ≠ 
En los tres casos la hipótesis H0 define una hipótesis simple respecto del valor del 
parámetro. 
Las hipótesis (i.1) y (i.2) se conocen como hipótesis unilaterales o de una cola, en cambio la 
hipótesis (i.3) recibe el nombre de hipótesis bilateral o de dos colas. 
Nota: Las hipótesis (i.1) y (i.2) son equivalentes a 
i.1) H0 : 0θθ = i.2) H0 : 0θθ = 
 H1 : 1θ θ= H1 : 1θ θ= 
 Si 
1 0
θ θ> Si 
1 0
θ θ< 
ii) Definir una medida de discrepancia o estadístico de prueba entre el estimador y el valor 
del parámetro bajo la hipótesis nula del tipo: 
ɵ
0
( ; )d d θ θ= 
la que debe tener una distribución conocida cuando la hipótesis H0 es cierta. 
iii) Tomar una muestra aleatoria de tamaño n de la población especificada por el parámetro, y 
calcular el valor del estadístico de prueba d. 
 
iv) Determinar la región de rechazo RC o el valor de la prueba pvalue, el que depende de la 
hipótesis 
1
H . Este será explicado junto a los ejercicios a resolver. 
 
 
Definición: pvalue corresponde al menor valor de significancia para el cual H0 es rechazada, así, si 
pvalue < α , H0 es rechazada en caso contrario H0 no es rechazada 
 
 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
3
Pruebas de hipótesis respecto de la media de una población. 
Las posibles hipótesis que podemos formular respecto del parámetro µ son: 
i) 
01
00
:
:
µµ
µµ
>
=
H
H
 ii) 
01
00
:
:
µµ
µµ
<
=
H
H
 iii) 
01
00
:
:
µµ
µµ
≠
=
H
H
 
con 
0
µ valor del parámetro de acuerdo a nuestra creencia a priori. 
Recordemos que el estimador puntual de la media poblacional µ es el estadístico ˆ Xµ = , 
cuya distribución muestral ya ha sido ampliamente discutida. 
Caso 1: Población distribuida normal con media µ y varianza 
2
σ conocida. 
En esta situación, la distribución de ˆ Xµ = es normal con media µ=µ
X
 y varianza 
n
2
2
X
σ
=σ ,así, la variable aleatoria 
( )
~ (0;1)
X
Z N
n
µ
σ
−
= . 
Observe que bajo la hipótesis nula, la distribución del estadístico X=µ̂ está 
completamente definida, es decir );(~
2
0
n
NX
σ
µ , luego el estadístico 
 
n
X
Z
σ
µ )(
0
−
= 
es nuestra medida de discrepancia d, puesto que depende del valor 
0
µ , del estimador de µ , X y 
su distribución es conocida. 
 Una vez seleccionada la muestra aleatoria y evaluada la medida de discrepancia estamos en 
condiciones de calcular el valor de pvalue, donde 
a) Si la hipótesis H1 está dada por (i), pvalue = P(Z > Zc), donde Zc es el valor de la medida 
de discrepancia calculado a partir de los datos muestrales. 
z
c 
La región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
4
 RC = { }0/Z Z z> donde 0z es tal que 0( )P Z z α> = 
b) En caso que hipótesis H1 está dada por (ii), pvalue = P(Z < Zc) 
-z
c 
En este caso, la región de rechazo, de tamaño α , está dada por la zona achurada de la 
figura, es decir, 
RC = { }0/Z Z z< donde cz es tal que 0( )P Z z α< = , observe que ahora 0z < 0 
c) Si la hipótesis H1 está dada por (iii), pvalue = 2P(Z > |Zc|) 
-z
c
z
c 
Ahora, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es 
decir, 
 RC = { }0/Z Z z> donde 0z es tal que 0( ) 2P Z z
α
> = 
Caso 2: Población distribuida normal con media µ y varianza 
2
σ desconocida. 
 La diferencia de este caso respecto del caso 1, es que ahora usamos como medida de 
discrepancia al estadístico: 
 
n
S
X
t
)(
0
µ−
= 
el cual como sabemos tiene distribución t-Student con n-1 grados de libertad. 
Una vez seleccionada la muestra aleatoria y evaluada la medida de discrepancia estamos en 
condiciones de calcular el pvalue, donde 
a) Si la hipótesis H1 está dada por (i), pvalue = P(t > tc), donde tc es el valor de la medida de 
discrepancia calculado a partir de los datos muestrales 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
5
t
c 
La región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es decir, 
 RC = { }0/tt t> donde 0t es tal que 0( )P t t α> = 
 
 
b) En caso que hipótesis H1 está dada por (ii), pvalue = P(t < tc) 
-t
c 
En este caso, la región de rechazo, de tamaño α , está dada por la zona achurada de la 
figura, es decir, 
 RC = { }0/t t t< donde cz es tal que 0( )P t t α< = , observe que ahora 0t < 0 
c) Si la hipótesis H1 está dada por (iii), pvalue = 2P(t > |tc|) 
 
-t
c
t
c 
 
Ahora, la región de rechazo, de tamaño α , está dada por la zona achurada de la figura, es 
decir, 
 RC = { }0/t t t> donde 0t es tal que 0( ) 2P t t
α
> = 
Caso 3: Población no distribuida normal. 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
6
 Sabemos que si 30≥n , por teorema del limite central la distribución muestral de 
X=µ̂ es aproximadamente normal con media µ=µ
X
 y varianza 
2
X
σ , donde la forma de calculo 
de 
2
X
σ depende si la población es finita o infinita y si el muestreo se ha realizado con o sin 
reemplazo. Una vez identificado el escenario de trabajo, aplicamos el caso 1 o el caso 2 según la 
varianza poblacional sea conocida o desconocida. 
Ejercicio 1: Se sabe que el puntaje medio que han obtenido los alumnos en determinada asignatura 
ha sido de 62 con una desviación estándar de 28 puntos. El profesor piensa que si realiza una serie 
de clases de reforzamiento podrá incrementar el puntaje medio y para verificar su conjetura invita a 
20 estudiantes seleccionados aleatoriamente a que participen de dicho reforzamiento encontrando 
en una nueva evaluación un puntaje medio de 65 puntos. Bajo el supuesto que los puntajes son 
distribuidos normal: 
a) A un 5% de significación ¿a que conclusión llegó el profesor?. Use pvalue y región de 
rechazo para responder. 
b) Si la región de rechazo es ( ){ }1 20,..., / 64RC x x x= > . Determine la probabilidad de error 
tipo I y la probabilidad de error tipo II. Para la probabilidad de error tipo II suponga que 
1
µ = 66. 
Solución: Sea X v.a puntaje obtenido por alumnos en determinada asignatura 
 ( ;784)X N µ∼ 
 a) Para responder nuestra pregunta, lo haremos con el parámetro µ , esto es: 
 
0
: 62H µ = v/s 
1
: 62H µ > 
 a) Para responder nuestra pregunta, lo haremos con el parámetro µ , esto es: 
 
0
: 62H µ = v/s 
1
: 62H µ > 
Como se trata de población normal con varianza conocida, usamos como medida de discrepancia 
 
( ) 65 62
0.48
6.26
X
Z
n
µ
σ
− −
= = = 
Como esta es una hipótesis de la forma (i.1), pvalue = P(Z > 0.48) = 0.315614 
Para el nivel de significación del 5%, pvalue > 0.05 por lo que nuestra decisión es no rechazar H0. 
Si lo hacemos, con región de rechazo, consideramos el tamaño de la probabilidad de cometer 
error tipo I, es decir { }0/RC Z Z z= > donde 0( ) 0.05P Z z> = , así 0 1.64z = , luego 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
7
{ }/ 1.64RC Z Z= > 
Ahora, como Z = 2.14 ∉ RC, no rechazamos H0. 
Conclusión: Los antecedentes no muestran evidencia significativa que los puntajes obtenidos por 
los estudiantes después del reforzamiento se vean incrementadas. 
b) P(error tipo I) = P( rechazar H0/µ = 62) = P( x > 64/ µ =62) = P(Z > 0.32) = 0.374484 
P(error tipo II) = P(no rechazar H0/ µ = 66) = P( x ≤ 64/ µ =66) = P(Z ≤ -0.32) = 0.374484 
Gráficamente 
 
 
 
 
 
Pruebas de hipótesis respecto de la varianza de una población distribuida normal. 
Las hipótesis que podemos formular respecto del parámetro 
2
σ son: 
i) 
2
0
2
1
2
0
2
0
:
:
σσ
σσ
>
=
H
H
 ii) 
2
0
2
1
2
0
2
0
:
:
σσ
σσ
<
=
H
H
 iii) 
2
0
2
1
2
0
2
0
:
:
σσ
σσ
≠
=
H
H
 
donde 
2
0
σ es algún valor conocido. 
 Recordemos que el estimador puntual de la varianza 
2
σ es el estadístico �
2
2
Sσ = , donde 
S2 es la varianza de una muestra aleatoria seleccionada de una población distribuida normal y, que 
bajo la hipótesis nula la distribución del estadístico 
 
2
0
2
2 )1(
σ
χ
Sn −
= es Chi-cuadrado con n-1 grados de libertad. 
 Observe que el estadístico 
2
0
2
2 )1(
σ
χ
Sn −
= es la medida de discrepancia, puesto que 
depende del valor hipotético 
2
0
σ , del estadístico 
2
S y su distribución es conocida. 
El pvalue y región de rechazo es en este caso: 
62 6664
αβ
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
8
a) Si hipótesis H1 está dada por (i), pvalue = P(
22
c
χχ > ) donde 
2
c
χ es el valor de la medida de 
discrepancia evaluada por los datos 
2
c
χ
 
Para un nivel de significación α , { }2 2 20/RC χ χ χ= > con 20χ tal que 2 20( )P χ χ α> = 
b) pvalue = P( 22
c
χχ < ) si la hipótesis H1 está dada por (ii), donde 
2
c
χ es el valor de la medida de 
discrepancia evaluada por los datos 
2
c
χ
 
Para un nivel de significación α , { }2 2 20/RC χ χ χ= < con 
2
0
χ tal que 
2 2
0
( )P χ χ α< = 
c) pvalue = P(
2222
ba
χχχχ >∨< ) si hipótesis está dada por (iii), donde 
2
a
χ y 
2
b
χ es el valor 
de la medida de discrepancia evaluada por los datos 
2
a
χ
2
b
χ
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
9
 
 
 Para un nivel de significación α , { }2 2 2 2 2/ a bRC χ χ χ χ χ= < ∨ > donde 2aχ y 2bχ tal que 
2 2 2 2( ) ( )
2a b
P P αχ χ χ χ< = > = 
Ejercicio 2: Un negocio debe pagar horas extras dada la demanda incierta de su producto, por lo 
cual se pagan 50 horas extra a la semana. El gerente de recursos humanos considera que siempre se 
ha tenido una varianza de 25 en las horas extras demandadas. Si se toma una muestra de 16 semanas 
se obtiene una varianza muestral de 28.1. Si las horas extras demandadas es una variable aleatoria 
distribuida normal, a un 10% de significación ¿la varianza poblacional de las horas extras 
demandadas puede considerarse igual a 25? 
Solución: Sea X v.a horas extras demandadas 
 
2( ; )X N µ σ∼ 
De acuerdo a los antecedentes 
2
0
: 25H σ = 
2
1
: 25H σ ≠ 
De los antecedentes 
2
2
2
0
( 1) 15(28.1)
16.86
25
n S
χ
σ
−
= = = 
Para obtener pvalue, debemos tener en cuenta H1, así debemos determinar pvalue = 
2P(
2
(25)χ <16.86). Como este valor en 15 grados de libertad no aparece en tabla podemos, a partir de 
la tabla, referenciar dicha probabilidad, veamos para ello la figura siguiente: 
 
 
 
 
 
De la figura, 
 P(
2
(15)χ >16.86) > 0.1, lo que indica que pvalue = 2P(
2
(15)χ >16.86) > 0.2. Valor real 
obtenido con Excel es 0.6546 
Como este valor es mayor que α = 0.1, la hipótesis H0 no es rechazada. Ahora si lo vemos con 
región de rechazo, para α = 0.1, { }2 2 2(15) (15) (15)/ 7.2609 24.9958RC χ χ χ= < ∨ > . Ahora bien, 
16.86
22.3071
0.1
> 0.1
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
10
como 
2
χ = 16.86 ∉RC, H0 no es rechazada, de esta forma, los antecedentes no muestran evidencia 
en contra de Ho, por lo que la varianza no ha cambiado de 25. 
Pruebas de hipótesis respecto de la proporción de una población. 
 La metodología de prueba de hipótesis para la proporción depende por cierto del tamaño de 
la muestra. Cuando la muestra es pequeña (n ≤ 20) se debe usar la distribución binomial, en 
cambio, para n > 20 siempre y cuando np ≥ 5 y np(1-p) ≥ 5, se debe usar la distribución normal. 
Las hipótesis que podemos formular respecto del parámetro p son: 
i) 
0 0
1 0
:
:
H P p
H P p
=
>
 ii) 
0 0
1 0
:
:
H P p
H P p
=
<
 iii) 
0 0
1 0
:
:
H P p
H P p
=
≠
 
Sabemos que el estimador puntual de P es �
x
p
n
= , donde x es el número de elementos de la 
muestra de tamaño n que cumplen con una ciertacaracterística de estudio. Para muestras grandes o 
np ≥ 5 y np(1-p)≥ 5, se sabe que � 0 0
0
(1 )
~ ;
p p
p N p
n
− 
 
 
, luego bajo la hipótesis nula, el 
estadístico de prueba es: 
 
�
0
0 0
(1 )
p p
Z
p p
n
−
=
−
 
El pvalue y la región de rechazo en este caso se obtiene igual que en el caso de prueba de hipótesis 
para la media, distribución normal con varianza conocida (caso 1, pag. 3 y parte de 4). 
 
Ejercicio 3: Un estudio ha revelado que el 67% de los clientes de los supermercados piensa que los 
productos de las marcas de los supermercados son tan buenos como las marcas de productos 
reconocidos. Para investigar si estos resultados aplican a sus propios productos, un fabricante de 
uno de estos productos reconocidos realizó una encuesta a 320 clientes, consultando si consideraban 
a los productos de supermercado tan buenos como los productos reconocidos, encontrando que 189 
respondió afirmativamente a dicha pregunta. A un 5% de significancia ¿a qué conclusión llegó el 
comerciante?. 
 
Solución: Sea X v.a número de clientes que piensan que los productos de las marcas de los 
supermercados son tan buenos como las marcas de productos reconocidos. 
 
 
0
1
: 0.67
: 0.67
H P
H P
=
≠
 
Como n es grande, podemos usar la distribución normal, así 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
11
 
�
0
0 0
0.591 0.67
3.01
(1 ) 0.67(0.33)
320
p p
Z
p p
n
− −
= = = −
−
 
 
Para el cálculo de la región de rechazo o pvalue debemos tomar en cuenta la siguiente figura 
-z
c
z
c 
Calculo de pvalue, pvalue = 2P(Z < - 3.01) = 2(0.001306) = 0.002612 valor menor a 0.05, luego 
rechazamos H0. 
Cálculo de región de rechazo, para α =0.05, { }/ 1.96 1.96RC Z Z Z= < − ∨ > . Ahora bien, 
como Z = -3.01∈RC, rechazamos H0, en conclusión, los antecedentes muestran evidencia 
suficiente que la proporción de clientes que piensan que los productos de las marcas de los 
supermercados son tan buenos como las marcas de productos reconocidos no es igual a lo revelado 
por el estudio, por el contario es inferior. 
Pruebas de Hipótesis con dos Poblaciones. 
 En algunas ocasiones es de mucho interés comparar dos poblaciones con la finalidad de 
determinar si se pueden considerar iguales o diferentes. En general las pruebas de dos muestras se 
usan para evaluar afirmaciones sobre la igualdad de las varianzas, medias o proporciones de dos 
poblaciones. 
Prueba de hipótesis sobre el cuociente de varianzas: 
 La utilidad practica de la hipótesis sobre cuociente de varianzas, es que nos muestra si dos 
poblaciones distribuidas normal tienen o no igual varianzas, así la hipótesis a formular es: 
i) 
1
1
2
2
2
1
1
2
2
2
1
0
>
=
σ
σ
σ
σ
:
:
H
H
 ii) 
1
1
2
2
2
1
1
2
2
2
1
0
<
=
σ
σ
σ
σ
:
:
H
H
 iii) 
1
1
2
2
2
1
1
2
2
2
1
0
≠
=
σ
σ
σ
σ
:
:
H
H
 
Sabemos que si tomamos dos muestras aleatorias independientes, una de cada población, el 
estimador puntual de 
2
2
2
1
σ
σ
 es 
2
2
2
1
S
S
 y la variable aleatoria: 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
12
F
c
F
c
Fa Fb
2
2
2
1
2
2
2
2
2
1
2
1
S
S
S
S
F ==
σ
σ
 bajo H0, es usada como medida de discrepancia, y que F tiene 
distribución F de Fisher con n-1 y m-1 grados de libertad al numerador y denominador 
respectivamente. Una vez evaluado el valor de F en la muestra podemos obtener el pvalue o la 
región de rechazo, donde: 
a) pvalue = P(F > Fc) si hipótesis H1 es dado por (i), con Fc valor de la medida de discrepancia. 
 
 
 
 
 
 
 
 
 
 
 
Para un nivel de significación α , { }0/RC F F f= > con 0f tal que P(F > 0f ) = α 
b) Si la hipótesis H1 es dada por (ii), pvalue =P(F < Fc) 
 
 
 
 
 
 
En cambio, para un nivel de significación α , { }0/RC F F f= < con 0f tal que P(F < 0f ) = α 
c) Si hipótesis H1 es dada por (iii), pvalue = P(F< Fa v F > Fb), con Fa, Fb valor de la medida de 
discrepancia una vez evaluada por la muestra. 
 
 
 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
13
La región de rechazo de tamaño α es ahora, { }/ a bRC F F F F F= < ∨ > , donde aF y bF son 
valores obtenidos de tal forma que ( ) ( )
2a b
P F F P F F α< = > = 
Pruebas de hipótesis sobre la diferencia entre medias de dos poblaciones. 
Cuando hacemos pruebas sobre la igualdad de medias, podemos plantear una hipótesis en 
términos si 
21
µµ = , lo cual es equivalente a decir si 0
21
=−µµ , cuyo estimador puntual es 
YX − , de esta forma las hipótesis que podemos formular ahora son: 
 
i) 
0:H
0:H
211
210
>−
=−
µµ
µµ
 ii) 
0:H
0:H
211
210
<−
=−
µµ
µµ
 iii) 
0:H
0:H
211
210
≠−
=−
µµ
µµ
 
 
Para poder evaluar cualquiera de estas tres hipótesis, debemos extraer dos muestras aleatorias 
independientes, una de cada población. 
 Si ambas muestras son obtenidas de poblaciones distribuidas normal entonces por teorema, 
el estadístico YX − tiene distribución normal con media 
21
µ−µ y varianza 
mn
2
2
2
1
σ
+
σ
 , de esta 
forma, bajo H0 el estadístico de prueba o medida de discrepancia es 
 
( )1 2
2 2
1 2
X Y
Z
n m
µ µ
σ σ
− − −
=
+
 
que bajo H0 , 021 =− µµ 
El pvalue o región de rechazo es obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis 
para la media de una población. 
 En caso que las varianzas sean desconocidas surge el problema que no sabemos si las varianzas 
pueden ser iguales o distintas y además si las muestras son grandes o pequeñas, de aquí que en el 
análisis debemos tener ambos supuestos. 
Si las varianzas son desconocidas pero se suponen iguales y los tamaños de muestras pequeños, el 
estadístico de prueba es 
 
( )1 2
1 1
p
X Y
T
S
n m
µ µ− − −
=
+
, que bajo H0 , 021 =− µµ 
Esta variable aleatoria tiene distribución t de Student con n+m-2 grados de libertad. 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
14
2
11
2
2
2
12
−+
−+−
=
mn
SmSn
S
p
)()(
 es la varianza ponderada. 
El pvalue o región de rechazo es obtenido de la misma forma que en el caso 2 (pag. 4-5), hipótesis 
para la media de una población. 
Si las varianzas no pueden suponerse iguales y las muestras son pequeñas, entonces el estadístico de 
prueba es 
 
( )1 2
2 2
1 2
X Y
T
S S
n m
µ µ− − −
=
+
 que bajo H0 , 021 =− µµ 
cuyos grados de libertad son 
 
2
2 2
1 2
2 2
2 2
1 2
2
1 1
S S
n m
k
S S
n m
n m
 
+ 
 = −
   
   
   +
+ +
 si n ≠m o k = 2(n-1) si n=m. 
 
E valor-p es obtenido de la misma forma que en el caso 2 (pag. 4-5), hipótesis para la media de una 
población. 
Cuando las muestras son grandes, el estadístico de prueba es entonces: 
 
( )1 2
2 2
1 2
X Y
Z
S S
n m
µ µ− − −
=
+
 , que bajo H0 , 021 =− µµ 
Una vez evaluada la medida de discrepancia por la muestra, el pvalue o región de rechazo es 
obtenido de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. 
Ejercicio 4: Un reponedor supermercados de un producto de alta demanda, cree que el tiempo en 
horas en que su producto está en vitrina hasta que se vende, es el mismo independiente de la 
ubicación del supermercado en una ciudad. Para ello consideró datos de 25 días elegidos 
aleatoriamente desde dos supermercados ubicados en dos puntos diferentes en la cuidad 
encontrando que en el supermercado 1 el producto permanece en vitrina un promedio de 7.4 hrs 
con una desviación estándar de 2.1 hrs en cambio en el supermercado 2 el producto permanece 
en vitrina un tiempo medio de6.9 con desviación estándar de 1.5 hrs. Suponiendo que los tiempos 
de permanencia en vitrina siguen una distribución normal, a un 5% de significación ¿A qué 
conclusión llegó el reponedor?. 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
15
Solución: 
 Sea X v.a. tiempo de permanencia en vitrina de producto en supermercado 1. 
 Sea Y v.a. tiempo de permanencia en vitrina de producto en supermercado 2.. 
2( ; )
x x
X N µ σ∼ con 
x
µ y 
x
σ ambas desconocidas 
2
( ; )
y y
Y N µ σ∼ con 
y
µ y 
y
σ ambas 
desconocidas 
Datos: Supermercado 1 Supermercado 2 
 n = 25 m = 25 
 x = 7.4 y = 6.9 
 
x
S = 2.1 
y
S = 1.5 
Como las muestras son pequeñas, un primer paso, antes de realizar la hipótesis para diferencia de 
medias debemos investigar si las varianzas desconocidas se pueden suponer iguales o distintas, 
para ello planteamos la siguiente hipótesis: 
 
2 2
1 1
0 12 2
2 2
: 1 : 1H H
σ σ
σ σ
= ≠ 
La medida de discrepancia es 
2
1
2
2
4.41
1.96
2.25
S
F
S
= = = 
Para α = 0.05, { }/ a bRC F F F F F= < ∨ > donde aF y bF son valores obtenidos de tal 
forma que ( ) ( )
2a b
P F F P F F α< = > = 
De la tabla F para ( 24; 24) grados de libertad 
a
F = 
1
2.3
= 0.4348 y 
b
F = 2.3, luego 
 { }/ 0.4348 2.3RC F F F= < ∨ > 
Como F = 1.96 ∉ RC, H0 no es rechazada, luego a un 5% de significancia, 
2 2
x y
σ σ= 
Ahora estamos en condiciones de resolver 
 
 
0
: 0
x y
H µ µ− = 
1
: 0
x y
H µ µ− ≠ 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
16
 
 
( )2 2
2
( 1) 1 24(4.41) 24(2.25)
3.33
2 48
x y
p
n S m S
S
n m
− + − +
= = =
+ −
 ⇒ 
p
S = 1.82 
 
El estadístico de prueba es 
( )1 2 7.4 6.9
1 1 1 1
1.82
24 24
p
X Y
T
S
n m
µ µ− − − −
= =
+ +
= 0.952 
 
RC = { }0/t t t> donde 0t es tal que 0( ) 2P t t
α
> = , así 
 
Para 48 g.de l , RC = { }/ 2.0106t t > 
Como t = 0.952 ∉ RC, H0 no es rechazada, luego a un 5% de significación los datos avalan la 
sospecha del reponedor. 
Ejercicio 5: El retraso (psicomotor, psicolingüistico, psicosocial) que sufren los niños afectados con 
el síndrome de Down puede mejorarse con la estimulación precoz adecuada. Los estudios 
realizados sobre el ritmo de adaptación y aprendizaje en estos niños pone de manifiesto que esos 
procesos se relacionan de forma directamente proporcional a los estímulos recibidos en los 
ambientes más próximos al niño (familia y escuela). En uno de estos estudios, realizado con 91 
niños de 8 años de edad, teniendo todos ellos igual grado de deficiencia, se decidió que 52 niños 
elegidos aleatoriamente fueran sometidos a estimulación precoz a diferencia del resto (que fue 
considerado grupo control). De todos ellos, se obtuvo un coeficiente de desarrollo (CD) a partir de 
datos neuromotrices de control postural, coordinación óculo-manual así como de lenguaje y 
sociabilidad mediante los test de Terman-Merril, los de Guzburg (PAC) y un inventario de 
Perfomance de Hayde y Dimitrev. Los resultados fueron los siguientes: 
 Grupo Estimulación precoz: n = 52 CD medio = 69 desviación estándar = 3.2 
Grupo Control : m = 39 CD medio =61 desviación estándar = 4.7 
A un 1% de significación, en base a los antecedentes ¿existe diferencia significativa entre los dos 
grupos?. 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
17
Solución: 
Sea X v.a. puntajes de CD obtenido en grupo con estímulo precoz. 
Sea Y v.a. puntajes de CD obtenido en grupo control. 
( )X f∼ i con 
x
µ y 
x
σ ambas desconocidas ( )Y g∼ i con 
y
µ y 
y
σ ambas desconocidas 
 
0
: 0
x y
H µ µ− = 
1
: 0
x y
H µ µ− ≠ 
Como los tamaños de muestra son grandes trabajamos con 
 
( )1 2
2 2
1 2
69 61
9.15
10.24 22.09
52 39
X Y
Z
S S
n m
µ µ− − − −
= = =
++
 
 
Como la hipótesis H1 es bilateral, para un nivel de significación α = 0.01, la región de rechazo es 
 { }/ 2.28 2.58RC Z Z Z= < − ∨ > 
 
Como Z = 9.15 ∈ RC, rechazamos H0, luego los antecedentes muestran evidencia fuertemente 
significativa que nos lleva a concluir que la estimulación precoz mejora el coeficiente de 
desarrollo. 
 
Pruebas de Hipótesis para muestras pareadas. 
Cuando se toman dos conjuntos de medidas sobre los mismos sujetos, o cuando se toman dos 
conjuntos de medidas sobre sujetos lo más similares posibles, decimos que los datos son pareados, 
en cuyo caso las muestras no son independientes puesto que dentro sujeto hay dependencia, por lo 
que podemos suponer una única población, diferencias de ambas medidas, mediante la expresión 
dj=x1j – x2j , donde jx1 corresponde al valor j-ésimo de la variable aleatoria X1 y jx2 corresponde 
al valor j-ésimo de la variable aleatoria X2 
 Las hipótesis que podemos formular son: 
 i) 
0d1
0d0
:H
:H
µµ
µµ
>
=
 ii) 
0d1
0d0
:H
:H
µµ
µµ
<
=
 iii) 
0d1
0d0
:H
:H
µµ
µµ
≠
=
 
donde 
d
µ =
1
µ -
2
µ , con 
1
µ media de la población X1 y 2µ media de la población X2. 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
18
 Si la variable 
21
XXD −= se distribuyen normal, entonces bajo H0 el estadístico de 
prueba es, 
 
n
S
d
T
d
0
µ−
= 
donde 
∑
=
=
n
1j
jd
n
1
d y ∑
=
−
−
=
n
1j
2
j
2
d )dd(
1n
1
S . Por lo general el valor hipotético de 
d
µ es cero. 
Una vez evaluada la medida de discrepancia por la muestra, el pvalue es obtenido de la misma 
forma que en el caso 2 (pag. 4-5), hipótesis para la media de una población. 
 
Pruebas de hipótesis para diferencia Proporciones de dos Poblaciones. 
 
 El procedimiento que se sigue en las pruebas hipótesis para comparar dos poblaciones sobre 
la base de las proporciones es similar a las pruebas de hipótesis para la diferencia de medias. 
 Las hipótesis a probar en esta situación son: 
 
i) 
0 1 2
1 1 2
: 0
: 0
H
H
π π
π π
− =
− >
 ii) 
0 1 2
1 1 2
: 0
: 0
H
H
π π
π π
− =
− <
 iii) 
0 1 2
1 1 2
: 0
: 0
H
H
π π
π π
− =
− ≠
 
Sabemos que el estimador puntual de la proporción 
1
π es 
n
x
p̂ 1
1
= y el estimador puntual de la 
proporción 
2
π es 
m
x
p̂ 2
2
= . Si tanto 
1
p̂ como 
2
p̂ tienen distribución aproximadamente normal, 
entonces el estimador puntual de 
1 2
π π− , dado por 
21
p̂p̂ − , aproxima a la distribución normal con 
media 
1 2
π π− y varianza 





+−=
−
m
1
n
1
)p~1(p~
2
p̂p̂
21
σ donde 
mn
xx
p
+
+
=
21~ es la proporción 
combinada, estimador de la proporción común dada por H0 : π 1=π 2=π . 
En estas condiciones el estadístico de prueba es dado por, 
 
21
p̂p̂
21 p̂p̂Z
−
−
=
σ
 
 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
19
Una vez evaluada la medida de discrepancia por la muestra, el pvalue es obtenido de la misma 
forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. 
 
Ahora, si la hipótesis nula fuera 
0 1 2 0
:H pπ π− = , con p0 ≠ 0, el estadístico de prueba es: 
 
21
p̂p̂
21 p̂p̂Z
−
−
=
σ
, donde 
m
)p̂(p̂
n
)p̂(p̂
p̂p̂
22112
11
21
−
+
−
=σ
−
 y el pvalue es obtenido 
de la misma forma que en el caso 1 (pag. 3-4), hipótesis para la media de una población. 
Ejercicio 6: A fin de regularizar los impuestos que deben cancelar los contribuyentes de una ciudad 
se ha decidido utilizar dos métodos para registrar las propiedades. En el primero el dueño de lapropiedad se presenta en la oficina fiscal para proporcionar la información. En el segundo método el 
dueño de la propiedad llena una proforma que envía por correo. El alcalde de la ciudad piensa que 
el método que requiere la presencia de la persona produce menos errores que el otro. A fin de 
corroborar esto autoriza un estudio en el se muestrean 50 documentos del primer método y de 75 
documentos del segundo método. Después de revisado minuciosamente los documentos, en el 10% 
de las formas llenadas en la oficina fiscal por el dueño de la propiedad y en el 13.3% de las formas 
enviadas por correos se encontraron errores. A un 5% de significación ¿Tiene razón el alcalde? 
Solución: 
Sea X v.a cantidad de documentos llenados en la oficina fiscal que tienen errores. 
Sea Y v.a cantidad de documentos enviados por correo que tienen errores. 
 
0 1
: 0 / : 0
x y x y
H v s Hπ π π π− = − < 
Las proporciones muestrales 
 �
x
x
p
n
= y �
y
y
p
m
= De los datos n = 50 y m = 75, � 0.1
x
p = y � 0.133
y
p = 
Por otra parte, como n = 50 es grande, la distribución muestral de �
x
p se aproxima a la normal 
Como m = 75 es grande, la distribución muestral de �
y
p se aproxima a la normal, luego la 
estadística de prueba es 
21
p̂p̂
21 p̂p̂Z
−
−
=
σ
, pero 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
20
1 2
5 10
0.12
50 75
x x
p
n m
+ +
= = =
+ +
ɶ y 
1 2
2
ˆ ˆ
1 1 1 1
(1 ) 0.12(0.88) 0.00352
50 75
p p
p p
n m
σ
−
   
= − + = + =   
   
ɶ ɶ ⇒
1 2
2
ˆ ˆ
0.059
p p
σ
−
= 
De 
1 2
1 2
ˆ ˆ
ˆ ˆ 0.1 0.133
0.56
0.059
p p
p p
Z
σ
−
− −
= = = − 
Respuesta con pvalue; pvalue =P(Z < - 0.56) = 0.28774 > 0.05, luego no se rechaza H0. 
Respuesta con región de rechazo: Para α =0.05, { }/ 1.65RC Z Z= < − . Ahora como Z = - 0.56 
no pertenece a la región de rechazo, no se rechaza H0. 
Conclusión: A un 5% de significación, los datos no mostraron evidencia en contra de H0, luego el 
alcalde tenía razón, el método de registro de la propiedad en la oficina fiscal produce menos errores 
en comparación con el método de enviar la información por correo. 
Ejercicios propuestos 
1) Estudios han revelado que los profesionales con más de cinco años de antigüedad en sus trabajos 
tienen autos con una edad promedio de 3.7 años con desviación estándar de 1.2 años. En una 
muestra aleatoria de 45 de estos profesionales se encontró que sus autos tienen una edad promedio 
de 4.2 años. 
a) A un 5% de significación, ¿Qué puede concluir respecto del estudio?. Responda con pvalue y 
región de rechazo 
b) Si { }1 45( , , ) / 3.34 4.06RC x x x x= < ∨ >⋯ . Determine la probabilidad de error tipo I 
y Tipo II. Para la probabilidad de error tipo II use 3.87µ = . 
2) Una Isapre afirma que los reembolsos realizados a sus clientes en el año anterior fue en promedio 
de 230 miles de pesos. Una agrupación de protección a los clientes de Isapre piensa que esta cifra es 
mucho menor, para verificar la afirmación de la Isapre, consulta a 60 afiliados en la Isapre que 
habían recibido reembolso encontrando que esta cifra es en promedio de 218 miles de pesos con una 
desviación estándar de 50 miles de pesos. 
a) A un 1% de significancia, ¿se puede creer en lo afirmado por la Isapre?. Responda con pvalue y 
con Región de rechazo. 
b) Si { }1 60( , , ) / 221.74RC x x x= <⋯ , determine la probabilidad de cometer error tipo I y Tipo 
II, para esta última use 200µ = 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
21
3) Consumidores han realizado denuncias que el peso de 500 gr con una desviación estándar de 20 
gr rotulado en cajas de determinado producto, difiere entre diferentes cajas. Un organismo de 
protección al consumidor ha decido probar dicha denuncia, para ello compra 26 cajas 
aleatoriamente seleccionadas encontrando que en promedio el peso es de 490 gr por caja con una 
desviación estándar de 25 gr. El organismo de protección al consumidor determinó que podía correr 
un riesgo de 2.5% de afirmar que las cajas pesan menos de 500 gr cuando en realidad su peso es de 
500 gr. 
a) En base a los antecedentes ¿qué concluyó el organismo de protección al consumidor? 
b) A un 5% de significación ¿podemos afirmar que la desviación estándar es superior a 20? 
4) El administrador de una empresa de buses desea dar una imagen de confiabilidad en su servicio. 
El piensa que los conductores no son tan puntuales en sus llegadas a los paraderos y que los tiempos 
de llegada a estos tienen una varianza superior a los 4 minutos que se había impuesto como 
máximo. Para comprobar esto, el administrador toma una muestra aleatoria de 24 llegadas a cierta 
parada encontrando una varianza de 4.9. Si la distribución de los tiempos de llegada es normal, a un 
1% de significancia ¿A qué conclusión llegó? 
 
5) Un taller de mantención de vehículos asociado a un marca de bastante prestigio afirma que sólo 
el 8% de sus clientes ha quedado insatisfecho, sin embargo una muestra de 130 clientes a quienes 
se consultó si estaban conforme con el trabajo realizado en el taller revelo que un 12% estaba 
insatisfecho. A un 1% de significación ¿Qué puede Ud. concluir? 
6) Estudios anteriores han indicado que la proporción de clientes de telefonía móvil que han 
presentado quejas por fallas en la comunicación es de un 10%, pero Ud. de acuerdo a lo observado 
piensa que es más, para ello decide tomar una muestra aleatoria de 200 usuarios encontrando que 29 
han presentado problema de comunicación . En base a los antecedentes mostrados, a un 5% de 
significación ¿Qué concluye?. Responda con pvalue y con región de rechazo? 
7) Una operación de ensamblaje de una planta industrial requiere que un empleado nuevo se someta 
a un período de entrenamiento de aproximadamente un mes para alcanzar su máxima eficacia. 
Se sugirió un nuevo método de entrenamiento y se llevó a cabo una prueba para comparar el 
método nuevo con el procedimiento estándar. Dos grupos de nueve empleados nuevos se 
entrenaron durante un período de tres semanas, un grupo usando el nuevo método y el otro 
siguiendo el procedimiento de entrenamiento estándar. Al final del período de tres semanas se 
observó el tiempo en minutos que le tomó a cada empleado ensamblar el dispositivo. Los 
resultados aparecen en la tabla siguiente: 
Procedimiento 
Estándar (x) 
Procedimiento 
Nuevo (y) 
32 
37 
35 
31 
Prof: Sr. Rosamel Sáez Espinoza Apuntes preparados con fines de docencia 
 
 
22
35 
28 
41 
44 
35 
31 
34 
29 
25 
34 
40 
27 
3231 
 
 Bajo el supuesto de distribución normal en los tiempos de ensamblajes, un nivel de 
significación de 5%. ¿Presentan los datos suficiente evidencia que indique que el tiempo 
medio de ensamblaje al final del período de entrenamiento de tres semanas es menor para el 
nuevo método? 
 
8) Un productor de agua embotellada desea saber si el consumo promedio diario de agua es superior 
en una región 1, más calurosa, que en una región 2, más cálida. Para ello toma una muestra 
aleatoria de sus registros de 150 consumidores de la región 1, encontrando que en promedio 
consumen 265 mililitros de agua diarios con una desviación estándar de 30 mililitros. Seleccionó 
una muestra aleatoria de 120 consumidores de la región 2 encontrando un consumo promedio de 
250 mililitros de agua diarios con una desviación estándar de 35 mililitros 
a) En base a los antecedentes, a un 5% de significancia, ¿existe evidencia de un mayor consumo en 
la región 1?. Responda con pvalue 
b) Si { }( , ) / 9.46RC x y x y= − > , Determine la probabilidad de cometer error tipo I

Continuar navegando