Logo Studenta

intervalos_1

¡Este material tiene más páginas!

Vista previa del material en texto

 FUOC • XP00/79003/00238 81 Inferencia estadística: parte 1
12. Inferencia estadística: parte 1
Intervalo de confianza para la media aritmética
Ya hemos explicado algunos ejemplos de lo que denominamos inferencia en
estadística. En el capítulo 10 considerábamos varias situaciones en el control
de calidad, y destacábamos un procedimiento que se podía usar para identifi-
car cuándo algo va mal en el proceso de producción. Decíamos que un proceso
está fuera de control cuando la media de una variable específica se ha vuelto
demasiado baja (o demasiado alta) y cuando esta desviación es superior a lo
que podríamos esperar a partir de una variación aleatoria. El proceso de usar
la estadística para llegar a una conclusión sobre algún aspecto de la población
se denomina inferencia estadística. En este capítulo presentaremos un tipo de
deducción muy útil que implica calcular el grado de precisión de nuestras es-
timaciones de las medias poblacionales, denominado intervalo de confianza.
Instrucción
Mirad el vídeo de la unidad 20.
Resumen del vídeo
El vídeo comienza con un ejemplo de la estimación de la duración de unas pi-
las para fundamentar las afirmaciones publicitarias de que unas pilas determi-
nadas duran más. Esta estimación se basa en la comprobación de una muestra
de pilas, y ya presenta un tipo de inferencia estadística. 
Se muestra un ejemplo más simple, en el que se toman mediciones de la pre-
sión sanguínea cada día durante una semana y se calcula la media, que resulta
ser 130. Si pensamos en todas las mediciones que habríamos podido tomar en
este periodo, o sea, la población de las mediciones, entonces su media es un
valor desconocido µ. ¿Qué grado de precisión presenta nuestra estimación? Si
En este capítulo sobre los intervalos de confianza aprenderéis:
• Qué es un margen de error.
• Qué es un intervalo de confianza y cómo se interpreta uno.
• Qué es un nivel de confianza.
• Cómo se calcula un intervalo de confianza para la media aritmética
de una distribución normal con varianza conocida.
 FUOC • XP00/79003/00238 82 Inferencia estadística: parte 1
hubiéramos tomado otras siete mediciones, ¿hasta qué punto los resultados
serían diferentes?
Para contestar a estas preguntas supongamos que la distribución subyacente
de nuestras mediciones es normal y que éstas son suficientemente distantes en
el tiempo como para no influirse unas a otras. Queremos estimar el parámetro
µ de esta distribución. Supongamos también que conocemos la desviación es-
tándar de esta distribución desde el comienzo.
Ya hemos estudiado cómo se distribuye la media de una muestra de tamaño n
extraída de una distribución normal: también presenta una distribución nor-
mal, con la misma media µ, pero con una desviación estándar menor que
. También sabemos que cerca del 95% de todas las medias de
muestras de tamaño n caerán entre dos desviaciones estándar de nuestras
medias observadas. Podemos utilizar este resultado para definir un intervalo
en el que suponemos que debe caer la verdadera (pero desconocida) media po-
blacional µ.
El intervalo + es un intervalo de confianza para µ. El centro del inter-
valo es nuestra estimación original, la media muestral. A esta media le suma-
mos y le restamos el margen de error para indicar el grado de precisión de
nuestra estimación. Existe un nivel de confianza asociado a este intervalo; en
este caso, en el que usamos dos desviaciones estándar, este nivel es del 95%.
El vídeo ilustra en este sentido que confiamos o esperamos en un 95% que el
intervalo de confianza contenga la media poblacional µ. Si repetimos la esti-
mación del intervalo muchas veces, en el 95% de las repeticiones el intervalo
de confianza incluirá la verdadera media, y en un 5% de las ocasiones, no lo
hará. Por tanto, la probabilidad de que el método funcione es de 0,95.
Aplicando este método a la muestra de siete lecturas de la presión sanguínea a
partir de una distribución normal con una media desconocida pero con una
desviación estándar conocida de 20, calculamos una media de 130 y un mar-
gen de error de . Esto da como resultado un intervalo de
confianza de 130 ± 15,2; es decir, concluimos que la verdadera media cae entre
114,8 y 145,2. Dado que nuestro método incluye la verdadera media en el 95%
de las ocasiones que lo usamos, confiamos en que en este caso concreto ha
funcionado.
La precisión de la estimación
Hemos visto ejemplos de la estimación de la media desconocida µ de una po-
blación. Por ejemplo, en el control de calidad estimábamos la media de una
variable específica que realizaba el seguimiento de la calidad de un producto
en un proceso de fabricación. También hablábamos de estimar la proporción
σ
σx σ n( )⁄=
2σ x
x 2σx
σx
2 20× 7⁄ 15,2=
 FUOC • XP00/79003/00238 83 Inferencia estadística: parte 1
de personas que votarán a un partido específico en unas elecciones, en que la
verdadera proporción también es una media poblacional. En cada caso su-
ponemos que la media poblacional es un valor fijo que sólo podríamos medir
con exactitud si conociéramos a toda la población. Por tanto, tomamos una
muestra aleatoria de observaciones y utilizamos la media de la muestra para
estimar el valor poblacional. 
También hemos comprobado que la media muestral resulta en sí misma una
variable aleatoria que presenta su propia distribución muestral. Por lo tanto,
si tomamos otra muestra, obtenemos una estimación diferente de la media po-
blacional µ. Sin embargo, en la práctica sólo disponemos de una única mues-
tra y una única estimación de la media. Sabemos que, si nuestra muestra fuese
más amplia, entonces su variabilidad sería menor, lo que sugiere claramente
que una muestra así sería una estimación más precisa de µ. Pero ¿cómo pode-
mos medir la precisión de nuestras estimaciones? 
Los intervalos de confianza
Pensemos ahora en dos diarios diferentes que realizan predicciones sobre
cuál será el porcentaje de la población que participará en unas elecciones.
Uno predice que el porcentaje será del 71%, mientras que la predicción del
otro es del 76%. Después de las elecciones, el verdadero porcentaje se deter-
mina exactamente en el 75% –parece, pues, que la segunda empresa había
conseguido una predicción más exacta–. Sólo lo podemos comprobar si sa-
bemos el verdadero porcentaje, y en la práctica resulta muy raro que nos en-
contremos con una situación en la que el verdadero valor de un parámetro
poblacional sea conocido. En casi todas las situaciones, estimamos unos va-
lores poblacionales que no podremos confirmar nunca.
Por tanto, ¿cómo podemos cuantificar la precisión de nuestras estimaciones
cuando sólo tenemos una única muestra de datos y ninguna manera de con-
firmar el resultado? La manera de hacerlo es no dar una única estimación del
valor poblacional, sino todo un abanico de valores, y después reforzarlo por
medio de una declaración de vuestro grado de confianza de que el verdadero
valor se incluye dentro de este abanico. Esto se denomina intervalo de con-
fianza. 
El intervalo de confianza para la media de una distribución 
normal
Consideraremos un caso simple para comenzar, cuando la población es nor-
mal y conocemos la desviación estándar de esta distribución (resulta muy
poco frecuente que conozcamos la desviación estándar de la población, nor-
π
σ
 FUOC • XP00/79003/00238 84 Inferencia estadística: parte 1
malmente la estimamos también a partir de la muestra –trataremos este caso
en el próximo capítulo).
El vídeo ilustra cómo se calcula un intervalo de confianza para la media µ ba-
sado en una muestra de tamaño n. El procedimiento es el siguiente:
1) Calculad la media de la muestra.
2) Calculad el error estándar de la media: . 
3) Calculad el margen de error como z∗ para el error estándar: z∗ .
4) El intervalo de confianza es la media más o menos el margen de error: ∗ .
El ejemplo del vídeo muestra un intervalo de confianza del 95% para µ, utili-
zando un valor de z∗ =2. Esta operación se basa en la regla 68-95-99,7, que he-
mos visto anteriormente. Hablando con propiedad, el valor para z∗, que
incluye exactamente el 95% de la distribución normal, es 1,96; pero en la prác-
tica a menudo se usa el 2. Podemos calcular un intervalo de confianza para
cualquier nivel de confianza que escojamos. Por ejemplo, para un nivel de
confianza del 90% necesitamos encontrar el valor z∗, de manera que el 90%
del área bajo la curva normal se incluya entre −z∗ y +z∗. Éste es el valor z∗ = 1,645.
Para ser más precisos, omitiremos la notación ∗ usada en el vídeo, y en su lugar
usaremos la notación = 1,645 para indicar el valor de normal estándar que
corta el 5% en la cola superior (y así como el 5% en la cola inferior). Por tanto,
también = 1,96 es el valor z que usaríamos para un intervalo de confianza
del 95% y para un intervalo de confianza del 99% (consultad la
tabla A del apéndice). En general, podemos indicar el valor z como , don-
de ± incluye un área de (1 – ) bajo la curva normal (figura 12.1). 
El intercambio entre la precisión y el nivel de confianza
Si rebajamos el nivel de confianza al 90%, el margen de error sería menor (ya
que el valor z sería también menor: de 1,645 en contraposición a 1,96) y el
intervalo de confianza sería más breve. Éste parece un resultado más preciso,
pero el nivel de confianza naturalmente es más bajo: ahora la posibilidad (1
entre 10) de que el intervalo no incluya la verdadera µ es mayor. Por tanto,
x
σx σ n( )⁄=
σx
El margen de error...
... de un intervalo de confianza 
es el radio del intervalo en tor-
no a la media ...= ± z∗ .σ x
x z± σ x
Nivel de confianza
(1 – ) representa la probabi-
lidad de que el parámetro esti-
mado se incluya en el intervalo 
de confianza (es decir, el área 
de la curva normal incluida en-
tre –z∗ y z∗).
α
z.05
z .025
z .005 2,576=
zα 2⁄
zα 2⁄ α
Figura 12.1.
 FUOC • XP00/79003/00238 85 Inferencia estadística: parte 1
podemos afirmar que nada es gratuito. Se da un intercambio entre la preci-
sión que se puede expresar en un intervalo de confianza y el nivel de con-
fianza. Para una muestra en particular, cuanto más corto y preciso sea el
intervalo de confianza, más bajo será el nivel de confianza. 
El efecto del tamaño de la muestra
La única manera de mejorar tanto vuestra precisión como vuestro nivel de con-
fianza es reducir el error estándar. Si la desviación estándar poblacional es fija,
entonces sólo podemos reducir el error estándar mediante el incremento de las
dimensiones muestrales. Esta acción reduce el margen de error, de manera que
recorta el intervalo de confianza para un nivel de confianza en particular. Alter-
nativamente, si se mantiene el margen de error en un nivel fijo, incrementar las
dimensiones muestrales conducen al incremento del valor z∗ y, por consiguien-
te, también del nivel de confianza. Fijaos en que, ya que el error estándar se ob-
tiene dividiendo la desviación estándar por la raíz cuadrada de n, se necesita una
muestra cuatro veces mayor para reducir la anchura del intervalo de confianza
a la mitad. 
Instrucción
Revisad el vídeo, unidad 20. Observad la manera como se calcula el margen de
error y la razón por la que el intervalo de confianza es la media muestral más
o menos el margen de error.
Actividades
12.1.Se toma una muestra aleatoria de tamaño 50 de una distribución normal. La desvia-
ción estándar de esta distribución es 0,34. La media aritmética de la muestra es 1,89. Cal-
culad: (a) un intervalo de confianza del 95% para la media µ de la distribución; (b) un
intervalo de confianza del 99%.
12.2.A partir de unos datos previos sabemos que el nivel de polución del aire urbano, me-
dido con un índice de polución de 0 a 100, está normalmente distribuido, con una des-
viación estándar de 13 unidades. En un día bueno, la polución en la zona es de 25-30
unidades, mientras que en un día malo llega hasta 70. Supongamos que tomamos 4 me-
diciones a lo largo de un día y obtenemos una media de polución de índice 46. ¿Cuál es
el intervalo de confianza del 95% para el verdadero nivel de polución este día?
12.3.En conexión con la pregunta 13.3, supongamos que queremos estimar un intervalo
de confianza del 95% para un nivel de polución tal que el margen de error sea como
máximo de 5 unidades. ¿Cuántas mediciones independientes necesitamos tomar?
12.4.Un banco comprueba el tiempo de respuesta de su red nacional de cajeros automá-
ticos. Gracias a estudios anteriores se sabe que el tiempo de respuesta se halla en torno a
10 segundos, con una desviación estándar de 2. Les preocupa que el tiempo aumente, y
quieren establecer el tiempo de la media actual de respuesta con una precisión de 0,5 se-
gundos. ¿Qué dimensiones deberá presentar la muestra para obtener esta precisión? Su-
pongamos que toman una muestra aleatoria de 10 tiempos de respuesta y encuentran
que el tiempo de media es de 12,4 segundos. ¿Evidencia este resultado que el tiempo de
respuesta de la red ha aumentado?
Recordad
El error estándar es
σ x σ n( )⁄=
σ
 FUOC • XP00/79003/00238 86 Inferencia estadística: parte 1
Glosario
intervalo de confianza
Estimación de un parámetro poblacional en forma de intervalo en el que confiamos que cae
el parámetro.
margen de error
Precisión del intervalo de confianza; el intervalo de confianza viene dado en la forma de una
estimación más o menos el margen de error.
Para un intervalo de confianza sobre la media µ de una distribución normal con una deriva-
ción estándar conocida , se calcula la media aritmética x de la muestra aleatoria de tamaño
n y entonces el intervalo es ; es el punto apropiado sobre la curva nor-
mal de manera que un área de 1 – se incluye bajo la curva entre ± . 
nivel de confianza
La probabilidad 1 – de que nuestro intervalo de confianza incluya el verdadero parámetro
poblacional, expresado como porcentaje, es 100(1 – α)%.
σ
x z α 2⁄± σ n( )⁄ zα 2⁄
α zα /2
α
 FUOC • XP00/79003/00238 87 Inferencia estadística: parte 2
13. Inferencia estadística: parte 2
El intervalo de confianza para una proporción
En el capítulo 11 vemos que una proporción, o porcentaje, se puede calcular
como media aritmética de un conjunto de datos binarios codificados como
cero o uno. También deducimos la desviación estándar de una proporción, o
su error estándar. No podemos suponer que los datos binarios son normales,
pero sabemos que, por lo que respecta a muestras grandes, la distribución de
la media muestral es aproximadamente normal. De manera que podemos usar
todos los resultados obtenidos hasta ahora para conseguir los intervalos de
confianza para una proporción.
Los porcentajes presentados en los medios de comunicación
Nosotros oímos varias estimaciones porcentuales casi cada día: el índice de des-
empleo, el porcentaje de personas que votarán a un partido político determina-
do, el porcentaje de consumidores que escogen tal jabón o tal diario, el
porcentaje de malos conductores y conductoras en nuestras carreteras, y así su-
cesivamente. Todas estas estimaciones se basan en una muestra a partir de una
población, pero casi nunca se nos da la precisión de la estimación. En algunos
casos es posible que veamos una pequeña nota a pie de página informando de
algún margen de error o –como en estas raras excepciones extraídas del New
York Times– la explicación siguiente en lo concerniente al método usado para
llevar a cabo un sondeo de opinión:
“En teoría, se puede decir que en 95 casos de cada 100, los resultados basados
en la totalidad de la muestra no difieren en más de tres puntos porcentuales
en una y otra dirección de lo que se habría obtenido si se hubiese entrevistado
a toda la población adulta norteamericana.”
La distribución del porcentaje, o proporción
En el capítulo 11 vemos que se puede considerar una proporción como la me-
dia de un conjunto de mediciones cero o uno (notad que si empre utilizamos
En este capítulo sobre intervalos de confianza aprenderéis:
• Cómo se calculaun margen de error y un intervalo de confianza
para un porcentaje.
• Cómo se calcula el tamaño muestral que da un margen específico de
error en la estimación de un porcentaje.
Recordad
Si x es una variable binaria,
la media es una proporción π
y la desviación estándar es
σ π 1 π–( )=
 FUOC • XP00/79003/00238 88 Inferencia estadística: parte 2
proporciones a la hora de hablar de cuestiones teóricas, pero en la práctica nor-
malmente damos los resultados sobre una escala porcentual). Por tanto, para
muestras grandes, hemos visto que una proporción calculada tiene una distri-
bución normal aproximada, con una media igual a la proporción poblacional
µ y una desviación estándar (es decir, el error estándar) igual a .
Pero ¿qué significa grande para nosotros? La distribución binaria puede resul-
tar muy asimétrica cuando la proporción de la población no se halla cerca del
0,5 (observad, por ejemplo, la figura 11.1). Hay que disponer de un tamaño
muestral de al menos 100 unidades para que el teorema central del límite sea
aplicable, y en cualquier caso necesitaremos al menos 100 para estimar el por-
centaje correcto para un punto porcentual. Por tanto, sólo estudiaremos pro-
porciones calculadas sobre muestras de 100 o más unidades. 
Sólo se nos plantea un problema que tenemos que resolver antes de aplicar la
teoría que hemos desarrollado. El error estándar depende del verdadero valor
que tratamos de estimar; por tanto, ¿cómo calculamos el margen de error? La
solución es sustituir el valor de la proporción muestral p, que es nuestra esti-
mación de , en la fórmula para el error estándar. Por ejemplo, si tenemos una
estimación para de p = 0,37, basada en un tamaño muestral de 100, calcu-
lamos el error estándar como .
Por tanto, un intervalo de confianza del 95% para la proporción poblacional
 sería 0,37 ± 1,96 × 0,0483 = 0,37 ± 0,095, un intervalo de 0,275 a 0,465.
Intervalo de confianza para una proporción
Los pasos para calcular un intervalo de confianza para una proporción son los
siguientes:
1) Calcular la proporción p de “éxitos” a partir de la muestra de tamaño n .
2) Calcular el error estándar de la proporción: ,
3) Calcular el margen de error como por el error estándar: , donde
 es el valor apropiado de la variable normal estándar para el nivel de con-
fianza 100(1 – α)%.
4) El intervalo de confianza es la proporción observada p más o menos el mar-
gen de error: p ± . 
Actividades
13.1.En una muestra aleatoria de neumáticos producidos por una gran empresa europea,
el 10% no satisfacieron los nuevos estándares propuestos de resistencia a los reventones.
Construid un intervalo de confianza del 95% para la proporción de neumáticos que no
satisfacen los estándares, si el tamaño muestral es:
a) n = 125
b) n = 500
π 1 π–( ) n⁄
Recordad
El intervalo de confianza es:
µ z α 2⁄± σx
π
π
p 1 p–( ) n⁄ 0,37 0,63 100⁄× 0,0483= =
π
σ p p 1 p–( ) n⁄=
zα 2⁄ zα 2⁄ σp
zα 2⁄
zα 2⁄ σp
 FUOC • XP00/79003/00238 89 Inferencia estadística: parte 2
13.2.Se llevó a cabo un sondeo de opinión en el Estado español, y una de las preguntas
realizadas a una muestra aleatoria de 1.500 personas era: “¿Os parece que la economía
mejorará en 1996 o no?”. 473 (31,5%) de las personas encuestadas dijeron que sí, 967
(64,5%) dijeron que no y 60 (4,0%) dijeron que no lo sabían. Construid los intervalos de
confianza del 95% para cada uno de los porcentajes de las respuestas “sí” y “no”.
13.3.Durante unas elecciones municipales en las que dos partidos, CiU y PSOE, partici-
paban, se llevó a cabo un sondeo de opinión en el que se preguntaba a 1.000 votantes
seleccionados al azar a qué partido votarían. Un total de 615 indicaron su preferencia por
CiU. Construid un intervalo de confianza del 95% para la proporción de votos que se
emitirán a favor de CiU. ¿CiU puede pensar que tiene la victoria asegurada?
Los tamaños muestrales para un margen de error previamente 
establecido
En general, el margen de error para estimar una media con un nivel de con-
fianza 100(1 – )% a partir de una muestra de tamaño n es:
donde es la desviación estándar de la distribución poblacional. Para un de-
terminado tamaño de la muestra n, podemos calcular el margen de error. Por
otro lado, si previamente establecemos el margen de error que requerimos
para nuestra estimación, podremos calcular el tamaño muestral. La actividad
12.3 del capítulo anterior era un ejemplo de esta idea.
Expresamos ahora el tamaño muestral n a partir de la fórmula de más arriba
en términos de los otros factores:
tamaño muestral = 
Esto muestra claramente que para reducir el margen de error a la mitad, por
ejemplo, hay que incrementar el tamaño muestral cuatro veces.
Si aplicamos esta fórmula a nuestra situación actual de estimación de propor-
ciones, donde , obtenemos:
Esta fórmula resulta útil como anticipación a una encuesta por sondeo para
determinar el tamaño muestral requerido para estimar una proporción con
una precisión determinada. Pero, para aplicar esta fórmula necesitamos cono-
cer , la proporción que tratamos de estimar. Si en realidad = 0,25, entonces
 (1 – ) = 0,1875; mientras que, si = 0,10, (1 – ) = 0,09, lo que es la
mitad del valor e implicaría que se requiere la mitad del tamaño muestral.
¿Qué valor de tenemos que usar? Esto depende de si tenemos alguna idea
aproximada de la proporción poblacional o no. Por ejemplo, podemos estar
α
margen de error zα 2⁄ σ n⁄=
σ
zα 2⁄ 
σ
m en de errorarg
--------------------------------------------- 
 
2 2
σ π 1 π–( )=
tamaño muestral zα 2⁄( )
2 π 1 π–( )
margen de error( )2
-------------------------------------------------=
π π
π π π π π
π
 FUOC • XP00/79003/00238 90 Inferencia estadística: parte 2
bastante seguros de que la popularidad de un partido político se encuentra en
torno al 30% de la población, pero queremos llevar a cabo una encuesta para
determinar este porcentaje con mayor precisión, digamos con un margen de
error de dos puntos porcentuales. Podríamos usar el valor 0,30 para determi-
nar el tamaño muestral requerido:
Por otro lado, si no tenemos ninguna idea inicial de la proporción poblacio-
nal, o si llevamos a cabo una encuesta para estimar diferentes proporciones,
algunas de las cuales pueden ser altas y otras bajas (por ejemplo, la población
de diferentes partidos políticos), entonces deberíamos usar el valor 0,5 para .
La proporción 0,5 da el valor más alto de (1 – ) = 0,5 × 0,5 = 0,25, de ma-
nera que nos proporciona el tamaño muestral máximo necesario para obtener
el margen de error para cualquier proporción. Por tanto, para obtener un mar-
gen de error de 2 puntos porcentuales para estimar cualquier proporción, el
tamaño muestral debería ser:
Usando esta fórmula podemos obtener los tamaños muestrales máximos ne-
cesarios para cualquier margen de error, por ejemplo, desde el 5% hasta el 1%:
Actividades
13.4. En una gran empresa agrícola separan las manzanas de alta calidad de las de baja
calidad. En años pasados, los porcentajes de manzanas de calidad alta y baja han sido
aproximadamente de 50:50. Después de una temporada de muy poca lluvia, el director
de la explotación quiere comprobar el porcentaje de manzanas de calidad baja, por lo que
desearía tener una estimación del verdadero porcentaje con una precisión de 5 puntos
porcentuales. ¿Cuántas manzanas deberían inspeccionar al azar para obtener una estima-
ción con un nivel de confianza del 90%?
13.5. Se ha introducido un nuevo formulario de las rentas, por lo que el gobierno desea
estimar el porcentaje de formularios rellenados incorrectamente. ¿Cuántos formularios
deberían comprobar al azar antes de llegar a una estimación con una precisión de 1 pun-
to porcentual? (Si no se especifica un nivel de confianza, usad el nivel del 95%.)
13.6. Una empresa de servicios estadísticos lleva a cabo encuestas mensuales para estimar
una amplia variedad de opiniones sobre cuestiones sociales. Para asegurar una precisión
general de 2,5 puntos porcentualeso más en sus estimaciones, ¿qué tamaño muestral de-
bería usar esta empresa?
Margen de error Tamaño muestral
5% 384
4% 600
3% 1067
2% 2401
1% 9604
tamaño muestral 1,962 0,30 0,70×
0,022
------------------------------ 2,017= =
π
π π
tamaño muestral 1,962 0,5 0,5×
0,022
----------------------- 2,401= =
 FUOC • XP00/79003/00238 91 Inferencia estadística: parte 2
Glosario
tamaño muestral
Tamaño de la muestra requerido para estimar una proporción con un margen de error deter-
minado, que viene dada por el tamaño:
donde es la verdadera proporción poblacional. En la práctica, usamos un valor aproximado
para , basado en la experiencia, o el valor π = 0,5, que nos dará el tamaño muestral máximo
requerido.
margen de error para una proporción estimada
Margen que se obtiene: , donde es el valor normal estándar apropia-
do que corta una probabilidad en la cola; esto corresponde a un intervalo de confianza
100(1 – )%, y se debería usar sólo para muestras de, al menos, 100 unidades.
z α/2( )
2 π 1 π–( )
m en arg d e e r r o r( ) 2
-----------------------------------------------------
π
π
zα 2⁄ p 1 p–( ) n⁄= z α 2⁄
α 2⁄
α
 FUOC • XP00/79003/00238 92 Inferencia estadística: parte 3
14. Inferencia estadística: parte 3
El desconocimiento de la varianza y la distribución t-Student
Hasta ahora hemos supuesto que conocemos la desviación estándar en la
población y, por tanto, el error estándar de cualquier muestra extraída a partir
de la población. Esta suposición no es real en la práctica, y sólo la hemos usado
para facilitar las cosas. Casi nunca tenemos un conocimiento exacto de la des-
viación estándar, y también tenemos que usar la muestra para estimarla. Este
hecho afecta a la manera de calcular los intervalos de confianza; éste es el tema
de este capítulo.
Cuando la desviación estándar poblacional es desconocida
En el capítulo 12 calculábamos los márgenes de error y, desde aquí, intervalos
de confianza para la media aritmética usando la fórmula siguiente para obte-
ner el error estándar de la media: donde es la desviación están-
dar de la variable X en la población, y n es el tamaño muestral. Sin embargo,
en la práctica no conocemos , por lo que la tenemos que estimar a partir de
la muestra. En el capítulo 12 vemos cómo se podía estimar por medio de la
desviación estándar muestral s, que es la raíz cuadrada de la varianza :
Resulta curioso por qué dividimos por (n – 1) y no por n. Una manera de ex-
plicarlo es advirtiendo que la fórmula anterior nos da una estimación no ses-
gada de . Esto significa que, si tomamos muestras aleatorias de tamaño 10,
por ejemplo, muchas veces y de una manera repetida a partir de una distribu-
ción normal que presenta la varianza , y si observamos la media de todas
las estimaciones de la varianza, nos acercaremos mucho a . Si dividimos
por n en lugar de hacerlo por (n – 1), nuestras estimaciones aparecen sesgadas
y tienden a resultar un poco más bajas de lo que deben ser (10% más bajas, en
este caso, en que n = 10). No demostramos este efecto aquí, pero se puede de-
mostrar fácilmente observando la distribución muestral de la varianza, de la
En este capítulo sobre inferencia estadística aprenderéis:
• Qué es una distribución t.
• Cómo se calcula un intervalo de confianza para la media aritmética
cuando la desviación estándar es desconocida.
σ
σx σ n⁄= σ
σ
σ
s2
s2 1
n 1–
------------ x i x–( )
2
i 1=
n
∑=
σ2
σ2
s2 σ2
 FUOC • XP00/79003/00238 93 Inferencia estadística: parte 3
misma manera que investigamos la distribución muestral de la media aritmé-
tica en el capítulo 10. También, para tamaños muestrales mayores, nuestras es-
timaciones a partir de repetidas muestras se acercan cada vez más a ,
igual que la media se acercaba cada vez más a la verdadera media µ cuando
el tamaño muestral aumentaba. Esta propiedad se denomina consistencia ,
que, obviamente, es una propiedad deseable en un estimador.
Por lo tanto, es una buena estimación de la varianza poblacional , y pa-
rece razonable que reemplacemos σ por s en la fórmula para el error estándar.
Ahora bien, lo que no resulta razonable es continuar como antes utilizando el
valor exacto de . 
De hecho, que hayamos estimado σ por s ha introducido una nueva incerti-
dumbre en nuestro estudio de la media, y esto se debería tener en cuenta.
Todo lo que sabemos es que cuando el tamaño muestral es grande, la estima-
ción s se acerca a y únicamente entonces podemos seguir como antes.
La conexión entre la distribución t y la cerveza Guiness 
W.S. Gossett (1876-1937), el autor de la distribución t, trabajó como cervecero jefe en la
cervecería Guiness de Londres. Su tarea implicaba comparar diferentes métodos de ela-
boración, y para él era importante cuantificar la variabilidad de la media con tamaños
muestrales pequeños. Gosset publicó estudios científicos con el seudónimo “Student”,
por lo que la variable t a menudo recibe el nombre de “ t de Student”.
Gosset observó que, incluso cuando la distribución esperada era normal, la distribución
de la media tenía una varianza mayor de la esperada si la media hubiese sido normalmen-
te distribuida. Esto llevó al descubrimiento de la distribución t, de manera que se puede
decir que la cerveza fue cómplice de una incalculable contribución a la estadística.
La distribución t
Hasta ahora, hemos trabajado implícitamente con versiones estandarizadas de
la media: . Si la distribución de la que se extrae la muestra es nor-
mal, entonces la media estandarizada es normal estándar. Ésta es otra manera
de derivar el intervalo de confianza: si el 95% de la curva normal estándar cae
entre ± 1,96, entonces podemos expresarlo de la siguiente manera:
donde P(...) significa la probabilidad (el área bajo la curva normal) correspon-
diente al intervalo entre paréntesis. Se puede arreglar de nuevo esta expresión
de la manera siguiente:
lo que es una manera alternativa de expresar el intervalo de confianza del 95%.
s2 σ2
s2
s2 σ2
σ
σ
x µ–( ) σx⁄
P 1,96–( x( µ )– σ x⁄ 1,96)≤ ≤ 0,95=
P x 1,96σx– µ x 1,96σx+≤ ≤( ) 0,95=
 FUOC • XP00/79003/00238 94 Inferencia estadística: parte 3
Cuando reemplazamos por la estimación muestral , la
versión estandarizada de la media, ( – µ)/ , no está normalmente distribui-
da. Presenta la distribución t. No probaremos este hecho en este curso, lo que
haremos es señalar la pequeña modificación que debemos realizar siempre
que calculemos el intervalo de confianza. En todas partes donde utilizábamos
un valor z anteriormente, ahora usamos un valor t que deriva a partir de la dis-
tribución t, no de la distribución normal. Así, el valor 1,96, por ejemplo, no es
el valor que utilizaremos en la práctica, excepto que, naturalmente, la muestra
sea grande y se estime de una manera exacta. 
Actividad
14.1. Cuando reemplazamos por s y calculamos el intervalo de confianza del 95%
como en (∗) de más arriba, ¿os parece que el valor que usamos para reemplazar 1,96 será
mayor o menor que 1,96?
La distribución t, como la distribución normal, también resulta simétrica en
torno al valor 0, pero es más dispersa que la distribución normal estándar. Por
este motivo, la respuesta del ejercicio 14.1 es que el valor será mayor, porque
necesitamos ampliarlo más para incluir el 95% del área. El perfil de la distri-
bución depende del tamaño muestral, y es más dispersa en el caso de muestras
menores. Más específicamente, la distribución t se define en términos de n – 1,
el tamaño muestral menos 1. Este número se denomina grados de libertad de
la distribución, y a menudo se abrevia como “df” (degrees of freedom). La figura
14.1 muestra la distribución normal estándar, así como algunos ejemplos de
la distribución t para df = 1, 2 y 4. A medida que los grados de libertad aumen-
tan, la distribución t va tomando más el aspecto de distribución normal: po-
déis pensar en la normal como la distribución t cuando el tamaño muestral se
vuelve infinito. 
El intervalo deconfianza para la media aritmética
Los pasos para hallar el intervalo de confianza para la media cuando la desvia-
ción estándar es desconocida son, por tanto, los siguientes, sólo ligeramente
diferentes de los anteriores:
σx σ n⁄= sx s n⁄=
x sx
σ
σ
Figura 14.1.
 FUOC • XP00/79003/00238 95 Inferencia estadística: parte 3
1) Calcular la media de la muestra.
2) Calcular la desviación estándar s de la muestra.
3) Calcular el error estándar de la media: .
4) Calcular el margen de error como para el error estándar: ,
donde es el valor de la distribución t (con n – 1 grados de libertad), de
manera que el 100(1 – )% del área se incluye entre ± .
5) El intervalo de confianza es la media más o menos el margen de error:
. 
El método anteriormente expuesto se mantiene para muestras de cualquier ta-
maño, mientras se trate de muestras aleatorias a partir de una distribución
normal. 
x
sx s n⁄=
tα 2⁄ , n 1– tα 2⁄ , n 1– sx
tα 2⁄ , n 1–
α tα 2⁄ , n 1–
x tα 2⁄ , n 1–±
 FUOC • XP00/79003/00238 96 Inferencia estadística: parte 3
Glosario
cálculo de márgenes de error para la estimación de la media
Para calcular márgenes de error para la estimación de la media y, así, los intervalos de con-
fianza, usamos la distribución t en lugar de la distribución normal; el intervalo de confianza
para la media poblacional µ es , donde es el punto apropiado en la dis-
tribución t que deja un área de en cada cola.
estimación de la desviación estándar poblacional
Cuando la desviación estándar poblacional es desconocida, debemos estimarla a partir de
la muestra de observaciones, x1, x2, ..., xn, por medio de la fórmula habitual:
Entonces calculamos los errores estándar de la manera habitual, sustituyendo s por :
.
Las suposiciones con las que podemos calcular los intervalos de confianza mediante este mé-
todo son que la muestra se escoge de forma aleatoria e independiente de una población nor-
mal.
grados de libertad de la distribución t
La distribución t depende del tamaño muestral, en especial de n – 1, que se denominan los
grados de libertad.
x tα 2⁄ , n 1– sx± tα 2⁄ , n 1–
α 2⁄
α
s 1
n 1–
------------ xi x–( )
2
i 1=
n
∑=
σ
sx s n⁄=

Continuar navegando

Materiales relacionados

104 pag.
90 pag.
15 pag.