Logo Studenta

Estad Clase IC

¡Este material tiene más páginas!

Vista previa del material en texto

Intervalos de Confianza 
 
Introducción 
 
Habiendo estudiado la estimación puntual de parámetros; es momento de dar el 
paso siguiente que consiste en ampliar la estimación de parámetros a través de 
los llamados intervalos de confianza (IC). 
 
Todo intervalo de confianza para la estimación de cualquier parámetro Ɵ 
responderá a la siguiente expresión 
 
P (li < Ɵ < ls) = 1 - α 
 
Donde li es el límite inferior del intervalo y ls el límite superior. Llamaremos 
amplitud (A) del intervalo a la diferencia entre los límites superior e inferior. 
 
Llamaremos nivel de confianza (NC) de la estimación al valor 1 – α 
(con 0 < α < 1) 
 
La expresión anterior se lee “podemos afirmar con un nivel de confianza de “1- 
α” que el verdadero valor del parámetro Ɵ se encuentra entre los límites li y ls” 
 
Desarrollaremos los siguientes IC 
 
IC para la media µ de una variable normal con desvío conocido 
 
IC para la proporción “p” 
 
IC para la varianza de una variable normal 
 
IC para la media µ de una variable normal con desvío desconocido 
 
 
1.- IC para la media µ de una variable normal con desvío conocido 
 
Dada una variable aleatoria normal “X” con media desconocida y desvío 
conocido se tomará una muestra aleatoria de dicha variable de tamaño “n” con la 
premisa de estimar la media µ. El objetivo será llegar a obtener una expresión 
como la que sigue 
 
P (li < µ < ls) = 1 - α 
 
Para tal fin encontraremos primero la expresión del IC para la variable Z 
estándar 
 
P (li < Z < ls) = 1 - α 
 
En donde 
 
li = Z(α/2); es decir que el límite inferior se corresponde con el fractil α/2 
 
Dicho de otro modo “Z(α/2)” es el valor de la variable Z que acumula a izquierda 
un área (probabilidad) de α/2 
 
ls = Z(1-α/2); es decir que el límite superior se corresponde con el fractil 1-α/2 
 
Dicho de otro modo “Z(1-α/2)” es el valor de la variable Z que acumula a izquierda 
un área (probabilidad) de 1-α/2 
 
 
El IC buscado es: 
 
P ( Z(α/2) < Z < Z(1-α/2) ) = 1 - α 
 
 
Si por ejemplo deseamos obtener un IC con un NC del 95% 
 
P ( Z(α/2) < Z < Z(1-α/2) ) = 0.95 
 
Significa que α = 0.05; por lo tanto 
 
li = Z(α/2) = Z(0.025) = -1.96 (valor obtenido de tablas) 
 
ls = Z(1-α/2) = Z(0.975) = 1.96 (valor obtenido de tablas) 
 
El intervalo buscado será: 
 
P (-1.96 < Z < 1.96) = 0.95 
 
Media muestral 𝒙 
 
La estimación puntual para la media µ se denomina media muestral y la 
denotaremos con el símbolo �̂� 
La media y varianza de la media muestral las indicamos a continuación 
 
E(�̂�) = µ 
 
V(�̂�) = V(x) / n, donde V(x) es la varianza de la variable aleatoria x, por lo tanto 
el desvío vale 
 
σ (�̂�) = σ(x) / √𝑛 
 
 
A continuación “estandarizaremos” la media muestral; la cual es una variable 
aleatoria normal por provenir de una muestra aleatoria de una variable X normal 
(hipótesis de partida) 
 
 (�̂� - E(�̂�)) / σ (�̂�) = (𝒙 - µ) / (σ(x) / √𝒏 ) = Z 
 
Volviendo al intervalo para Z 
 
P ( Z(α/2) < Z < Z(1-α/2) ) = 1 – α; hacemos el reemplazo a partir de la igualdad 
anterior 
 
P ( Z(α/2) < (𝒙 - µ) / (σ(x) / √𝒏 ) < Z(1-α/2) ) = 1 – α 
 
 
Operaremos algebraicamente para llevar la expresión que está dentro del 
paréntesis a la expresión 
 
P (li < µ < ls) = 1 – α 
 
Es decir: 
 
Z(α/2) < (𝒙 - µ) / σ(x) / √𝒏 < Z(1-α/2) → li < µ < ls 
 
 
Operaremos sucesivamente primero multiplicando toda la expresión de la 
izquierda por σ(x) / √𝒏 ; luego restando 𝒙 ; luego multiplicando por (-1); y 
reemplazando Z(α/2) por -Z(1-α/2) finalmente obtenemos la expresión buscada: 
 
 
P (𝒙 - Z(1-α/2) * σ(x) / √𝒏 < µ < 𝒙 + Z(1-α/2) * σ(x) / √𝒏 ) = 1 – α 
 
 
Se ve que el IC se obtiene a partir de la estimación puntual de la media �̂� a la 
cual se le suma y se le resta la expresión Z(1-α/2) * σ(x) / √𝒏 , que es la 
semiamplitud del intervalo y que llamaremos error (e) de la estimación. 
 
 𝒙 ± Z(1-α/2) * σ(x) / √𝒏 
 
La expresión anterior permite apreciar la utilidad de un IC por sobre la 
estimación puntual. 
 
 e = A/2 = Z(1-α/2) * σ(x) / √𝒏 
 
En la estimación puntual “no se ve” la ventaja de tomar más muestras. En cambio 
en el IC aumentar el tamaño de la muestra “n” implica reducir la amplitud del 
intervalo con lo cual se gana en precisión de la estimación. 
En el límite, con información infinita, �̂� tenderá al valor µ desconocido (el error 
“e” tenderá a cero) 
 
Aclaración: el IC obtenido corresponde a la media de una variable aleatoria X 
que tiene distribución Normal. El mismo IC se podrá utilizar para estimar la 
media de una variable x que no tenga distribución normal siempre y cuando la 
media muestral haya sido obtenida a partir de un tamaño de muestra n 
suficientemente grande como para que sea válido el Teorema Central del Límite. 
(TCL) 
 
 
Ejemplo: 
 
La concentración promedio de zinc que se obtuvo en 36 muestras de agua de un 
rio es de 2.6 gramos por mililitro. Encontrar los IC de 95% y 99% para la 
concentración media de zinc en el rio. Suponer que la desviación estándar es de 
0.3. 
 
Solución del IC del 95% 
 
Datos: �̂� = 2.6; σ = 0.3; n = 36 
 
De tablas encontramos que Z(0.975) = 1.96 
 
Reemplazando en la fórmula del IC: 
 
2.6 – 1.96 * (0.3 / √36 ) < µ < 2.6 + 1.96 * (0.3 / √36 ) 
 
Que finalmente vale 2.50 < µ < 2.70 
 
(Dejamos al alumno verificar que el IC al 99% vale: 2.47 < µ < 2.73) 
 
 
Cálculo del tamaño n de la muestra necesario para lograr una amplitud del 
IC prefijada. 
 
Es frecuente en este tipo de trabajos de inferencia partir de una amplitud 
prefijada y calcular entonces cuantas muestras serán necesarias extraer, tomando 
a priori un cierto nivel de confianza 
 
A = 2*e = 2 * Z(1-α/2) * σ(x) / √𝒏 
 
Despejando n obtenemos 
 
n = (2 * Z(1-α/2) * σ (x) / A )
2
 
 
o su equivalente n = ( Z(1-α/2) * σ(x) / e )
2
 
 
 
 
2.- IC para p de una variable Bernoulli 
 
Estimaremos la proporción “p”, es decir el valor esperado de una variable 
Bernoulli. Este tipo de inferencia se realiza en relevamientos de control de 
calidad, estudios de opinión, etc; donde la respuesta es SI/NO. 
 
El objetivo será llegar a obtener una expresión como la que sigue 
 
P (li < p < ls) = 1 - α 
 
 
Proporción muestral �̂� 
 
La estimación puntual para la proporción “p” se denomina proporción muestral y 
la denotaremos con el símbolo �̂� 
La media y varianza de la proporción muestral las indicamos a continuación 
 
E(�̂�) = p 
 
V(�̂�) = p * (1-p) / n por lo tanto el desvío vale 
 
σ (�̂�) = √𝑝 ∗
(1−𝑝)
𝑛
 
 
 
A continuación “estandarizaremos” la proporción muestral; la cual es una 
variable aleatoria normal siempre que n*�̂� y n* (1- �̂� ) sean mayores o iguales 
que 5 de modo que sean válidas las condiciones del TCL 
 
 
 ( �̂� - E(�̂�) ) / σ (�̂�) = ( �̂� - p) / √𝒑 ∗
(𝟏−𝒑)
𝒏
 = Z 
 
 
Volviendo al intervalo para Z 
 
P ( Z(α/2) < Z < Z(1-α/2) ) = 1 – α; hacemos el reemplazo a partir de la igualdad 
anterior 
 
P ( Z(α/2) < ( �̂� - p) / √𝒑 ∗
(𝟏−𝒑)
𝒏
 < Z(1-α/2) ) = 1 – α 
 
 
Operaremos algebraicamente para llevar la expresión que está dentro del 
paréntesis a la expresión 
 
P (li < p < ls) = 1 – α 
 
Es decir: 
 
Z(α/2) < ( �̂� - p) / √𝒑 ∗
(𝟏−𝒑)
𝒏
 < Z(1-α/2) → li < p < ls 
 
 
Operaremos sucesivamente primero multiplicando toda la expresión de la 
izquierda por √𝒑 ∗
(𝟏−𝒑)
𝒏
 luego restando �̂� ; luego multiplicando por 
 (-1); y reemplazando Z(α/2) por -Z(1-α/2) finalmente obtenemos la expresión 
buscada: 
 
 
P ( �̂� - Z(1-α/2) * √𝒑 ∗
(𝟏−𝒑)
𝒏
 < p < �̂� + Z(1-α/2) * √𝒑 ∗
(𝟏−𝒑)
𝒏
 ) = 1 – α 
 
No hemos finalizado el trabajo, pues se advierte que el parámetro desconocido 
“p” aún permanecebajo el signo radical en ambos extremos del intervalo. 
Cuando n es suficientemente grande la sustitución “�̂�” por “p” no altera 
significativamente los cálculos, por lo que finalmente obtenemos: 
 
P ( �̂� - Z(1-α/2) * √ �̂� ∗
(𝟏− �̂�)
𝒏
 < p < �̂� + Z(1-α/2) * √ �̂� ∗
(𝟏− �̂�)
𝒏
 ) = 1 – α 
 
 
Ejemplo: 
 
En una muestra aleatoria de n = 500 familias de una ciudad se encuentra que 340 
están suscriptas a cierta firma de cable. Encontrar un IC del 95% para la 
proporción real de familias que están suscriptas en esa ciudad. 
 
Solución 
 
La estimación puntual de p es �̂� = 340/500 = 0.68. 
 
De tablas Z(0.975) = 1.96; reemplazando: 
 
 0.68 – 1.96 * √ 𝟎. 𝟔𝟖 ∗
(𝟏− 𝟎.𝟔𝟖)
𝟓𝟎𝟎
 < p < 0.68 + 1.96* √ 𝟎. 𝟔𝟖 ∗
(𝟏− 𝟎.𝟔𝟖)
𝟓𝟎𝟎
 
 
 
0.64 < p < 0.72 
 
De donde se observa que A = 0.72 – 0.68 = 0.08; o bien el error e = 0.04; es 
decir que tenemos una confianza del 95% de que la proporción de la muestra 
 �̂� = 0.68 difiere de la proporción real p por una cantidad que no excede 0.04 
 
 
Calculo del tamaño n de la muestra necesario para lograr una amplitud del 
IC prefijada. 
 
Es frecuente en este tipo de trabajos de inferencia partir de una amplitud 
prefijada y calcular entonces cuantas muestras serán necesarias, tomando a priori 
un cierto nivel de confianza. Analizaremos dos posibilidades 
a.- se ha tomado una muestra previa 
b.- no se ha tomado una muestra previa 
 
a.- Se conoce el valor �̂� a partir de una muestra previa de tamaño n0: 
 
 
A = 2*e = 2 * √ �̂� ∗
(𝟏− �̂�)
𝒏
 
 
Despejando n obtenemos 
 
n = (2 * Z(1-α/2) / A )
2
 * �̂� * (1- �̂� ) 
 
o su equivalente 
 
n = ( Z(1-α/2) / e )
2
 * �̂� * (1- �̂� ) 
 
 
b.- no se ha tomado una muestra previa 
 
Si tomamos la formula anterior, al no existir una muestra previa ¿Qué valor le 
asignamos a �̂� ? 
Nos pondremos en una posición “exigente” respecto de “n” para lo cual 
buscaremos el máximo del producto �̂� * (1- �̂� ) lo cual ocurre para �̂�=0.5 
Por lo tanto, reemplazando �̂� por 0.5, obtenemos cualquiera de las siguientes 
expresiones: 
 
n = ( Z(1-α/2) / e )
2
 *1/4 = ( Z(1-α/2) / 2e )
2
 = ( Z(1-α/2) / A )
2
 
 
 
3.- IC para la varianza de una variable normal 
 
A continuación buscaremos el IC para la varianza σ
2
 de una variable aleatoria 
normal X. 
 
 
El objetivo será llegar a obtener una expresión como la que sigue 
 
P (li < σ
2
 < ls) = 1 - α 
 
Para poder formalizar el IC lo primero que haremos es presentar una nueva 
variable aleatoria llamada “ji cuadrado” (o chi cuadrado) que se denota con el 
símbolo χ
2
 
 
La función densidad de probabilidad de esta variable responde a la forma de una 
variable Gamma pero con la particularidad de que sus parámetros k y λ son 
iguales y toman el valor ½ 
 
Recordando que la media de la Gamma era el cociente de sus parámetros 
(k / λ) entonces la media de ji cuadrado vale 0.5/0.5=1 
 
E (χ
2
 ) = 1 
 
Del mismo modo la varianza de la gamma era k / λ
2
, por lo tanto la varianza de la 
ji cuadrado vale 2. 
 
V (χ
2
 ) = 2 
 
Por otra parte la función densidad de la ji cuadrado puede obtenerse como 
resultado del cambio de variable consistente en elevar una variable normal 
estándar al cuadrado (es decir que la función densidad de Z
2
 tiene densidad ji 
cuadrado) 
 
Si tomamos el estimador de la varianza (con media conocida) 
 
S
2
 = ∑ (𝑥 − µ)𝑛1 
2
 / n 
 
Dividiendo a ambos miembros por σ2 
 
S
2 
/ σ2 = ∑ (
𝑥− µ 
σ
)𝑛1 
2
 / n 
 
Si nos detenemos en la expresión que está dentro del paréntesis veremos que se 
trata de una variable Z estándar elevada el cuadrado, pues por hipótesis la 
variable x es normal ( (x- µ) / σ = Z) 
 
Pero como hemos explicado Z
2
 = χ
2
 
 
 
Reemplazando: 
 
S
2 
/ σ2 = Σ χ2 / n 
 
 
La suma de n variables ji cuadrado genera una nueva variable ji cuadrado de 
“orden n” o de “n grados de libertad” (recordando que ji cuadrado es Gamma, ya 
hemos visto que la suma de variables Gamma genera una nueva variable 
Gamma) 
 
Entonces 
 
Σ χ2 = χn
2
 reemplazando 
 
 
S
2 
/ σ2 = χn
2
 / n 
 
Despejando ji cuadrado 
 
χn
2
 = n * S
2 
/ σ
2
 
 
Resumiendo: la variable ji cuadrado de n grados de libertad es una variable 
Gamma de media n y varianza 2n y se encuentra tabulada para algunos fractiles 
de referencia en función de los distintos grados de libertad 
 
E ( χn
2
 ) = n 
 
V ( χn
2
 ) = 2n 
 
Al igual que para obtener el IC para la media partimos del IC para Z; para 
obtener el IC para la varianza partiremos del IC para ji cuadrado 
 
 P ( χ(n;α/2)
2
 < χn
2 < χ(n;1-α/2)
2 
) = 1 - α 
 
 
 
 
 
Ejemplo: construir un IC para la variable ji cuadrado de n=10 grados de 
libertad del 99% 
 
De tablas 
 
 χ(10;005)
2
 = 2,156 (fractil de0.005; área a la izquierda) 
 
 χ(10;0.995)
2
 = 25,188 (fractil de 0.975; área a la izquierda) 
 
P ( 2,156 < χn
2 < 25,188 ) = 0.99 
 
 
Volviendo al intervalo para χn
2 
 
P ( χ(n;α/2)
2
 < χn
2 < χ(n;1-α/2)
2 
) = 1 - α 
 
 
Hacemos el reemplazo a partir de la igualdad χn
2
 = n * S
2 
/ σ
2
 
 
 
P ( χ(n;α/2)
2
 < n * S
2 
/ σ
2
 < χ(n;1-α/2)
2 
) = 1 - α 
 
 
Operaremos algebraicamente para llevar la expresión que está dentro del 
paréntesis a la expresión 
 
P (li < σ
2
 < ls) = 1 – α 
 
Es decir: 
 
χ(n;α/2)
2
 < n * S
2 
/ σ
2
 < χ(n;1-α/2)
2 
 → li < σ
2
 < ls 
 
 
Operaremos sucesivamente primero hallando el reciproco de toda la expresión de 
la izquierda, luego multiplicando por n * S
2
 finalmente obtenemos la expresión 
buscada: 
 
 
 
P (n * S
2
 / χ(n;1-α/2)
2
 < σ
2
 < n * S2 / χ(n;α/2)
2 
) = 1 - α 
 
Este es el IC para la varianza de una variable Normal con media conocida. 
 
 
¿Qué pasará si la media no es conocida? 
 
En ese caso la estimación de la varianza se obtendrá con la siguiente fórmula 
 
S
2
 = ∑ (𝑥 − 𝒙 )𝑛1 
2
 / (n-1) 
 
En consecuencia la ji cuadrado correspondiente tendrá n-1 grados de libertad 
 
P ( (n-1) * S
2
 / χ(n-1;1-α/2)
2
 < σ
2
 < (n-1) * S2 / χ(n-1;α/2)
2 
) = 1 - α 
 
Este es el IC para la varianza de una variable Normal con media desconocida. 
 
Nota: si se busca el IC para el desvió estándar bastará con tomar la raíz cuadrada 
de los valores obtenidos para el IC de la varianza. 
 
 
4.- IC para la media µ de una variable normal con desvío desconocido 
 
Dada una variable aleatoria normal “X” con media y desvío desconocidos se 
tomará una muestra aleatoria de dicha variable de tamaño “n” con la premisa de 
estimar la media. El objetivo será llegar a obtener una expresión como la que 
sigue 
 
P (li < µ < ls) = 1 - α 
 
Cuando estudiamos el primer caso de IC la estandarización era la siguiente: 
 
Z = (𝒙 - µ) / (σ(x) / √𝒏 ) 
 
El problema es que ahora no conocemos el desvío σ(x) 
Si reemplazamos en la expresión anterior el desvío por su estimación S(x) 
entonces ya no obtenemos “Z” 
 
Z ≠ (𝒙 - µ) / ( S(x) / √𝒏 ) 
 
Si dividimos numerador y denominador por σ(x) obtenemos: 
 
 
 
(𝒙 − µ) / (𝛔(𝐱) / √𝒏 ) 
𝑺(𝒙)
σ(x)
 
 
Puede observarse que el numerador es Z y el denominador está relacionado con 
la variable ji cuadrado, recordando la igualdad: 
 
χn
2
 = n * S
2 
/ σ2 
 
y su equivalente para n-1 grados de libertad 
 
χn-1
2
 = (n-1) * S
2 
/ σ
2
, si despejamos S
 
/ σ : 
 
S
 
/ σ = √χ2/(n − 1) , finalmente: 
 
(𝒙 - µ) / ( S(x) / √𝒏 ) = 
(�̂� − µ) / (𝛔(𝐱) / √𝒏 ) 
𝑺(𝒙)
σ(x)
 = Z / √χ2/(n − 1) = t(n-1) 
 
El cociente de una variable Z dividida por la raíz cuadrada de una ji cuadrado 
dividida por sus grados de libertad conduce a una nueva variable llamada “t” de 
Student (de n-1 grados de libertad) 
 
La función densidad de probabilidad de la t de Student responde a una gráfica 
acampanadacon media cero de estructura similar a la campana de Gauss. 
La media vale cero y la varianza n / (n-2) (válida para n mayor que 2) 
Como puede verse para n tendiendo a infinito la varianza -y el desvió- tiende a 
uno coincidiendo en ese caso con la distribución Normal. 
 
Por lo tanto podemos construir un IC para t 
 
P ( t(n-1;α/2) < t(n-1) < t(n-1;1-α/2) ) = 1 – α 
 
Reemplazando t(n-1) por (𝒙 - µ) / ( S(x) / √𝒏 ) 
 
P ( t(n-1;α/2) < (𝒙 - µ) / ( S(x) / √𝒏 ) < t(n-1;1-α/2) ) = 1 – α 
 
Operaremos algebraicamente para llevar la expresión que está dentro del 
paréntesis a la expresión 
 
P (li < µ < ls) = 1 – α 
 
Es decir: 
 
t(n-1;α/2) < (𝒙 - µ) / ( S(x) / √𝒏 ) < t(n-1;1-α/2) → li < µ < ls 
 
 
Operaremos sucesivamente primero multiplicando toda la expresión de la 
izquierda por S(x) / √𝒏 ; luego restando 𝒙 ; luego multiplicando por (-1); y 
reemplazando t(n-1;α/2) por -t(n-1;1-α/2) finalmente obtenemos la expresión 
buscada: 
 
 
P (𝒙 - t(n-1;1-α/2) * S(x) / √𝒏 < µ < 𝒙 + t(n-1;1-α/2) * S(x) / √𝒏 ) = 1 – α 
 
 
Se ve que el IC se obtiene a partir de la estimación puntual de la media �̂� a la 
cual se le suma y se le resta la expresión t(n-1;1-α/2) * S(x) / √𝒏 , que es la 
semiamplitud del intervalo (error (e) de la estimación). 
 
 𝒙 ± t(n-1;1-α/2) * S(x) / √𝒏 
 
Hay tablas para la t de Student ordenadas según los grados de libertad. 
Por ejemplo si queremos armar un IC del 95% para la t con n-1=10: 
 
t(n-1;α/2) = t(10;0.025) = -1.81 
 
 
t(n-1;1-α/2) = t(10;0.975) = 1.81

Continuar navegando

Otros materiales