Logo Studenta

Teoria de Inferencia y Estimación - Guadalupe Montes Martin

¡Este material tiene más páginas!

Vista previa del material en texto

1 
 
INFERENCIA ESTADÍSTICA- PROBLEMAS DE ESTIMACIÓN (Filminas de Clases Teóricas) 
La INFERENCIA ESTADISTICA consiste en aquellos métodos con los cuales se pueden realizar inferencias o 
generalizaciones acerca de una población utilizando datos muestrales. 
La Inferencia estadística puede dividirse en 2 áreas principales: 
 
 
 
 
 
Para distinguir entre ambas, consideremos los siguientes ejemplos. 
EJEMPLOS: 
1) Un candidato para un puesto público desea estimar la proporción real de votantes que lo apoyan 
¿Cómo? 
Mediante la obtención de una muestra al azar de 100 votantes por ejemplo. La fracción de ellos que lo apoya 
puede usarse como una estimación de la proporción total de votantes. 
 
 
 
Este problema pertenece al área de ESTIMACIÓN 
2) Un ama de casa está interesada en determinar si el detergente para pisos de la marca A es más resistente 
al desgaste que el de la marca B. 
Podría suponer que: 
“LA MARCA A ES MEJOR QUE LA B” 
y después de realizar las pruebas apropiadas, aceptar o rechazar esta hipótesis. 
En este ejemplo NO se intenta estimar un parámetro SINO: 
TOMAR UNA DECISION CORRECTA RESPECTO A LA HIPOTESIS PREESTABLECIDA 
Una vez más se DEPENDE de la teoría del muestreo para obtener alguna medida de precisión para la decisión que 
se tome. 
 
ESTIMACIÓN 
MÉTODOS CLÁSICOS 
 ESTIMACIÓN PUNTUAL: Una estimación puntual de un parámetro es simplemente una selección UNICA 
del valor del parámetro. 
 ESTIMACIÓN POR INTERVALO: Reconociendo a incertidumbre de que la muestra nos es la población 
estimaremos un intervalo dentro del cual se esperaría encontrar el parámetro. 
NOTACION: 
 Parámetro a estimar 
 Estadístico que se usa para obtener una estimación puntual del parámetro. Recibe el nombre de 
ESTIMADOR PUNTUAL 
 Estimación puntual de . Es un valor de para una muestra seleccionada 
O sea, para estimar un parámetro se usa el estimador (estadístico). Para una muestra particular, se obtiene 
una estimación . 
Por lo general muestras diferentes conducen a estimaciones diferentes de . 
INFERENCIA ESTADISTICA 
 
ESTIMACIÓN PRUEBA DE HIPOTESIS 
EL GRADO DE 
PRECISION DE LA 
ESTIMACIÓN 
 
PERMITE 
ESTABLACER 
 
UN CONOCIMIENTO DE 
LA DISTRIBUCIÓN 
MUESTRAL DE UNA 
PROPORCIÓN (Ps) 
 
2 
 
Ejemplo: Para estimar el parámetro µ se usa el estimador . 
Para una muestra particular x1, x2, …, xn se calcula 
 
 
 
 será una estimación de µ. 
PARAMETROS ESTIMADOR ESTIMACION 
 
 
(X1, ….. ,Xn) 
 
(x1, ….., xn) 
 
E (X) (ó µX) Media Muestral 
Var (x) (ó X
2) S
2 Varianza Muestral s2= a  
E (X) (ó µX) Mediana Muestral 
p PS 
 
 
 proporción muestral p = 
 
 
 
Números 
 
 
Números 
 
No se espera que un estimador estime sin error el parámetro poblacional, sino se espera que no se aleje mucho del 
valor real. 
Por ejemplo: Para una muestra que comprenda los valores 2, 5, 11 de una población cuya media E(X) = 4, 
aunque supuestamente se la desconoce; se podría estimar que el E(X) fuera: 
 = 6 usando la media muestral como estimador ó 
 = 5 usando la mediana muestral como estimador. 
En este caso el estimador produce una estimación MAS CERCANA al valor real del parámetro que la del 
estimador . 
Por otra parte, si la muestra aleatoria, de la misma población, contiene los valores 2, 6, 7 entonces 
 = 5 y = 6 de tal manera que es ahora el MEJOR estimador. 
SIN CONOCER EL VALOR REAL DE E(X) se debe DECIDIR DE ANTEMANO SI SE EMPLEARA ó COMO ESTIMADOR DE 
E(X). 
IMPORTANTE: NOTAR QUE UN ESTIMADOR ES UNA VARIABLE ALEATORIA Y NO PUEDE JUZGARSE CON BASE EN SU 
OPERACIÓN EN UN CASO PARTICULAR; MAS BIEN DEBE SER JUZGADO POR SU OPERACIÓN A LARGO PLAZO 
PROPIEDADES DE UN BUEN ESTIMADOR (que influyen en la selección de un estimador sobre otro) 
 INSESGAMIENTO 
 VARIANZA MINIMA 
ESTIMADORES INSESGADOS 
Sería deseable que el estimador tuviera un valor esperado IGUAL al parámetro a estimar. 
Definición: El estimador se conoce como estimador insesgado de , si su valor esperado IGUAL a . 
O sea, es un estimador INSESGADO DE si y solo si E( 
 
Ejemplo: µ : parámetro a estimar, es el valor esperado 
de la población X, lo estimamos con 
 es un estimador insesgado de  pues 
 (demostrado en Apunte muestreo 
10.1_1°) 
Otra notación: 
Ejemplo: S2 es un estimador insesgado de 2 . 
Es ti m an
 
 = E( ) = 
 
3 
 
Se demuestra en el punto 13.- a) del apunte de Muestreo que E(S2)= 2. 
Si un estimador no es insesgado se conoce como SESGADO y - E( se conoce como SESGO. 
 
 
 
EJEMPLOS DE ESTIMADORES INSESGADOS 
 para E (X) en cualquier población 
 para  de población N (µ , 2) 
 s para p de una población Bernoullí (p) 
S2 para Var (X) en cualquier población 
S2 para 2en una población N (µ, 2) 
 para µ una población Poisson 
S2 para µ una población Poisson 
VARIANZA DE UN ESTIMADOR PUNTUAL 
Si 1 y 2 son dos estimadores insesgados del mismo parámetro poblacional , se elegirá al estimador cuya 
distribución muestral tuviera la varianza más pequeña 
Si Var( 1 ) < Var( 2) se afirma que “ 1 es un estimador más eficiente de que 2” 
Definición: Si se consideran TODOS los posibles estimadores INSESGADOS de algún parámetro , aquel con la 
varianza más pequeña recibe el nombre de “ESTIMADOR MAS EFICIENTE DE ” 
Ejemplo: Se presentan en la figura las distribuciones muestrales de tres estimadores de : 1, 2 y 3. 
Se observa claramente que solo 1 y 2 son 
insesgados, dado que sus distribuciones se centran en 
 el estimador 1 tiene varianza más pequeña que 
 2 y por lo tanto es más eficiente. 
Por consiguiente el estimador de que seleccionaría, 
de entre los 3, sería 1. 
Para poblaciones normales se puede demostrar que tanto como son estimadores insesgados de la media 
poblacional  pero la VAR ( ) < VAR ( ). Entonces aunque ambas estimaciones y serán iguales en PROMEDIO, a 
la media poblacional µ, probablemente está mas CERCA del valor de µ para una muestra dada y entonces es más 
eficiente que 
En efecto si la población X ∿ N(µ, 2) y X1, X2, …. Xn son v.a. iid de esa población 
E( ) = E( ) = µ 
Var( ) = 
 
 
 = 
 
 
 Var ( ) 
E se llama “corrección por eficiencia” 
Por ejemplo , si n = 10 E = 0,723 
Si n → ∞ E = 0,637 y Var( ) = 1,56 Var ( ) 
Es probable que incluso el estimador insesgado más eficiente, no estime el parámetro poblacional con exactitud. Es 
cierto que la precisión se incrementa con muestras grandes, pero no hay razón por la cual esperar que la estimación 
puntual de una muestra dada deba ser exactamente igual que el parámetro poblacional que se supone que estima. 
Existen muchas situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperaría encontrar 
el valor del parámetro. Tal intervalo se conoce como una estimación por intervalo. 
 E( ) 
Sesgo 
4 
 
ESTIMACIÓN POR INTERVALOS DE CONFIANZA (IC) 
Una estimación puntual, con frecuencia es inadecuada como una estimación de un parámetro, ya que raramente 
coincide con este. Un tipo de estimación alternativo es una estimación por intervalo. 
Un IC es tan solo una ampliación de la estimación puntual para considerar la precisión de la misma. 
Una estimación por intervalo de u parámetro poblacional es un intervalo de la forma 
L ≤ ≤ U, 
donde L es el límite inferior y U es el límite superior. 
L y U dependen del valor de del estadístico para una muestra en particular y también de la distribución muestral 
de . Esto es L = L( , ) y U = U ( , ) 
Ya que muestras distintas generalmente dan valores distintos de y, por lo tanto de L y U, a partir de la distribución 
muestral de será posible determinar L y U tales queP(L( ) ≤ ≤ U ( )) sea igual a cualquier valor fraccionario 
positivo menor que 1, que se desee especificar. 
Si, por ejemplo P(L( ) ≤ ≤ U ( )) = 1 -  para 0 <  < 1, entonces hay una probabilidad dada 1 -  de seleccionar una 
muestra que produzca un intervalo que contenga a . 
El intervalo L ≤ ≤ U que se calcula a partir de la muestra seleccionada, se denomina entonces INTERVALO DE 
CONFIANZA del (1-) 100%. 
La fracción de 1- recibe el nombre de COEFICIENTE DE CONFIANZA o GRADO DE CONFIANZA. 
L y U se llaman LIMITES DE CONFIANZA INFERIOR Y SUPERIOR respectivamente. 
Por ejemplo, si el coeficiente de confianza es 0,95 entonces a largo plazo puede esperarse que el 95% de los límites 
de confianza calculados incluyan el verdadero valor de . 
Si se obtienen IC del 95% se espera que estos intervalos incluyan a , 95 veces en 100; es decir si se afirma que 
está dentro de los límites calculados, se esperaría que la afirmación fuera correcta 95 veces en 100 e incorrectas 5 
veces en 100. Sin embargo en la práctica un experimento se realiza generalmente una sola vez. 
Se toma una muestra aleatoria y se obtiene un IC [L, U] para , basado en el resultado del experimento. Una 
afirmación típica hecha por el experimentador es “ el parámetro  está en el intervalo de confianza calculado [L, U]; 
esta afirmación se hace con una confianza del 95%” 
No hay significado operacional en la siguiente afirmación “hay una probabilidad de 0,95 que el peso medio 
verdadero esta dentro de los limites calculados en este caso” ya que µ estará o no dentro de los limites;  no es 
variable. 
INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACION con VARIANZA CONOCIDA 
Sea la población X ∿ N ( µ, 2) con media µ DESCONOCIDA y varianza 2 CONOCIDA 
 y sea X1, X2, … Xn una muestra aleatoria de tamaño n de esa población. 
La media muestral es un estimador puntual razonable de la media desconocida µ, entonces usaremos el estadístico 
 para estimar  . 
Queremos, por ejemplo, estimar un intervalo del 100 (1-  )% para le media  = E(X). 
La distribución muestral de ∿ N µ 
 
 
 
Luego Z = 
 

 
 ∿ N (0, 1) (Normal estándar) 
De la figura se observa que: 
P( -Z /2 ≤ Z ≤ Z /2) = 1 -  
 
La expresión puede escribirse como 
P( -z /2 ≤ 
 

 
 ≤ z /2) = 1 -  
1- 
5 
 
P ( - z/2 

 
 ≤  ≤ + z /2 

 
) = 1 -  
 
DEFINICION: 
Si es la media muestral de una muestra aleatoria de tamaño n de una población normal con varianza conocida 2 
un intervalo de confianza del 100 ( 1 - )% para µ, está dado por: 
 – z /2 

 
 ≤ µ ≤ + z /2 

 
 (1) 
 L U 
Donde Z /2 es el punto de la distribución normal estándar que deja a la derecha un área de /2 
 
Walpole (capítulo Estimación) dice: “Muestras diferentes darán valores diferentes de y por lo tanto, producirán 
diferentes estimaciones del parámetro  como se observa en la figura siguiente. Los puntos circulares al centro de 
cada intervalo indican la posición de la estimación puntual para cada muestra aleatoria. Se ve que la mayoría de 
los intervalos contiene , pero no en todos los casos. Note que todos los intervalos son del mismo ancho, pues esto 
solo depende de la elección de z/2 un vez que se determina . Cuanto más grande sea el valor z/2 que elijamos, 
más anchos haremos los intervalos, y podremos tener más confianza en que la muestra particular que se seleccione 
producirá un intervalo que contenga al parámetro desconocido .” 
 
 
Ejemplo (Berenson Levine- capítulo Estimación).- 
 Supongamos que en el proceso del llenado de cereales, que se desconocía la media poblacional  , pero que se 
conocía la desviación estándar real de la población  y que era 15 gramos. 
En primer lugar estimamos puntualmente a . Para ello se toma una muestra de n=25 cajas que se han llenado un 
día determinado y usamos a como estimador puntual. 
Luego = 363,5 gramos. 
Debido a que la media poblacional no será exactamente igual a la media muestral de 363,5 gramos, es mejor 
construir un intervalo de por ejemplo, el 95% de confianza alrededor de 363,5 gr., que quizá contenga a . 
Luego, reemplazando en (1), obtenemos el IC deseado. 
(1 – ) 100% = 95%; 1 –  = 0,95;  = 0,05; /2 = 0,025; z/2= 1,96 
 – z/2 

 
 ≤ µ ≤ + z/2 

 
 ⇒ 363,5 – 1,96 
 
 
 ≤ µ ≤ 363,5 + 1,96 
 
 
 ⇒ 363,5 –5,88≤ µ ≤ 363,5 + 5,88 
357,62 ≤  ≤ 369,38 IC del 95% para  
Puesto que la media poblacional  (igual a 368 gr) se incluye dentro del intervalo, nótese que esta muestra ha 
conducido a una declaración correcta sobre  . (Vease figura 10.1- Berenson y Levine. 
Para una muestra diferente de n=25 cajas la media fue de 369,5 gr. El intervalo desarrollado a partir de esta muestra 
sería 369,5 ± (1,96)(15)/ o 369,5 ± 5,88 , es decir el estimado de  sería 
363,62 ≤  ≤ 375,38 
6 
 
Puesto que la media poblacional  (igual a 368) también está incluida dentro del intervalo, se concluye que esta 
afirmación sobre  es correcta. 
Ahora, antes de pensar que siempre habrá afirmaciones correctas sobre  a partir de la media muestral , 
estimamos un tercer ejemplo hipotético para una muestra que arrojó una media muestral igual a 360 gramos. 
El intervalo desarrollado aquí sería 360 ± (1,96)(15)/ o 360 ± 5,88 . En este caso el estimado de  es 
354,12 ≤  ≤ 365,88 
Obsérvese que este estimado no es una afirmación correcta puesto que  no está incluida en el intervalo 
desarrollado a partir de esta muestra. Por lo tanto, aquí se presenta un dilema. Para algunas muestras la estimación 
por intervalo de  será correcta, mientras que para otras no lo será. Además en la práctica sólo se selecciona una 
muestra y, puesto que no se conoce la media real de la población, no se puede determinar si esta afirmación 
particular es correcta. 
Sin embargo, por el estudio de la distribución muestral de se sabe que el 95% de las medias muestrales se 
encuentran entre 362,12 y 373, 88 gramos ( ± z/2 

 
 ). Por lo tanto, el 95% de TODAS las medias muestrales 
incluirán la media poblacional dentro del intervalo desarrollado. En esto nos basamos al desarrollar el IC para  en la 
página anterior. 
En general se puede interpretar que una estimación por intervalo de confianza del 95% significa que se tomaron 
TODAS las muestras posibles del mismo tamaño n, de las cuales el 95% incluiría la media real  de la población 
en algún lugar dentro del intervalo alrededor de las medias muestrales, mientras que solo el 5% de ellas no lo 
harían. 
De hecho, aunque solo se selecciona una muestra y se desconoce  , nunca se sabe con seguridad si el 
intervalo específico obtenido incluye la media poblacional. No obstante se puede afirmar que se tiene una confianza 
del 95% de incluir la media de la población dentro del intervalo. En algunos casos se desearía un grado de seguridad 
más alto (como pudiera ser el 99%) de incluir la media de la población en el intervalo. En otros casos se podría 
aceptar una seguridad menor (un 90%) de estimar correctamente la media de la población. 
 
 
 
7 
 
MUESTRAS GRANDES DE POBLACIONES NO NORMALES (VARIANZA 2 CONOCIDA) 
Para muestras pequeñas que se seleccionan de poblaciones no normales, no podemos esperar que nuestro grado de 
confianza sea preciso. Sin embargo, para muestras grandes, donde la forma de la distribución no esté muy sesgada, 
la teoría de muestreo garantiza buenos resultados. 
El intervalo de confianza (1) proporciona buenos resultados para muestras de tamaño n ≥30, sin importar la forma 
que tenga la población (población no normal). 
JUSTIFICACION : 
 

 
 ∿ N (0, 1) aproximadamente, si n es GRANDE (Teorema del Límite Central) 
 
Además de los intervalos de confianza estudiadosque son los intervalos “BILATERALES” es posible determinar 
también intervalos de confianza “UNILATERALES” para los parámetros. (Leer Walpole) 
Un I.C. Unilateral Inferior para un parámetro , estimará que es mayor o igual que algún límite inferior L 
L ≤ ó [L, ∞) 
se obtiene de (1) haciendo U = + ∞ y reemplazando z /2 por z  
 - z  

 
 ≤ µ Intervalo de Confianza Unilateral Inferior del 100 ( 1- ) % para µ 
Un IC Unilateral superior para , estimará que es menor o igual que algún límite superior U, 
 ≤ U ó (- ∞, U] 
se obtiene de (1) haciendo L = - ∞ y reemplazando z /2 por z  
 µ ≤ + z  

 
 Intervalo de Confianza Unilateral Superior del 100 ( 1- ) % para µ 
La CONFIANZA se mide con una probabilidad que denotamos con 1- ( probabilidad de seleccionar una muestra 
que produzca un intervalo que contenga en su interior a ). 
 1- = 0,90 (un error de cada 10) 
 = 0,95 (5 errores de cada 100) 
 = 0,99 (un error de cada 100) 
 = 0,999 (un error de cada 1000) 
La PRECISION se mide por la longitud (ancho) l del intervalo, para el caso analizado, 
l = + z /2 - ( - z /2 

 
 ) = 2 z /2 

 
; 
Mientras más grande sea el intervalo, será mayor la longitud y menor la precisión. 
Obviamente un intervalo más preciso será el que tenga la menor longitud. 
En el ejemplo del IC del 95% para el peso medio  de las cajas de cereal, obtenido para una muestra de tamaño 
n = 25 es l = 11,76 grs. 
Si 1- (la confianza) aumenta , z/2 (número de la tabla) aumenta, luego 
¡¡CONFIANZA Y PRECISION SON COMPETITIVOS!! 
n también controla la precisión a través de 
Diseño a priori: Antes de sacar la muestra y hacer todo el análisis, si el cliente quiere el 95% de confianza y una 
precisión l determinada, entonces el tamaño de muestra lo determinamos haciendo 
 
 
 
 
 
 ⇒ 
 
 
 
 
 
 
 
 
En el ejemplo de las cajas de cereal, si el cliente quiere el 95% de confianza y una precisión dada por l = 5, 
 
 
 
 
 
 
8 
 
Se necesita una muestra de tamaño 139, para tener la precisión pedida. 
Conclusión: 
l es: directamente proporcional a 

 
 ; inversamente proporcional a y directamente proporcional a 
 
 
 
¿Cómo estimamos un intervalo de confianza para la media si la varianza es desconocida 
Vamos a suponer que se desea encontrar un intervalo de confianza para la media µ de una distribución, pero que la 
varianza 2 no es conocida. 
Específicamente: se tiene una muestra aleatoria X1, X2,…, Xn y y S
2 son la media y la varianza muestrales 
¿Para que calculamos S2? 
Si 2 era conocida, determinamos un IC para estimar µ (de una poblacion normal o población no normal con n ≥ 30) 
usando la distribución muestral de ∿ N(µ, 
 
 
) 
Luego 
 

 
 ∿ N (0, 1) 
Ahora bien, si 2 es DESCONOCIDO estimamos 2 con S2 (estimador insesgado de 2) y resulta un estadístico natural 
para tratar con las inferencias sobre µ 
t = 
 
 
 
 
Si n ≥ 30, la distribución de t no difiere de una manera CONSIDERABLE de la normal estándar. 
Si n < 30, la distribución de t se desvía de forma apreciable de la distribución normal estándar, luego si n < 30 es UTIL 
tratar con la distribución exacta de t. Esta cuestión la resolvió STUDENT. 
Se dice que t = 
 
 
 
 tiene distribución t de student con n-1 grados de libertad. 
9 
 
 
INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCION NORMAL, VARIANZA DESCONOCIDA 
Sea la población X ∿ N ( µ, 2) y la varianza 2 es desconocida. Deseamos estimar la media  mediante un intervalo 
de confianza. 
Sea X1, X2, … Xn es una muestra aleatoria de tamaño n de esa población. 
A 2 podríamos estimarla con S2 (ESTIMADOR INSESGADO DE 2) 
Recordemos que t = 
 
 
 
 tiene distribución t de Student con n-1 grados de libertad. 
Usamos t = 
 
 
 
 para determinar un IC para µ 
 
Se puede asegurar que: 
 P( - 
 
 ≤ t ≤ 
 
 ) = 1 -  
P( - 
 
 ≤ 
 
 
 
 ≤ 
 
 ) = 1 -  
P( - 
 
 
 
 
 ≤ µ ≤ + 
 
 
 
 
 ) = 1 -  
conduce a la siguiente definición: 
1- 
10 
 
DEFINICION: 
Si y s son respectivamente la media y la desviación estándar de una muestra aleatoria tomada de una población 
normal con varianza 2 desconocida, entonces un intervalo de confianza del 100 (1 - ) % para µ está dado por 
 - 
 
 
 
 
 ≤ µ ≤ + 
 
 
 
 
 (2) 
Donde 
 
 es el valor t con n-1 grados de libertad que deja a la derecha un área de 

 
Concepto de intervalo de confianza de una muestra grande (Walpole) 
Los especialistas recomiendan que incluso cuando no se pueda suponer normalidad (de la población), con 2 
desconocida y n ≥ 30; se podría reemplazar a  y se podría usar el IC (1) 
 – z /2 
 
 
 ≤ µ ≤ + z /2 
 
 
 
En general, éste se conoce como intervalo de confianza de muestras grandes. 
La justificación yace solo en la presunción de que con una muestra tan grande como 30 y la distribución de la 
población no sesgada, s estará muy cerca de la  real y entonces sigue siendo aplicable el Teorema del Límite 
Central. Debe quedar en claro que esto es solo una aproximación y que la calidad de la misma mejora conforme el 
tamaño de la muestra se hace más grande. 
OBSERVACIÓN: 
El error estándar de un estimador es su desviación estándar. 
Por ejemplo: Error estándar de es  = 

 
 
ES
TI
M
A
C
IÓ
N
 D
E 
µ
 =
 E
(X
) 

2 = VAR (X) 
ES CONOCIDA 
a) x1, x2, … xn muestra aleatoria de tamaño n de esa población N ( µ , 
2) 
µ = E(X); 2 = VAR (X) 
I.C. para µ ± z /2 

 
 para cualquier n, resultado exacto 
b) x1, x2, … xn muestra aleatoria de cualquier población (no Normal) 
b1) n grande ± z /2 

 
 resultado aproximado, justificado por el TLC 
b2) n chico ? el TLC no se puede usar 

2 = VAR (X) 
NO ES CONOCIDA 
a) x1, x2, … xn muestra aleatoria de tamaño n de esa población N ( µ , 
2) 
I.C. para µ ± t /2; n-1 
 
 
 para cualquier n, resultado exacto 
b) X1, X2, … Xn muestra aleatoria de cualquier población (no Normal) 
b1) n grande ± z /2 
 
 
 resultado aproximado justificado por el TLC 
b2) n chico ? 
NO SE CUMPLEN LAS 
HIPOTESIS DEL TLC 
(Por ejemplo la 
varianza no es finita) 
a) x1, x2, … xn muestra aleatoria de esa población 
a1) n grande ? 
a2) n chico ? 
 
Los resultados obtenidos corresponden a la estimación básica paramétrica. El otro caso corresponde a la estadística 
no paramétrica. Hay otra estadística moderna llamada “ESTADISTICA ROBUSTA” que permitiría resolver los ? 
interrogantes planteados. 
También podríamos usar la desigualdad de Tchebyshev para hallar IC, lo único que necesitamos es que Exista la 
varianza (1° Caso Var(X) CONOCIDA). 
11 
 
INTERVALO DE CONFIANZA PARA UNA PROPORCION p 
Queremos construir un IC para una proporción p poblacional. 
La población puede representarse por una v.a. Bernoulli X ∿ B(p) 
Se toma una muestra aleatoria X1, X2, … Xn de esa población 
Entonces la proporción muestral 
 s = 
 
 
 = 
 
 
 
 s es un “estimador puntual” de la proporción p ¿por qué? 
La distribución muestral de s es aproximadamente normal si p no está muy próximo a 0 o 1, y si n es relativamente 
grande. 
Por lo tanto 
Z = 
 
 
 
 
 
 ∿N (0, 1) Aproximadamente 
Recordar que E( s) = p ; Var ( s) = 
 
 
 
 El error estándar de s será 
 
 
 
Para construir un IC para p, nótese que 
 
 ≤ ≤ 
 
 = 1 -  
Reemplazando Z por 
 
 
 
 
 
 
 
 
 
 
p p 
 
 ≤ p ≤ 
 
 
 
p p 
 
 
El error estándarde S (indicado) depende de p; luego los límites superior e inferior del IC obtenido contienen el 
parámetro desconocido p. 
SOLUCION SATISFACTORIA: Si n es grande, reemplazar p por en el error estándar y conduce a un intervalo de 
confianza aproximado de 100 ( 1-  ) % para p 
 
 
 
 
 
 
 
 ≤ p ≤ 
 
 
 
 
 
 
DEFINICION: 
Si es la proporción de éxitos de una muestra de tañamo n de una población Bernoullí, entonces un intervalo de 
confianza del 100 (1 - ) % para la proporción p (de éxitos) de la población es 
 - 
 
 
 
 
 
 ≤ p ≤ + 
 
 
 
 
 
 
 
 
 punto de la distribución normal estándar que deja un área igual a 

 
 a la derecha 
SUGERENCIA: Para una aproximación apropiada, requerir que 
 n p ≥ 5 
 y también n ( 1 - p ) ≥ 5 
 
 
12 
 
ESTIMACION DE LA VARIANZA 
OBJETIVO: Estimar un intervalo de confianza para la varianza 2 (desconocida) de una población Normal 
Si X1, X2, … Xn es una muestra aleatoria de tamaño n tomada de esa población NORMAL y S
2 es la varianza muestral, 
entonces S2 es un estimador puntual razonable de 2 ¿Por qué? 
Usamos S2 para encontrar un IC para 2. Si la población X es NORMAL vimos que 
 2 = 
 
 
 tiene Distribución CHI-CUADRADO con n-1 grados de libertad 
 
P (  
 ≤ ≤  
 ) = 1 -  
P (  
 ≤ 
 
 
 ≤  
 ) = 1-  
P ( 
 
  
 
 ≤ ≤ 
 
  
 
) = 1-  
DEFINICION: Si s2 es la varianza muestral de una muestra aleatoria de tamaño n de una población normal, un IC del 
100 (1 - ) % para es: 
 
  
 
 ≤ ≤ 
 
  
 
 
Donde 
 
 y 
 
 

 
 son valores de la 
 
 con =n-1 grados de libertad, con áreas de 

 
 y 

 
, 
respectivamente, a la derecha. 
 
13 
 
ESTIMACIÓN DE LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES 
CASO 1: ESTIMACIÓN DE LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES, CON VARIANZAS CONOCIDAS: 
MUESTRAS INDEPENDIENTES 
Se tienen dos poblaciones X e Y: 
X tiene media y varianza 12 
Y tiene media y varianza 22 
Un Estimador Puntual de es el estadístico 
Procedimiento para obtener una ESTIMACIÓN PUNTUAL de : 
 Seleccionar dos muestras aleatorias independientes, una de cada población de tamaños n1 y n2. 
 Calcular (diferencia entre medias muestrales) 
Consideración de la distribución muestral de 
Bajo las consideraciones anteriores (), tiene distribución exactamente normal si las poblaciones X e Y 
con normales. 
 es aproximadamente normal, si n1 y n2 son grandes ¿por qué? 
 tiene distribución aproximadamente normal con 
media y varianza 
 
 
 
 . 
La aproximación mejora conforme n1 se incrementa 
 tiene distribución aproximadamente normal con 
media y varianza 
 
 
 
 
La aproximación mejora conforme n2 se incrementa 
Justificado por el TLC 
E ( = E ) - E ) = (1) 
VAR ( = VAR ) + VAR ) =  
 
 
 +  
 
 
 (2) 
 ∿ N ( ; 
 
 
 
 + 
 
 
 
 ) 
Z = 
 
  
 
 
 
 
 
 
 
 ∿ N (0, 1) (3) 
 Si n1 y n2 con mayores o iguales a 30, la aproximación normal para es MUY BUENA, sin importar 
las formas de las dos poblaciones. Sin embargo, aún cuando n1 y n2 sea menores que 30 la aproximación 
normal es razonablemente buena excepto cuando las poblaciones no son definitivamente normales. 
 Si AMBAS poblaciones son NORMALES entonces tiene una distribución normal SIN IMPORTAR 
que valores tengan n1 y n2. 
Propiedades del estimador 
 ¿Es un estimador insesgado de ? Si por (1) 
 Puede demostrarse que VAR ( ) (2) es la más pequeña entre las de todos los estimadores 
INSESGADOS, es decir es el MVUE de (estimador más eficiente) 
Desarrollamos un intervalo de confianza del 100 ( 1-  )% para : 
 
Con una probabilidad de 1 -  se puede afirmar que la 
variable normal estándar (3) caerá entre 
 
 y 
 
 
P( 
 
 ≤ Z ≤ 
 
) = 1 -  
P( 
 
 ≤ 
 
  
 
 
 
 
 
 
 
 ≤ 
 
) = 1 -  
 
P 
 
 
 
 
 
 
 
 
 
 ≤ ≤ 
 
 
 
 
 
 
 
 
 
 = 1 -  
 
-z /2 
1- 
z /2 
14 
 
DEFINICION: Intervalo de confianza para la diferencia de dos medias, varianzas conocidas. 
Si e son las medias de dos muestras aleatorias independientes de tamaños n1 y n2 tomadas de poblaciones 
que tienen varianzas conocidas 12 y 22 respectivamente, entonces un intervalo de confianza del 100 ( 1-  )% 
para es: 
 
 
 
 
 
 
 
 
 
 
 ≤ ≤ 
 
 
 
 
 
 
 
 
 
 
Donde 
 
 es el valor de la distribución normal estándar que deja a la derecha un área de 

 
. 
El grado de confianza 1 -  es EXACTO cuando las poblaciones son normales. Para las poblaciones que no lo son, 
el nivel de confianza es aproximadamente válido para muestras de tamaño razonable. 
CASO 2: INTERVALO DE CONFIANZA PARA DE POBLACIONES NORMALES y VARIANZAS 
DESCONOCIDAS 
Consideremos dos poblaciones con medias y varianzas 12 y 22 desconocidas. 
CASO 2.1: Consideremos también que es razonable suponer que 12 = 22 = 2 
Se desea encontrar un IC del 100 (1-)% para 
Se toman muestras aleatorias de tamaño n1 y n2 respectivamente, de las dos poblaciones representadas por X e 
Y; sean e las medias muestrales y S12 y S22 las varianzas muestrales, vimos que 
Z = 
 
  
 
 
 
 
 
 
 
 ∿ N (0, 1) 
Si 12 = 22 = 2 , se obtiene una normal estándar de la forma 
Z = 
 
 
 
 
 = 
 
 
 
 
 
Puesto que S12 y S22 son estimadores de 2 (varianza común), entonces puede obtenerse un estimador 
combinado de 2 , mejor que S12 y S22 por separado. 
Este estimador es 
 
 
 = 
 
 
 
 
 estimador combinado (pooled) de 2 
Para desarrollar el IC para , nótese que 
t = 
 
 
 
 
 
 
 tiene di t ibución “t” con 
 grados de libertad 
P(  
 
 
≤ t ≤  
 
 
) = 1- 
P(  
 
 
≤
 
 
 
 
≤  
 
 
)=1- 
 
P 
 
 
 
 
 
 
 
 
 ≤ ≤ 
 
 
 
 
 
 
 
 
 = 1- 
 
 
-t /2 
1- 
t /2 
15 
 
DEFINICION: Si , s12 y s22 son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño 
n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas 
pero iguales, entonces un IC del 100 (1-) % para es: 
 
 
 
 
 
 
 
 
 ≤ ≤ 
 
 
 
 
 
 
 
 
En donde: 
 
 
 
 
 
 ; 
 
 valor de la distribución de t con n1 + n2 -2 GL con un área de 

 
 a la derecha 
NOTA: (Leer Walpole) 
El procedimiento para determinar los IC para con 12 = 22 = 2 desconocidas requiere la SUPOSICION 
que las POBLACIONES SEAN NORMALES 
Desviaciones ligeras de la suposición de varianzas iguales o de la normalidad no alteran el grado de confianza 
del intervalo. 
Si las varianzas poblacionales son considerablemente diferentes, aun se obtienen resultados razonables cuando 
las poblaciones son NORMALES, SIEMPRE QUE n1 = n2. 
CASO 2.2: Consideremos el problema de encontrar una estimación de por un I.C. cuando las varianzas 
poblacionales desconocidas no parecen ser iguales. 
Estadístico más frecuente que se usa es 
 
 
 
 
 
 
 
 
 
 
 tiene aproximadamentedistribución t con  grados de libertad. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  se redondea al entero más cercano (5) 
Por lo tanto P ( 
 
  ≤ ≤ 
 
  
Reemplazando T’ po 4) y despejando en las desigualdades se obtiene 
DEFINICION 
Si , 
 y 
 son las medias y las varianzas muestrales de dos muestras aleatorias de tamaño n1 y n2 
respectivamente, tomadas de dos poblaciones normales e independientes, con varianzas desconocidas y 
distintas, entonces un Intervalo de Confianza del 100 (1-) % para es: 
 
 
  
 
 
 
 
 
 
 
 ≤ ≤ 
 
  
 
 
 
 
 
 
 
 
donde  está dado por (5) y 
 
  es el valor de la distribución t con un área 
 
 
 a la derecha y  grados de libertad 
CASO 3: INTERVALO DE CONFIANZA PARA DE POBLACIONES NO NORMALES y VARIANZAS 
DESCONOCIDAS 
El procedimiento indicado en el caso 1 para estimar un intervalo de confianza para la diferencia entre dos 
medias es aplicable si se conocen 
 y 
 Si no se conocen y las distribuciones involucradas son 
aproximadamente normales, debe considerarse la distribución t (como en el caso de una muestra), especificado 
en el caso 2. 
Si 
 y 
 no se conocen y no se está dispuesto a suponer normalidad de las poblaciones, muestras GRANDES 
(n1 ≥ 0 n2≥ 0 pe miti án el u o de 
 y 
 en lugar de 
 y 
 respectivamente, entendiendo que en 
muestras grandes 
 
 ≈ 
 y 
 
 ≈ 
 
El IC del 100 ( 1 -  % para será 
 
 
 
 
 
 
 
 
 
 
 ≤ ≤ 
 
 
 
 
 
 
 
 
 
 
Un vez más el intervalo de confianza es una aproximación. 
16 
 
CASO 4: INTERVALO DE CONFIANZA PARA DE POBLACIONES NORMALES CUANDO LAS MUESTRAS NO 
SON INDEPENDIENTES 
OBSERVACIONES APAREADAS 
Consideramos procedimientos de estimación para la diferencia de medias cuando las muestras no son 
independientes y las varianzas de las dos poblaciones no son necesariamente iguales. 
Un caso importante se presenta cuando las observaciones se toman en pares, siendo tomados cada par bajo las 
mismas condiciones experimentales, con las condiciones variando de par en par. 
Ejemplo: En un experimento para contrastar cual de dos tipos de fertilizante A o B es mejor, se plantan dos parcelas 
de trigo en cada una de 10 zonas experimentales. Una de las parcelas se abona con fertilizante A y la otra con 
fertilizante B. 
Sea el rendimiento X “peso del grano de cada parcela (kg./parcela) con fertilizante A” y el rendimiento Y “peso del 
grano de cada parcela (kg./parcela) con fertilizante B”. 
Luego 1 = E(X) será el peso medio del grano con fertilizante A y 2 = E(Y) será el peso medio del grano con fertilizante B. 
Queremos estimar 1 – 2 . 
 
Si el promedio x de las 10 parcelas con A se comparan con el promedio y de las 10 parcelas con B, y evaluamos 
x - y , parte de la diferencia (si hay alguna) puede deberse a los diversos tipos de terreno o a las distintas 
condiciones atmosféricas en lugar de a los distintos fertilizantes. Otra posibilidad es que los fertilizantes originen una 
diferencia, pero esta diferencia queda encubierta por los otros factores. 
Otro diseño de experimentos, que algunas veces supera parte de las dificultades anteriores, es el artificio de tomar 
las observaciones de a pares. Queremos estar seguros de que los dos miembros de cualquier par son parecidos en 
todos los aspectos excepto en el que tratamos de medir. Esto es un IDEAL desde luego, y está limitado por la 
disponibilidad de pares que sean similares y por nuestra habilidad para elegir pares semejantes. 
En el ejemplo se eligen en cada zona, cada par de parcelas que tendrá aproximadamente los mismos tipos de 
terreno, condiciones atmosféricas, etc. 
El procedimiento comprende la diferencia entre cada par de observaciones (x1, y1), (x2, y2), ..., (xn, yn). 
Sea (X1, Y1), (X2, Y2), ..., (Xn, Yn) un conjunto de n pares de variables aleatorias que representan las cantidades 
medibles asociadas con los ensayos 1, 2, ..., n respectivamente. 
Si tomamos las diferencias entre cada par de observaciones, es decir, d1 = x1 - y1, d1 = x2 -y2, ..., dn = xn - yn, 
estas diferencias d1, d2, ..., dn son los valores de una muestra aleatoria D1, D2, ..., Dn 
D1 = X1 - Y1, D1 = X2 -Y2, ..., Dn = Xn - Yn. 
Pueden haber ciertos factores extraños que afecten a algunos elementos, pero esperamos (y suponemos) que 
AFECTAN exactamente de la misma manera a cada uno de los miembros de un par. 
También suponemos que el efecto sea esencialmente el de aumentar (o disminuir) mediante alguna constante cada 
una de las medias, de modo que la resta elimine dicho efecto. 
Redondeando: Tenemos diferencias d1, d2, ..., dn que son los valores de una muestra aleatoria de variables aleatorias 
D1, D2, ..., Dn de una población de diferencias que supondremos distribuidas normalmente cada una con una media 
común desconocida D y una varianza común desconocida D
2
. 
D = E(D) = E(X – Y) = E(X) – E(Y) = 1 – 2; D  N (D , D
2
) 
El estimador puntual de D está dado por D . Estimamos D
2
 con SD
2
 
Se puede establecer un IC del 100(1 – ) % para D al escribir P(- 12  n/ ,t ≤ t ≤ 12  n/ ,t ) = 1 -  
donde t = 
n/S
D
D
D y t /2 es un valor de la distribución t con n-1 grados de libertad. 
Si d y sd son la media y la desviación estándar de las diferencias distribuidas normalmente de n pares aleatorios de 
mediciones, un intervalo de confianza del 100(1 - )% para D = 1 – 2 es 
d -
n
s
,t Dn 1
2
 ≤ D ≤ d +
n
s
,t Dn 1
2
 
El apareamiento controla los efectos de factores extraños. Si no hay efectos extraños perdemos información al 
aparear. 
17 
 
Problema: Un cierto estimulante va a ser usado para comprobar sus efectos en la presión sanguínea. Se midió la 
presión sanguínea a 12 hombres, antes y después del estimulante. Los resultados se presentan en la tabla siguiente. 
¿Hay diferencias entre la presión antes y después de tomar el estimulante? 
HOMBRE 1 2 3 4 5 6 7 8 9 10 11 12 
ANTES (y) 120 124 130 118 140 128 140 135 126 130 126 127 
DESPUÉS (x) 128 131 131 127 132 125 141 137 118 132 129 135 
d= x - y 8 7 1 9 -8 -3 1 2 -8 2 3 8 
 
ESTIMACION DE LA RAZON DE DOS VARIANZAS 
Supongamos que se tienen dos poblaciones NORMALES e INDEPENDIENTES (X e Y), con varianzas 
desconocidas 12 y 22, respectivamente. 
Se dispone de dos muestras aleatorias independientes de tamaños n1 y n2 respectivamente, de esas 
poblaciones. Sean S12 , y S22 las dos varianzas muestrales 
Un Estimador Puntual de 
 
 
 
 es 
 
 
 
 
Para hallar un IC para 
 
 
 
 utilizamos el estadístico F= 
 
 
 
 
 
 
 
 
 que tiene distribución F con n1 -1 y n2-1 grados de 
libertad. (Demostrado en oportunidad de la distribución muestral de 
 
 
Luego se puede escribir 
P ( 
 
   
≤ F ≤ 
 
   
) = 1 -  
   
P ( 
 
   
≤ 
 
 
 
 
 
 
 
 
 ≤ 
 
   
) = 1 -  
P ( 
 
 
 
 
 
 
 
   
 ≤ 
 
 
 
 ≤ 
 
 
 
 
 
 
 
 
 
   
) = 1 -  
 
DEFINICION 
Sean 
 y 
 las varianzas muestrales de muestras aleatorias independientes de tamaños n1 y n2 
respectivamente, de poblaciones NORMALES, entonces un IC del 100 (1- )% para 
 
 
 
 es 
 
 
 
 
 
 
 
 
≤ 
 
 
 
 ≤
 
 
 
 
 
 
 
 
 
Recordar que 
 
   
= 
 
 
 
   
 
Tomando la raíz cuadrada de cada extremos del intervalo hallado, obtenemos un intervalo de confianza para la 
razón de las desviaciones estándar 
 
 
 
 
18 
 
ESTIMACION DE LA DIFERENCIA DE DOS PROPORCIONES 
Problema: En un estudio, Germination and emergence of Broccoli, que lleva a cabo el Departamento deHorticultura del 
Instituto Politécnico y Universidad Estatal de Virginia, un investigador encuentra que a 5°C, 10 semillas de 20 germinaron; 
en tanto que a 15°C, 15 semillas de 20 lo hicieron. Calcule un intervalo de confianza del 95% para la diferencia entre la 
proporción de germinación eb las dos diferentes temperaturas, y decida si hay una diferencia significativa.

Continuar navegando