Vista previa del material en texto
7 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca de uno o más parámetros de una distribución poblacional. Esta información se obtiene a partir de una muestra de esa población. Llamaremos muestra aleatoria de una distribución F , a un conjunto de variables aleatorias X1; X2; ::; Xn independientes y todas con la misma dis- tribución F: Los valores observados de esa muestra aleatoria son números x1; x2; :::; xn. Llamamos estadístico, a cualquier función de la muestra aleatoria, en- tonces un estadístico es también una variable aleatoria. De�nición: Sea X1; X2; ::; Xn una muestra aleatoria de una distribución que depende de un parámetro � (usaremos la notación F (�)). Un estimador puntual de ese parámetro �, es un estadístico b�(X1; X2; ::; Xn), de modo que un estimador es una variable aleatoria. Cuando esa función se aplica a los valores observados de la muestra aleatoria b�(x1; x2; ::; xn) constituye una es- timación puntual, que es un número. Si tenemos una muestra aleatoria X1; X2; ::; Xn de cualquier distribución que sabemos que tiene media �, el estimador usual para este parámetro es la media muestral X, que ya de�nimos en la sección anterior. Si tenemos una muestra aleatoria X1; X2; ::; Xn, de una distribución con- tinua desconocida, de la cual no sabemos si es simétrica ni si existe la media, al menos sabemos que existe la mediana e� de esa distribución. Entonces, podemos estimar e� con la mediana muestral, que se de�ne como: De�nición: Dados los valores observados x1; x2; :::; xn de una muestra aleatoria. Llamamos x(i) a los xi ordenados x(1) � x(2) � :::: � x(n): La mediana muestral med(x1; x2; :::xn) = ex es el valor que divide a los datos en dos partes iguales. Si n es impar, entonces ex = x(m) con m = n+ 1 2 : Si n es par, ex = 1 2 � x(m) + x(m+1) � ; con m = n 2 : 48 Año 2011 Ejemplo 7.1 Consideremos las siguientes 20 observaciones, cada una rep- resenta la duración (en horas) de un cierto tipo de lámpara incandescente 1088 666 1016 964 1058 612 1003 898 1197 1022 744 1135 623 1085 970 1201 983 1029 883 1122 Para calcular la mediana debemos ordenar las observaciones: 612, 623, 666, 744, 883, 898, 964, 970, 983, 1003, 1016, 1022, 1029, 1058, 1085, 1088, 1122, 1135, 1197, 1201 como en este caso tenemos 20 observaciones, la mediana será el promedio de las dos centrales: ex = 1 2 (x(10) + x(11)) = 1 2 (1003 + 1016) = 1009:5 Estimadores insesgados Si queremos estimar un parámetro, no parece razonable elegir cualquier función de la muestra. En general pediremos que el estimador tenga algunas propiedades. De�nición: Si queremos estimar un parámetro �, un estimador b� se dice que es insesgado, si E(b�) = �. Si b� no es insesgado la diferencia E(b�)� �, se llama sesgo del estimador. Dada una muestra aleatoria de una distribución con media �, X por la primera propiedad de (18) es un estimador insesgado de la media poblacional � Dada una muestra aleatoria de una distribución con media � y varianza �2 se de�ne la varianza muestral como: S2 = P (Xi �X)2 n� 1 La varianza muestral es un estimador insesgado de �2, esto signi�ca que: E(S2) = �2 49 Año 2011 Para probar esta propiedad, desarrollamos:X (Xi �X)2 = X (X2i � 2XiX +X 2 ) = X X2i � 2X X Xi + nX 2 y teniendo en cuenta que: X Xi = nX llegamos a: X (Xi �X)2 = X X2i � nX 2 entonces aplicando las propiedades de la esperanza E(S2) = E P (Xi �X)2 n� 1 = P EX2i � nEX 2 n� 1 (19) además sabemos que E(X2) = var(X) + E(X)2, entonces vemos que: E(X2i ) = � 2 + �2 y E(X 2 ) = �2=n+ �2 y reemplazando en (19) E(S2) = P (�2 + �2)� n(�2=n+ �2) n� 1 = n�2 + n�2 � �2 � n�2 n� 1 = (n� 1)�2 n� 1 Ejemplo 7.2 Si X � B(n; p) un posible estimador de p es bp = X=n se puede ver que es un estimador insesgado, ya que: E (bp) = E (X=n) = E(X)=n = np=n = p Ejemplo 7.3 Pensando en el ejercicio 2 de la práctica 4, supongamos que el tiempo de espera tiene una distribución uniforme en un intervalo [0; �] donde � es desconocido. Se desea estimar � en base a los tiempos que tiene que esperar una persona durante 10 días: 4:5; 6:3; 3:1; 1:1; 8:9; 2:4; 0:6; 7:3; 5:7; 9:2. Estos son los valores observados de una muestra aleatoria X1; X2; ::; Xn de una distribución U s [0; �] 50 Año 2011 Como � es el máximo posible para un tiempo de espera, parece razonable elegir como estimador de �, al máximo de los tiempos de espera de la muestra; esto se escribe: b� = max(X1; X2; ::; Xn). se puede demostrar que: E(b�) = n n+ 1 � esto signi�ca que b� no es un estimador insesgado para �; sin embargo, a partir del mismo, se puede obtener un estimador insesgado, de�niendo: b�1 = n+ 1 n max(X1; X2; ::; Xn): este estimador es insesgado, ya que: E(b�1) = E(n+ 1 n max(X1; X2; ::; Xn)) = n+ 1 n n n+ 1 � = � Para este mismo ejemplo, recordando que la esperanza de una v.a. con distribución uniforme es el punto medio del intervalo, en este caso �=2, se podría de�nir otro estimador para � como:b�2 = 2X este estimador también es insesgado, ya que: E �b�2� = E �2X� = 2E �X� = 2� 2 = � Con los valores del ejemplo la estimación obtenida por el primer estimador es 11 10 max(xi) = 11 10 9:2 = 10:12 y la estimación obtenida con el segundo es: 2x = 2 � 4:91 = 9:82 Si para estimar un parámetro tenemos más de un estimador insesgado es conveniente elegir el que tiene menor varianza. De�nición: Se denomina error estándar de un estimador a su desviación estándar, dt(b�) =qvar(b�). Si en el error estándar hay parámetros descono- cidos cuyos valores se pueden estimar, al sustituir dichos parámetros por sus estimadores, se obtine el error estándar estimado del estimador, se suele denotar con b�b� 51 Año 2011 Sea X1; X2; ::; Xn una muestra aleatoria de una distribución con media � y varianza �2:Ya vimos que X es un estimador de �, y s es un estimador de �, el error estándar de X es dt(X) = �= p n y el error estándar estimado es \dt(X) = s= p n: Si X � B(n; p) ya vimos que bp = X=n es un estimador del parámetro p; su error estándar es dt(bp) =pvar(X=n) =qp(1�9p) n Realice los ejercicios 1 a 7 8 Intervalos de con�anza 8.1 Intervalos para una media En los ejemplos anteriores hemos estimado un parámetro, que puede tomar cualquier valor dentro de un intervalo real, sabemos que es practicamente imposible que nuestra estimación sea exactamente igual al parámetro que deseamos estimar. Por ese motivo, para dar una idea de la precisión de la estimación, se busca dar una estimación mediante un intervalo de con�anza. Antes de dar una de�nición formal, veamos un ejemplo. Ejemplo 8.1 Consideremos la distribución de los niveles de colesterol en sangre de los hombres de cierta comunidad hipertensos y que fuman. Se sabe que esta distribución es aproximadamente normal, se desconoce su media �, pero se sabe que su desviación típica � = 46 mg/100ml. (aunque no se conoce � se supone que � es la misma que la de la población de adultos de sexo masculino de esa comunidad). Se desea conocer el nivel medio de colesterol en sangre de este grupo; entonces, se seleccionan 12 hombres fumadores e hipertensos y se determina el nivel de colesterol para cada uno. El nivel de colesterol en sangre para cada individuo es una variable aleatoria Xi que tiene distribución normal con media � (el valor que se desea conocer) y el � antes mencionado; cuando se promedian los 12 valores observados, se obtiene un x = 217 mg/100ml. Notar que � es la media �verdadera�desconocida de las observaciones Xi; mientras que x es la media de la muestra. Este valor es una estimación de �: Para tener en cuenta también la precisión de la estimación, se busca acotar � mediante un intervalo, que debe depender de los datos. Como éstos son 52 Año 2011 aleatorios, el intervalo tambien lo será, y por lo tanto podría no contener a � si tenemos mala suerte. Lo mas que se puede hacer es �jar una probabilidad �alta�1 � �; y buscar un intervalo que contenga � con probabilidad 1 � �. En este caso �jaremos 1� � = 0:95. Como las Xi son una muestraaleatoria de una N(�; �2); el estadístico Z = � X � � � �= p n tiene distribución N(0; 1). Entonces, si buscamos en la tabla, vemos que �(1:96) = 0:975, luego P (Z > 1:96) = P (Z < �1:96) = 0:025 de allí podemos ver que: P �1:96 � � X � � � �= p n � 1:96 ! = 0:95 (20) luego, despejando en esa desigualdad, obtenemos: P � X � 1:96 �p n � � � X + 1:96 �p n � = 0:95 que quiere decir que el intervalo (X � 1:96�= p n ; X + 1:96�= p n) (21) de extremos aleatorios contiene al verdadero valor del parámetro � con pro- babilidad 0.95; o que el mismo es un intervalo de 95% de con�anza para �: Utilizando los valores del ejemplo y reemplazando X por x = 217, obte- nemos: � 217� 1:96 46p 12 ; 217 + 1:96 46p 12 � = (191; 243) Nota: Se de�ne el valor crítico z�, como el valor tal que P (Z > z�) = �, donde Z es una variable aleatoria con distribución N(0; 1). El procedimiento que utilizamos para construir un intervalo con un nivel 0.95, se puede aplicar para cualquier nivel de con�anza 1 � �, en este caso se reemplazan los valores -1.96 y 1.96 por los valores críticos �z�=2 y z�=2, entonces: P �z�=2 � � X � � � �= p n � z�=2 ! = 1� � 53 Año 2011 y llegamos : P � X � z�=2 �p n � � � X + z�=2 �p n � = 1� � y �nalmente al intervalo:� X � z�=2�= p n ; X + z�=2�= p n � (22) Ahora podemos dar una de�nición y un método para construir intervalos de con�anza siguiendo las mismas etapas del ejemplo. De�nición: Sea X1; X2; ::; Xn una muestra aleatoria de una distribución F (�). Un intervalo de con�anza de nivel (1� �), (o iintervalo de (1� �)% de con�anza o (IC(1��)), es un intervalo de extremos aleatorios, que contiene al parámetro �, con probabilidad 1� �, esto quiere decir IC(1��) = (g1(X1; X2; ::; Xn); g2(X1; X2; ::; Xn)) tal que P � � 2 IC(1��) � = P (g1(X1; X2; ::; Xn) � � � g2(X1; X2; ::; Xn)) = 1� � ¿Como construimos un IC? En general se siguen los mismos pasos que en el ejemplo anterior: 1. Se busca un estadístico que sea función de la muestra aleatoria y del parámetro de interés, pero cuya distribución no dependa de dicho parámetro, llamemos h(X1; X2; ::; Xn; �) a ese estadístico. En el ejemplo h(X1; X2; ::; Xn; �) = � X � � � �= p n � N(0; 1) 2. Determinar un par de números reales a y b, tales que P (a < h(X1; X2; ::; Xn; �) < b) = 1� � (23) En el ejemplo: a = �z�=2 y b = z�=2 54 Año 2011 3. Siempre que sea posible, a partir de (23), despejar los extremos aleato- rios g1(X1; X2; ::; Xn) y g2(X1; X2; ::; Xn) En el ejemplo: g1(X1; X2; ::; Xn) = X�z�=2�= p n ; g2(X1; X2; ::; Xn) = X+z�=2�= p n Interpretación de un intervalo de con�anza El nivel de con�anza 95% del ejemplo, proviene de la probabilidad 0:95 del intervalo aleatorio (21). Es importante recordar que al reemplazar los estadís- ticos por los valores de la muestra, obtuvimos un intervalo real (191; 243) ; este ya no es aleatorio y no tiene sentido decir que contiene a � con proba- bilidad 0.95. La interpretación correcta del �nivel de con�anza�se basa en la idea de probabilidad como límite de las frecuencias relativas. Supongamos, para el ejemplo, que se seleccionan muchas muestras aleatorias de 12 hombres de esa población y se construyen intervalos de con�anza utilizando el mismo procedimento; con cada muestra de 12 observaciones tendremos un valor de x diferente, y en consecuencia un intervalo numérico diferente, lo que podemos a�rmar es que el 95% de estos intervalos contienen al verdadero valor �, y naturalmente habrá un 5% de dichos intervalos que no contienen al verdadero valor �. Nivel de con�anza, precisión y tamaño de la muestra. Como resulta lógico, es deseable que el nivel de con�anza 1 � � sea lo mayor posible, pero z� aumenta cuando elegimos valores más grandes para el nivel 1� � (por ejemplo si queremos un nivel del 99%, los valores críticos son -2.58 y 2.58), y en consecuencia aumenta la longitud del intervalo. Esto signi�ca que si se quiere más seguridad hay que pagarla con menos precisión. En nuestro ejemplo si deseamos un nivel de 99% de con�anza, el intervalo será: � 217� 2:58 46p 12 ; 217 + 2:58 46p 12 � = (183; 251) la longitud de este intervalo es L = 251� 183 = 68: ¿Qué deberíamos hacer si queremos tener un nivel de 99%, pero mayor precisión, por ejemplo una longitud no mayor de 20? La longitud de (22) es L = 2z�=2�= p n, entonces haciendo 2� 2:58 46p n � 20 55 Año 2011 podemos despejar p n � 2� 2:58� 46 20 y n � 140:8 entonces necesitaríamos una muestra de por lo menos 141 hombres para lograr un intervalo de 99% de con�anza con longitud no mayor de 20. Ejemplo 8.2 Consideremos las siguientes 7 mediciones de la concentra- ción de ion nitrato (en �g/ml) en una muestra de agua: 49 50 51 51 52 53 48 Se desea saber algo sobre el valor verdadero � de la concentración, mediante un intervalo de con�anza. Se supone que cada observación Xi es una variable aleatoria con distribución normal con media �; la que estimamos con la media muestral x = 50:57: En este caso no podemos usar el estadístico Z = � X � � � �= p n ya que no conocemos �, entonces debemos usar otro. Consideremos el estadístico T = � X � � � S= p n cuando las Xi son una muestra aleatoria de una distribución normal, el es- tadístico T tiene distribución �t�de Student con n � 1 grados de libertad. Esta distribución es simétrica, y existen tablas con los valores críticos de esta distribución para cada valor de �grados de liberad �. El valor crítico correspondiente a �, es el valor t� tal que P (T > t�) = �. Si el número de grados de libertad no �gura en la tabla, se toma el más próximo. Comparando con la tabla de la distribución normal, se ve que para n grande, los valores críticos de la distribución de Student coinciden con los de la N(0; 1): 56 Año 2011 Entonces, siguiendo el procedimiento antes descripto, obtenemos el si- guiente intervalo de (1� �)% de con�anza para parámetro �� X � t�=2Sp n ; X + t�=2Sp n � (24) ReemplazandoX y S por los valores calculados x y s; obtenemos un intervalo real. En nuestro caso, x = 50:57, s = 1:718, y pongamos 1 � � = 0:95 (el nivel de con�anza es 95%) se busca en la tabla el valor t correspondiente a �grados de libertad�= n� 1 = 6 y �=2 = 0:025, que es t0:025 = 2:45: El intervalo es � x� t0:025sp n ; x+ t0:025sp n � ; (se lo escribe �x� ts= p n�) que aquí resulta (48:98 ; 52:16) : Ejemplo 8.3 La contaminación de metales pesados de varios ecosistemas es una amenaza ambiental. Un artículo cientí�co reporta que, para una muestra de n = 56 peces de la especie Mugil liza, la concentración media muestral de zinc en el hígado fue de 9:15�g=g y la desviación estándar muestral fue de 1:27�g=g. Se desea estimar �, la concentración media poblacional de zinc en el hígado de esa especie de peces, mediante un intervalo de 95% de con�anza. Para construir el intervalo de con�anza (24) nos basamos en la suposición de que la distribución de la población era normal. Si ese no es el caso, el es- tadístico utilizado no tendría distribución de Student. Cuando no conocemos la distribución de los datos, es necesario usar algún tipo de aproximación. En la subsección 6.1 mencionamos el teorema del límite central, que será de utilidad en este caso. Este teorema dice que si tenemos una muestra aleatoriaX1; X2; :::; Xn de cualquier distribución, cuando n es su�cientemente grande, la distribución de p n � X � � � =� se aproxima a una N(0; 1); también es cierto que si se reemplaza � por S, la distribución también se aproxima a una N(0; 1): Este resultado es el que usaremos cuando no conocemos la distribución de los datos. El procedimiento es el mismo, partimos del mismo estadístico T = � X � � � S= p n 57 Año 2011 que, considerando que n es grande (en este ejemplo n=56), tiene una dis- tribución aproximadamente N(0; 1): Entonces los valores que elegimos son �z�=2 y z�=2; y podemos a�rmar que: P �z�=2 � p n � X � � � S � z�=2 ! ' 1� � y despejando la desigualdad, como antes, tenemos: P � X � z�=2S= p n � � � X + z�=2S= p n � ' 1� � Reemplazandocon los datos del ejemplo, x = 9:15; s = 1:27; y z0:025 = 1:96; obtenemos: (8:82; 9:48) este intervalo tiene nivel de con�anza aproximado de 95%. Realice los ejercicios 8 a 13 8.2 Intervalos para una proporción Ejemplo 8.4 Se realizó un estudio para detectar anemia en niños menores de 6 años en una comunidad rural. Se seleccionaron al azar 230 niños de esa comunidad, y se encontraron 107 con anemia (Hg<11 g/dl). Se desea estimar mediante un intervalo de con�anza el porcentaje de niños con anemia en esa comunidad. El número de casos, en la muestra de 230, con anemia es x = 107 La cantidadX se puede considerar una variable con distribución binomial con parámetros n y p; y por lo tanto EX = np; dt(X) = p np(1� p): Ya vimos que bp = X n la proporción observada en la muestra; es un estimador de p y cumple Ebp = p; dt(bp) =rp(1� p) n : 58 Año 2011 Y con el resultado visto en la subsección 6.1 sabemos que la distribución de bp� pq p(1�p) n se aproxima a una N(0; 1) también vale que la distribución de bp� pq bp(1�bp) n se aproxima a una N(0; 1) Entonces eligiendo los valores críticos �z�=2 y z�=2, se cumple: P 0@�z�=2 � bp� pq bp(1�bp) n � z�=2 1A ' 1� � Luego, se puede obtener un intervalo de con�anza para p con nivel aprox- imadamente 1� � (para n grande), de la forma bp� z�=2rbp(1� bp) n ; bp+ z�=2rbp(1� bp) n ! abreviado, es bp� z�=2rbp(1� bp) n : En nuestro caso es bp = 0:4652, y si elegimos 1�� = 0:95; es z�=2 = 1:96; y el intervalo resulta (0:4007;0:5297) : (25) El extremo inferior del intervalo podría dar negativo, en cuyo caso se lo hace igual a cero; de igual forma se procede si el superior da mayor que 1. Conociendo el tamaño de la población se puede construir un intervalo de con�anza para la cantidad de individuos en esa población que tienen la ca-racterística que se está estudiando. En el ejemplo, si se desea evaluar los costos de un programa de intervención para mejorar la salud comunitaria, interesa conocer el número de niños con anemia grave. Si la población de niños menores de 6 años del ejemplo tiene N =1500 individuos, la cantidad 59 Año 2011 desconocida M de niños con anemia se estima multiplicando bp por N; o sea 698, y un intervalo para M se obtiene multiplicando (25) por N; o sea 601 �M � 795: Nivel de con�anza, precisión y tamaño de la muestra En el ejemplo anterior, la longitud del intervalo para la proporción de niños con anemia, es 0.129. En general, la longitud es L = 2z�=2 rbp(1� bp) n Si se pretende estimar la proporción de niños anémicos con un error no mayor del 5%, esto quiere decir que la longitud del intervalo no debe ser mayor que 0.10, antes de realizar el estudio se debería determinar cuantos niños o cuántas muestras de sangre se necesitará analizar. El problema en este caso, es que la longitud del intervalo depende también de bp; que no se conoce antes del estudio. Pero se puede ver facilmente que para cualquier bp; vale bp(1� bp) � 1=4, entonces L � z�=2=pn, entonces si queremos que L � d, emos hacer z�=2= p n � d y de allí podemos despejar n � � z�=2=d �2 con este valor de n nos aseguramos que la longitud del intervalo sea a lo sumo d, en general será menor. En nuestro ejemplo n � (1:96=0:10)2 = 384:16 entonces con n = 385 nos aseguramos que la longitud del intervalo será menor de 0.10. Realice los ejercicios de 14 a 19 8.3 Intervalos para una varianza En general son de mayor interés las inferencias relacionadas con una media o una proporción que las inferencias relacionadas con una varianza o desviación típica. Sin embargo hay situaciones en que interesa hacer inferencias sobre estas últimas. 60 Año 2011 Ejemplo 8.5 Consideremos nuevamente los datos del ejemplo8.2, en ese caso podríamos estar interesados en tener una idea del error de medición mediante una estimación de la desviación típica de las Xi: En este caso, ya sabemos que S2 es un estimador de la varianza �2; así como S es un estimador de la desviación típica �: Pero queremos construir un intervalo que contenga al verdadero �2 (o �) con probabilidad 1 � �. Para esto, como siempre, necesitamos un estadístico, que tenga una distribu- ción conocida independiente del parámetro a estimar, que sea función de la muestra y del parámetro. En este caso el estadístico que nos sirve es V = (n� 1)S2 �2 = P (Xi �X)2 �2 ya que puede demostrarse que, cuando las Xi tienen distribución N(�; �2), este estadístico tiene distribución Chi-cuadrado (�2) con n � 1 grados de libertad. Esta distribución no es simétrica, la densidad es no nula sólo para x > 0: También existen tablas para los valores críticos de esta distribución para cada valor de �grados de libertad �. El valor crítico correspondiente a �, es el valor �2� tal que el área bajo la curva densidad de una distribución chi-cuadrado, es igual a �; o expresado de otro modo P (V > �2�) = �, donde V tiene distribución chi-cuadrado. Como siempre, necesitamos un par de valores, tales que el estadístico V se encuentre entre ellos con probabilidad 1 � �: Pero esta distribución no es simétrica, entonces deberemos elegir los valores �21��=2 y � 2 �=2 tales que P � �21��=2 � (n� 1)S2 �2 � �2�=2 � = 1� � al despejar �2 de la expresión entre paréntesis, llegamos a P (n� 1)S2 �2�=2 � �2 � (n� 1)S 2 �21��=2 ! = 1� � y �nalmente al intervalo (n� 1)S2 �2�=2 ; (n� 1)S2 �21��=2 ! 61 Año 2011 de extremos aleatorios. Como siempre esto signi�ca que el verdadero valor de �2 se encuentra en ese intervalo con probabilidad 1�� . Reemplazando el estimador S2 por el valor de la muestra s2, obtenemos un intervalo numérico. Para el ejemplo s = 1:718 y eligiendo 1 � � = 0:95; los valores críticos los buscamos en la tabla de la chi-cuadrado con n� 1 = 6 grados de libertad y tenemos: �20:025 = 14:440 ; � 2 0:975 = 1:635 y �nalmente el intervalo para �2 (n� 1)s2 �2�=2 ; (n� 1)s2 �21��=2 ! = � 6� 2:9515 14:440 ; 6� 2:9515 1:237 � = (1:2264; 14:3161) si deseamos un intervalo para � debemos sacar raiz cuadrada a cada extremo del intervalo anterior y queda (1:107; 3:784) Realice el resto de los ejercicios 62 Año 2011 Práctica 5 1. Se analizaron doce muestras de cierta marca de pan blanco (A) y se determinó el contenido de carbohidratos (expresado en porcentaje), obeteniéndose los siguientes valores: 76:93 76:88 77:07 76:68 76:39 75:09 76:88 77:67 78:15 76:50 77:16 76:42 (a) Estime la media y la mediana del contenido de carbohidratos para esta marca. (b) Estime la varianza del contenido de carbohidratos. (c) Estime el error estándar de la media del contenido de carbo- hidratos. (d) Estime la proporción de panes cuyo contenido de carbohidratos no excederá de 76. 2. Se supone que el tiempo de vida (en horas) de un tipo de lámpara tiene distribución exponencial. Se prueban 10 lámparas de ese tipo y se observa que los tiempos de vida de las mismas son: 7:5 28:2 47:4 17:2 8:5 60:1 21:3 29:5 2:7 5:5 (a) Estime el parámetro � de la distribución (b) Estime la probabilidad de que una lámpara de ese tipo dure más de 50 horas. 3. El tiempo de espera de un autobus tiene distribución uniforme [0; �], si los tiempos de espera de los últimos 10 días fueron: 2:06 7:73 0:67 5:27 6:62 9:36 3:16 5:23 7:66 1:27 (a) Estime el parámetro � con dos estimadores diferentes. (b) Estime la probabilidad de tener que esperar más de 6 min. 4. Se supone que el número de bacterias en el agua de un estanque sigue una distribución de Poisson, se toman 10 muestras de agua de 1 cm3 cada una y se observa que la cantidad de bacterias en las muestras es 31 22 25 39 29 32 19 26 22 22 63 Año 2011 (a) Estime el número medio de bacterias por cm3 (b) Si se recoge una muestra de 5 cm3. Estime la probabilidad de encontrar más de 150 bacterias. 5. Siguiendo con el caso del ejercicio 1, si los siguientes son los valores del contenido de carbohidratos de 10 muestras de otra marca de pan (B): 75:81 76:08 74:06 75:69 75:91 75:62 75:49 76:08 75:42 75:83 (a) Si denominamos �1 y �2 a las medias del contenido de carbo- hidrato enlos panes de las marcas A y B, demostrar que X�Y es un estimador insesgado de �1��2. Estime la diferencia de medias. (b) Utilice las reglas de la varianza, para obtener una expresión de la varianza de X � Y (c) Calcule el error estándar estimado de X � Y 6. SeaX1; X2; ::; Xn una muestra aleatoria de una distribución de Rayleigh, cuya densidad está dada por: f(x) = 0:5(1 + �x) si � 1 � x � 1 0 en caso contrario donde �1 6 � 6 1. Demuestre que b� = 3Xes un estimador insesgado de �. (Sugerencia: primero determine E(X)) 7. Suponga que cierto tipo de fertilizante tiene una producción esperada por acre �1 y una varianza � 2, en tanto que la producción esperada para un segundo tipo de fertilizante es �2, pero esta otra distribución tiene la misma varianza �2. Denotemos con X1 e X2 las medias mues- trales de las producciones de ambos fertilizantes y con S21 y S 2 2 las respectivas varianzas muestrales, basadas en tamaños muestrales n1y n2 respectivamente. (a) Demuestre que X1 � X2 es un estimador insesgado de �1 � �2, la diferencia entre la producción media con el fertilizante 1 y el fertilizante 2. 64 Año 2011 (b) Demuestre que el estimador combinado S2p = (n1 � 1)S21 + (n2 � 1)S22 n1 + n2 � 2 = P (Xi �X1)2 + P (Yi �X2)2 n1 + n2 � 2 es insesgado para �2, la varianza de la producción con cualquiera de los fertilizantes (c) Demuestre que S2p(1=n1 + 1=n2) es un estimador insesgado de var(X1 �X2) 8. Los siguientes valores corresponden a 10 mediciones del valor de coles- terol en un suero, realizadas con un método que tiene una desviación típica de 8; 5. 124 136 129 132 108 118 121 114 115 122 Se supone que cada medición es una variable aleatoria con distribución normal, cuya media es el verdadero valor. Construya un intervalo de con�anza de nivel 0.95 para el valor de colesterol analizado. 9. Interesa conocer el nivel medio de hemoglobina de la población de niños menores de 6 años intoxicados con plomo, se supone que la distribución del nivel de hemoglobina en esta población tiene distribución normal con � = 0:85g=100ml. (a) Si se desea tener una estimación con un intervalo del 95% de con- �anza, cuya longitud no sea mayor de 0:7, cuál sería el tamaño de muestra necesario? (b) Se tiene una muestra de 26 niños que han estado expuestos a altos niveles de plomo, para estos niños el nivel medio de hemoglobina es de x = 10:6g=100ml. Construya un intervalo del 95% de con�anza. 10. Dada una muestra aleatoria X1; X2; ::; Xn utilizando el estadístico de Student y siguiendo los pasos descriptos en el apunte obtenga el inter- valo (24) 11. Se obtuvieron los siguientes resultados al analizar repetidas veces un mismo suero: 235 237 235 246 246 230 241 239 245 247 65 Año 2011 Suponiendo errores de medición normales. Construya un intervalo del 95% de con�anza para el valor del suero analizado. 12. Se midieron las tallas (en cm) a los 12 meses de edad de 16 niñas con hipotiroidismo congénito. Se obtuvieron los siguientes valores x = 73:85 y s = 2:58: Se puede suponer que la talla es una variable aleatoria con distribución normal. (a) Construya un intervalo de 95% con�anza para la talla media a los 12 meses de edad de las niñas con hipotiroidismo congénito. (b) Si se desea que la longitud del intervalo de 95% de con�anza sea menor que 2cm, determine aproximadamente el tamaño muestral necesario. 13. Utilizando los resultados del ejercicio 6, encuentre un estadístico apropi- ado para construir un intervalo de con�anza para la diferencia de las medias de dos poblaciones suponiendo que las varianzas de ambas poblaciones son iguales. 14. Se midieron las tallas (en cm) a los 12 meses de edad de 20 niñas sanas. Se obtuvieron los siguientes valores x = 75:68 y s = 2:36: Suponiendo que la desviación estandar de la distribución de tallas es la misma en la población con HC que en la población sana, construya una intervalo de con�anza para la diferencia de medias de talla de las niñas con hipotiroidismo congénito y las niñas sanas a los 12 meses de edad. 15. En un estudio nutricional se evaluó el consumo diario de calorías en un grupo de 40 adolecentes de sexo femenino. La media y desviación típica muestrales de esos valores, en kilocalorías por kilogramo, fueron x = 32:85 y s = 5:76 No hay evidencias de que el consumo diario de calorías siga una distribución normal. (a) Construya un intervalo de aproximadamente 95% con�anza para la media del consumo diario de calorías para la población de adole- centes. (b) Si se desea que la longitud del intervalo de con�anza no sea mayor que 3, ¿cuántas adolecentes se necesita encuestar? 66 Año 2011 16. Una de las metas de un programa de pesquisa neonatal de hipotiroidismo congénito, es lograr la detección de la enfermedad en los primeros días de vida, por ese motivo es importante que la muestra de sangre para el análisis sea tomada en los primeros 5 días de vida. (a) Se eligieron al azar 300 registros de ese programa, y se observó que en 54 casos la muestra había sido tomada después de los 5 días de vida. Se desea estimar, mediante un intervalo de nivel 0.95, la proporción de casos en que no se cumple la norma especi�cada para la toma de la muestra de sangre. (b) Si este programa se aplica a todos los recién nacidos en una región, donde hay aproxiamadamente 10000 nacimientos por año. Con- struya un intervalo de con�anza para el número de niños a los que se les realiza la prueba después del tiempo especi�cado. 17. Se desea evaluar la efectividad de un nuevo medicamento contra una enfermedad. Se administrará el medicamento a n personas que padez- can la enfermedad, se observará cuantos se recuperan a los 3 días de administrado el medicamento, y en base a estos datos se estimará la proporción de enfermos que se recuperan mediante un intervalo de 99% de con�anza. (a) ¿Cuál debe ser el número de enfermos necesario para que la lon- gitud del intervalo no sea mayor que 0.10? (b) Se administró el mismo a 150 personas que padecían dicha en- fermedad, y se observó que 114 personas se habían recuperado a los 3 días, . Construya un intervalo del 99% de con�anza para la proporción de individuos que se recuperan dentro de los 3 días de administrado el medicamento. 18. Se desea estimar la prevalencia de desnutrición infantil en una población con necesidades básicas insatisfechas (NBI). Se plani�ca realizar una encuesta de salud en niños menores de 6 años que pertenecen a hogares con NBI. (a) ¿Cuántos niños deberían seleccionarse, si se desea estimar la pro- porción de desnutrición en esta población mediante un intervalo del 95% de con�anza, con un error de estimación menor que 0.04? 67 Año 2011 (b) Por información recogida en poblacionnes similares se espera en- contrar no más de 20% de niños desnutridos. Utilice esta infor- mación para volver a calcular el número de niños a encuestar. (c) Se realiza la encuesta a 350 niños y se encuentra 39 desnutridos. Construya un intervalo de con�anza para la proporción de desnu- tridos. ¿Qué longitud tiene ese intervalo? 19. Según una encuesta pre-electorial, la intención de voto al partido A está entre 42% y 48%. Se trata de un intervalo de con�anza, pero en la �cha técnica no �gura el tamaño de la muestra, ni tampoco el nivel de con�anza utilizado. (a) Suponiendo que la muestra haya sido de 1056 individuos, ¿cuál es el nivel de con�anza? (b) Si la muestra fuera más pequeña, ¿el nivel de con�anza sería mayor o menor que el anterior? Justi�que la respuesta. 20. Con los datos del ejercicio 10, se desea estimar la desviación típica del error de medición, mediante un intervalo del 95% de con�anza. 21. Con los datos del ejercicio 13 estimar la desviación típica de la talla de las niñas de 12 meses de edad, mediante un intervalo de 95% de con�anza. 22. Sea X1, X2, ...Xn una muestra aleatoria de una distribución de pro- babilidad continua con mediana e� (recordar que esto signi�ca que P (Xi � e�) = P (Xi � e�) = 1=2) (a) Demuestre que: P [min(Xi) < e� < max(Xi)] = 1� �1 2 �n�1 de modo que (min(Xi);max(Xi)) seaun intervalo de con�anza de nivel 1-�, donde � = (1=2)n�1 [Sugenecia: El complemento del evento [min(Xi) < e� < max(Xi)] es (max(Xi) � e�) [ (min(Xi) �e�). Pero max(Xi) � e� si y solo si Xi � e� para toda i] 68 Año 2011 (b) Se determinó la cantidad del aminoácido alanina (mg/100mL) para 6 niños sanos cuando estaban bajo una dieta libre de isoleucina, resultando los siguientes valores: 2:84 3:54 2:80 1:44 2:94 2:70 Calcule un intervalo de 97% con�anza para la mediana de la can- tidad de alanina para niñis con esa dieta. (c) ¿Cuál es el nivel de con�anza del intervalo (x(2); x(n�1)) para e�? 23. Sea X1, X2, ...Xn una muestra aleatoria de una distribución U [0; �]. Entonces, si Y = max(Xi), se puede demostrar que la v. a. U = Y=� tiene densidad dada por fU(u) = nun�1 0 � u � 1 0 en caso contrario (a) Utilice esta distribución para veri�car que P ((�=2)1=n � Y=� � (1� �=2)1=n) = 1� � y utilice fU(u) para construir un intervalo de con�anza de nivel 1-� para� (b) Veri�que que P (�1=n � Y=� � 1) = 1 � � y a partir de esto construya otro intervalo de con�anza de nivel 1-� para� (c) ¿Cuál de los intervalos anteriores es más corto? Usando los datos del ejercicio 3, construya un intervalo de con�anza para � usando el más corto de los intervalos anteriores? 69 Año 2011