Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 1 Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS 1.1 Las mediciones de altura de 40 plantas de girasol (Helianthus annuus L.) registradas por los estudiantes en la parcela con densidad alta (10 plantas por m²) se transcriben a continuación. Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Altura (cm) 229 234 218 216 219 211 223 238 233 219 227 224 226 222 209 Planta 16 17 18 18 20 21 22 23 24 25 26 27 28 29 30 Altura (cm) 222 219 221 230 224 230 208 231 218 229 231 222 214 215 226 Planta 31 32 33 34 35 36 37 38 39 40 Altura (cm) 211 226 223 226 217 221 220 230 213 233 a. Organizar esta información en una tabla con las frecuencias absolutas, las frecuencias relativas y las frecuencias acumuladas (absolutas y relativas) correspondientes a cada valor registrado. b. A partir de la tabla elaborada en a, identificar los valores de la moda, del mínimo, el máximo y los tres cuartiles de la distribución de frecuencias de las alturas de estas plantas y compararlos con los correspondientes a las plantas de la parcela con densidad baja (5 plantas por m²) presentados en el texto. c. Calcular la media aritmética de las alturas de estas plantas y compararla con la de las 40 plantas medidas en la parcela con densidad baja. d. Calcular la varianza, el desvío estándar y el coeficiente de variación de las alturas de estas plantas y comparar sus valores con los correspondientes a las 40 plantas medidas en la parcela con densidad baja. e. ¿Cómo se interpretan las comparaciones realizadas en b, c y d en relación con la posible plasticidad de la altura de las plantas frente a la diferencia en la densidad del cultivo entre las dos parcelas? 1.2 Según registros de Servicio Meteorológico Nacional, los valores de la temperatura mínima del mes más frio (julio) en el observatorio del Aeropuerto de Concordia en la última década del siglo XX son los que se transcriben a continuación. Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Temperatura mínima (ºC) 5,23 6,71 5,10 6,60 8,34 8,37 3,99 10,42 9,87 7,79 a. Con la información provista, elaborar una tabla de frecuencias (absolutas, relativas y acumuladas) de clases de temperatura mínima. Dividir la escala de la variable en un número de clases apropiado para visualizar los principales rasgos de la distribución de frecuencias. b. Confeccionar un histograma de frecuencias. c. A partir de la tabla elaborada, calcular valores aproximados de la media, la varianza, el desvío estándar y el coeficiente de variación de los rendimientos. d. A partir de los datos originales, calcular los valores exactos de las medidas aproximadas en el punto c y evaluar los errores de aproximación. 1.3 La Productividad Primaria Neta es la producción anual de biomasa de la vegetación. En sistemas ganaderos pastoriles se evalúa la Productividad Primaria Neta Aérea (PPNA) como una medida de la máxima producción de forraje aprovechable por los herbívoros. El histograma de la Figura 1.10 representa gráficamente la distribución de frecuencias de la PPNA anual (g/m2año) medida en 50 sitios de la Comunidad II (Pradera de Mesófitas) en el sur de la Pampa Deprimida. Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 2 a. A partir de la información contenida en el histograma, construir un polígono de frecuencias y un polígono de frecuencias acumuladas por clases (recordar que las frecuencias acumuladas por clases se grafican sobre el límite superior de cada clase). b. ¿Qué valores aproximados tienen el primer cuartil, la mediana y el tercer cuartil de esta distribución de frecuencias? c. ¿Cuántos de los sitios representados en esta distribución de frecuencias tuvieron PPNA > 550 g/m2año y cuántos tuvieron PPNA ≤ 350 g/m2año? Figura 1.10. Distribución de frecuencias de los valores de productividad primaria neta aérea en 50 sitios de Pradera de Mesófitas (Comunidad II) en el sur de la Pampa Deprimida d. Calcular valores aproximados de la media aritmética y de la varianza de la PPNA de estas praderas. Especificar las unidades correspondientes. e. Un conjunto de 40 mediciones de PPNA en sitios de la Comunidad IV (Pradera de Hidrofitas) tuvo media aritmética de 626 g/m2año y desvío estándar de 151 g/m2año, ¿qué diferencias habría entre el histograma aquí presentado para la Comunidad II y el histograma de frecuencias relativas basado en dichas mediciones? 1.4 La vegetación natural de la Pampa Deprimida es un extenso pastizal con aspecto monótono. Sin embargo, cuando se lo observa en detalle, se encuentra que este pastizal es un mosaico de varias comunidades vegetales con diferente composición florística distribuidas en el paisaje en correspondencia con diferentes características de los suelos. En la Figura 1.11 se representan las distribuciones de frecuencias de los contenidos de carbono orgánico del horizonte superficial de suelos asociados con cuatro comunidades vegetales del sur de la Pampa Deprimida. 200 250 300 350 400 450 500 550 600 650 700 PPNA (g/m² año) 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22 0,24 0,26 F re c u e n c ia R e la ti v a Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los contenidos de Carbono orgánico (%) en el horizonte superficial de suelos asociados con diferentes comunidades vegetales del pastizal del sur de la Pampa Deprimida. Comunidad II, Pradera de Mesófitas, Comunidad III, Pradera Húmeda de Mesófitas, Comunidad IV, Pradera de Hidrófitas, Comunidad V, Estepa de Halófitas. a. ¿Qué tipo de gráficos se presentan en la Figura 1.11? b. Aproximadamente ¿qué valores tienen los máximos, mínimos y cuartiles de los contenidos de carbono del horizonte superficial de los suelos asociados con las comunidades IV (Pradera de Hidrófitas) y V (Estepa de Halófitas)? c. Aproximadamente, ¿qué valores tienen las amplitudes totales y las amplitudes entre cuartiles de los contenidos de carbono del horizonte superficial de los suelos asociados con las comunidades IV (Pradera de Hidrófitas) y V (Estepa de Halófitas)? d. Comparando las comunidades II (Pradera de Mesófitas) y III (Pradera Húmeda de Mesófitas), ¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono orgánico no supera 3 %? ¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono orgánico supera 4 %? e. ¿Cuál de las cuatro comunidades está asociada con suelos cuyos contenidos de carbono orgánico del suelo superficial son menores? f. ¿Cuál de las cuatro comunidades está asociada con un conjunto de suelos más heterogéneo en relación con el contenido de carbono orgánico en el horizonte superficial? 1.5 Los herbicidas que se aplican a los cultivos eliminan malezas que compiten con las plantas cultivadas por luz, agua y nutrientes pero que también sirven como fuentes de alimento para organismos ubicados en el eslabón siguiente de la cadena trófica. Un grupo de estudiantes que investiga los impactos de las prácticas agrícolas sobre la biota de los campos de cultivo registró los pesos de Calomys laucha (laucha manchada) capturadas en dos lotes agrícolas de la Pampa Interior cultivados con soja, uno que había sido tratado con el herbicida Atrazina y otro que no había sido tratado con ningún herbicida. Los pesos registrados son los que se presentan a continuación: Peso corporal de Calomys laucha (g) Lote tratado con Atrazina: 18,9 17,8 15,5 16,8 18,3 17,4 16,2 18,3 Lote no tratado: 18,7 19,5 19,2 18,9 18,2 19,9 19,5 a. En un mismo gráfico construir los polígonos de frecuencias relativas acumuladas de los pesos de Calomys laucha de cada lote como funciones escalonadas basadas en los registros individuales. b. A partir de la observación del gráfico compararla posición y la dispersión de las dos distribuciones de frecuencias. II III IV V Comunidad Vegetal 0,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 % C Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 4 c. Representar la distribución de frecuencias de los pesos de Calomys laucha de cada lote con un diagrama de caja y bigotes y comparar las distribuciones sobre la base de los diagramas. d. Calcular la media aritmética, la varianza y el desvío estándar de los pesos de Calomys laucha de cada lote. e. Sobre la base de la descripción de las distribuciones de frecuencia realizada en los puntos a – d, discutir la posible influencia de la aplicación de Atrazina sobre los pesos de Calomys laucha de estos lotes de soja. 1.6 La Figura 1.12 representa las distribuciones de frecuencias de los totales de lluvia invernal (trimestre julio-septiembre) y estival (trimestre enero-marzo) registradas en el aeropuerto de Concordia, Entre Ríos, en el período 1981-2000. Figura 1.12. Polígonos de distribución de frecuencias relativas acumuladas de registros de precipitación trimestral en el aeropuerto de Concordia, Entre Ríos en el período 1981-2000. Línea negra, trimestre enero-marzo. Línea gris, trimestre julio-septiembre. a. ¿En cuál de las dos estaciones llovió más? Justificar la respuesta con una medida de posición central extraída del gráfico. b. ¿En cuál de las dos estaciones la lluvia total fue más variable entre años? Justificar la respuesta con medidas de dispersión extraídas del gráfico. c. En el período 1981-2000, los registros del aeropuerto de Concordia de lluvia otoñal (trimestre abril-junio) tuvieron mínimo de 81 mm, primer cuartil de 266 mm, mediana de 319 mm, tercer cuartil de 442 mm y máximo de 555 mm, mientras los registros de lluvia primaveral (trimestre octubre-diciembre) tuvieron mínimo de 113 mm, primer cuartil de 276 mm, mediana de 336 mm, tercer cuartil de 450 mm y máximo de 848 mm. Construir gráficos de caja y bigotes para comparar las distribuciones de frecuencias de las lluvias de las cuatro estaciones y describir la estacionalidad de las lluvias registradas. ¿En cuál estación el total de lluvia fue menor en promedio y en cuál fue más variable? ¿En qué estaciones se registraron los valores extremos más altos y más bajos? 1.7 Con el propósito de evaluar la incidencia de la enfermedad conocida como pústula bacteriana (Xanthomonas axonopodis pv. glycinea) en un cultivo experimental de soja, una fitopatóloga observó 200 hojas de plantas de dicho cultivo y registró el número de lesiones que tenía cada una. La siguiente tabla presenta las frecuencias absolutas de hojas con cada número de lesiones registrado por esta profesional. Lesiones por hoja 0 1 2 3 4 5 6 7 8 9 10 Frecuencia absoluta 64 4 10 12 22 32 26 18 8 3 1 Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 5 a. ¿De qué tipo es la variable registrada por la fitopatóloga? b. Construir un gráfico de líneas para representar la distribución de frecuencias de los números de lesiones bacterianas por hoja. c. Calcular y comparar los valores de la moda, la mediana y la media aritmética (notar que el valor de la media aritmética no necesariamente coincide con uno de los valores posibles de la variable registrada). d. Construir un gráfico de caja y bigotes para representar esta distribución de frecuencias. e. Calcular y comparar la amplitud total, la amplitud entre cuartiles y el desvío estándar de los números de lesiones por hoja. Especificar las unidades correspondientes. f. Escribir un texto explicativo de los principales rasgos de la distribución de frecuencias de los números de lesiones por hoja. 1.8 Demostrar las siguientes propiedades de la media y de la varianza de funciones lineales. a. La suma de los desvíos (𝑥𝑖 − �̅�) es nula (Ecuación 1.3). b. La suma de los cuadrados de los desvíos (𝑥𝑖 − �̅�) es menor que la suma de los cuadrados de las diferencias (𝑥𝑖 − 𝑐) para todo 𝑐 ≠ �̅� (Ecuación 1.4). c. Si 𝑥 es una variable y 𝑎 es una constante y definimos 𝑢 = 𝑥 + 𝑎, entonces: �̅� = �̅� + 𝑎 y 𝑣𝑎𝑟(𝑢) = 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.9 y 1.10). d. Si 𝑥 es una variable y 𝑏 una constante y definimos 𝑣 = 𝑏 ∙ 𝑥, entonces: �̅� = 𝑏 ∙ �̅� y 𝑣𝑎𝑟(𝑣) = 𝑏2 ∙ 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.11 y 1.12). e. Si 𝑥 e 𝑦 son dos variables y definimos 𝑤 = 𝑥 + 𝑦, entonces: �̅� = �̅� + �̅� y 𝑣𝑎𝑟(𝑤) = 𝑣𝑎𝑟(𝑥) + 𝑣𝑎𝑟(𝑦) + 2 ∙ 𝑐𝑜𝑣𝑎(𝑥, 𝑦) (Ecuaciones 1.13 y 1.14). 1.9 En la siguiente tabla se presentan los registros de los números de tormentas eléctricas y de los totales de lluvia primaveral (trimestre octubre-diciembre) en el aeropuerto de Concordia, Entre Ríos, durante el período 1981−2000. Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Tormentas eléctricas 15 22 22 14 24 21 19 18 23 27 Lluvia (mm) 295,3 455,8 199,1 311,5 282,6 414,6 236,8 226,6 509,2 475,0 Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Tormentas eléctricas 25 15 25 16 17 18 25 12 11 22 Lluvia (mm) 361,3 294,8 633,4 443,2 331,9 339,8 847,7 270,1 112,6 423,8 a. Calcular la varianza de los números de tormentas eléctricas primaverales en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades. b. Calcular la varianza de los totales de lluvia primaveral registrados en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades. c. Calcular la covarianza entre los números de tormentas eléctricas y los totales de lluvia primaverales en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades. d. ¿Qué indica el signo de la covarianza calculada acerca de la asociación entre el número de tormentas eléctricas y el total de lluvias primaverales en el aeropuerto de Concordia? ¿Cómo sería la asociación si la covarianza tuviera el signo opuesto? 1.10 Las arañas son animales depredadores que controlan en buena medida los insectos perjudiciales para los cultivos. Este servicio natural depende de que el paisaje agrícola contenga refugios que aseguren la persistencia de las poblaciones de arañas de un año al siguiente. En el marco de una investigación sobre la importancia de los bordes de lote agrícola con vegetación espontánea para mantener este servicio natural, se capturaron arañas en dos tipos de sitio, lote de cultivo de soja y borde de lote con vegetación espontánea, en dos períodos del año, verano (cultivo Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 6 en crecimiento) e invierno (período de rastrojo). Cada individuo capturado fue clasificado en uno de cinco gremios diferentes (grupos de arañas con hábitos similares). Las frecuencias absolutas registradas son las que figuran en la siguiente tabla. Números de arañas capturadas por gremio en dos sitios de un paisaje agrícola en dos períodos del año. I. Deambuladoras pequeñas (< 10 mm) diurnas que cazan sobre las plantas. II. Sedentarias medianas (10 a 15 mm) crepusculares o nocturnas que cazan con telas orbiculares tejidas sobre las plantas. III. Deambuladoras pequeñas (< 10 mm) diurnas o nocturnas que cazan sobre el suelo. IV. Deambuladoras grandes (> 15 mm) nocturnas que cazan sobre el suelo. V. Sedentarias pequeñas (< 12 mm) que cazan con telas irregulares en el suelo o en las bases de las plantas. Datos adaptados de Liljesthröm et al, Neotropical Entomology 31:197-210 (2002) Gremio Lote (cultivo) Borde Verano Invierno Verano Invierno I 389 10 132 113 II 113 16 41 80 III 45 1 23 24 IV 59 14 4 4 V 21 231 19 31 a. Construir gráficos de barras para representar las distribuciones de frecuencias relativas de gremios de arañas en cada tipo de sitio en cada período del año. b. Observar los gráficos, ¿en cuál de los dos tipos de sitio la distribución de frecuencias de los gremios de arañas fluctúa más fuertemente entre verano e invierno? c. ¿Cuál es la clase (gremio)modal en cada tipo de sitio en cada período del año? d. Calcular los índices N1 y N2 de diversidad de gremios de arañas correspondientes a cada tipo de sitio en cada período del año. e. ¿En cuál de los dos tipos de sitio hay mayor diversidad de gremios de arañas durante el verano y durante el invierno? f. ¿Cómo fluctúa la diversidad de gremios de arañas entre verano e invierno en cada tipo de sitio? g. Según la descripción realizada ¿qué importancia aparente tienen los bordes de lote con vegetación espontánea para la persistencia de las poblaciones de arañas que controlan insectos perjudiciales en el cultivo de soja? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 7 Capítulo 2 PROBABILIDAD 2.1 Las monedas de 25 centavos tienen de un lado la imagen del cabildo de Buenos Aires (“cara”) y del otro el número que indica su valor (“ceca”). Todas son de igual tamaño y peso pero algunas son doradas y otras plateadas. Imaginemos el procedimiento que consiste en arrojar dos monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia arriba. a. ¿Por qué el procedimiento descripto es un experimento aleatorio? ¿Cuál es el dispositivo experimental y cómo se lo acciona? b. ¿Qué resultados elementales pertenecen al espacio muestral de este experimento aleatorio? Representar este espacio muestral con un diagrama de Venn. c. Sobre el diagrama de Venn, señalar un evento compuesto, indicar qué resultados elementales pertenecen al mismo y cuál es su evento complementario. d. Señalar el evento “que la moneda dorada quede con “cara” hacia arriba”. ¿Se trata de un evento simple o compuesto? ¿Por qué? e. Señalar el evento “no quedan las dos monedas con “cara” hacia arriba”. ¿Se trata de un evento simple o compuesto? ¿Por qué? f. Señalar el evento “una de las monedas queda con “cara” hacia arriba y la otra no”. ¿Se trata de un evento simple o compuesto? ¿Por qué? g. Señalar dos eventos que no sean mutuamente excluyentes y el evento que constituye su intersección. 2.2 Consideremos nuevamente el experimento aleatorio que consiste en arrojar hacia arriba dos monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia arriba. Aceptemos que este experimento se realiza bajo condiciones que permiten asignar igual valor de probabilidad a todos los resultados elementales que puede producir. a. Construir una tabla de doble entrada a partir de los valores de las probabilidades de los resultados elementales. b. ¿Cuánto vale la probabilidad de que la moneda dorada quede con “cara” hacia arriba? c. ¿Cuánto vale la probabilidad conjunta de que las dos monedas queden con “cara” hacia arriba? d. ¿Cuánto vale la probabilidad condicional de que la moneda dorada quede con “cara” hacia arriba si la moneda plateada también queda con “cara” hacia arriba? e. Comparar los valores de las probabilidades calculadas en los puntos b y d. ¿Qué indica la comparación? f. ¿Cuánto vale la probabilidad de que una de las monedas quede con “cara” y la otra con “ceca” hacia arriba? 2.3 En una investigación sobre la diversificación de la producción agrícola en el distrito de Tiacalín, un estudiante graduado de la Facultad de Agronomía decide obtener una muestra aleatoria de 50 establecimientos rurales con superficies entre 25 y 500 ha y registrar qué cultivos realizaron en el último verano. Para ello, numerará los 2198 establecimientos del distrito cuya superficie está en el rango estipulado y elegirá por sorteo 50 para incluir en la muestra. Luego, pedirá a cada productor que complete una encuesta en la que deberá consignar cuáles de las siguientes especies fueron cultivadas en su establecimiento en el último verano: soja, girasol, maíz, sorgo, otro. a. ¿Cuál es la población de referencia, cuáles son las unidades muestrales y cuál es la muestra? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 8 b. ¿Por qué es correcto decir que el procedimiento que consiste en elegir al azar un establecimiento de la población de referencia y registrar cuáles cultivos de la lista fueron realizados allí en el último verano es un experimento aleatorio? c. Detallar las 32 listas de cultivos estivales que se pueden consignar en cada establecimiento. Se trata de los resultados que contiene el espacio muestral del experimento aleatorio. d. ¿Qué resultados pertenecen a los siguientes eventos compuestos? “en el establecimiento se cultivó soja” “en el establecimiento se cultivó maíz y girasol” “en el establecimiento se realizaron exactamente dos cultivos estivales diferentes” “en el establecimiento se realizaron al menos dos cultivos estivales diferentes” “en el establecimiento se realizaron más de dos cultivos estivales diferentes” “en el establecimiento se realizaron menos de cuatro cultivos estivales diferentes” e. ¿Cuál es el evento complementario del evento “en el establecimiento se realizó más de un cultivo estival”? ¿Qué eventos simples lo integran? f. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un establecimiento a elegir al azar haya cultivado soja en el último verano? g. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un establecimiento elegir al azar haya cultivado al menos dos cultivos estivales diferentes en el último verano? 2.4 Una vez obtenida la muestra aleatoria de 50 establecimientos agropecuarios con superficies entre 25 y 500 ha en el distrito de Tiacalin, el estudiante graduado encontró que en todos ellos se había realizado al menos un cultivo estival, que en 38 de ellos se había cultivado soja y que en 16 la soja era el único cultivo estival. Además, en 8 de los 12 establecimientos donde no se había cultivado soja se habían cultivado dos o más especies estivales diferentes. a. Construir una tabla de doble entrada (llamada tabla de contingencia) con las frecuencias absolutas de establecimientos de la muestra que habían y que no habían cultivado soja y que habían cultivado una y más de una especie estival. b. A partir de la tabla construida en a, confeccionar otra que muestre las correspondientes frecuencias relativas en la muestra. Suponiendo que la información de la muestra reflejara fielmente las frecuencias relativas de establecimientos que han cultivado o no cultivado soja y que han realizado uno o más cultivos estivales en la población de referencia: c. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya cultivado soja en el último verano? ¿Qué posición ocupa el valor de esta probabilidad en la tabla construida en b? d. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya cultivado solamente soja en el último verano? ¿Se trata de una probabilidad conjunta o condicional? e. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya realizado un sólo cultivo estival si ha cultivado soja? ¿Se trata de una probabilidad conjunta o condicional? f. ¿Los eventos “se ha cultivado soja” y “se ha realizado un único cultivo” serían estadísticamente independientes? ¿Qué interpretaciones admite la respuesta a esa pregunta? 2.5 En una investigación sobre la regeneración de la palmera yatay (Butia yatay) en el Parque Nacional El Palmar se marcaron 200 plántulas de palmera elegidas al azar en un área de 4 ha de sabana de palmeras. Entre las plántulas marcadas, 120 estaban ubicadas bajo la copa de una palmera adulta (a menos de 4 metros de su base) y 80 estaban ubicadas a más de 4 m de la palmera adulta más cercana. Al cabo de un año, se comprobó que habían muerto 40 de las plántulas ubicadas bajo la copa de una palmera adulta y 20 de las restantes. Definamos ahora el experimento aleatorio Ejercicios de Introducción a laInferencia Estadística Aplicada W.B. Batista 9 que consiste en elegir por sorteo una de las 200 plántulas y registrar si estaba o no bajo la copa de una palmera adulta y si sobrevivió o no. a. ¿Qué resultados perteneces al espacio muestral de este experimento aleatorio? b. Señalar dos eventos mutuamente excluyentes en dicho espacio muestral. ¿Cuál es la probabilidad de cada uno? ¿Cuál es la probabilidad de que ocurra uno o el otro? c. Señalar dos eventos que no sean mutuamente excluyentes. ¿Cuál es la probabilidad de cada uno? ¿Cuál es su probabilidad conjunta? d. ¿Cuál es la probabilidad de que la plántula a elegir al azar resulte ser una que estaba bajo la copa de una palmera adulta? e. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido? f. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido, si estaba a más de 4 m de distancia de la palmera adulta más cercana? Suponiendo que las probabilidades calculadas a partir de estas 200 plántulas constituyen buenas aproximaciones a las probabilidades que tienen las plántulas de Butia yatay del Parque Nacional El Palmar de establecerse y de sobrevivir a diferentes distancias de las palmeras adultas g. ¿La supervivencia de las plántulas de Butia yatay es estadísticamente independiente de su ubicación respecto de las palmeras adultas? Justificar la respuesta usando probabilidades condicionales y discutir su interpretación. 2.6 Se prepara un dispositivo experimental con dos bolilleros bien construidos y una cantidad de bolillas blancas o rojas, todas esféricas, de igual diámetro, peso y rugosidad. En el primer bolillero se colocan 96 bolillas blancas y 32 rojas y en el segundo 8 blancas y 56 rojas. Ambos bolilleros girarán cerrados durante 1 minuto para mezclar bien las bolillas y luego girarán una vez más para sacar una bolilla de cada uno. Llamaremos A al evento que ocurre cuando “del primer bolillero sale una bolilla roja” y B al que ocurre cuando “del segundo bolillero sale una bolilla roja”. El dispositivo y el procedimiento descriptos permiten razonablemente aceptar que los eventos A y B son estadísticamente independientes. a. ¿Cuál es el evento 𝐴𝑐? ¿Cuál es el valor de su probabilidad? b. ¿Cuál es el evento 𝐴 ∩ 𝐴𝑐? ¿Cuál es su probabilidad? c. ¿Cuál es el evento 𝐴 ∪ 𝐴𝑐? ¿Cuál es su probabilidad? d. ¿A qué intersección corresponde el evento “de ambos bolilleros sale una bolilla roja”? ¿Cuál es su probabilidad? e. ¿Cuál es el evento 𝐴𝑐 ∩ 𝐵? ¿Cuál es su probabilidad? f. ¿A qué intersección corresponde el evento “del primer bolillero sale una bolilla roja y del segundo sale una bolilla blanca”? ¿Cuál es su probabilidad? g. ¿A qué unión de eventos corresponde el evento “de un bolillero sale una bolilla blanca y del otro una bolilla roja? ¿Cuál es su probabilidad? h. ¿Cuál es el evento (𝐴 ∪ 𝐵)𝑐? ¿Cuál es su probabilidad? 2.7 En un bosque subtropical, la probabilidad de que un árbol cualquiera sea derribado por una tormenta muy fuerte (velocidad del viento >150km /h) es de 0,75 si está colonizado por lianas que agregan peso y volumen a su copa y de 0,30 si está libre de lianas. Además, la probabilidad de que un árbol a tomar al azar de este bosque esté colonizado por lianas es de 0,40. a. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque esté colonizado por lianas y además sea derribado por una tormenta fuerte? ¿Se trata de una probabilidad conjunta o condicional? b. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque sea derribado por una tormenta fuerte? c. ¿Cómo se interpretan los valores calculados en los ítems a y b en términos del criterio presentado en la ecuación 2.9? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 10 d. ¿La caída de un árbol de este bosque por acción una tormenta fuerte es estadísticamente independiente de la presencia de lianas en su copa? Justificar la respuesta con un cálculo apropiado y discutir su interpretación. 2.8 Consideremos un árbol cuyas semillas caen todas bajo su copa. Estas semillas tienen una probabilidad de morir por acción de organismos patógenos o depredadores igual a 0,6, una probabilidad de ser enterradas y germinar in situ igual a 0,1 y una probabilidad de ser transportadas por animales a sitios alejados del árbol igual a 0,3. Si llegan a los sitios alejados, las semillas tienen una probabilidad igual a 0,4 de ser enterradas y germinar. a. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar no sea transportada a un sitio alejado del mismo? b. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar germine en un sitio alejado del mismo? ¿y en un sitio ubicado bajo la copa del árbol? c. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar llegue a germinar? ¿Cómo se interpreta este valor en términos del criterio presentado en la ecuación 2.9? d. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar ambas lleguen a germinar? e. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar la primera llegue a germinar y la segunda no? f. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar una cualquiera de las dos llegue a germinar y otra no? g. ¿Cuánto vale la probabilidad de que entre tres semillas de este árbol a tomar al azar una cualquiera llegue a germinar y dos no? ¿Cómo se interpreta este valor en términos del criterio presentado en la ecuación 2.9? 2.9 En un censo rural realizado en 2010 en el distrito de Tiacalín se registró la superficie de tierra y la forma de gestión de cada establecimiento. Con esta información se clasificaron todos los establecimientos en tres categorías de superficie (<50 ha, 50 a 500 ha y >500 ha) y en tres modelos de gestión (explotación directa por el propietario, explotación mediante contratos anuales de siembra y arrendamiento por más de 3 años). Las frecuencias relativas encontradas de cada clase de establecimiento son las que se presentan en la siguiente tabla de doble entrada. Frecuencias relativas de establecimientos rurales clasificados por superficie y modelo de gestión en el distrito de Tiacalín (Censo rural 2010). Superficie <50 ha 50 -500 ha ≥500 ha Gestión Propietario 0,04 0,29 0,07 0,40 Contrato anual 0,13 0,27 0,02 0,42 Arrendamiento 0,01 0,14 0,03 0,18 0,18 0,70 0,12 1,00 Con el propósito de evaluar los posibles cambios recientes en la distribución de los establecimientos del distrito entre estas clases de superficie y modelo de gestión, un ingeniero agrónomo obtendrá una muestra aleatoria de establecimientos del distrito y registrará la superficie de tierra y la forma de gestión de cada establecimiento a elegir al azar. Si cuando el ingeniero obtenga la muestra las frecuencias relativas de establecimientos en diferentes clases de superficie y modelo de gestión son iguales a las registradas en 2010: a. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado directamente por el propietario? b. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie ≥500 ha y <50 ha? c. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50 ha si es <500ha? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 11 d. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50 ha y sea gestionado directamente por el propietario? e. ¿El evento “el establecimiento tiene una superficie <50 ha” es estadísticamente independiente del evento “el establecimiento es gestionado directamente por el propietario? Justificar con un cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes clases de establecimiento en el distrito.f. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie ≥50 ha y sea gestionado mediante contratos anuales de siembra? g. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado mediante contratos anuales de siembra si tiene una superficie ≥50 ha? h. ¿El evento “el establecimiento tiene una superficie ≥50 ha” es estadísticamente independiente del evento “el establecimiento es gestionado mediante contratos anuales de siembra”? Justificar con un cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes clases de establecimiento en el distrito. 2.10 Muchas malezas de los lotes agrícolas provienen de semillas enterradas en el suelo antes de la siembra del cultivo. En el suelo, las semillas vivas pueden encontrarse en dos estados fisiológicos, “despiertas”, si germinan cuando la temperatura y la humedad son apropiadas, o “dormidas” si no germinan a menos que reciban algún estímulo específico como luz o frio. Para analizar la infestación con la maleza Commelina erecta L. en un lote agrícola del distrito de Tiacalín, una investigadora tomó una muestra aleatoria de 2000 semillas y las clasificó según su estado fisiológico y la profundidad a la que estaban enterradas. Llamaremos A al evento “una semilla de Commelina erecta L. tomada al azar de este lote está despierta” y B al evento “una semilla tomada al azar de Commelina erecta L. de este lote está a una profundidad < 2cm”. a. Identificar la población de referencia, las unidades muestrales y las variables de interés. Entre las 2000 semillas de la muestra, la investigadora encontró 1739 semillas a menos de 2 cm de profundidad, entre las cuales 1165 estaban despiertas. Además encontró 89 semillas despiertas enterradas a profundidad ≥ 2 cm. A partir de esta información: b. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté enterrada a menos de 2 cm de profundidad? c. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté despierta? d. ¿Qué valor corresponde asignar a la probabilidad condicional de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté despierta si está enterrada a una profundidad ≥ 2cm? e. A partir de los resultados obtenidos en b, c y d, utilizar la Regla de Bayes para asignar el valor a la probabilidad condicional de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté enterrada a una profundidad ≥ 2cm si está despierta. Comprobar que el valor obtenido coincide con el cociente 𝑃[𝐴 ∩ 𝐵𝑐] 𝑃[𝐴] f. ¿Cuál es el evento 𝐴𝑐 ∪ 𝐵𝑐? g. ¿Qué valor corresponde asignar a 𝑃[𝐴𝑐 ∪ 𝐵𝑐]? h. Si el estado fisiológico y la profundidad en el suelo de una semilla de Commelina erecta L. a tomar al azar de este lote agrícola fuesen estadísticamente independientes, ¿cuál sería el valor de la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote estuviera enterrada a menos de 2 cm de profundidad y además esté despierta? i. Comparar las respuestas a los ítems g y h. ¿Qué indica el resultado de esta comparación? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 12 Capítulo 3 VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 3.1 Un Ingeniero Agrónomo se dispone a evaluar la densidad y la uniformidad de siembra logradas en un lote de girasol de 25 ha. El objetivo de la siembra era producir un cultivo con densidad uniforme de 5 plantas por m2 dispuestas en surcos trazados cada 0,7 m. Para realizar su evaluación, el ingeniero seleccionará al azar tramos de surco de 1 m de longitud y contará las plantas que contengan. En el lote hay aproximadamente 357.000 m de surco. Como cada tramo de 1 m de surco será elegido al azar, el número de plantas que contenga es una variable aleatoria que denominaremos X cuya distribución de probabilidad refleja las frecuencias relativas de los diferentes números de plantas en todos los tramos de 1 m de surco que se pueden elegir en el lote. Si el objetivo de la siembra fue perfectamente logrado, el número promedio de plantas por m de surco debe ser, 5 planta/m2 0,7 m = 3,5 planta/m Dependiendo de dónde comiencen, la mitad de los tramos de 1 m deben contener 3 y la otra mitad 4 plantas. Es decir que los tramos con 3 o 4 plantas tienen densidad de siembra correcta, los tramos con más de 4 plantas tienen densidad excesiva y los tramos con menos de 3 plantas tienen densidad deficiente. a. ¿Por qué el procedimiento que seguirá el ingeniero es un experimento aleatorio? ¿Cómo se lo lleva a cabo? b. ¿Cuáles son los resultados pertenecientes al espacio muestral de este experimento aleatorio? Representar este espacio muestral con un diagrama de Venn. c. ¿De qué tipo es la variable aleatoria X? d. ¿Qué distribución de probabilidad debería tener X si el objetivo de la siembra hubiese sido perfectamente logrado? e. ¿Cuánto deberían valer la varianza y el desvío estándar de X? Ahora supongamos que aunque el ingeniero no lo sabe, la verdadera distribución de probabilidad de X es la siguiente: x 0 1 2 3 4 5 6 ≥ 7 P[X = x] 0,02 0,04 0,16 0,34 0,36 0,06 0,02 0 f. Comprobar que la distribución de probabilidad de X cumple las condiciones 3.1 y 3.2. g. Graficar y comparar las distribuciones de probabilidad de X deseada y verdadera. h. Calcular los valores de la probabilidad de que un tramo de 1 m de surco a tomar al azar corresponda a tramos con densidad correcta, excesiva y deficiente. ¿Cómo se interpretan estos valores en términos de frecuencias relativas en la población y de las correspondientes superficies de cultivo? i. Calcular la esperanza y la varianza de X. ¿Cómo se interpretan estos valores en términos características de la población de referencia? ¿Cómo se comparan con los de la distribución deseada? 3.2 La chilca negra (Acanthostyles buniifolius) es una especie de arbusto de la familia Asteraceae nativo de la Región Chaco-Pampeana que invade los campos de pastoreo. Estos arbustos producen capítulos (cabezuelas) con 5 a 8 flores cada uno que son visitados por insectos polinizadores especializados. Si su óvulo es polinizado, cada flor produce un fruto seco con una sola Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 13 semilla (aquenio). En consecuencia, el número de semillas en un capítulo de Acanthostyles buniifolius a tomar al azar es una variable aleatoria discreta que toma valores entre 0 y 8. Denominemos U al número de semillas en un capítulo a tomar al azar en un sitio recientemente incendiado donde presumiblemente los insectos polinizadores son escasos y V al número de semillas en uno a tomar al azar en un sitio no incendiado por mucho tiempo donde éstos serían abundantes. Las distribuciones de probabilidad de U y V son las siguientes: Sitio recientemente incendiado Sitio no incendiado por 35 años u P(U = u) v P(V = v) 0 0,083 0 0 1 0,005 1 0,005 2 0,005 2 0,005 3 0,120 3 0,019 4 0,342 4 0,189 5 0,402 5 0,570 6 0,033 6 0,152 7 0,010 7 0,050 8 0 8 0,010 a. Graficar las dos distribuciones de probabilidad. ¿Qué diferencias se visualizan? b. Calcular P[U > 3] y P[V > 3] ¿Cómo se interpretan los valores obtenidos en relación con la comparación entre las dos poblaciones de capítulos? c. Calcular los valores de la esperanza y de la varianza de los números de semillas en un capítulo a tomar al azar en cada sitio. ¿Qué características de las poblaciones de capítulos reflejan los valores calculados? d. ¿En cuál sitio el número de semillas por capítulo es en promedio mayor y en cuál es más variable? Explicar sobre la base de la correspondencia entre probabilidades y frecuencias relativas. e. Calcular E[U−V] y Var[U−V], la esperanza yla varianza de la diferencia entre los números de semillas en un capítulo a tomar al azar en el sitio recientemente quemado y en uno a tomar al azar en el sitio no quemado por mucho tiempo. 3.3 Se denomina poder germinativo a la proporción de las semillas de un lote que germinan cuando se las coloca en condiciones apropiadas de humedad y temperatura. La etiqueta de una bolsa de semillas dice que su poder germinativo es de 98%. Para evaluar esta especificación tomaremos de la bolsa 10 semillas al azar y las mantendremos por separado en condiciones apropiadas para la germinación. Al cabo de 7 días contaremos y registraremos el número de semillas que hayan germinado. Denominamos X al número a registrar. a. ¿Por qué X es una variable aleatoria? ¿Qué valores puede tomar? b. ¿Qué modelo de distribución de probabilidad corresponde a la variable aleatoria X? Si la información de la etiqueta es correcta: c. ¿Qué valores deben tener los parámetros de la distribución de probabilidad de X? d. ¿Qué valores deben tener la esperanza y la varianza de X? ¿Cómo se interpretan estos valores en relación con una secuencia larga de repeticiones del experimento propuesto? e. ¿Qué valor debe tener la probabilidad de que germinen todas las semillas? f. ¿Qué valor debe tener la probabilidad de que quede una semilla sin germinar? g. ¿Qué valor debe tener la probabilidad de que queden dos semillas sin germinar? h. ¿Qué valor debe tener la probabilidad de que germinen más de 7 semillas? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 14 i. Sobre la base del cálculo realizado en h, ¿qué opinión merecerá la información escrita en la etiqueta de la bolsa si luego de realizado el experimento encontramos que germinaron 7 semillas o menos? 3.4 Existen muchos insectos que son considerados útiles para la agricultura porque se alimentan de otros insectos que dañan a los cultivos. Entre estos depredadores de plagas están la vaquita colorada (Cycloneda sanguínea), la juanita (Calosoma argentinensis), el tatadiós (Mantis religiosa), la chinche escudo (Podisus nigrispinus), la crisopa (Chrysopa lanata), etc. El número de presas que un individuo de una de estas especies captura en un día es una variable aleatoria X cuya distribución de probabilidad depende de la probabilidad que estos insectos tienen de concretar una captura cada vez que encuentran una presa potencial y del número de éstas que encuentran. Supongamos que cada vez que un individuo de una estas especies de depredadores de plagas encuentra una presa potencial tiene una probabilidad constante de capturarla igual a 0,25. a. ¿Cuántas presas potenciales debe encontrar en un día para que la probabilidad de capturar al menos una sea mayor o igual que 0,8? b. Graficar la distribución de probabilidad del número de presas que este insecto depredador captura en un día en que encuentra el número de presas potenciales calculado en el punto a. c. ¿Cuál sería el número más probable de capturas en un día como ese? ¿Cómo se interpreta el valor de probabilidad correspondiente? d. Calcular la esperanza del número de presas capturadas en un día en que el insecto depredador encuentra el número de potenciales presas calculado en a. e. Calcular la varianza del número de presas capturadas en un día en que el insecto depredador encuentra el número de potenciales presas calculado en a. f. ¿Cómo se interpretan los valores de la esperanza y de la varianza calculados en d y e? 3.5 Sea U una variable aleatoria continua con la siguiente función de densidad de probabilidad, 𝑓(𝑢) = { 6 ∙ 𝑢 ∙ (1 − 𝑢) 0 , para 0 ≤ u ≤ 1 , para cualquier otro valor de u a. Construir el gráfico de f(u). b. Comprobar que la distribución de probabilidad de U cumple con las condiciones 3.14 y 3.15. c. Sobre el gráfico identificar el valor de la mediana u0,5. Confirmarlo mediante el cálculo de la probabilidad correspondiente. d. ¿Qué valor tiene P [U = u0,5]? e. Calcular la esperanza, la varianza y el desvío estándar de U. f. Calcular la probabilidad de que U tome un valor entre 0,25 y 0,75. g. Calcular la siguiente probabilidad condicional: P [U < 0,25 | U < 0,40]. 3.6 Bromus catharticus Vahl es una especie de pasto nativo del Cono Sur valorado tanto por la producción de forraje como por su carácter autóctono. En comparación con otros pastos nativos, las matas de B. catharticus tienen vida relativamente corta, por lo que la persistencia de esta especie en los pastizales depende de que la producción, dispersión y germinación de semillas sea frecuente. Como la longevidad de las matas de B. catharticus varía con las condiciones climáticas, esta dependencia de la reproducción se vuelve crítica bajo condiciones desfavorables para la supervivencia. Supongamos que en una región donde los veranos son frescos y húmedos, la duración total de la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria continua X que toma valores entre 0 y 2 años y cuya función de densidad de probabilidad es: 𝑓(𝑥) = { 1 − 0,5 ∙ 𝑥 0 , para 0 ≤ x ≤ 2 años , para cualquier otro valor de x Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 15 Supongamos además que en una región donde los veranos son cálidos y secos, la duración total de la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria continua Y que también toma valores entre 0 y 2 años pero cuya función de densidad de probabilidad es: 𝑔(𝑦) = { 1,5 − 1,5 ∙ 𝑦 + 0,375 ∙ 𝑦2 0 , para 0 ≤ y ≤ 2 años , para cualquier otro valor de y a. Graficar las funciones de densidad f(x) y g(y) y comparar los gráficos obtenidos. ¿Qué se observa? b. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la germinación en una región con veranos son frescos y húmedos viva en total menos que medio año. Representarla en el gráfico correspondiente. c. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la germinación en una región donde los veranos son cálidos y secos viva en total menos que medio año. Representarla en el gráfico correspondiente. d. Comparar las probabilidades calculadas en los puntos b y c. ¿Cómo se interpretan en términos de frecuencias relativas en las poblaciones correspondientes? e. Calcular los valores de la esperanza de X y de la esperanza de Y. ¿Cómo se interpretan en términos de las poblaciones de matas de B. catharticus de una región con veranos húmedos y frescos y de una región con veranos calurosos y secos? f. Calcular los valores de la varianza de X y de la varianza de Y. ¿Cómo se interpretan en términos de las poblaciones de matas de B. catharticus de una región con veranos húmedos y frescos y de una región con veranos calurosos y secos? g. Considerar la variable aleatoria X−Y. ¿En qué consiste el experimento aleatorio que la genera? Calcular E[X−Y] y Var[X−Y]. h. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde los veranos son frescos y húmedos cuando ya alcanzó medio año de edad viva en total más de un año. i. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde los veranos son cálidos y secos cuando ya alcanzó medio año de edad viva en total más que un año. j. Comparar las probabilidades calculadas en los puntos h y i. ¿Cómo se interpretan en términos de frecuencias relativas en las poblaciones correspondientes? 3.7 Examinar la curva de la distribución Normal Estándar en la Figura 3.10. Notar que la curva es simétrica a ambos lados de la línea correspondiente a z = 0. A partir de esa observación contestar sin usar la tabla. a. ¿Cuál es el valor de P [Z < 0]? b. ¿Cuál es el valor de P [Z > 0]? c. ¿Qué signo tiene z si P [Z < z] = 0,38? d. ¿Qué signo tiene z si P [Z < z] =0,51? e. ¿Qué signo tiene z si P [Z >z] = 0,76? f. ¿Qué signo tiene z si P [Z > z] =0,05? g. Si z ≤ 0, ¿cuál es el valor máximo que puede tener P [Z < z]? h. Si z ≥ 0, ¿cuál es el valor mínimo que puede tener P [Z < z]? 3.8 El rótulo de un gran embarque de manzanas Red Delicious para exportación dice que las manzanas tienen peso medio de 250 g y desvío estándar de 20 g. Si lo que dice el rótulo es cierto y además el peso de una manzana a tomar al azar de este embarque es una variable aleatoria con distribución Normal: Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 16 a. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese menos de 190 g? b. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de 245 g? c. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de 220 g y menos de 280 g? d. ¿Qué valores tienen la esperanza y la varianza del peso de una manzana a tomar al azar de este embarque? ¿Cómo se interpretan estos valores en relación con una serie suficientemente larga de extracciones aleatorias de una manzana de este embarque? e. Si se separan las manzanas más livianas del embarque hasta descartar el 10% ¿cuál es el peso máximo de las manzanas separadas? f. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo menos 8 pesen entre 220 y 280 g? g. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo menos una pese menos que 220 g o más que 280 g? 3.9 En un área del oeste de la Región Pampeana, se ha determinado que la sequía es el principal factor limitante del rendimiento de los cultivos de cereales de invierno como el trigo y el centeno. Se ha observado que si durante el período inverno-primaveral llueve menos que 250 mm disminuye fuertemente el rendimiento del cultivo de trigo. En cambio el rendimiento del centeno, un cultivo más resistente a la sequía, se compromete si en dicho período llueve menos que 200 mm. En esta área, el total de lluvias inverno-primaverales (mm) en un año a tomar al azar es una variable aleatoria con distribución aproximadamente Normal con μ = 300 y σ = 100. a. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento del cultivo de trigo en esta área? b. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento del cultivo de centeno en esta área? c. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía limite el rendimiento del cultivo de trigo pero no el del cultivo de centeno en esta área? d. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite los rendimientos de ninguno de los dos cultivos en esta área? e. ¿Cuánto vale la probabilidad de que la sequía limite el rendimiento del cultivo de trigo pero no el del de centeno en esta área en un año a tomar al azar entre aquellos con lluvias inverno- primaverales inferiores al promedio? f. ¿Cuánto vale la probabilidad de que en un año a tomar al azar entre aquellos en que la sequía limita el rendimiento del trigo también el rendimiento del centeno sea limitado por la sequía? 3.10 En una región semiárida, el total de lluvia (mm) que cae en un año a tomar al azar es una variable aleatoria L con distribución aproximadamente Normal con μ = 400 y σ = 100. Además, la productividad primaria neta anual de un lote de pastizal (g/m2año) en un año a tomar al azar se puede calcular aproximadamente como X = 56 + 0,13 L. a. ¿Por qué X es una variable aleatoria? b. ¿Cuál es la distribución de probabilidad aproximada de X? c. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada de este lote de pastizal sea menor que 90 g/m2año? d. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada de este lote de pastizal sea mayor que 130 g/m2año? e. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada de este lote de pastizal sea mayor que 100 g/m2año y menor que 120 g/m2año? f. ¿Cuál es el valor de x0,90, el cuantil 0,90 de la distribución de probabilidad de X? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 17 g. ¿Cuál es la probabilidad de que en un año con lluvia mayor que 500 mm a tomar al azar, la productividad primaria aproximada de este lote de pastizal sea mayor que 135 g/m2año? 3.11 Consideremos el experimento aleatorio que consiste en tomar al azar un fruto de Butia yatay del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X1 a la variable aleatoria resultante. Como el número de frutos de B. yatay en el P.N. El Palmar es por lo menos del orden de 1010, es razonable dar por cierto que la extracción de un fruto no modifica substancialmente las frecuencias relativas de frutos con diferentes números de semillas en dicha población. Consideremos ahora el experimento aleatorio que consiste en tomar al azar otro fruto de B. yatay del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X2 a la variable aleatoria resultante. X1 y X2 son variables aleatorias independientes con idéntica distribución de probabilidad. Esta distribución de probabilidad es la que aparece en el Cuadro 3.1. a. Si como resultado de la primera extracción obtenemos x1 = 2, ¿cuál es la probabilidad de encontrar un fruto con dos semillas viables en la segunda extracción? Es decir, ¿cuál es el valor de P [X2 = 2 | X1 = 2]? b. ¿Cuál es la probabilidad de encontrar frutos con dos semillas viables en ambas extracciones? Es decir ¿cuál es el valor de P [X2 = X1 = 2]? La media aritmética de los números de semillas viables a encontrar en las dos extracciones es �̅� =0,5 X1 + 0,5 X2. c. ¿Por qué esta media aritmética es una variable aleatoria? ¿Qué valores puede tomar? d. ¿Cuál es el valor de la esperanza de esta media aritmética? Compararlo con el valor de la esperanza de X1 y de X2. e. ¿Cuál es el valor de la varianza de esta media aritmética? Compararlo con el valor de la varianza de X1 y de X2. f. ¿Cuál es el valor del desvío estándar de esta media aritmética? Compararlo con el valor del desvío estándar de X1 y de X2. 3.12 Consideremos la variable aleatoria X1 que resulta de instalar una plántula de Allophylus edulis cerca de una palmera a elegir al azar en el Parque Nacional El Palmar y medir cuánto crece en altura durante un año (cm). Consideremos además la variable aleatoria X2 que resulta de instalar otra plántula de Allophylus edulis cerca de otra palmera al elegir al azar y medir cuánto crece en altura durante un año (cm). Dadas las características de este experimento, es razonable dar por cierto que las variables aleatorias X1 y X2 son independientes y tienen idéntica distribución de probabilidad. Supongamos que dicha distribución común a X1 y X2 es la distribución Normal con μ = 8 y σ = 2,5. Es decir que damos por supuesto que, X1, X2 ~ N (μ = 8, σ = 2,5) independientes a. ¿Cuánto vale la probabilidad de que la primera plántula crezca más que 6 y menos que 10 cm? b. ¿Cuánto vale la probabilidad de que la segunda plántula crezca más que 6 y menos que 10 cm si la primera crece más que 6 y menos que 10 cm? ¿y si la primera crece menos que 6 cm? c. ¿Cuánto vale la probabilidad de que ambas plántulas crezcan más que 6 y menos que 10 cm? La media aritmética de los crecimientos en altura de dos plántulas a instalar cerca de sendas palmeras a tomar al azar es �̅� =0,5 X1 + 0,5 X2. d. ¿Por qué dicha media aritmética es una variable aleatoria? ¿En qué consiste el experimento aleatorio que la produce? e. ¿Cuál es la distribución de probabilidad de la media aritmética mencionada? f. ¿Cuánto vale la probabilidad de que dicha media aritmética tome un valor mayor que 6 y menor que 10 cm? Comparar conla respuesta del punto a. g. ¿Cómo se interpreta el valor calculado en el punto f en relación con una serie de repeticiones del experimento aleatorio que produce la media aritmética? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 18 Capítulo 4 MUESTRAS ALEATORIAS Y MEDIAS MUESTRALES 4.1 Un bolillero bien construido contiene 100 bolillas esféricas de igual diámetro, peso y rugosidad. Entre ellas, 20 llevan escrito el número 1, 40 el número 2, 30 el número 3 y 10 el número 4. De este bolillero se tomará una muestra aleatoria de tamaño n = 2 según el siguiente procedimiento: luego de girar el bolillero 10 veces se extraerá una bolilla y se registrará el número que tiene escrito, se volverá a colocar la bolilla en el bolillero, se volverá a girar 10 veces, se extraerá una bolilla y se registrará qué número lleva escrito. Denominemos 𝑋1 y 𝑋2 a los números a registrar en cada extracción sucesiva y �̅� a la media a aritmética de ambos. a. Explicar por qué 𝑋1 y 𝑋2 son variables aleatorias independientes con idéntica distribución de probabilidad. Representar la distribución de probabilidad común a 𝑋1 y 𝑋2 en una tabla y en un gráfico de líneas verticales. b. Calcular los valores de la esperanza y de la varianza de 𝑋1 y 𝑋2. ¿Qué relación tienen estos valores con los de la media y la varianza de los números de todas las bolillas del bolillero (la media poblacional y la varianza poblacional). c. Detallar las 16 diferentes composiciones posibles de las muestras aleatorias de tamaño n = 2 que se pueden obtener mediante el procedimiento detallado. d. Para cada una calcular la su probabilidad y el valor de la media muestral �̅�. e. Con los resultados obtenidos en d, calcular la distribución de probabilidad de �̅� Representarla en una tabla y en un gráfico de líneas verticales y compararla con la distribución de probabilidad de 𝑋1 y 𝑋2. f. Calcular los valores de la esperanza y de la varianza de �̅� a partir de su distribución de probabilidad. g. Con los resultados obtenidos en f, verificar las relaciones que existen entre la esperanza de �̅� y la de 𝑋1 y 𝑋2 y entre la varianza �̅� y la de 𝑋1 y 𝑋2. 4.2 La tabla muestra los diámetros [mm] de las 100 manzanas de un envío procedente del Alto Valle del Río Negro. 80,1 81,0 76,1 77,9 73,3 70,5 81,4 76,9 72,1 78,0 72,9 81,2 82,5 71,4 71,8 73,5 76,7 78,8 79,2 77,4 74,6 79,3 76,2 79,5 78,2 73,9 84,6 75,3 82,2 72,4 77,6 79,7 78,7 84,2 85,5 79,4 79,1 77,1 82,7 74,0 78,4 77,0 76,4 80,2 68,7 76,5 81,1 74,5 73,7 75,0 79,8 81,7 81,8 83,1 75,6 75,8 76,6 78,5 74,2 75,2 75,7 85,0 83,6 86,2 76,8 75,9 83,4 80,6 77,8 80,0 77,5 78,9 87,3 75,4 77,7 76,0 69,8 80,7 81,5 78,1 82,3 78,3 77,2 79,9 73,1 77,3 74,9 83,9 74,3 79,0 74,8 78,6 72,6 80,8 80,5 80,3 82,0 71,0 82,9 81,7 a. Verificar que la distribución de probabilidad del diámetro de una de estas manzanas a tomar al azar se ajusta muy bien a la distribución Normal con μ=78 mm y σ=4 mm. (Ayuda: contar los números de manzanas cuyos diámetros son menores que μ2 σ=70mm, μσ=74mm, μ =78mm, etc. y determinar si las frecuencias relativas correspondientes son cercanas a las probabilidades establecidas por la distribución Normal). b. Extraer de la tabla 20 muestras aleatorias independientes, cada una compuesta por n =5 manzanas y calcular los 20 valores correspondientes de la media muestral. Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 19 c. Calcular el promedio y el desvío estándar de los 20 valores de la media muestral y compararlos con los valores de μ y σ. Discutir el resultado de esta comparación. d. ¿Cuál es distribución de probabilidad de la media muestral que se calcula en el punto c? Determinar si los valores calculados se ajustan razonablemente a esa distribución (Ayuda: usar la aproximación aplicada en el punto a). 4.3 Los barros cloacales se utilizan para mejorar la productividad de forraje en algunas pasturas. Sin embargo, estos barros contienen metales pesados tóxicos como el plomo que es absorbido por las plantas y se acumularse en la carne de los animales que las comen. Con fines bromatológicos, la carne se clasifica en las siguientes tres categorías según su contenido de plomo en partes por millón [ppm = mg / kg] : Inofensiva Levemente Tóxica Tóxica Concentración de Pb (ppm) < 0,1 [0,1; 0,5) ≥ 0,5 Suponiendo que la concentración de plomo en la carne de un ternero proveniente de pastura tratada con barros cloacales a tomar al azar es una variable aleatoria con distribución Normal con parámetros μ = 0,2 y σ² = 0.02, a. ¿Cuál es la probabilidad de que la carne de un ternero proveniente de pastura tratada con barros cloacales a tomar al azar resulte clasificada como Levemente Tóxica o Tóxica? b. ¿Cuál es la probabilidad de que la carne de 5 o más entre 10 terneros provenientes de pastura tratada con barros cloacales a tomar al azar al azar resulte clasificada como Levemente Tóxica o Tóxica? c. ¿Cuál es la probabilidad de que la media aritmética de las concentraciones de plomo en la carne de 10 terneros provenientes de pastura tratada con barros cloacales a tomar al azar corresponda a las categorías Levemente Tóxica o Tóxica? 4.4 Si se puede dar por cierto que el peso de un novillo de raza Aberdeen Angus de 36 meses de edad que a tomar al azar a la entrada del mercado de Liniers [kg] es una variable aleatoria con distribución Normal con parámetros μ = 420 y σ2 = 64: a. ¿Cuánto valen la media y el desvío estándar de los pesos de todos los novillos de raza Aberdeen Angus de 36 meses de edad que entran en el mercado de Liniers? b. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers pese a lo sumo 425 kg? c. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers pese exactamente 425 kg? d. ¿Qué distribución de probabilidad tiene la media aritmética de los pesos de n novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers? e. Calcular la probabilidad de que la media de los pesos de 4 novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg. f. Calcular la probabilidad de que la media de los pesos de 9 novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg. ¿Qué propiedad general de la media muestral se evidencia cuando se compara esta probabilidad con la calculada en e.? 4.5 En una región semiárida donde llueven 400 mm/año es razonable suponer que la media poblacional de la productividad primaria neta aérea (PPNA) de los pastizales es μ = 206 g/m²año y que su desvío estándar poblacional es σ = 36 g/m²año. Consideremos una muestra cualquiera de 36 sitios de pastizal a tomar al azar dentro de dicha región, denotemos 𝑋𝑖 a sus valores de PPNA (i=1,…,36) y �̅� a la media de dichos valores. a. Identificar la población de referencia y las unidades muestrales involucradas. Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 20 b. ¿En qué sentido decimos que �̅� es un estadístico? ¿Por qué es una variable aleatoria? ¿A qué corresponden los diferentes valores que puede tomar? c. ¿Cuál es la distribución de probabilidad aproximada de �̅�? ¿Por qué razón tomamos el recaudo de decir que la distribución es aproximada? d. ¿Cuál es el valor aproximado de la probabilidad de que �̅� tome un valor mayor que 210 g/m²año? 4.6 El rendimiento promedio de los cultivos de un híbrido de maíz en la región de la Pampa Ondulada es de 10 t/ha y el desvío estándar es de 1,5 t/ha. Supongamos que se tomarán de la región 25 cultivos de dicho híbrido elegidos al azar y se calculará la media aritmética de sus rendimientos (media muestral): a. Identificar la población de referencia, la muestra y las variablesaleatorias a las que se hace referencia. b. Explicar por qué la media muestral es una variable aleatoria. c. ¿Qué distribución de probabilidad aproximada tiene la media muestral en cuestión? d. ¿Cuál es la probabilidad aproximada de que la media muestral tome un valor que se aparte de 10 t/ha en más que 500 kg /ha? e. ¿Cuál es la probabilidad aproximada de que, entre 3 muestras aleatorias como la referida, la media muestral de al menos una tome un valor que se aparte de 10 t/ha en más que 500 kg/ha? 4.7 En la Pampa Ondulada, el agua subterránea contiene concentraciones variables de sales que pueden limitar su aptitud para el riego complementario de los cultivos. Para evaluar este problema, un grupo de investigadoras de la FAUBA planea obtener una muestra aleatoria de 25 pozos en el partido de Pergamino, provincia de Buenos Aires, extraer agua de cada pozo y evaluar su salinidad mediante la conductividad eléctrica [dS /m = 10−1 Siemens/metro]. Con los datos a generar calcularán la media muestral. a. ¿En qué consiste el procedimiento que las investigadoras deberán aplicar para obtener la muestra aleatoria? b. ¿Qué variables aleatorias registrarán? ¿Por qué razón estas variables aleatorias son independientes y tienen idéntica distribución de probabilidad? c. Explicar por qué la media muestral de las conductividades eléctricas del agua de los 25 pozos a incluir en la muestra es una variable aleatoria. ¿A qué corresponden los diferentes valores que puede tomar? Si en verdad los contenidos de la conductividad eléctrica del agua de todos los pozos del Partido de Pergamino tienen media µ = 1,3 dS /m y desvío estándar σ = 0,75 dS /m, d. ¿Qué valor tiene la esperanza de la media muestral a obtener? e. ¿Qué valor tiene la varianza de la media muestral a obtener? f. ¿De qué depende la probabilidad de que la media muestral a obtener tome un valor cercano al de la media poblacional que se planea estimar? g. ¿Cuál es el valor aproximado de la probabilidad de que la media muestral que obtendrán las investigadoras tome un valor que se aparte del promedio del partido en menos que 0,25 dS /m? h. ¿De qué tamaño debe ser de muestra para que la probabilidad de que la media muestral tome un valor que se aparte de la media poblacional en menos que 0,25 dS /m sea a lo sumo de 0,90? 4.8 La productividad de los pastizales tiene importancia tanto para la producción de alimento para los animales domésticos como para cuestiones ambientales tales como la conservación del suelo y de la fauna autóctona o el control del contenido de dióxido de carbono en el aire. En una región con clima fuertemente estacional se mide la productividad anual de un pastizal sometido a un manejo experimental como la cantidad de biomasa de pasto que se acumula durante la estación de crecimiento. Se sabe que el año pasado la cantidad de biomasa acumulada en este pastizal tuvo un promedio poblacional de 350 g /m2año y un desvío estándar de 100 g /m2año. Con las mediciones Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 21 de este año se intenta determinar si estos valores han cambiado. En relación con este problema se formulan los siguientes interrogantes: a. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la biomasa de 16 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año? b. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la biomasa de 25 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año? c. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la biomasa de 36 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año? d. Con los resultados de los puntos a – d, graficar la probabilidad que había el año pasado de que la media muestral tomara un valor entre 300 y 400 g /m2año y el tamaño de la muestra. Comparar el gráfico con el de la figura 4.2. e. Observando el gráfico del punto e, discutir qué concluir si este año tomamos al azar 30 parches de 1 m2, cortamos y pesamos con extremo cuidado el pasto que hay en cada parche y encontramos que la media muestral de la biomasa es de 299 g /m2año? ¿Por qué? 4.9 Una compañía envasadora de harina afirma que los paquetes que produce tienen un peso promedio de 1000 g y que la varianza de los pesos es de 25 g2. Si la afirmación que hace la compañía fuera cierta: a. ¿Cuál sería la distribución de probabilidad aproximada de la media aritmética de los pesos de 36 paquetes a tomar al azar? b. ¿Cuál sería la probabilidad aproximada de que la media aritmética de los pesos de 36 paquetes a tomar al azar estuviese comprendida entre 998 y 1002 g? c. Teniendo en cuenta las respuestas anteriores, discutir la afirmación de la compañía sabiendo que en una muestra aleatoria de compuesta por 36 paquetes se encontró que la media aritmética de los pesos era de 998 g. 4.10 Estudios de la productividad de los pastizales americanos han demostrado que la media poblacional de la cantidad de pasto producido por unidad de superficie y por año, denominado productividad primaria neta aérea (PPNA), es mayor cuanto mayor es la lluvia que reciben. Estos estudios muestran también que es razonable suponer que en el continente americano la varianza de la PPNA entre sitios de pastizal que reciben la misma cantidad de lluvia es aproximadamente 1600 (g /m2año)². En una región con clima homogéneo se proyecta estimar la media poblacional de la PPNA a partir de datos de una muestra de sitios de pastizal a tomar al azar: a. Identificar la población, las unidades muestrales, las variables aleatorias y la media poblacional involucradas en este caso. b. Si la muestra incluirá 25 sitios de pastizal ¿cuál es el valor de la esperanza del cuadrado de la diferencia entre la media muestral y la media poblacional de la PPNA? c. Si la muestra incluirá 25 sitios de pastizal ¿aproximadamente qué probabilidad existe de que la media muestral a obtener tome un valor en el intervalo con radio 10 g /m2año centrado en el valor de la media poblacional? d. ¿Qué tamaño de muestra es necesario para que la probabilidad de que la media muestral tome un valor que no se aparte más que 10 g /m2año del valor de la media poblacional sea de al menos 0,99? e. Si la muestra incluirá 25 sitios de pastizal ¿qué radio tiene el intervalo centrado en el valor de la media poblacional dentro del cual la probabilidad de que la media muestral tome un valor es de aproximadamente 0,99? Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 22 Capítulo 5 ESTIMACIÓN DE LA MEDIA Y DE LA VARIANZA POBLACIONALES 5.1 En cada uno de los gráficos que se presentan a continuación, se esquematizan las funciones de densidad de probabilidad de dos estadísticos alternativos A y B propuestos como estimadores del parámetro . I II III a. En cada gráfico, comparar el sesgo de los estimadores. b. En cada gráfico, comparar la varianza de los estimadores. c. En cada gráfico, identificar el estimador que tiene la distribución de probabilidad más concentrada alrededor del valor del parámetro . d. ¿Cuál es el mejor estimador puntual en cada gráfico? Justificar. 5.2 En las regiones agrícolas, el exceso de fertilización nitrogenada puede contaminar el agua freática con nitratos hasta niveles tóxicos. Con el fin de evaluar los contenidos de nitratos en el agua de los pozos en un partido de la Pampa Ondulada, un técnico planea obtener una muestra aleatoria de 30 pozos dentro del partido, extraer agua de cada uno y medir su contenido de nitratos 𝑋1, . . . , 𝑋30 [ppm]. Con los datos a generar, el técnico calculará los estadísticos �̅� y 𝑆2. a. Identificar las unidades muestrales, la muestra, la población de referencia y la variable de interés involucradas en esta evaluación. b. ¿Cómo debe proceder el técnicopara que 𝑋1, . . . , 𝑋30 sean variables aleatorias independientes con idéntica distribución de probabilidad? c. ¿Con qué características de la población coinciden en valor numérico la esperanza y la varianza de las variables aleatorias 𝑋1, . . . , 𝑋30? d. ¿Cómo se define el estadístico �̅�? ¿Qué significa que �̅� es un estimador insesgado, eficiente y consistente de la media poblacional de los contenidos de nitratos en el agua de los pozos del partido? Si en verdad la varianza de los contenidos de nitratos en el agua de los pozos del partido es σ2 = 64 ppm2, e. ¿Cuánto vale el desvío estándar de �̅�? ¿Qué mide ese valor? f. ¿Cuánto vale aproximadamente la probabilidad de que el error de estimación de la media poblacional de los contenidos de nitratos en el agua de los pozos del partido mediante �̅� resulte mayor que 2 ppm en valor absoluto? g. ¿Cómo se define el estadístico 𝑆2? ¿Qué parámetro estima? ¿Cuánto vale su esperanza? 5.3 Sea X una variable de interés cuya distribución de frecuencias en la población de referencia se ajusta a la distribución Normal con parámetros μ = 17 y σ = 2. Alguien que no conoce los valores de estos parámetros planea estimarlos a partir de una muestra aleatoria de 9 unidades a tomar en Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 23 la población de referencia, en cada una de las cuales registrará el correspondiente valor de X. Este procedimiento generará las variables aleatorias 𝑋1, . . . , 𝑋9 a partir de las cuales se definen los estadísticos �̅� y 𝑆2. a. ¿Cómo se definen las variables aleatorias 𝑋1, . . . , 𝑋9? ¿Por qué tienen idéntica distribución de probabilidad? ¿Cuál es esa distribución? b. ¿Por qué los estadísticos �̅� y 𝑆2 son variables aleatorias? ¿A qué corresponden los diferentes valores que cada uno puede tomar? c. ¿Qué distribución de probabilidad tiene el estadístico �̅�? d. ¿Qué distribución de probabilidad tiene el estadístico (�̅� − 17) ÷ (2 √9⁄ )? ¿En qué se diferencia de la distribución de probabilidad de �̅�? ¿Por qué razón? e. ¿Qué distribución de probabilidad tiene el estadístico (�̅� − 17) ÷ (𝑆 √9⁄ )? ¿En qué se diferencia de la del estadístico propuesto en d? ¿Por qué razón? f. ¿Cuánto vale 𝑃[−3,355 < [(�̅� − 17) ÷ (𝑆 √9⁄ )] < 3,355]? g. ¿Cuál es la forma genérica de un intervalo de confianza para μ? 5.4 Un fitotecnista se dispone a ensayar un nuevo híbrido de girasol para decidir si conviene introducirlo el norte de Santa Fe. Para ello seleccionará una muestra aleatoria de 20 lotes agrícolas dentro de la región, en cada uno cultivará el híbrido en cuestión y registrará el rendimiento que se obtenga [t/ ha]. Con los datos a generar, calculará los estadísticos �̅� y 𝑆2 y los límites de un intervalo de 95% de confianza para la media de los rendimientos del nuevo híbrido en los lotes agrícolas del norte de Santa Fe. a. Identificar las unidades muestrales, la muestra, la población y las variables aleatorias involucradas en esta investigación. Nombrar dos posibles causas de la varianza de las variables aleatorias. b. ¿De qué factores depende la probabilidad de que �̅� tome un valor cercano al de la media poblacional? c. ¿En cuánto fijará el fitotecnista la probabilidad de que el intervalo a construir resulte en una estimación errada? ¿Cómo hace? Una vez cosechados los 20 lotes, el fitotecnista encuentra que la media aritmética de sus rendimientos ha sido �̅� = 2,9 t/ ha y que el estimador insesgado de la varianza de los rendimientos ha resultado s² = 0,36 (t/ ha)². d. Dando por cierto que el rendimiento de este híbrido en un lote a tomar al azar en el norte de Santa Fe es una variable aleatoria con distribución Normal, construir el intervalo de 95% de confianza para la media poblacional de los rendimientos que este híbrido tendría en los lotes el sur de Santa Fe. Expresar la estimación realizada en una oración referida al fenómeno de interés. e. Calcular un tamaño de muestra probablemente suficiente para construir un intervalo de 95% de confianza para la media poblacional con precisión de ± 200 kg/ ha. 5.5 La producción ganadera constituye un problema para la conservación de la fauna natural de los ojos de agua (lagunas pequeñas) en el oeste de Chubut. Las deyecciones de las ovejas enriquecen el agua en nutrientes y esto causa a su vez una proliferación de algas que afecta seriamente a los peces y anfibios de las lagunas. Este proceso se denomina eutrofización; una medida de su gravedad es la concentración de clorofila en el agua. Para evaluar este problema, se midió la concentración de clorofila en el agua de 20 lagunas tomadas al azar en los establecimientos de cría ovina del oeste de Chubut. Los datos obtenidos son los siguientes: Concentración de clorofila [microgramo/litro] 342 - 388 - 348 - 296 - 371 - 304 - 368 - 301 - 392 - 331 - 364 - 276 - 312 - 294 - 373 - 380 - 347 - 319 - 371 - 330 Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 24 a. Identificar la variable de interés y la población de referencia involucradas en esta evaluación. b. Utilizar los datos generados para calcular la correspondiente realización de la media muestral de las concentraciones de clorofila. ¿Qué característica de la población se estima con el valor obtenido? c. Explicar por qué el valor calculado en el punto b no sirve como estimador insesgado del promedio de las concentraciones de clorofila de las lagunas del este de Chubut. d. Utilizar los datos generados para estimar la varianza de concentración de clorofila de las lagunas de los establecimientos de cría ovina del oeste de Chubut. e. Utilizar los datos generados para construir un intervalo de 95% de confianza para concentración media de clorofila en las lagunas de los establecimientos de cría ovina del oeste de Chubut (dar por cierto que el contenido de clorofila de una laguna a tomar al azar de esta población es una variable aleatoria con distribución Normal). Expresar la estimación realizada en una oración referida al fenómeno de interés. En relación con la precisión del intervalo de 95% construido, f. ¿Cómo será la precisión de un intervalo de 99% de confianza calculado con los mismos datos? g. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes de una muestra con tamaño n > 20? h. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes de una muestra que, por error, incluya algunas lagunas ubicadas en establecimientos sin ovejas? 5.6 La siguiente planilla muestra las alturas [centímetros] de una población de 100 personas. La variable sigue una distribución aproximadamente Normal. persona altura persona altura persona altura persona altura persona altura 1 186 21 168 41 140 61 176 81 165 2 177 22 146 42 179 62 179 82 179 3 197 23 171 43 173 63 171 83 171 4 183 24 171 44 164 64 179 84 176 5 178 25 181 45 173 65 170 85 178 6 175 26 177 46 153 66 169 86 164 7 163 27 183 47 167 67 167 87 188 8 165 28 177 48 160 68 172 88 170 9 176 29 184 49 174 69 170 89 145 10 181 30 167 50 161 70 175 90 176 11 166 31 170 51 173 71 170 91 173 12 149 32 167 52 158 72 153 92 153 13 175 33 178 53 173 73 152 93 164 14 190 34 171 54 169 74 178 94 153 15 161 35 167 55 168 75 165 95 163 16 181 36 158 56 163 76 173 96 169 17 168 37 184 57 174 77 161 97 160 18 164 38 169 58 171 78 162 98 172 19 164 39 168 59 189 79 178 99 172 20 163 40 180 60 146 80 171 100 166 a. Calcular la altura media de todas las personas de esta población. b. Tomar una muestra aleatoria de n = 3 personas de esta población y construir un intervalo de 90% de confianza. ¿El intervalo construido contiene el valor de la media poblacional? c. Repetir 10 veces el ejercicio realizado en el punto b y computar la frecuencia relativa con que intervalos que contienen el valor de la media poblacional. d. Repetir los puntos b
Compartir