Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE BUENOS AIRES FACULTAD DE FARMACIA Y BIOQUÍMICA BIOESTADÍSTICA Guía de Trabajos Prácticos Primer Cuatrimestre - 2021 CÁTEDRA DE MATEMÁTICA Esta guía fue realizada por los docentes de la Cátedra de Matemática 2 BIOESTADÍSTICA CAPÍTULO 1: FUNDAMENTO DEL CALCULO DE PROBABILIDADES Fenómenos aleatorios. Espacio de resultados, sucesos, probabilidad, frecuencia relativa. Sucesos independientes. Cálculo de probabilidades. Probabilidad condicional. CAPÍTULO 2: ESTUDIO DE LA POBLACIÓN. VARIABLE ALEATORIA Variable aleatoria. Variable discreta, función de probabilidad. Variable continua, función de densidad de probabilidad. Función de distribución. Esperanza y Varianza, propiedades. CAPÍTULO 3: DISTRIBUCIONES DE PROBABILIDAD MÁS IMPORTANTES Variable aleatoria de Bernoulli. Variable aleatoria binomial: función de probabilidad, esperanza y varianza. Variable aleatoria de Poisson, esperanza y varianza. Variable aleatoria normal, características. Estandarización. Manejo de tablas. Estimación de parámetros. CAPÍTULO 4: ANÁLISIS EXPLORATORIO y ESTIMACIÓN PUNTUAL Estadística descriptiva. Medidas de posición (media, mediana) y de dispersión (varianza, desviación estándar, rango). Tablas de frecuencia. Gráficos de tortas. Diagramas de barras. Histogramas. Manejo de bases de datos. Uso del paquete estadístico InfoStat. CAPÍTULO 5: ESTIMACIÓN POR INTERVALOS DE CONFIANZA Muestra aleatoria. Distribución de la media. Distribución t de Student. Distribución Ji- Cuadrado. Concepto de intervalo de confianza. Intervalo de confianza para los parámetros de la distribución normal. Tamaño de muestra. CAPÍTULO 6: PRUEBA DE HIPÓTESIS Concepto de prueba de hipótesis. Errores de decisión. Prueba de hipótesis para una media con varianza conocida y desconocida. Prueba de Normalidad. Pruebas para diferencia de medias: en muestras independientes con varianzas conocidas y desconocidas, en muestras apareadas. Distribución F de Fisher. Test de igualdad de varianzas. Uso del paquete estadístico InfoStat. CAPÍTULO 7: ANÁLISIS DE LA VARIANZA Modelo de análisis de la varianza con un criterio de clasificación. Comparaciones simultáneas para diferencia de medias: Bonferroni, Tukey, Dunnett. Test F max para igualdad de varianzas. Pruebas no paramétricas. Selección de pruebas estadísticas y aplicaciones al diseño experimental en las ciencias farmacéuticas y bioquímicas. Uso del paquete estadístico InfoStat. CAPÍTULO 8: REGRESIÓN Y CORRELACIÓN Modelo de regresión lineal simple. Estimación puntual y por intervalos de los parámetros. Pruebas de hipótesis acerca de los parámetros. Intervalo de confianza y de preedición fijado un valor de x. Coeficiente de correlación. Uso del paquete estadístico InfoStat. 3 TRABAJO PRÁCTICO N° 1 FUNDAMENTO DEL CÁLCULO DE PROBABILIDADES Ejercicio 1.1: En una jaula hay 3 cobayos blancos numerados de 1 a 3, y dos cobayos negros numerados 1 y 2. Para participar en un estudio, se elige al azar un par de cobayos. a) Describir el espacio de resultados. b) Calcular la probabilidad de que ambos sean blancos. c) Calcular la probabilidad de que ambos sean negros. d) Calcular la probabilidad de que uno sea blanco y el otro negro. Ejercicio 1.2: En una urna hay 4 bolillas rojas y 2 blancas, no identificables. Se extrae una bolilla, se observa el color, se devuelve a la urna y luego se extrae otra. a) Describir el espacio de resultados. ¿Son equiprobables los sucesos elementales? b) Hallar la probabilidad de que ambas bolillas sean blancas. c) Hallar la probabilidad de que ambas sean del mismo color. d) ¿Cuál es la probabilidad de que una cualquiera sea blanca o roja? Ejercicio 1.3: De un grupo de 40 personas, 20 individuos hablan francés, 16 inglés, 6 los dos idiomas y 10 no habla ninguno. Se selecciona un individuo al azar: a) ¿Cuál es la probabilidad de que hable francés? b) ¿Cuál es la probabilidad de que hable inglés? c) ¿Cuál es la probabilidad de que hable francés e inglés? d) ¿Cuál es la probabilidad de que no hable ninguno de estos dos idiomas? e) ¿Cuál es la probabilidad de que hable francés sabiendo hablar inglés? f) ¿Cuál es la probabilidad de que hable inglés sabiendo hablar francés? g) ¿Cuál es la probabilidad de que hable francés o inglés? Ejercicio 1.4: En una urna hay bolillas blancas, rojas y azules. La probabilidad de obtener una bolilla roja es el triple de obtener una azul, y la probabilidad de obtener una blanca es ½. 4 Si se sabe que hay 9 bolillas azules, calcule el número de bolillas rojas, el número de bolillas blancas y el número total de bolillas que hay en la urna. Ejercicio 1.5: La siguiente tabla se empleó para registrar los resultados de clasificar a 55 animales que padecían una afección ocular después que algunos de ellos recibieron cierto tratamiento. Curados No Curados Tratados 17 12 No Tratados 11 15 De estos 55 animales se elige un animal al azar. Hallar: P(Curado); P(No Tratado); P(Tratado y No Curado); P(Curado o No Tratado); P(Curado / Tratado); P(Curado/No tratado). Interprete los dos últimos resultados. Ejercicio 1.6: Doscientos niños afectados de gripe fueron divididos en tres grupos. El primer grupo fue tratado con el antigripal A1, el segundo con A2 y el tercero con A3. Los resultados del tratamiento se muestran en la tabla: Antigripal A1 A2 A3 Totales Mejoraron (M) 34 44 42 120 No mejoraron(M') 16 26 38 80 Totales 50 70 80 200 Se elige al azar un niño afectado de gripe: a) Estimar P(A1); P(A2 M'); P(A3/M); P(M/A3); P(A3∩M); P(A3); P(M). b) ¿Son A3 y M sucesos independientes? Ejercicio 1.7: Se efectuó un estudio de personalidad y se quería ver si el carácter estaba relacionado con el color de ojos. Para simplificar, el color de ojos se clasificó en claros y oscuros, y la personalidad en generosa y egoísta. Completar la tabla original si se demostró que la personalidad es independiente del color de ojos. Generoso Egoísta Totales Ojos claros 150 Ojos oscuros 300 Totales 300 150 450 Luego de completar la tabla, calcular: P(Generoso/Ojos claros); P(Generoso/Ojos oscuros) y P (Generoso). Interpretar. 5 TRABAJO PRÁCTICO N 2 ESTUDIO DE LA POBLACIÓN VARIABLE ALEATORIA Ejercicio 2.1: La tabla siguiente corresponde a la función de probabilidad puntual de una variable aleatoria discreta X Valores ix de X 1 2 3 4 5 )xX(P i= 0,1 0,1 0,3 0,3 0,2 Calcular las siguientes probabilidades: a) )2X(P b) )3X(P c) )3X1(P d) )3X1(P e) )3,2X(P f) )3,2X(P = Ejercicio 2.2: Una variable aleatoria discreta X está definida por la siguiente función de probabilidad puntual: Valores xi de X -1 0 1 2 )xX(P i= 1 /5 2/6 2/5 a) Graficar la función de probabilidad puntual. b) Calcular y graficar la función de distribución acumulada. c) Calcular la probabilidad de que X tome el valor 2. d) Calcular la probabilidad de que X tome un valor menor o igual que 1,5 e) Calcular la probabilidad de que X tome un valor mayor que 0. f) Calcular la probabilidad de que X sea mayor que 0 sabiendo que vale a lo sumo 1,5. Ejercicio 2.3: Una compañía vende un producto químico a sus clientes en bolsas de 5 kilos. Sea la variable aleatoria X: número de bolsas que encarga un cliente. Suponga que X tiene la siguiente función de probabilidad: Valores ix de X 1 2 3 4 )xX(P i= 0,2 0,4 0,3 0,1 6 Calcular E(X) y Var(X). Ejercicio 2.4: Sea X una variable aleatoria discreta, tal que el gráfico de su función de distribución es el siguiente: 0 0,2 0,4 0,6 0,8 1 -1 0 1 2 3 4 5 x F (X ) . . . . a) Determinar el recorrido y la función de probabilidad de la variable aleatoria X.. b) Hallar la esperanzay la varianza de la variable aleatoria X. Ejercicio 2.5: Sea X una variable aleatoria continua cuya función de densidad de probabilidad es la representada en el siguiente gráfico: 0 0,1 0,2 0,3 0,4 0,5 0,6 0 1 2 3 4 5 X f( X ) 7 Calcular a partir del gráfico las siguientes probabilidades: a) )2X1(P b) )2X1(P c) )5,1X(P d) )1X(P e) )5,1X(P = f) )2X1X0(P g) )2X3X1(P Ejercicio 2.6: La duración en horas de un tubo electrónico es una variable aleatoria X cuya función de distribución es − = 1tsi0 1tsi t 1 1 )t(FX Calcular la probabilidad de que uno de tales tubos dure: a) Menos de una hora b) Menos de 5 horas c) Más de 10 horas d) Entre media hora y dos horas e) Menos de 5 horas sabiendo que duró más de 2 horas. Ejercicio 2.7: Para la variable aleatoria definida en el Ejercicio 2.5, a partir del gráfico calcular el valor de la media. Justificar. Ejercicio 2.8: La vida de un virus en determinadas condiciones biológicas es una variable aleatoria con función de distribución −+− = 31 31 4 5 2 3 4 1 10 )( 2 tsi tsitt tsi tFX a) ¿Cuál es la probabilidad de que uno de tales virus viva más de 1,5 horas? b) ¿Cuál es la probabilidad de que uno de tales virus viva entre 1,5 y 2,75 horas? c) Decida si la siguiente afirmación es verdadera o falsa. Justifique. La vida media de los virus considerados es mayor que 3 horas. 8 d) ¿Cuál es la probabilidad de que uno de tales virus viva menos de 2,75 horas, sabiendo que vivió más de 1,5 horas? Ejercicio 2.9: Sea X una variable aleatoria tal que E(X)=8/3 y Var(X)=5/4. Sea la variable aleatoria Y = 3/2X+5/3. a) Calcular E(Y) y Var(Y) b) ¿Es Var (X+Y) = Var(X) + Var (Y)? Justificar la respuesta. Ejercicio 2.10: Sean X e Y variables aleatorias discretas e independientes tales que Var (Y) = 2 y la función de probabilidad de X es: Valores ix de X -2 0 2 )xX(P i= 6 1 6 3 6 2 a) Calcular la varianza de la variable X. b) Calcular )5Y2X3(Var +− 9 TRABAJO PRÁCTICO N 3 DISTRIBUCIONES DE PROBABILIDAD MÁS IMPORTANTES En todos los ejercicios definir claramente las variables aleatorias utilizadas, su distribución, sus parámetros y la interpretación de cada uno de ellos Ejercicio 3.1: Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 6 animales con el fármaco: a) ¿Cuál es la probabilidad de que al final del experimento hayan muerto 2 o menos? b) ¿Cuál es la probabilidad de que al final sobrevivan las 6? c) ¿Cuál es el número esperado de ratas vivas al final del experimento si se tratan 12 en total? Ejercicio 3.2: Se sabe que un medicamento es efectivo en el 90% de los casos. a) ¿Qué probabilidad hay de que al aplicarlo a 20 pacientes se curen 17? b) ¿Y de que se curen 17 o más? Ejercicio 3.3: Se comprobó experimentalmente que la radiación genera deficiencia genética en el 10% de la población sometida. a) ¿Cuál es la probabilidad que, de 15 personas afectadas por la radiación, se produzca deficiencia genética en 2 o más? b) ¿Y de que se presente deficiencia en exactamente 5? Ejercicio 3.4: El número de enfermos recuperados después de cierto tiempo de aplicado un tratamiento a 10 pacientes, es una variable aleatoria binomial con esperanza 7. Se aplica el tratamiento a 10 enfermos, calcular: a) La probabilidad de que se recuperen por lo menos 6 pacientes. b) La varianza de la variable aleatoria. c) El número esperado de pacientes que se recuperan si se aplica el tratamiento a 20 pacientes. Ejercicio 3.5: En una población se ha observado que el número de muertes por falla cardiaca sigue una distribución de Poisson con un promedio anual de 7. 10 a) ¿Cuál es la probabilidad de que, durante el año en curso, en dicha población mueran 4 personas por falla cardiaca? b) ¿Y de que mueran menos de 6? c) ¿Cuál es la probabilidad de que en los próximos 6 meses en dicha población hayan muerto 3 personas por falla cardiaca? Ejercicio 3.6: Una suspensión de bacterias tiene una densidad de 0,4 bacterias por cm3. El número de dichas bacterias en un volumen puede asumirse que sigue una distribución de Poisson. Si se considera un volumen de 6 cm3: a) ¿Cuál es la probabilidad de encontrar menos de 2 bacterias? b) ¿Cuál es el número esperado de bacterias en dicho volumen? ¿Y en un volumen de 15 cm3? Ejercicio 3.7: Una sustancia radioactiva emite partículas α. El número de partículas que llegan a cierta región del espacio en un intervalo de 7,2 segundos es una variable aleatoria que obedece a la ley de Poisson con esperanza 4. a) Calcular la probabilidad de que en 7,2 segundos lleguen a lo sumo 2 partículas. b) Hallar la probabilidad de que en un intervalo de 9 segundos lleguen por lo menos 4 partículas. Ejercicio 3.8: En cierta etapa de un proceso de producción de una vacuna ésta puede contener virus vivos. Se quiere realizar el control de seguridad de la vacuna para verificar que el proceso de producción funciona correctamente, por lo que se establece el siguiente método de control: de un matraz que contiene un gran volumen de la vacuna se toma una muestra de un pequeño volumen v y si la muestra no contiene virus, se concluye que el contenido total del matraz tampoco los tiene. Considerando un matraz que contiene 5 virus vivos por cada 1000 cm3, y tomando como volumen de control v = 600 cm3. ¿Cuál es la probabilidad de concluir que el matraz no contiene virus, o sea, de que el procedimiento de control falle? Ejercicio 3.9: Sea Z una variable aleatoria con distribución N(0;1). Calcular, mediante la tabla: a) P(Z 1,7) h) P(Z 7) b) P(Z > 2,03) i) P(Z > 8) c) P(Z > -1,34) j) P( Z < 1,96) d) P(Z < -2,2) k) P(Z > 3,09) e) P(0,2 < Z <1,4) l) Hallar a para que P(Z > a) = 0,2514 f) P(-1,3 < Z < -0,5) m) Hallar b para que P(Z > b) = 0,9382 g) P(-0,38 < Z 2,94) n) Hallar c para que P(Z > c) = 0,10 11 Ejercicio 3.10: Entre los diabéticos adultos, el nivel de glucosa en sangre en ayunas puede suponerse de distribución aproximadamente normal, con media 116 mg/dl y desviación estándar 15 mg/dl. a) ¿Cuál es la probabilidad de que un diabético adulto tenga en ayunas un nivel de glucosa inferior a 120? b) ¿Cuál es la probabilidad de que un diabético adulto tenga en ayunas un nivel de glucosa inferior a 100? c) ¿Y de que tenga un nivel comprendido entre 100 y 132? d) ¿Cuál será el nivel de glucosa que será superado por el 90% de los diabéticos adultos de la población? e) ¿Cuál será el nivel de glucosa tal que el 95% de la población tiene valores menores que él? Este valor, en cualquier variable continua, es llamado el percentilo 95. Ejercicio 3.11: En una población de niños la tensión arterial sistólica (TAS) se distribuye normalmente con media 92 mmHg y desvío de 10 mmHg. a) ¿Qué probabilidad hay de que un niño de esta población supere un valor de TAS de 120 mmHg? b) ¿Qué porcentaje de esta población tendrá valores de TAS inferiores a 104mmHg? c) ¿Qué valor de TAS máximo presenta el 5% de la población que tiene presión arterial más baja? Ejercicio 3.12: Los valores de colesterol total para cierta población están distribuidos en forma normal con media 200 mg/dl y desvío estándar 10 mg/dl. Hallar la probabilidad de que un individuo de esa población tenga valor de colesterol menor que 196 mg/dl y mayor que 175 mg/dl. Ejercicio 3.13: En cierta población el índice cefálico (cociente entre el diámetro transversal y el longitudinal del cráneo) se distribuye en forma normal con media 74 y desvío estándar3,2. Se consideran dolicocéfalos (cráneo tipo alargado) a aquellos individuos cuyo índice es inferior a 75 y braquicéfalos (cráneo tipo corto o redondeado) a los individuos que presentan un índice superior a 80. Calcular qué porcentaje de la población queda incluido en cada segmento. 12 TRABAJO PRÁCTICO N 4 ANÁLISIS EXPLORATORIO Y ESTIMACIÓN PUNTUAL A partir de este trabajo práctico comenzaremos a utilizar el programa estadístico InfoStat. Pueden bajar la versión estudiantil del InfoStat en forma gratuita de la página www.infostat.com.ar. En Versión estudiantil, seguir las instrucciones y obtener la versión. En el Campus Virtual de la asignatura encontrarán un Tutorial elaborado por la docente de la cátedra Lic. Selva Figueroa. Para consultar el manual del programa, una vez abierto el InfoStat, hacer click en Ayuda y luego en Manual. Ejercicio 4.1: Los datos siguientes corresponden a la determinación de Homocisteína sérica (Hcy) en ayunas en 6 mujeres con diabetes mellitus tipo 2. La Hcy se midió en mol/L por cromatografía líquida de alta performance. 11,4 11,8 13,4 12,2 13,0 12,5 Calcular la mediana, la media, el mínimo y máximo, el rango, la varianza, la desviación estándar y el coeficiente de variación. Ejercicio 4.2: En una institución se seleccionaron aleatoriamente 7 pacientes con deterioro cognitivo leve (DCL) y se les efectuó la prueba del Addenbroke cognitive examination (ACE), que tiene un valor máximo posible de 100. Se obtuvieron las siguientes mediciones: 96 93 91 96 82 88 98 Calcular la mediana, la media, el mínimo y máximo, el rango, la varianza, la desviación estándar y el coeficiente de variación. Ejercicio 4.3: a) Se seleccionaron aleatoriamente 10 mujeres normales y 10 mujeres con poliquistosis ovárica (PQO) y se midió la hormona folículo estimulante (FSH) en mUI/ml por el método de EQLIA. Se obtuvieron las siguientes mediciones (se encuentran ordenadas en forma ascendente para cada muestra): Normales 6,5 6,9 7,0 7,6 7,9 8,1 8,4 8,5 8,8 9,1 PQO 5,2 5,8 6,3 6,5 6,8 6,8 6,9 7,1 7,2 7,6 Calcular, para cada uno de los dos grupos, los estadísticos descriptivos: mediana, media, mínimo y máximo, rango o amplitud, varianza, desviación estándar y coeficiente de variación. http://www.infostat.com.ar/ 13 b) Si las muestras hubieran sido las de la tabla siguiente, analizar las dos situaciones en vista a la comparación del nivel de hormona entre los dos grupos: Normales 4,9 5,1 6,0 7,2 7,9 8,1 8,4 8,5 10,2 11,9 PQO 4,1 4,5 4,6 5,8 6,8 6,8 7,5 7,9 8,6 10,0 Ejercicio 4.4: Para estudiar si una dieta disminuye el contenido medio de colesterol en la sangre, a 7 pacientes se les midió el contenido de colesterol (mg/100 ml) antes y después de la dieta. Los datos obtenidos fueron: Paciente 1 2 3 4 5 6 7 X1: contenido de colesterol antes de la dieta 270 410 350 360 350 430 268 X2: contenido de colesterol después de la dieta 175 308 248 231 196 190 154 a) Hallar la disminución media del contenido de colesterol de esa muestra. b) Calcular la desviación estándar muestral de la disminución del contenido de colesterol. c) ¿Los investigadores pueden concluir que con la dieta la disminución media del contenido de colesterol es mayor que 130 mg/100ml? Ejercicio 4.5: Los siguientes datos corresponden a 12 pacientes con esclerosis múltiple (EM) y a 12 controles, todos diestros. Se les tomó una prueba de destreza manual y se registró el puntaje: Controles 15,2 16,4 17,0 17,5 17,5 17,6 19,4 19,5 20,0 20,0 20,1 20,3 EM 15,7 16,4 16,6 18,3 18,5 18,6 18,8 19,4 19,9 21,2 21,3 22,4 Calcular los estadísticos descriptivos: media, desviación estándar, mediana y rango o recorrido. Ejercicio 4.6: La siguiente tabla muestra la distribución de salarios de los 100 trabajadores de un gran laboratorio, que incluye desde el personal de mantenimiento hasta los directores generales: Salario ($) 1500 3000 4500 7800 80000 195000 Frecuencia 51 37 8 2 1 1 a) Calcular la media, la mediana, la desviación estándar y la amplitud. b) Discutir los estadísticos de tendencia central y de dispersión más adecuados para describir la situación. 14 Ejercicio 4.7: Un laboratorio envasa ampollas en envases de 3 unidades. Sea X = número de ampollas defectuosas en cada envase. Por estudios realizados se conoce la función de probabilidad de X: xi 0 1 2 3 p(xi) 0,729 0,243 0,027 0,001 a) ¿Qué distribución sigue X y cuáles son sus parámetros? b) Hallar E(X) y Var(X). c) Al tomar una muestra aleatoria de 100 envases se obtuvo: xi 0 1 2 3 fi 71 26 3 0 Hallar la media y la varianza muestrales. Interpretar estos estadísticos como estimadores de los parámetros calculados en b) Ejercicio 4.8: Las ampollas de un preparado biológico para vacunas pierden su efectividad al cabo de cierto tiempo. Después de 6 meses de su preparación se tomaron 40 cajas con 10 ampollas cada una y se observó cuántas ampollas resultaban eficaces. Se obtuvieron los datos del archivo Ej.4.8. a) Definir la variable aleatoria, indicar su recorrido y la distribución que puede seguir. b) Estimar la probabilidad de que una ampolla no pierda su efectividad después de 6 meses de su preparación. c) Estimar la cantidad de cajas que podrán esperarse con por lo menos 6 ampollas eficaces. Instrucciones para InfoStat: Abran el programa InfoStat desde el icono. Van a ver una pantalla gris, sólo con barra de herramientas. Vayan a Archivo → Abrir. Buscar el archivo Ej.4.8. Para disminuir los decimales, ya que por defecto pone dos decimales, seleccionen toda la columna y hagan click en un icono que tiene dos ceros arriba y uno abajo; cada vez que clickean, disminuye un decimal. Luego van a Estadísticas → Medidas resumen. Van a ver un cuadro de diálogo que tiene tres grandes sectores: el de la izquierda, les muestra todas las variables de la base: aquí Nª de Caja y Cantidad de Ampollas Eficaces. A la derecha, un campo que se llama Variables y uno que se llama Criterios de clasificación. Hagan click sobre Cantidad de Ampollas Eficaces y con la flecha envíenla a Variables. Aquí no hay criterio de clasificación, por lo que es todo; clickear Aceptar. En el cuadro de diálogo que aparece, pueden seleccionar lo que quieran calcular. Por defecto, viene marcado el tamaño de la muestra (n), Media, Desviación estándar, Mínimo y Máximo. 15 Ejercicio 4.9: Un virólogo diluye partículas de virus en una solución. Luego toma de dicha solución 150 muestras de 1 cc y encuentra, en cada muestra, el número de partículas que se detalla en el archivo Ej.4.9. Suponiendo que se ha comprobado que se necesitan por lo menos tres partículas de virus para infectar un embrión de pollo estimar, usando la distribución de Poisson, la probabilidad de que una muestra de 1 cc infecte un embrión de pollo. Ejercicio 4.10: Las observaciones que se detallan en el archivo Ej.4.10 corresponden al peso, en gramos, de ambos riñones en 50 hombres presumiblemente normales cuyas edades están comprendidas entre 40 y 49 años. Suponiendo que el peso de los riñones se distribuye en forma normal, estimar la probabilidad de que dicho peso supere los 350 g. Ejercicio 4.11: Con los datos del ejercicio 4.3 efectuar un diagrama de dispersión para cada situación y analizar los distintos gráficos. Instrucciones para InfoStat: En el archivo Ej.4.11 del Excel tienen los datos preparados para el InfoStat: observar que para armar la base en InfoStat, cada fila contiene los datos de un individuo, por eso tienen dos columnas, una con la identificación del grupo a que pertenece el individuo y otra con el puntaje obtenido en la prueba. Para efectuar el gráfico, vayan a Gráficos → Gráfico de densidad de puntos → En Variables a graficar pasen Puntaje.a; en Criterios de clasificación(optativa) pasen el Grupo → Aceptar. Pueden aumentar el tamaño de los puntos en la solapa Herramientas gráficas (que aparece cuando se confecciona el gráfico o cuando se hace un click en algún lugar del gráfico). Donde dice Tamaño, clickean el triangulito que tiene el vértice hacia arriba y con click varias veces van a aumentar el tamaño de los puntos. Si quieren cambiar el color u otras opciones, se paran en la solapa Herramientas gráficas sobre el nombre de la variable: Puntaje.a y, con el botón derecho, aparecen muchas opciones: entre ellas, el color, con lo que pueden elegir de la paleta. Si clickean el botón derecho del mouse cuando se encuentran sobre el área del gráfico, pueden, por ejemplo, cambiar el color de fondo, copiar con diferentes formatos, pedir que muestre la leyenda; en este caso no tiene mucho sentido pues hay sólo una variable. Ejercicio 4.12: Utilizando la base de Datos Ej.4.12. a) Calcular la media, la mediana, la varianza, la desviación estándar, el máximo, el mínimo, el rango y el coeficiente de variación para las variables edad, peso, altura y número de hijos. b) Calcular los porcentajes de fumadores y de hipertensos. Instrucciones para InfoStat: En Estadísticas → Medidas de resumen, se pasan las variables numéricas. Para calcular los porcentajes de las variables categóricas Fuma, Hipertenso y Diabético: Estadísticas → Tablas de frecuencias; se pasan las variables al campo de Variables y se 16 da Aceptar → Aceptar. Se obtienen las frecuencias absolutas y las frecuencias relativas de cada categoría. Ejercicio 4.13: En el año 2005 se evaluaron niños de jardines de infantes de Capital Federal en el marco de un estudio nutricional. La base de datos que se encuentra en el archivo Ej. 4.13 corresponde a 80 niños entre 2 y 5 años de edad y comprende, entre otras variables, la medición del índice de masa corporal (Body Mass Index: BMI = peso(kg)/[estatura(m)]2). Efectuar una estadística descriptiva de los datos de BMI y confeccionar un histograma y un box-plot para visualizar la distribución de la variable. Instrucciones para InfoStat: Para efectuar el histograma de la variable BMI, Gráficos → Histograma → Aceptar. Pasar la variable BMI. Se puede visualizar los límites de los intervalos, o las marcas de clase (el valor medio de X para cada barra). Se puede aumentar o disminuir la cantidad de clases. Se puede elegir la escala de las ordenadas en Frecuencia absoluta o relativa. En Herramientas gráficas, en la solapa EjeX, se puede disminuir la cantidad de decimales. Además, en la solapa Series se puede elegir un título o, si se prefiere, destildar Título visible y hacer invisible el título. Si se quieren hacer dos histogramas, uno para los varones y otro para las mujeres, en Histograma, en la solapa Particiones, enviar la variable Sexo a “Particionar por”. Para efectuar el box-plot, ir a Gráficos → Gráfico de cajas (Box-Plot)→En Variables a graficar, pasar la variable BMI. Si se quiere hacer un Box-Plot para cada sexo, en Criterios de clasificación poner Sexo. Ejercicio 4.14: En 166 niños en edad escolar entre 2 y 13 años, se midió el Tanner, un índice del estadio de madurez sexual. Los datos se encuentran en el archivo Ej.4.14. Para observar la distribución de los valores de la variable categórica en la muestra, sobre la base de la frecuencia de aparición de los diversos estadios de Tanner, obtener un gráfico de tortas o sectores. Instrucciones para InfoStat: Una vez abierto el archivo correspondiente al Ej 4.14, ir a Gráficos → Gráfico de sectores → Categorías en fila (pues las diferentes categorías del Tanner se encuentran en las filas) → Enviar Tanner a Sectores de la torta → Aceptar. Se puede aumentar el tamaño del círculo desde el cuadro de Herramientas gráficas. También se pueden pedir diferentes opciones para mostrar sobre las categorías (el n y %, el nombre, etc.). Desde algún lugar del gráfico, con el botón derecho del mouse, se puede pedir que muestre la leyenda de las categorías y desde la solapa Serie, de Herramientas gráficas, se le puede cambiar el nombre a la categoría: se hace doble click en el nombre de la serie y se edita el nombre; por ejemplo, en lugar de 1, Tanner 1, y así con todas las categorías. Ejercicio 4.15: A los 166 niños del ejercicio 4.14 se les midió, además de otras variables nutricionales, el BMI. 17 Se quiere observar si el BMI aumenta proporcionalmente con el estadio de Tanner. Para ello, graficar un diagrama de barras donde, para cada categoría, se visualice la media y el desvío estándar de la variable BMI. Instrucciones para InfoStat: Abrimos el archivo correspondiente al Ej.4.15 en InfoStat, y vamos a Gráficos → Gráfico de barras → BMI a la ventana de Variables y Tanner a la ventana de Criterios de clasificación (optativa) → Aceptar → Por defecto va a representar la Media y, como medida de dispersión, el Error estándar. Dejar tildada la opción de tratar al eje X como categórico (si no se hace esto, la visualización del eje X es complicada, pues hay que aumentar mucho los ticks para que muestre los números naturales 1,2,3 y 4). Se puede aumentar el grosor de las barras, aumentando el tamaño en la solapa Series. En la solapa del EjeY, cambiar el mínimo de la escala al cero. Ejercicio 4.16: Con los datos del Ejercicio 4.12 efectuar un análisis de datos. a) Calcular la media y el desvío estándar de la edad en hipertensos y en no hipertensos. Efectuar un gráfico de barras para la variable Edad, clasificando por la variable Hipertensión. Poner el mínimo del eje Y en cero. b) Calcular la media y el desvío estándar de la altura en hipertensos y en no hipertensos. Efectuar un gráfico de barras para la variable Altura, clasificando por la variable Hipertensión. Poner el mínimo del eje Y en cero. Comparar con el gráfico de a). c) Para número de hijos hacer un diagrama de barras. Instrucciones para InfoStat: Gráficos → Gráfico de barras → Como Variable a graficar pasar: Casos, como Criterio de clasificaciòn Nº de Hijos → Aceptar → Medida de confianza: Ninguna, desplegar solapa y elegir Frecuencia relativa → Aceptar. Para que el eje X quede ordenado numéricamente se debe ordenar la base por la variable Nº de Hijos d) Calcular los porcentajes de fumadores y de hipertensos y efectuar un diagrama de tortas o sectores. Instrucciones para InfoStat: Hay que estar situados en la base de datos correspondiente → Gráficos → Gráfico de sectores → Categorías en filas → Aceptar: En la solapa Herramientas gráficas se puede elegir el rótulo de los sectores: valor, valor (%), etc. e) Calcular el porcentaje de diabéticos y efectuar un diagrama de tortas. f) Efectuar un diagrama de dispersión para las variables: peso vs. edad; altura vs. edad y peso vs. altura. Instrucciones para InfoStat: Gráficos → En EjeY pasar la variable Peso. En EjeX pasar la variable Edad → Aceptar. Ejercicio 4.17: Con los datos del Ejercicio 4.12, construir un histograma para la variable peso y otro para la altura determinando el número de clases con la regla de Sturges: )log(.3,31 clases deN n+= Comparar las distribuciones de ambas variables. 18 TRABAJO PRÁCTICO N 5 ESTIMACIÓN POR INTERVALOS DE CONFIANZA En todos los ejercicios definir claramente las variables aleatorias utilizadas, su distribución, sus parámetros . Ejercicio 5.1: Retomemos el Ejercicio 3.10: Entre los diabéticos adultos, el nivel de glucosa en sangre en ayunas puede suponerse de distribución aproximadamente normal, con media 116 mg/dl y desviación estándar 15 mg/dl. a) ¿Cuál es la probabilidad de que un diabético adulto tenga en ayunas un nivel de glucosa inferior a 100? (Esta probabilidad estaba calculada en 3.10 b)) b) ¿Cuál es la probabilidad de que, si se toma una muestra de 9 individuos y se les mide la glucemia en ayunas, lamedia de la muestra sea inferior a 100 mg/dl? c) ¿Cuál es la probabilidad de que un adulto diabético en ayunas tenga un nivel comprendido entre 100 y 132 mg/dl? (Esta probabilidad estaba calculada en el punto c del problema 3.10) d) ¿Cuál es la probabilidad de que, si se toma una muestra de 9 individuos y se les mide la glucemia en ayunas, la media de la muestra esté comprendida entre 100 y 132 mg/dl? e) Compare b y d con los valores de probabilidad obtenidos en los ítems a) y c). Interprete. Ejercicio 5.2: En un criadero de pollos se sabe que el peso de la cresta es una variable aleatoria normalmente distribuida con media = 101,8 mg y Varianza = 784 mg2. a) Calcular la probabilidad de que el peso de la cresta de un pollo tomado al azar de esa población supere los 95 mg. b) Si se extrae una muestra aleatoria de 16 pollos y se calcula el peso medio X , calcular: P( X > 95) Ejercicio 5.3: Se sabe que la nota del examen de Bioestadística de los estudiantes de una carrera universitaria es una variable aleatoria normalmente distribuida con media 5,8 y desviación estándar 2,4. Hallar la probabilidad de que la media de una muestra tomada al azar de 16 estudiantes esté comprendida entre 5 y 7. 19 Ejercicio 5.4: La concentración de hierro en el suero de hombres normales sigue una distribución normal con media 120 g /100ml y desviación estándar 15 g /100ml. a) ¿Cuál es la probabilidad de que una muestra aleatoria de nueve hombres normales proporcione una media entre 115 y 125 g/100ml? b) Idem tomando una muestra de 16 hombres. c) ¿Cuál es el tamaño mínimo de muestra a tomar, si se quiere que la probabilidad de que la media esté entre esos valores sea mayor que 0,90? Ejercicio 5.5: La altura de las plantas de un invernadero tiene una varianza de 2,56 cm2. Se extrae una muestra al azar de 20 plantas y se obtiene una altura promedio de 10,6 cm. a) Estimar, con un coeficiente de confianza de 95%, la altura media de las plantas del invernadero. Indicar las suposiciones necesarias para que la estimación sea válida. b) Efectuar la misma estimación que en a) pero con una confianza del 90%. c) Comparar ambos intervalos y extraer conclusiones. d) Si se selecciona una muestra de 40 plantas y se obtiene la misma media muestral, hallar un intervalo de confianza del 95% para la altura media de las plantas del invernadero. Comparar con el resultado obtenido en a). Ejercicio 5.6: El número de latidos por minuto en individuos de cierta población se considera una variable aleatoria distribuida normalmente con desviación estándar 5 latidos por minuto. Se selecciona al azar una muestra de 49 individuos de esa población y se obtiene una media de 80 latidos por minuto. Hallar: a) Un intervalo de confianza del 90% para el número medio de latidos por minuto en individuos de esa población. b) Un intervalo de confianza del 95% para el número medio de latidos por minuto en individuos de esa población. Ejercicio 5.7: El peso uterino de ratas para experimentación es una variable aleatoria normal con = 35 mg. Hallar qué tamaño mínimo de muestra se necesita para estimar la media poblacional con aproximación de 10 mg y una confianza del 95%. Instrucciones para InfoStat: Estadísticas → Cálculo del tamaño muestral → Para estimar una media con una precisión deseada → En Amplitud Intervalo de confianza 95%, poner 20 (=10*2). En cota superior para la varianza escribir 1225 (=35^2); dar Enter: en tamaño muestral requerido calcula 47. Ejercicio 5.8: Se supone que el nivel de hemoglobina en varones mayores de 11 años está distribuido normalmente con = 1,209 g/100 ml. ¿Qué tamaño mínimo de muestra se deberá 20 tomar para estimar la media de la población con un intervalo de confianza del 99% y una longitud de 1 g/100 ml? Ejercicio 5.9: Se hicieron varias mediciones del contenido de glucosa de una solución. Suponiendo que estas mediciones se distribuyen normalmente y que se conoce su varianza, se calculó un intervalo de confianza de nivel 0,95 para la media y resultó (10,28; 11,32). Decir si las siguientes afirmaciones son verdaderas o falsas y explicar por qué: a) El 95% de las mediciones caerá en ese intervalo. b) La probabilidad de que la próxima medición caiga en el intervalo es 0,95. c) Alrededor del 95% de las veces que uno realice el ensayo y construya el intervalo de confianza, éste contendrá la concentración media de glucosa de la solución. d) La probabilidad de que el intervalo (10,28 ; 11,32) contenga a la concentración media de glucosa es 0,95 Ejercicio 5.10: Sea X una variable aleatoria que sigue una distribución 2 con 36 grados de libertad. Mediante el uso de tablas hallar: a) P(X > 35,336). b) P(X < 61,582). c) a para que P(X > a) = 0,05. d) b para que P(X < b) = 0,1. Ejercicio 5.11: Suponga que el tiempo del recorrido de una línea de subte entre sus terminales sigue una distribución normal con una desviación estándar σ =1 minuto. Si se elige al azar una muestra de 17 tiempos de recorridos de subtes, encuentre la probabilidad de que la varianza muestral sea mayor que 2. Ejercicio 5.12: Sea X una variable aleatoria que sigue una distribución t de Student con 25 grados de libertad. Mediante el uso de tablas hallar: a) a para que P( X > a) = 0,05. b) b para que P( X < b) = 0,995. c) P( X > 3,45). d) P( X < 3,078). e) P(X > 2,787). f) P(X < -1,316). g) c para que P( X > c) = 0,001 h) d para que P(X < d) = 0,05 Ejercicio 5.13: El volumen de suero inyectado en ciertos pacientes es una variable aleatoria normal. De una muestra aleatoria de 15 pacientes se obtuvo una media x = 264 cm3 y una 21 desviación estándar s = 28 cm3. Hallar un intervalo de confianza del 98% para el volumen medio de suero inyectado. Ejercicio 5.14: Hallar la probabilidad de que una muestra aleatoria de 25 observaciones de una población normal con varianza σ2 = 6 tenga una varianza muestral: a) Mayor que 9,1 b) Entre 3,462 y 10,745. Ejercicio 5.15: El rendimiento de una variedad de maíz es una variable aleatoria que se distribuye normalmente. De una muestra de 10 parcelas cultivadas se obtuvo un rendimiento medio de 71 Tm/Ha con una desviación estándar de 8,7 Tm/Ha. Hallar un intervalo de confianza del 95% para la varianza de esa variable aleatoria. Ejercicio 5.16: Se midió la concentración de vitamina C en una muestra aleatoria de 9 latas de jugo de tomate comercialmente envasadas obteniéndose los siguientes datos en mg/100 g. 17 20 24 15 21 20 23 19 12 Suponiendo que estos datos constituyen una muestra aleatoria de una variable normalmente distribuida: a) Estimar su media con un intervalo de confianza del 95%. b) Estimar la desviación estándar de la concentración de vitamina C con un intervalo de confianza del 90%. Instrucciones para InfoStat: Abrir Nueva tabla. Con doble click en Columna A se edita el nombre de la variable → Poner Vit.C → Tipear los 9 datos, dando Enter a continuación de cada uno. Ir a Estadísticas → Inferencia basada en una muestra → Intervalos de confianza → Pasar Vit.C a Variables → Seleccionar Media, Mediana y Varianza → Aceptar. Dejar Estimación paramétrica y Bilateral → Aceptar. Ejercicio 5.17: Se midió el nivel de glucemia en sangre de 16 pacientes diabéticos tratados con una nueva medicación, obteniéndose una media de 72,5 mg/dl y un desvío de 12,39 mg/dl.. Suponiendo que el nivel de glucemia se distribuye normalmente: a) Estimar su media con un intervalo de confianza del 99%. b) Estimar la varianza del nivel de glucemia en sangre con un intervalo de confianza del 95%. Ejercicio 5.18: La pérdida promedio en el peso de 16 pacientes después de una semana de tratamiento es de 3,42 kg. Suponiendo que el peso se distribuye en forma normal, hallar un intervalo de confianza del 95%para la pérdida promedio de peso de la población de pacientes que reciben el tratamiento. a) En el caso que es conocida, = 0,68 kg. 22 b) En el caso que es desconocida y s = 0,68 kg. c) Comparar la longitud de los intervalos obtenidos. Ejercicio 5.19: La distribución del colesterol total en sangre en una población de niños de cierta edad se distribuye de forma normal con desvío estándar 32. ¿Qué tamaño mínimo de niños se deben observar para estimar el colesterol medio de dicha población con una aproximación ± 5 y una confianza del 90%. Ejercicio 5.20: El nivel de Hemoglobina (Hb) en pacientes con anemia perniciosa se distribuye normalmente con desviación estándar 2,5 mg/dl. ¿Cuál es el mínimo tamaño de muestra que se debe tomar si se quiere estimar la esperanza de la población con un intervalo de confianza del 95% de longitud no mayor que 0,8? Ejercicio 5.21: Generar, mediante simulación, 100 muestras aleatorias de tamaño 10 de una variable aleatoria X ~ N(50 ; 4). Para cada una de las 100 muestras, calcular el intervalo de confianza del 95% para la media. ¿Cuántos se espera que no contengan al verdadero valor de = 50? Contar cuántos son los intervalos que no contienen al valor 50. Instrucciones para InfoStat: Aplicaciones → Didácticas → Intervalos de confianza → En Media escribir 50; en Varianza, 16. En tamaño muestral, dejar 10. El resto queda igual: 100 intervalos, Confianza 95% → Aceptar. En el gráfico de la simulación de 100 intervalos de confianza, Cobertura significa el porcentaje de intervalos que contienen a la media poblacional µ = 50. Los intervalos que no la contienen están marcados en rojo. No resulta la misma cobertura todas las veces que se efectúe una simulación, pues el intervalo del 95% significa que, de cada 100 intervalos que se construyan en las mismas condiciones, en promedio, 95 van a contener al parámetro. Observar que las longitudes de los intervalos de confianza son diferentes: esto es porque las varianzas que se usaron fueron las muestrales. 23 TRABAJO PRÁCTICO N 6 TEST DE HIPÓTESIS En todos los problemas, aun cuando no esté especificado, suponer que las variables en estudio siguen distribución normal. Ejercicio 6.1: La producción media anual de manzanas de una zona del valle del Río Negro es una variable aleatoria que se distribuye en forma aproximadamente normal con esperanza 90,4 Tm/ha y desviación estándar 6 Tm/ha. En el contexto de la posible adquisición de un nuevo fertilizante, se registró la producción de manzanas de 16 parcelas tratadas con el fertilizante y se obtuvo una media de 94,3 Tm/ha. a) Decidir, con un nivel de significación del 5%, si con el nuevo fertilizante se obtiene un rendimiento medio mayor que el histórico. Suponer que la desviación estándar de la población no se modificó sensiblemente. b) Calcular el mínimo nivel de significación con el cual se rechaza la hipótesis nula. c) Discutir la conveniencia de calcular el nivel justo de significación. d) ¿Cuál sería la decisión de la prueba si la desviación estándar poblacional hubiera sido de 15 Tm/ha? Ejercicio 6.2: El aumento semanal de peso de los pollos de un criadero se considera una variable aleatoria distribuida normalmente con desviación estándar 9 g. Un establecimiento que fabrica alimentos para ese criadero estudia la posibilidad de agregar un nuevo producto al alimento tradicional, que se considerará efectivo si con él se obtiene un aumento promedio de peso de por lo menos 200 g en una semana. El establecimiento no desea perder la oportunidad de fabricar el alimento si razonablemente se puede suponer que el nuevo producto es efectivo. Determinar: a) Las hipótesis que planteará. b) El estadístico de prueba y la zona de rechazo si trabaja con = 0,05. c) La decisión que tomará (¿se fabricará el alimento?) si una muestra aleatoria de 10 pollos de ese criadero alimentados con el alimento tradicional al que se agregó el nuevo producto produjo una media x = 196 g. d) ¿Se puede informar la probabilidad de equivocarse al tomar la decisión? e) Si ahora la premisa es: “Como el establecimiento se encuentra en etapa de control de presupuesto, sólo efectuará la inversión del cambio de producción si puede probar, con pequeño error, que el nuevo producto es realmente efectivo” ¿qué hipótesis se hubieran planteado? Ejercicio 6.3: El contenido de vitamina C de un alimento balanceado producido por un establecimiento líder A es una variable aleatoria que se distribuye normalmente con media 180 mg/kg y desviación estándar 38 mg/kg. 24 Otra fábrica B saca a la venta un producto equivalente. Se quiere poner a prueba la hipótesis de que el contenido medio de vitamina C del alimento nuevo difiere de la del establecimiento líder. Para ello, se toma una muestra de 16 paquetes de B y se obtiene una media de 202 mg/kg. Suponiendo que la varianza del contenido de vitamina C del alimento producido por el establecimiento B también es de 38 mg/kg: a) Calcular el nivel justo de significación para decidir si los contenidos medios de vitamina C de los alimentos producidos por ambos establecimientos difieren significativamente. b) Decidir si se rechaza la hipótesis nula, si se declara: “Se considerará diferencia significativa si la probabilidad de error es menor del 5%”. c) Igual que en b) pero ahora “Se considerará significativa toda probabilidad de error menor del 1%”. Ejercicio 6.4: Se realizó una experiencia para determinar el efecto que produce una droga sobre la concentración de alcohol en la sangre de ratas en el momento de producirse cierta alteración respiratoria. Se midió esa concentración en 16 ratas tratadas con la droga y se obtuvo una media de 8,3 mg/ml y una desviación estándar de 1,2 mg/ml. Se quiere verificar si la concentración media de alcohol en la sangre de las ratas tratadas con la droga es inferior a 8,9 mg/ml. a) Indicar las variables aleatorias y las suposiciones acerca de ellas. b) Plantear la hipótesis nula y la alternativa. c) Determinar el estadístico de prueba y la zona de rechazo para un nivel de significación del 5%. d) Tomar la decisión utilizando los valores de la muestra y expresar esa decisión en términos del problema. Ejercicio 6.5: El contenido medio de los frascos de cierto antibiótico debe ser 1,5 g. Un laboratorio midió el contenido de antibiótico para una muestra de 9 frascos envasados automáticamente y obtuvo una media de 1,35 g y un desvío estándar de 0,159 g. a) Obtener un intervalo de confianza del 95% para el contenido medio. b) Utilizando a) decidir, con un nivel de significación del 5%, si el contenido de antibiótico de los frascos envasados automáticamente cumple la especificación pedida. Ejercicio 6.6: En el marco de un estudio sobre hidroarsenicismo crónico regional endémico (HACRE), se tomaron muestras de agua en dos partidos de la provincia de Córdoba y se midió la concentración de Arsénico (As) en g/litro. En 18 muestras del partido de Unión se obtuvo una media de 120 g/litro y en 20 muestras del partido de San Justo se obtuvo una media de 150 g/litro. Se supone que el contenido de As sigue una distribución aproximadamente normal con varianzas de 1600 (g/litro)2 para Unión y 2025 (g/litro)2 para San Justo. ¿Se puede afirmar que existe diferencia significativa entre los contenidos medios de As de los dos partidos? Calcular el valor P (mínimo nivel de significación con el cual se rechaza H0) y tomar la decisión sobre la base de un nivel de significación del 5%. 25 Ejercicio 6.7: Sea X una variable aleatoria que sigue una distribución F de Fisher. Mediante el uso de tablas hallar: a) a para que P(X > a) = 0,10; si 1n = 30 , 2n = 40. b) b para que P(X < b) = 0,95; si 1n = 40 , 2n = 40. c) P(X > 2,27) si 1n = 15 , 2n = 18. d) P(X < 4,70) si 1n= 5 , 2n = 14. e) c para que P(X > c) = 0,90; si 1n = 20 , 2n = 15. f) P(X > 8,53) si 1n = 1 , 2n = 16 Si T una variable aleatoria que sigue una distribución de Student con 16 grados de libertad, hallar: P(|T| > 2,921) ; P((T)2 > (2,921)2) y comparar los resultados obtenidos. Ejercicio 6.8: Un laboratorio produce una nueva droga que, se supone, disminuye el nivel de colesterol en sangre. Como esa droga puede tener efectos adversos de cierta gravedad, sólo se continuará investigando sobre ella si se puede admitir su efectividad con probabilidad de error pequeña. Para decidir sobre la cuestión, efectúan un estudio preclínico en conejos de la siguiente manera: 28 conejos se mantuvieron durante un tiempo prudencial con una dieta hipercolesterolémica. Luego, a 13 de ellos tomados como control se les midió el nivel de colesterol en sangre y se obtuvo una media de 241,5 mg/dl y una varianza de 1264 (mg/dl)2. Al grupo restante de 15 conejos se los trató con la droga y se obtuvo una media de 220,9 mg/dl y una varianza de 875 (mg/dl)2. a) Identifique las variables aleatorias y las suposiciones necesarias para poder efectuar el análisis. Plantear las hipótesis: nula y alternativa, atento a la condición impuesta, definir el estadístico de prueba y la zona de rechazo si se fija el nivel de significación en 1%. b) Efectuar el test correspondiente para verificar si se cumple la homogeneidad de varianzas. c) Si se verifica la homogeneidad de varianzas, efectuar el test de Student para muestras independientes para decidir si el laboratorio continuará investigando sobre la droga. d) ¿Cuál es la decisión en cuanto a administrar la droga si el nivel de significación se fija en 1%? e) ¿Le parece adecuado el diseño de la prueba? ¿Qué propondría? Ejercicio 6.9: La empresa Eco andino se lanza al mercado a comercializar agua mineral sin agregado de sodio. Afirma que el contenido de sodio de su agua es significativamente menor que el de la empresa líder IceG. Para demostrarlo, toma 20 botellas de agua de cada empresa y mide los contenidos de sodio de ambas muestras. Para el agua IceG obtiene una media de 11,06 mg/dL y una desviación estándar de 2,26 mg/dL; para el agua Eco andino, obtiene una media de 9,25 mg/dL con una desviación estándar de 3,85 mg/dL. Testear la homogeneidad de varianzas. 26 Ejercicio 6.10: En un estudio sobre 15 mujeres posmenopáusicas sin ningún tipo de tratamiento, 9 de ellas se diagnosticaron con osteoporosis y las restantes 6, sin osteoporosis, se consideraron controles. Se midió la producción de Factor de Necrosis Tumoral (TNF) liberado (ng/ml) en todas las mujeres. En el grupo con osteoporosis resultó una media de 1,33 y un desvío estándar de 0,54; en el grupo control, una media de 2,68 y un desvío estándar de 0,69. ¿Se puede afirmar que hay diferencia significativa entre las concentraciones medias de TNF liberado del grupo control y del grupo con osteoporosis? Basar la decisión en el cálculo del nivel justo de significación, si se declara: “Se considerará significativa toda probabilidad de error menor del 5%”. Ejercicio 6.11: Los datos de esta base se encuentran en el archivo Ej.6.11. Un investigador midió la disminución de ácidos grasos libres (Eq/l) después de 30 minutos de aplicada una inyección de glucosa, en perros normales y en perros hipertiroideos. Los datos obtenidos fueron: Normales 10 30 48 60 16 58 Hipertiroideos 79 142 126 50 68 75 El investigador sospecha que la disminución media es mayor en los hipertiroideos que en los normales, y desea confirmar o no su sospecha. a) Efectuar el test correspondiente para verificar la suposición acerca de las varianzas. b) Según el resultado de a), realizar el test adecuado indicando el nivel justo de significación y expresar la conclusión en términos del problema. Instrucciones para InfoStat: Abrir el archivo correspondiente a Ej.6.11. Estadísticas → Inferencia basada en dos muestras → Prueba t → Enviar la variable DismAGL a Variables, y Grupo a Criterios de clasificación → Aceptar → Cambiar donde dice “Usar la corrección de Satterwait” si las varianzas no son homogéneas para un nivel de significación del 5%”, subirlo al 10%. Tildar Varianzas y gl (grados de libertad). Se recomienda dejar la prueba bilateral y luego dividir por 2 el valor del p-valor para que sea un test unilateral (Si no se hace así, hay que observar que donde dice grupos activos en el segundo cuadro de diálogo, puso primero Hipertiroideos, porque usó el orden alfabético, entonces hay que elegir prueba unilateral derecha, pues la diferencia la va a hacer Hipertiroideos menos Normales, y eso es a la derecha porque se quiere probar que la disminución media de los hipertiroideos es mayor que la de los normales). Ejercicio 6.12: Con los datos de Ej.4.5 decidir si, en el test de destreza manual, el puntaje medio de los pacientes con esclerosis múltiple es significativamente diferente al de los individuos tomados como controles. Efectuar previamente el test de homogeneidad de varianzas. 27 Instrucciones para InfoStat: Para el test de homogeneidad de varianzas, ir a Inferencia basada en dos muestras → Prueba F para igualdad de varianzas → Puntaje a Variables; Grupo a Criterios de clasificación → Aceptar → Aceptar. Como el p-valor es mayor que 0,10, se puede hacer la prueba t para dos muestras independientes. Observar que, aunque no se hubiera hecho el test F, en la prueba t se puede pedir que, si las varianzas no resultan homogéneas al nivel del 10%, efectúe la corrección por heterogeneidad de varianzas que, en el InfoStat, es la de Satterwait. Además, observar que en la salida, el programa muestra el p-valor del test F, como pHomVar. Ejercicio 6.13: Los datos se encuentran en el archivo Ej.6.13. En un estudio se incorporaron 21 pacientes que consultaron por infertilidad y con diagnóstico de varicocele clínico, y 8 varones con fertilidad reconocida. Se les efectuó un estímulo de GnRH y se midió LH a los 30 y 60 minutos. En todos hubo hiper- respuesta de LH. Los resultados están expresados como incremento máximo respecto del basal. Decidir si el incremento máximo de LH respecto del basal medio en los pacientes con varicocele es mayor que en los controles. a) Efectuar el test correspondiente para verificar la suposición acerca de las varianzas. b) Realizar el test adecuado indicando el nivel justo de significación. Ejercicio 6.14: Con los datos de las bases de datos: Ej.4.3.a y Ej.4.3.b, efectuar el test para poner a prueba la hipótesis de que las FSH medias de los dos grupos resultan significativamente diferentes. Discutir los resultados obtenidos en cada una de las dos situaciones. Analizar previamente la homogeneidad de varianzas. Ejercicio 6.15: Analizar si el peso medio de los varones hipertensos difiere o no del de los normotensos. Los datos para el inciso b) se encuentran en el archivo Ej.4.12. a) Utilizando los datos del alumno AG. b) Utilizando los datos de la base completa, de 540 filas. Realizar previamente el boxplot y QQ plot para hipertensos y normotensos. Instrucciones para InfoStat: Abrir el archivo Ej.4.12→ Estadísticas→Inferencia basada en dos muestras→Prueba t→En la solapa Particiones: pasar Alumno a Particionar por→Seleccionar todos los que no sean AG y enviarlos con la flecha al campo inferior, para quitarlos del análisis. Pasar a la ventana Variables la Variable Peso; y a la ventana Criterios de clasificación, la variable Hipertenso. Para efectuar el análisis con la base completa, en Inferencia basada en dos muestras, Prueba t, hacer click en Limpiar y sin particionar efectuar nuevamente el análisis. 28 Ejercicio 6.16: Los datos siguientes corresponden a la prueba de tolerancia a la glucosa realizada en 7 pacientes varones acromegálicos: Paciente1 2 3 4 5 6 7 Glucemia (mg/dl) en ayunas 81 77 85 82 97 86 78 Glucemia (mg/dl) a los 120 minutos 76 84 83 95 92 97 84 Se quiere analizar si la glucemia varía al final de la prueba. Hallar el nivel justo de significación e indicar la conclusión en términos del problema. Ejercicio 6.17: Los datos siguientes corresponden a temperaturas (en °C) registradas en 7 conejos 24 y 48 horas después de inocularlos con un virus. La base de datos es Ej. 6.17. Conejo número 1 2 3 4 5 6 7 Temperatura a las 24 hs. 38,6 38,4 37,1 37,7 37,2 38,2 38,9 Temperatura a las 48 hs. 41,6 41,5 38,2 37,5 41,2 37,2 40,7 Se quiere ver si la temperatura aumenta significativamente entre el primero y segundo día posteriores a la inyección. Hallar el nivel justo de significación para rechazar la hipótesis nula e indicar la conclusión en términos del problema. Ejercicio 6.18: Con los datos del Ejercicio 4.4, ahora sí, responder la pregunta c) luego de calcular el nivel justo de significación. Los datos se encuentran en el archivo Ej.4.4. Ejercicio 6.19: Se dispone de dos métodos para determinar fosfatasa alcalina, en UI/l, uno de punto final y otro cinético. Un laboratorio sospecha que el método cinético es más preciso que el otro. Para probarlo se toma un pool de sueros normales. Se toman 8 alícuotas y se determina la fosfatasa alcalina por el método de punto final. Se toman otras 10 alícuotas y se efectúa la determinación por el método cinético, obteniéndose: Punto final 24 26 20 28 25 21 29 21 Cinético 28 27 25 29 26 25 26 24 25 24 Decidir si se confirma la sospecha del laboratorio, indicando el nivel justo de significación. Ejercicio 6.20: En un experimento se compararon las propiedades soporíferas de dos drogas A y B. Para ello se midió la cantidad de horas de sueño ganadas por paciente para cada una de las drogas, obteniéndose: 29 Droga A 0,7 -1,6 -0,2 -0,1 3,4 3,7 0,8 0,0 2,0 -1,2 Droga B 1,9 0,8 1,1 -0,1 4,4 5,5 1,6 4,6 3,4 0,1 Los datos se encuentran en el archivo Ej.6.20. Detectar si la presunta superioridad de la droga B es atribuible o no a las diferencias entre los comportamientos individuales de los pacientes. a) Suponiendo que las drogas se aplicaron a distintos pacientes. b) Suponiendo que ambas drogas se aplicaron sucesivamente (dejando transcurrir un intervalo prudencial de tiempo y en orden aleatorio) sobre cada uno de los 10 pacientes. c) Interpretar las diferencias observadas entre el modelo a) y el b). 30 TRABAJO PRÁCTICO N 7 ANÁLISIS DE LA VARIANZA En todos los ejercicios definir claramente las variables aleatorias utilizadas e indicar las suposiciones necesarias. Instrucciones para InfoStat: Estadísticas → Análisis de la varianza → Variables dependientes: pasar Puntaje; Variables de clasificación: pasar Grupo → Aceptar. Estadísticas → Inferencia basada en dos muestras → Prueba t → Aceptar: seleccionar los grados de libertad. Observar que el p-valor es igual al obtenido con el test t; que el estadístico del Análisis de la varianza es igual al del test t elevado al cuadrado, y que los grados de libertad del estadístico t coinciden con los grados de libertad del CMDENTRO (CMERROR). Ejercicio 7.1: En una experiencia diseñada para investigar el efecto de una hormona sobre el crecimiento de cierta especie de ratas jóvenes, se dividieron aleatoriamente 10 animales en tres grupos. El primer grupo fue tratado con placebo (sin hormona), el segundo con una dosis débil de la hormona y el tercero, con una dosis fuerte de la misma. Después de 15 días se midió el aumento de peso de los animales. Los resultados que figuran en la tabla se obtuvieron después de aplicar una transformación lineal a los datos originales: Tratamiento Placebo Dosis débil Dosis fuerte Aumento de peso 3 0 5 8 6 9 12 13 10 15 a) Decidir, con nivel de significación del 1%, si los aumentos medios de peso obtenidos con los tres tratamientos son globalmente diferentes. b) Mediante el test de Bonferroni, determinar cuáles son los tratamientos con los que se obtienen diferentes aumentos de peso medios. i) Trabajando con nivel de significación global del 5%. (Dato: t7; 0,05/3. 2 = 3,128). ii) Trabajando con nivel de significación global del 1%. (Dato: t7; 0,01/3. 2 = 4,355). Ejercicio 7.2: En una investigación interesaba comparar las capacidades de tres medicamentos para retardar el tiempo de reacción de animales experimentales a cierto estímulo. La tabla muestra el tiempo de respuesta, en segundos, para cada medicamento. 31 Medicamento I II III Tiempo de respuesta 5 9 7 7 8 10 9 6 9 12 14 13 a) Decidir si los tiempos medios de respuesta son los mismos para los tres medicamentos, indicando el nivel justo de significación. b) ¿Tendrá validez el análisis si se tuviera la certeza que con el Medicamento III la variación en el tiempo de respuesta es mayor que la correspondiente a los otros medicamentos? Ejercicio 7.3: Se rociaron hojas de manzanos con diferentes concentraciones de un compuesto nitrogenado y se midió la cantidad de nitrógeno (en mg/dm2) que permanecía en las hojas después de un tiempo determinado. Se obtuvieron los siguientes resultados: Concentración del compuesto C1 C2 C3 C4 Cantidad de nitrógeno en la hoja 3,28 3,09 3,03 3,03 3,52 3,48 3,38 3,38 2,88 2,8 2,81 2,76 3,34 3,38 3,23 3,26 a) Decidir si hay diferencia significativa entre las respuestas medias correspondientes a las 4 concentraciones de nitrógeno. b) Mediante el test de Tukey, con nivel de significación global del 1%, establecer para cuáles concentraciones las respuestas medias difieren significativamente. Ejercicio 7.4: Una central de productos lácteos recibe diariamente leche proveniente de cinco tambos A, B, C, D y E. Para controlar la calidad de los productos, de cada tambo se eligen al azar 5 muestras de leche y, en cada muestra, se analiza el contenido de materia grasa (en gr/l). Los resultados obtenidos son los siguientes: Tambo A B C D E 29 26 21 28 25 30 32 18 32 19 31 30 23 26 20 30 28 25 24 24 35 29 27 33 21 32 a) Verificar si el contenido medio de grasa depende del tambo de procedencia. b) Si corresponde hacerlo, decidir cuáles son los tambos para los cuales los contenidos medios de materia grasa difieren significativamente: i) Utilizando el test de Tukey con nivel de significación global del 5%. ii) Utilizando el test de Bonferroni con nivel de significación global del 5%. iii) Comparar los resultados de i) y ii). Ejercicio 7.5: En una experiencia interesaba comparar 3 nuevos métodos de determinación de Colesterol-HDL (mg/dl) con un método estándar. Con cada método se hicieron 3 determinaciones independientes. Verificar si hay diferencia significativa entre cada uno de los métodos nuevos y el método estándar. Método Estándar I II III 55 47 48 55 64 64 55 49 52 50 44 41 Ejercicio 7.6: Para verificar si la administración de distintas dosis de cotinina produce una disminución en la concentración de triglicéridos, se midió dicha concentración (en mg%) en el plasma de ratas que recibieron tres dosis diferentes de la droga, y en un grupo que permaneció como control. Se obtuvieron los siguientes datos: Tratamiento Control Dosis baja Dosis media Dosis alta 154 174 61 88 109 141 74 127 122 151 96 180 115 66 57 70 45 31 60 175 55 45 41 36 51 34 91 81 Indicar con cuáles dosis la concentración media de triglicéridos disminuye significativamente con respecto al control. Ejercicio 7.7: En los Ejercicios 7.2, 7.3, 7.4, 7.5 y 7.6 verificar si se cumple la suposición de igualdad de varianzas. 33 Ejercicio 7.8: En un ensayo de alimentación devacas lecheras se compararon 4 raciones que fueron administradas a vacas de la misma raza pertenecientes a un mismo establecimiento. Los datos corresponden a la producción diaria de leche, en l/vaca, observada luego de 12 semanas de administración. Ración A B C D ni 5 4 6 4 Ti 127 109 107 70 2 is 23,3 24,9 13,7 21,6 a) Determinar si hay diferencia significativa entre las producciones medias obtenidas con las distintas raciones, verificando previamente si se cumple la suposición de homogeneidad de varianzas. b) Si X es la producción diaria de leche de las vacas de esa raza pertenecientes a ese establecimiento, ¿cómo podría estimarse Var(X)? Ejercicio 7.9: En el Ejercicio 6.12 (Base de datos, Ej.4.5) se analizó si, en el test de destreza manual, el puntaje medio de los pacientes con esclerosis múltiple es significativamente diferente al de los individuos tomados como controles. El análisis se realizó utilizando el test de Student para diferencia de medias en muestras independientes. a) Efectuar el mismo análisis utilizando el Análisis de varianza de un criterio. Decidir sobre la base del nivel justo de significación. b) Comprobar que el valor del estadístico de prueba del Análisis de varianza es igual al valor del estadístico del test "t" elevado al cuadrado, y que lo mismo ocurre con los valores que determinan las zonas de rechazo para un nivel de significación determinado. c) Comparar el nivel justo de significación obtenido en a) con el calculado al efectuar el test de Student. Ejercicio 7.10: Para conocer el efecto de la temperatura sobre la tasa de crecimiento de los camarones cultivados en acuarios, una muestra de 17 camarones en estado post larvario se asignó aleatoriamente a 4 acuarios con diferentes niveles de temperatura fijados previamente. Después de 3 semanas de permanencia en el acuario se observó el aumento de peso, en gramos, correspondiente a cada camarón. a) Verificar si el aumento medio de peso depende de la temperatura del acuario. Analizar previamente si se cumple la suposición de homogeneidad de varianzas. b) Si el aumento de peso se expresa en mg y se efectúa el Análisis de la varianza, ¿cuál es el valor del estadístico de prueba? 34 c) Con los datos expresados en mg, utilizando el test de Tukey con nivel de significación global del 1%, determinar para qué temperaturas los aumentos de peso medios difieren significativamente. Los datos se encuentran en el archivo Ej.7.10. Instrucciones para InfoStat: Estadísticas→Análisis de varianza→Aum.peso(g) a Variables dependientes; Temperatura a Variables de clasificación.→Aceptar→ En la solapa Comparaciones tildar Tukey y, en Nivel de significación, 0,01→Aceptar. Para transformar la variable de g a mg, en Datos → Fórmulas: Seleccionar la variable Aum.peso(g) → Aceptar → Del listado de fórmulas seleccionar Combinación lineal y en coeficientes tipear 1000, y desmarcar Sobrescribir → Aceptar . Se crea una nueva variable llamada Combinación Lineal. Efectuar el ANOVA con la variable en mg. Observar que el estadístico de prueba es igual al del ANOVA de la variable sin transformar, y el p-valor es igual que con la variable en g. Ejercicio 7.11: Utilizando InfoStat, verificar los valores de tabla que se dieron como datos en el Ejercicio 7.1. En InfoStat, entrar en Estadísticas → Probabilidades y cuantiles → TStudent(v), se colocan los 7 grados de libertad en v. En P(X > x): la probabilidad 0,025 dividido por 3 (0,0083333: hay que efectuar el cálculo aparte → Calcular → en Valor de x aparece 3,12755… Ejercicio 7.12: Se registró la longitud de salmones jóvenes obtenidos en una pesca durante la marea baja, en tres períodos diferentes de tres semanas cada uno. Interesa determinar si la longitud media difiere significativamente en los distintos períodos. Los datos recogidos, en mm, fueron: Período I II III 41 62 70 79 19 78 142 96 130 148 53 98 138 414 235 138 164 285 a) Efectuar un diagrama que indique los períodos en el eje X y las longitudes observadas en el eje Y. b) Calcular las medias y las varianzas muestrales para cada uno de los períodos y poner a prueba la homogeneidad de varianzas. c) Transformar los datos mediante la función logarítmica y, con los datos transformados, efectuar un diagrama de dispersión como el de a). 35 d) Verificar si con los datos transformados las varianzas resultan homogéneas. e) Determinar si hay efecto significativo del período de recolección sobre la longitud de los salmones. f) Mediante el test de Tukey analizar las diferencias entre los períodos. Instrucciones para InfoStat: a) Gráficos → Gráfico de densidad de puntos → Pasar Longitud a Variables a graficar y Período a Criterios de clasificación (optativa). b) Estadísticas → Medidas resumen→Longitud a Variables y Período a Criterios de clasificación → Agregar Varianza(n-1) → Aceptar. Se puede efectuar el test de Hartley, mediante el cociente entre el S2 mayor dividido por el S2 menor y buscar el valor crítico en la tabla del Fmáx. c) Datos → Transformar → Pasar la variable Longitud a Variables a transformar → Aceptar → Hacer click en Log10 → Aceptar: se crea una columna en la base con el nombre LOG10_Longitud. d) Pedir las medidas de resumen para la variable LOG10_Longitud y efectuar el test del Fmax. e) y f) Estadísticas → Análisis de la varianza → LOG10_Longitud a Variables dependientes y Período a Variables de clasificación → Aceptar. f) En la solapa Comparaciones clickear Tukey y Gráfico de barras. Si se quiere hacer otro test a posteriori se debe correr nuevamente el Análisis de la varianza y elegir otro, por ejemplo Bonferroni. Ejercicio 7.13: En el Ejercicio 4.15 se analizó la relación entre BMI y estadio de Tanner en niños con edades comprendidas entre 2 y 13 años. Mediante un diagrama de barras se observó que los valores medios de BMI dependían del estadio de Tanner. a) Con el objeto de analizar si las diferencias observadas entre los valores medios de BMI correspondientes a distintos estadios de Tanner son estadísticamente significativas, verificar si se cumple la suposición de homogeneidad de varianzas. Realizar boxplot y QQ-plot de la variable Peso para cada categoría de Tanner. b) Transformar los datos mediante la función logarítmica y, con los datos transformados, analizar la homogeneidad de varianzas. Realizar boxplot y QQ- plot de la variable transformada para cada categoría de Tanner. Los datos se encuentran en el archivo Ej.7.13. 36 TRABAJO PRÁCTICO N 8 REGRESIÓN Y CORRELACIÓN En todos los ejercicios definir claramente las variables aleatorias utilizadas e indicar las suposiciones necesarias Ejercicio 8.1: Con el objeto de estudiar el efecto que el tratamiento con estrona produce en ratas hembras ovariectomizadas, una muestra aleatoria de 14 ratas se dividió aleatoriamente en 4 grupos y se administró a cada grupo una dosis diferente. Después de un tiempo se observó el peso del útero, expresado en mg. Los resultados fueron: Dosis en g 12 14 16 20 Peso del útero 35 34 28 22 56 45 53 61 56 60 69 96 88 92 Efectuar un diagrama de dispersión para observar si es razonable suponer que el peso del útero depende linealmente de la dosis de estrona administrada, en el rango observado de dosis. Los datos se encuentran en el archivo Ej.8.1. Instrucciones para InfoStat: Copiar y pegar las dos columnas Dosis y Peso → Gráficos → Diagrama de Dispersión → Peso → al Eje Y; Dosis → al Eje X → Aceptar. Ejercicio 8.2: En un estudio sobre la destrucción in vitro de adrenalina por el tejido hepático de rata, se efectuaron 3 determinaciones replicadas de la concentración Y de adrenalina en 5 momentos diferentes X, y se obtuvo: X (min) 6 18 30 42 54 Y (ng/ml) 30,0 28,6 28,5 8,98,0 10,8 4,1 4,6 4,7 1,8 2,6 2,2 0,8 0,6 1,0 Los datos se encuentran en el archivo Ej.8.2. Efectuar un diagrama de dispersión y observar si es razonable suponer que la concentración Y depende linealmente del tiempo X. 37 Ejercicio 8.3: En un estudio sobre la toxicidad del veneno del escorpión Tytius serrulatus, se midió el tiempo de supervivencia de un grupo de ratas a las que se administraron diferentes dosis de veneno. Se obtuvieron los resultados siguientes: X (dosis en g) 30 40 60 80 Y (Tiempo de sobrevida en minutos) 61 45 42 22 63 54 31 12 78 65 27 10 Los datos se encuentran en el archivo Ej.8.3. a) Ajustar una recta de regresión por el método de cuadrados mínimos según el modelo Yij = + xi + Eij . b) Si se le administra a una rata 50 g de veneno, estimar puntualmente el tiempo de sobrevida. c) Construir un intervalo de confianza del 95% para la pendiente de la recta. d) Del resultado obtenido en c), ¿se puede afirmar que la regresión es significativa? e) Efectuar un test de hipótesis con nivel de significación 0,05 para decidir si la regresión es significativa. Comparar el resultado con d). Calcular el nivel justo de significación. f) Obtener un intervalo de confianza del 95% para el parámetro de la recta de regresión. g) Estimar, mediante un intervalo de confianza del 95%, el tiempo medio de sobrevida que corresponde a una dosis de 50 g. h) Hallar un intervalo de predicción del 95% para el tiempo de sobrevida de una rata que recibe una dosis de 50 g. Compararlo con el intervalo hallado en f). i) Ponga a prueba la significación de la regresión mediante el estadístico CMreg/CMres. Compare con el estadístico obtenido en e). Interprete. Ejercicio 8.4: Un espectrofotómetro se calibra con 10 soluciones estándar para medir la concentración de una droga en el suero, obteniéndose: Solución 1 2 3 4 5 6 7 8 9 10 Concentración X(en mg/ml) 20 20 30 30 30 40 40 60 60 60 Lectura Y 19 21 24 27 27 29 31 35 36 37 Los datos se encuentran en el archivo Ej.8.4. 38 a) Ajustar una recta por el método de cuadrados mínimos b) Si se coloca una solución de concentración 35 mg/ml. ¿Qué lectura se espera en el espectrofotómetro? c) Si una solución da una lectura 30 en el espectrofotómetro, ¿cuál es su concentración? d) Hallar un intervalo del 95% de confianza para el parámetro de la recta de regresión. e) Efectuar el test para decidir si la regresión es significativa con nivel de significación 0,05. f) Hallar un intervalo del 95% de confianza para el parámetro de la recta de regresión. Ejercicio 8.5: Los datos siguientes corresponden a la presión sanguínea diastólica Y tomada durante e sueño en 5 tiempos t medidos desde el comienzo del sueño: T (minutos) 5 10 15 20 25 Y (mmHg) 72 66 70 62 64 Los datos se encuentran en el archivo Ej.8.5. a) Ajustar una recta por el método de cuadrados mínimos según el modelo Y = + t +E b) Sabiendo que SCRes =28,8, hallar un intervalo del 95% de confianza para la pendiente de la recta de regresión y utilizando ese intervalo decidir si la regresión es significativa con nivel de significación 0,05. c) Hallar un intervalo del 90% de confianza para el parámetro de la recta de regresión. d) Hallar un intervalo de confianza del 95% para E(Y) correspondiente a t = 10 min. Ejercicio 8.6: En una investigación con aves acuáticas se intenta establecer una relación mediante la cual pueda predecirse el tiempo de reproducción en días (Y), conociendo el fotoperíodo (X = número de horas de luz por día) bajo el cual se inició la reproducción. Se obtuvieron los siguientes datos observando el comportamiento de 11 patos buceadores: X 12,8 13,9 14,1 14,7 15,0 15,1 16,0 16,5 16,6 17,2 17,9 Y 110 54 98 50 67 58 52 50 43 15 28 Los datos se encuentran en el archivo Ej.8.6. a) Suponiedo que es razonable ajustar una recta de regresión, estimar los parámetros por el método de cuadrados mínimos. 39 b) Estimar, mediante un intervalo de confianza del 95%, la duración media del período de reproducción cuando el fotoperíodo bajo el cual se inicia la reproducción es de 14 hs. c) ¿La ecuación hallada en b), puede emplearse correctamente para estimar la duración media del período de reproducción si ésta se inició cuando había 9 horas de luz por día? Ejercicio 8.7: Los siguientes datos se obtuvieron en una investigación para determinar la capacidad de cortes de hígado de cobayos de edades diferentes para conjugar fenolftaleína con ácido glucorónico (Y): X (edad en días) 1 3 5 6 10 11 14 15 21 Y (nmoles conjugados) 5,6 8,8 12 18 31 38 44 22 37 46 54 Los datos se encuentran en el archivo Ej.8.7. a) Ajustar una recta por el método de cuadrados mínimos según el modelo Y = + x +E b) Hallar un intervalo de confianza del 95% para E(Y) correspondiente a X = x c) Hallar intervalos de confianza del 95% para E(Y) correspondientes a x = 15; x = 18; x = 2; x = 5 Ejercicio 8.8: En una experiencia para calibrar un instrumento para medir la resistencia eléctrica de cierto material se obtuvieron las siguientes mediciones. X es la resistencia eléctrica (en ohm) determinada por un método suficientemente exacto como para ser considerado sin error, e Y es la medición leída en el instrumento. X 60 70 80 190 Y 38 64 72 110 44 70 76 118 50 82 a) Hallar un intervalo de confianza del 95% para el valor esperado de Y cuando X = 90 ohm b) Si se toma una nueva porción de material, se mide su resistencia eléctrica y ésta resulta 85 ohm, hallar un intervalo de predicción del 95% para la medición aún no observada. c) Suponiendo que se hace una nueva lectura, independiente de las anteriores, y resulta igual a 73, hallar el valor de la resistencia eléctrica que le corresponde a ese material. Este es el objeto fundamental del experimento, pues se desea 40 calibrar el instrumento de manera que se mida Y, y con esto se pueda determinar la resistencia eléctrica X. Ejercicio 8.9: En una investigación sobre mujeres menopáusicas con hipercolesterolemia (colesterol total > 240 mg/dL), se les indicó una dieta rica en soja (tomar al menos un litro de leche de soja por día). Se tomó una muestra aleatoria de estas mujeres de acuerdo con el tiempo (X) de tratamiento, en meses, que llevaban, y se les midió el colesterol total (Y) en mg/dL. Se obtuvieron los siguientes datos: Tiempo Colesterol Total (mg/dL) 0 270 260 275 302 243 3 231 255 230 280 260 6 229 249 210 268 242 9 239 238 260 219 203 12 212 190 218 216 238 a) Graficar la nube de puntos y ver si es razonable ajustar una recta de regresión. b) Según el resultado de a) ajustar el modelo Y = + X por el método de cuadrados mínimos y graficar la recta obtenida. c) Interpretar la pendiente y hallar un intervalo de confianza del 95% para ella. d) Estimar, mediante un intervalo de confianza del 95%, el colesterol total medio que podría esperarse con 8 meses de tratamiento. e) Predecir el colesterol total que podría esperarse en una mujer con 8 meses de tratamiento mediante un intervalo con una probabilidad del 95%. Comparar con el resultado de d). f) Graficar las bandas de confianza y de predicción del 95%. g) ¿La ecuación hallada en b), puede emplearse correctamente para estimar el colesterol total medio que podría esperarse con 15 meses de tratamiento? h) Hallar el coeficiente de determinación. Los datos se encuentran en el archivo Ej.8.9. Instrucciones para InfoStat: Abrir el conjunto de datos Ej.8.9 Observar que en la base de datos, hay una última fila con el valor 8 en el Tiempo pero que no tiene valor de Col.total. Esto es para que estime el valor predicho y los intervalos de confianza y predicción para el valor 8, que no interviene en la estimación
Compartir