Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Bioestadística Primera Fecha – Recuperatorio del Segundo Regulatorio Segundo Cuatrimestre 2020 ANOVA Ejercicio 1 Un grupo de investigación desea analizar los efectos de una estatina sobre el valor del colesterol LDL (c-LDL). Para ello deciden trabajar con ratas y las dividen en grupos para ensayar diferentes dosis del fármaco. Al finalizar el tratamiento toman muestras de suero y miden el c-LDL en mg/dl. Se muestra a continuación una tabla con algunas medidas de resumen de los diferentes grupos: Para verificar si la administración de distintas dosis de la estatina produce un cambio en la concentración de c-LDL, realizaron un ANOVA considerando un nivel de significación α = 0,05. Verificar que se cumple el supuesto homogeneidad de varianzas, completar la tabla del ANOVA y decidir si hay diferencia significativa en los valores medios de concentración de c-LDL con las 4 dosis. Definir las variables aleatorias, establecer las suposiciones del modelo y plantear las hipótesis correspondientes. Resolución Yij: concentración de c-LDL (mg/dl) en la rata j que recibió la dosis de estatina i. Suposiciones del modelo: Yij ~ N(µi; 𝜎) independientes Test de Fmáx: H0) 𝜎1 2 = 𝜎2 2 = 𝜎3 2 = 𝜎4 2 H1) No todas las 𝜎𝑖 2son iguales Fm= 3,94; J = 6,66 ≈ 7 (se elige redondear hacia arriba para colocarse en la situación más desfavorable); valor crítico Fmax4;6;0,05= 10,4. 2 La suposición de homogeneidad de varianzas se cumple ya que el estadístico es menor al valor crítico hallado en la tabla; por lo tanto, no hay evidencia suficiente para rechazar la hipótesis nula y podemos decir que las varianzas son homogéneas. H0) µ0 = µ1 = µ2 =µ3 H1) No todas las µi son iguales CMDENTRO: SCdentro/gl = 39965,98/24 = 1665,2491 F = 6374,15/1665,25 = 3,83 F3,24;0,05=3,01 3,83 > 3,01 Rechazamos H0, por lo tanto, podemos decir que hay diferencias significativas entre las concentraciones medias de c-LDL de los distintos tratamientos. Ejercicio 2 Un laboratorio de investigación de una compañía farmacéutica desea evaluar el efecto de un nuevo fármaco sobre la concentración de colesterol no HDL (col_no_HDL). Para ello deciden trabajar con un modelo de ratones a los cuales dividen en grupos para ensayar diferentes dosis del fármaco. Al finalizar el tratamiento toman muestras de suero y miden el nivel de colesterol no HDL en mg/dl. Se muestra a continuación una tabla de InfoStat con algunos estadísticos de los diferentes grupos: Para verificar si la administración de distintas dosis del fármaco produce una disminución en la concentración de colesterol no HDL, realizaron un ANOVA considerando un nivel de significación α = 0,05. Verificar que se cumple el supuesto homogeneidad de varianzas, completar la tabla del ANOVA y decidir si hay diferencia significativa en los valores medios de concentración de colesterol no HDL con las 3 dosis. Definir las variables aleatorias, establecer las suposiciones del modelo y plantear las hipótesis correspondientes. 3 Resolución Yij: concentración de colesterol no HDL (mg/dl) en el ratón j que recibió la dosis de fármaco i. Suposiciones del modelo: Yij~N(µi;𝜎) independientes Test de Fmáx: H0) 𝜎1 2 = 𝜎2 2 = 𝜎3 2 H1) No todas las 𝜎𝑖 2son iguales Fm= 5,03; J = 6; valor crítico Fmax3;5;0,05= 10,8 La suposición de homogeneidad de varianzas se cumple ya que el estadístico es menor al valor crítico hallado en la tabla; por lo tanto, no hay evidencia suficiente para rechazar la hipótesis nula y podemos decir que las varianzas son homogéneas. H0) µ0 = µ1 = µ2 H1) No todas las µi son iguales CMDENTRO: SCdentro/g.d.l = 878,8/15 = 58,59 F = 4582,07/58,59 = 78,21 F2,15;0,05=3,68 78,21>3,68 Rechazamos H0, por lo tanto, podemos decir que hay diferencias significativas entre las concentraciones medias de no HDL de los distintos tratamientos. Intervalos de confianza Ejercicio 1 La salida de InfoStat muestra los límites de un intervalo de confianza para la varianza del contenido de Losartán potásico en los comprimidos fabricados por un laboratorio, al que se supone con distribución aproximadamente normal. Construir un intervalo de confianza del 95% para la esperanza de la variable, sabiendo que la muestra arrojó una media de 50,6 mg. Definir la variable aleatoria y establecer los supuestos. Resolución X= Contenido de Losartán potásico en comprimido fabricado por el laboratorio Z. Suposiciones: X~ N (μ; σ) con σ desconocido Intervalo de Confianza para la varianza de una variable aleatoria normal: 4 𝐶 ( (𝑛 − 1)𝑠2 𝜒 𝑛−1; 𝛼 2 2 < 𝜎 2 < (𝑛 − 1)𝑠2 𝜒 𝑛−1;1− 𝛼 2 2 ) = 1 − 𝛼 De la salida de InfoStat obtenemos: C (3,41 < 𝜎2 < 12,58) = 0,95 Tomemos el límite inferior para despejar 𝑠: (20 − 1)𝑠2 𝜒 20−1; 0.05 2 2 = 3,41 (20 − 1)𝑠2 32,852 = 3,41 𝑠 = √5,90 = 2,43 También podemos tomar el valor de la varianza, de la salida de Infostat dada. Intervalo de Confianza para la media de una variable aleatoria normal: 𝐶 ( �̅� − 𝑡 𝑛−1; 𝛼 2 ∗ 𝑠 √𝑛 < 𝜇 < �̅� + 𝑡 𝑛−1; 𝛼 2 ∗ 𝑠 √𝑛 ) = 1 − 𝛼 𝐶 ( 50,6 − 2,093 ∗ 2,43 √20 < 𝜇 < 50,6 + 2,093 ∗ 2,43 √20 ) = 0,95 𝐶( 49,46 < 𝜇 < 51,74) = 0,95 Ejercicio 2 La salida de InfoStat muestra los límites de un intervalo de confianza para la varianza del contenido de Amlodipina en los comprimidos fabricados por un laboratorio, al que se supone con distribución aproximadamente normal. Construir un intervalo de confianza del 90% para la esperanza de la variable, sabiendo que la muestra arrojó una media de 5,03 mg. Definir la variable aleatoria y establecer los supuestos. 5 Resolución X= Contenido de Amlodipina en comprimido fabricado por un laboratorio. Suposiciones: X~ N (μ; σ) con σ desconocido Intervalo de Confianza para la varianza de una variable aleatoria normal: 𝐶 ( (𝑛 − 1)𝑠2 𝜒 𝑛−1; 𝛼 2 2 < 𝜎 2 < (𝑛 − 1)𝑠2 𝜒 𝑛−1;1− 𝛼 2 2 ) = 1 − 𝛼 De la salida de InfoStat obtenemos: C (0,52 < 𝜎2 < 1,55) = 0,90 Tomemos el límite inferior para despejar 𝑠: (20 − 1)𝑠2 𝜒 20−1; 0.10 2 2 = 0,52 (20 − 1)𝑠2 30,144 = 0,52 𝑠 = √0,83 = 0,91 También podemos tomar el valor de la varianza, de la salida de Infostat dada. Intervalo de Confianza para la media de una variable aleatoria normal: 𝐶 ( �̅� − 𝑡 𝑛−1; 𝛼 2 ∗ 𝑠 √𝑛 < 𝜇 < �̅� + 𝑡 𝑛−1; 𝛼 2 ∗ 𝑠 √𝑛 ) = 1 − 𝛼 𝐶 ( 5,03 − 1,729 ∗ 0,91 √20 < 𝜇 < 5,03 + 1,729 ∗ 0,91 √20 ) = 0,90 𝐶( 4,68 < 𝜇 < 5,38 ) = 0,90 Regresión lineal Ejercicio 1 El volumen espiratorio forzado (FEV) es una medida de la función pulmonar. Para identificar pacientes con función pulmonar anormal, se deben establecer FEV para la población normal. Uno de los inconvenientes para esto es que la FEV está relacionada tanto a la edad como a la 6 altura. Enfocándonos entonces en los pacientes con edad de 10 a 15 años, postulamos un modelo de regresión para FEV según altura. Los datos de FEV media para intervalos de 4 centímetros de altura se recolectaron en la siguiente tabla. Altura FEV Altura FEV 134 1,7 158 2,7 138 1,9 162 3,0 142 2,0 166 3,1 146 2,1 170 3,4 150 2,2 174 3,8 154 2,5 178 3,9 Considerando que CMReg = 6,0239 y SCRes=0,1452, decidir si la regresión es significativa. Justificar. Definir las variables aleatorias, plantear el modelo, los supuestos y las hipótesis correspondientes. Resolución Yij: volumen espiratorio forzado de un paciente j con edad entre 10 y 15 años de altura i Modelo: Yij = α + β xi + εij con εij ~ N (0; σ ) , independientes ∀ 1 ≤ i ≤ I ∀1 ≤ j ≤ ni Suposiciones del modelo: Yij ~ N (μi; σ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni Hipótesis a testear: H0: β = 0 H1: β ≠ 0 Utilizando los datos se puede realizar con InfoStat el ANOVA: Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 6,02 1 6,02 414,78 <0,0001 ALTURA 6,02 1 6,02 414,78 <0,0001 Error 0,15 10 0,01 Total 6,17 11 Como p < 0,0001; la regresión es significativa. También se puede calcular el estadístico con los estadísticos que brinda el enunciado: 𝐹 = 𝐶𝑀𝑅𝑒𝑔 𝐶𝑀𝑅𝑒𝑠 = 6,0239 0,1452 12−2 = 414,87 y compararlo con el valor de tabla: 𝐹1;10;0,01 = 10,04. Como p < 0,01; la regresión es significativa. 7 Ejercicio 2 Se quiere investigar la relación entre el peso del cuerpo (en lb) y la concentración de colesterol en la sangre (en mg/100ml). Para valores fijos de peso, se seleccionan aleatoriamente 15 sujetos de una población de varones adultos entre 50 y 55 años de edad, y se les mide la concentración de colesterol en la sangre. Se determinó que hay una relación significativa entre el peso del sujeto y la concentración de colesterol en la sangre: 𝑆𝑋𝑋 = 6.873,733; 𝑆𝑋𝑌 = 13.966,333; �̅� = 176,13; �̅�.. = 230,33 A partir de la salida de InfoStat, correspondiente al análisis de regresión lineal, y a los datos agregados, expresar el modelo de regresión lineal, definiendo las variables e indicando las suposiciones del modelo y las hipótesis corrspondientes; calcular la ecuación de la recta de cuadrados mínimos, y construir un intervalo de confianza del 95% para la pendiente de la recta. Resolución Yij: concentración de colesterol en sangre del varón adulto j con edad entre 50 y 55 años con peso i Modelo: Yij = α + β xi + εij con εij ~ N (0 ;σ ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni Suposiciones del modelo: Yij ~ N (μi; σ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni Ecuación de la recta ajustada por el método de cuadrados mínimos: �̂� = 𝑆𝑋𝑌 𝑆𝑋𝑋 = 13.966,333 6.873,733 = 2,0318 �̂� = �̅�.. − 𝛽.̂ 𝑥 ̅= 230,33 - 2,0318.176,13 = 127,53 �̂� = −127,53 + 2,0318 𝑋 IC (95%) para 𝛽 �̂� ± 𝑡𝑛−2;𝛼 2⁄ . √ 𝐶𝑀𝑅𝑒𝑠 𝑆𝑋𝑋 2,0318 ± 𝑡 13;0,05 2⁄ . √ 1.359,377 6.873,733 8 2,0318 ± 2,16 . 0,4447 2,0318 ± 0,9606 C (1,0712< 𝛽< 2,9924) = 0,95 Distribución de la Varianza Muestral Ejercicio 1 Sea X ~ N (μ; 7) y S2 la varianza de muestras aleatorias de X de tamaño 25. Calcular el número a de modo que P (S2 < a) = 0,90. Resolución 𝑃(24.S2 /49 < 24.a /49) = 0,90 y 24.S2 /49 tiene distribución χ2 con 24 grados de libertad. De la tabla: 24a/49=33,196, el valor crítico que deja un área a derecha 0,10 y resulta: a = 33,196*49/24 = 67,77 Ejercicio 2 Sea X ~ N (μ; 8) y S2 la varianza de muestras aleatorias de X de tamaño 36. Calcular el número a de modo que P (S2 > a) = 0,90. Resolución P (35.S2 /64 > 35.a/64) = 0,90, con 35.S2 /64 con distribución χ2 con 35 grados de libertad. De la tabla, 35.a/64 = 24,797 y entonces a = 24,797*64/35 = 45,34 PRUEBA DE HIPÓTESIS Ejercicio 1 En el sector norte de un bosque, los árboles de una especie nativa a los 10 años de edad tienen un diámetro medio de 15 cm, medido a 1 metro del suelo. Se seleccionó una muestra aleatoria de árboles de 10 años en el sector sur del mismo bosque (donde los suelos son fértiles y bien drenados). Con dichos datos se realizó una prueba de hipótesis con Infostat, para determinar si el diámetro medio de los árboles del sector sur del bosque es distinto del diámetro medio de los árboles del sector norte. Se pide definir la variable aleatoria, escribir los supuestos y las hipótesis del test, completar los dos datos faltantes en la salida de Infostat y concluir en base al intervalo de confianza, detallando cuál es el nivel de significación utilizado. Resolución 9 X=”Diámetro (en cm) de un árbol del sector sur del bosque” Suponemos 𝑋 ∼ 𝑁(𝜇; 𝜎) y se quiere testear 1) 15 ) 15oH H El estadístico observado del Test de Student es 𝑇 = 5,407 Entonces: 𝑥−𝜇0 𝑠 √𝑛 = 17,66−15 𝑠 √20 = 5,407 ⇒ 𝑠 = 2,66 5,407 ⋅ √20 = 2,2 𝐿𝐼(95) = 𝑋 − 𝑡𝑛−1,𝛼 2 ⋅ 𝑆 √𝑛 𝑡𝑛−1,𝛼 2 = 𝑡19;0.025 = 2,093 𝐿𝐼(95) = 17,66 − 2,093 ⋅ 2,2 √20 = 16,63 Entonces el intervalo de confianza del 95% para es (16,63;18,69)I , y como 15 I rechazamos 0H el diámetro medio de los árboles del sector sur del bosque es significativamente distinto del diámetro medio de los árboles del sector norte. El nivel de significación de este test es 0,05. Ejercicio 2 Muchos autores afirman que los pacientes con depresión tienen una función cortical inferior, debido a un riego sanguíneo cerebral más bajo que el considerado normal. Se tomó una muestra de individuos con depresión, de tamaño 13Dn , y otra de individuos normales, de tamaño 22Nn , y se les midió un índice que indica el flujo sanguíneo en la materia gris (expresado en mg/(100g/min)). Se obtuvieron los siguientes datos: 𝑥𝐷 − 𝑥𝑁 = −6,8 y 𝑠𝑃 2 = 46,6. (𝑠𝑃 2 es el promedio ponderado de las varianzas de las dos muestras) Los investigadores desean saber si hay evidencia para afirmar que el valor medio de este índice es efectivamente menor en los pacientes con depresión, con respecto a los pacientes sin este cuadro. Se pide definir las variables aleatorias involucradas y escribir todos los supuestos necesarios para aplicar la prueba de hipótesis adecuada; plantear el test y explicitar su conclusión en base al cálculo (o la acotación) del p-valor. Resolución Sean las variables: DX = “Valor del índice que indica flujo sanguíneo en la materia gris ( en mg/(100g/min)) en un paciente depresivo” NX = “Valor del índice que indica flujo sanguíneo en la materia gris (en mg/(100g/min)) en un paciente normal”. Suponemos 𝑋𝐷 ∼ 𝑁(𝜇𝐷; 𝜎𝐷); 𝑋𝑁 ∼ 𝑁(𝜇𝑁; 𝜎𝑁) variables independientes, con 𝜎𝐷 2 = 𝜎𝑁 2 Planteamos las hipótesis: 𝐻0) 𝜇𝐷 ≥ 𝜇𝑁 𝐻1) 𝜇𝐷 < 𝜇𝑁 10 O, equivalentemente: 𝐻0) 𝜇𝐷 − 𝜇𝑁 ≥ 0 𝐻1) 𝜇𝐷 − 𝜇𝑁 < 0 Aplicaremos el test de Student para diferencia de medias en muestras independientes. El estadístico de prueba es 𝑇 = 𝑋𝐷−𝑋𝑁−𝑎 𝑆𝑃√ 1 𝑛𝐷 + 1 𝑛𝑁 donde 𝑆𝑃 2 = (𝑛𝐷−1)𝑆𝐷 2 +(𝑛𝑁−1)𝑆𝑁 2 𝑛𝐷+𝑛𝑁−2 Bajo 0H T tiene distribución T de Student con 𝑛𝐷 + 𝑛𝑁 − 2= 33 grados de libertad. Con los datos muestrales resulta: 𝑇𝑂𝐵𝑆 = −6,8 √46,6√ 1 13 + 1 22 = 2,848 Se deduce de la tabla que 0,0025 < p <0,005 p-valor = 0,00376 Por tanto, rechazo 0H : el valor medio del índice es significativamente menor en los pacientes con depresión, con respecto a los pacientes sin este cuadro.
Compartir