Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ANÁLISIS DE LA VARIANZA COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES ANOVA Marta Alperin Profesora Adjunta de Estadística alperin@fcnym.unlp.edu.ar http://www.fcnym.unlp.edu.ar/catedras/estadistica mailto:alperin@fcnym.unlp.edu.ar INTRODUCCION • Para todo profesional de las Ciencias Naturales es importante comparar medias muestrales. Dos procedimientos: Límites de confianza Prueba de hipótesis “t” Porque no se realizan test de hipótesis “t” para comparar todos los pares posibles de medias? Dos problemas 1º a medida que el número de comparaciones aumenta, aumenta la probabilidad de cometer errores de tipo I, rechazar la hipótesis nula. 2º por lo general contamos con muy pocas observaciones en cada muestra estadística como para tener una buena estimación de la varianza poblacional 2. Ejemplo Supuestos - Las diferencias ambientales afectan los niveles de acidez-alcalinidad de las aguas de lluvia. - El pH del agua de lluvia es una propiedad que cambia. Experimento Total de las estaciones meteorológicas del país que tenían relevado datos de pH de agua de lluvia en 2006 (m). Estaciones meteorológicas seleccionadas para el experimento (k=4) ANOVA SIMPLE DE UNA VÍA PARA UN MODELO II O MODELO DE EFECTOS ALEATORIOS M1 M2 M3 M4 Localidad Replica Marino (1) Volcánico (2) Desértico (3) Mesopotámico (4) 1 5,6 5,1 6,2 6,1 2 5,9 5,3 6,0 5,6 3 5,8 5,6 5,9 6,2 4 6,2 5,7 6,1 5 6,1 6,3 6 6,3 6,0 Datos del pH del agua de lluvia de 4 localidades argentinas con distintas características climáticas La denominación más corriente para ANOVA es • x la variable dependiente o respuesta (el pH) • la variable independiente o factor de variación tiene al menos 3 categorías o condiciones en las cuales se toman los datos a comparar (las distintas estaciones meteorológicas elegidas aleatoriamente para relevar datos) • k categorías de la variable independiente (4, cada una de la estaciones meteorológicas) • ni repeticiones o réplicas (cantidad de datos tomados en cada estación meteorológica) • N número total de datos (19) 1. EL MODELO 1 i 1 iix CMDentro CMEntre CMTotal Hipótesis nula Hipótesis alternartiva Se denomina modelo lineal para la observación ijx a: ijiijx )( donde: ijx es la j-ésimo dato del i-ésimo factor es la media general de los datos o el punto de equilibrio )( i es el efecto del i-ésimo factor ij es una variable aleatoria normal, independientemente distribuida con esperanza “0” y varianza es igual a la varianza poblacional 2 0 ; 22 El ANOVA intenta encontrar si existe más variación Entre muestras diferentes o Dentro de una misma muestra. H0: las muestras son tomadas de la misma población normalmente distribuida (o de poblaciones idénticas). H1: las muestras son tomadas de diferentes poblaciones aunque todas tienen la misma varianza. Si las muestras son tomadas en forma aleatoria de una población común ( la hipótesis nula), la variación entre las muestras es aproximadamente la misma que la variación dentro de las muestras y que ambas reflejen la variación de la población. Si las muestras son tomadas de diferentes poblaciones (la hipótesis alternativa), la variación entre las muestras es el reflejo de la variación de la población de la cual es extraída. Variaciones entre muestras, muestran la diferencia entre las poblaciones. ¿Cómo estimar la varianza poblacional común 2 ? Recordemos gl SC CM 2 1 )( XxSC i n i Si llamamos n ijx 1 suma de las observaciones de cada muestra iX promedio de la i-ésima muestra X promedio de todos los datos o Gran media Cada desviación de una observación a la gran media, se puede descomponer en dos términos: la desviación de cada dato a la media grupal, más la desviación de la media de cada grupo a la gran media. )()()( iijiij XxXXXx ¿Cómo estimar la varianza poblacional común 2 • Calculando una varianza ponderada a partir de las varianzas muestrales de las distintas poblaciones. Esto es calculando el Cuadrado Medio (CM) CM Dentro o CM Error. ? glDentro SCDentro CMDentro ; k i n j iij XxSCDentro 1 2 1 ; k i i kNnglDentro 1 )1( • Calculando una varianza ponderada a partir de las varianzas entre las medias muestrales de las distintas poblaciones y la gran media esto es el CM Entre: glEntre SCEntre CMEntre ; 2 1 )( XXnSCEntre i k i i ; 1 kglEntre • También se puede calcular el CM Total: glTotal SCTotal CMTotal ; 2 11 )( XxSCTotal ij n j k i ; 1 NglTotal En ANOVA se cumplen las siguientes relaciones: SCTotal = SCEntre + SCDentro GLTotal = GLEntre + GLDentro CMTotal ≠ CMEntre +CMDentro El CMDentro es un estimador insesgado de la varianza poblacional 2. Las medias poblacionales tienen todas la misma varianza, entonces las “i” varianzas muestrales estiman al mismo parámetro poblacional, y el promedio ponderado de estas varianzas es un buen estimador de esta varianza poblacional 2. El CMEntre, • Hipótesis Nula del ANOVA es cierta, estima a la varianza poblacional 2 Solo cuando las i son iguales, ya que la componente de la varianza total producida por los tratamientos se anula y entonces CMEntre es 2. • Si la Hipótesis nula no es verdadera el CMEntre estima a la 2 más una cantidad que representa una medida de la magnitud de los efectos de los factores. La relación entre las varianzas calculadas, CMEntre y CMDentro, permite comparar medias poblacionales. Con esto resolvemos la paradoja de cómo a partir de un análisis de varianzas es posible comparar medias. 3. PROCEDIMIENTO PARA EL CALCULO SC = n i i Xx 1 2)( = 2x - 2 x /n Recordemos SCTotal = K i n j1 1 (xij- X ) 2 = K i n j ijx 1 1 2 – C Factor de corrección de la media: C = ( K i n j ijx 1 1 ) 2 N SCEntre = K i 1 ni ( Xi - X ) 2 = K i 1 ( n 1 xij) 2 / ni - C SCDentro = K i n j1 1 ( (xij- Xi ) 2) = SCTotal – SCEntre •GLTotal = N-1 •GLEntre = k-1 •GLDentro = GLtotal – GLEntre •CMTotal = SCTotal / GLTotal; •CMEntre = SCEntre/GLEntre; •CMDentro = SCDentro/GLDentro Hiptesis de ANOVA H0 : 1 = 2 = … = k ; Ha: i ≠ j para al menos un par de (i, j) Prueba estadística Comparar el CMEntre con el CMDentro. Las dos varianzas miden en forma independiente la varianza de la distribución de medias muestrales. ¿Que probabilidad hay que estos 2 valores estimen la misma varianza poblacional? Respuesta “F” es el cociente entre varianzas. La hipótesis nula se rechazará cuando F con 1 = (k -1) y 2 = (N -k) grados de libertad (Los valores críticos de F se encuentran en tablas) Se realiza una prueba a una cola ya que se trata de detectar la variabilidad que tienda a aumentar la varianza Entre medias. CMDentro CMEntre > F(k-1;N-k; ) o, 2ENTRE= 2 DENTRO o, 2ENTRE> 2 DENTRO A mayor diferencia entre las medias observadas de los tratamientos, mayor es la evidencia que indica una diferencia entre las medias poblacionales correspondientes. Analizando la relación expresada en la SCEntre, se puede ver que a medida que las medias se alejan una de otras, las desviaciones aumentarán en valor absoluto y la SCEntre aumentará en magnitud. Por consiguiente a mayor valor de SCEntre mayor peso de la evidencia en rechazar la hipótesis nula. Fuente de variación Suma de Cuadrados gl Cuadrado Medio f calculado Entre los tratamientos Dentro de los tratamientos Total K i 1 ( n j ijx 1 )2 /ni - C SCTotal – SCEntre Ki n j ijx 1 1 2 - C k-1 N-k N-1 SCEntre GLEntre SCDentro GLDentro CME CMD TABLA RESUMEN DE ANOVA para el caso de un experimento aleatorizado que contiene k medias de tratamientos Para C = ( K j n i Xij 1 1 ) 2 N Localidad Replica Marino (1) Volcánico (2) Desértico (3) Mesopotamico (4) Totales 1 5,6 5,1 6,2 6,1 2 5,9 5,3 6,0 5,6 3 5,8 5,6 5,9 6,2 4 6,2 5,7 6,1 5 6,1 6,3 6 6,3 6,0 ni 4 3 6 6 19 x 23,5 16,0 36,2 36,3 112,0 n ijx 1 5,9 5,3 6,0 6,1 23,3 ( n ijx 1 ) 2 552,3 256,0 1310,4 1317,7 3436,4 i n ij n x 1 2)( 138,1 85,3 218,4 219,6 661,4 n ijx 1 2 138,3 85,5 218,6 219,9 662,3 Factor de corrección: C = ( K j n i Xij 1 1 )2 N C = (23,5+16,0+36,2+36,3)2 / 19 = (112,0)2 / 19 =12544,0 / 19 = 660,2 SCTotal = K j n i ijx 1 1 2 – C SCT = 662,3 – 660,3 = 2,05 SCEntre= K i 1 ( n j ijx 1 )2 / ni - C SCE = 661,4 – 660,3 = 1,21 SCDentro = SCT – SCE SCD = 2,0 – 1,2 = 0,84 gl T = N – 1 ; glE = K–1 ; glD = glT – glE = (N-K) gl T = 19–1= 18 ; gl E = 4 – 1 = 3 ; gl D = 19 – 4 = 15 CME = SCE / gl E CME = 1,21 / 3 = 0,402 CMD = SCD / gl D CMD = 0,84 / 15 = 0,056 f = CME / CMD f = 0,402 / 0,056 = 7,163 Valor Crítico de tabla: F (K-1; N-K; α) F (3; 15; 0,05) = 3,287 Ho: las 4 medias poblacional i del pH del agua de lluvia de las diferentes estaciones meteorológicas son iguales H1: la media del pH del agua de lluvia de al menos una de las diferentes estaciones meteorológicas es diferente Hipótesis Nula: µ1 = µ2 = µ3 = µ4 ; ó σ 2 ENTRE = σ 2 DENTRO Hipótesis Alternativa: al menos una media diferente; ó σ 2ENTRE > σ 2 DENTRO Riesgo de error de tipo I: α = 0,05 Fuente de variación Suma de cuadrados gl Cuadrado Medio f Entre las localidades Dentro de las localidades Total 1,21 0,84 2,0 3 15 18 0,402 0,056 7,163 f = 0,402 / 0,056 = 7,163 F (3; 15; 0,05) = 3,287 Región crítica: f >F (3; 15; 0,10) Como f> F critico de tabla, rechazo la Hipótesis nula. Por lo tanto puedo afirmar, con un error del 5%, que el pH del agua de lluvia es una propiedad que toma valores diferentes según se trate del lugar. Tabla resumen de ANOVA 4. SUPUESTOS del ANOVA 1º Se han tomado una muestra aleatoria simple de cada una de los “i” distribuciones. 2º Las “i” distribuciones son normales. 3º Las “i” distribuciones tienen todas idéntica varianza. Discrepancias moderadas con el cumplimiento de los “supuestos del ANOVA” (aleatoriedad del muestreo, normalidad en las distribuciones y homogeneidad de varianzas) prácticamente no afectan las propiedades de la prueba. Sin embargo, si las diferencias son importantes se debe recurrir a otra estrategia de análisis. 5. COMPARACIONES MÚLTIPLES. PRUEBA DE TUKEY Para todos los pares posibles de comparaciones entre medias. A es la media más grande a comparar y B la más pequeña. Ho: µA= µB Ha: µA≠ µB SE XX q BAc Estadístico de prueba Tamaños de muestra iguales ni CMDentro SE Tamaños de muestra diferentes nbna CMDentro SE 11 2 na=tamaño de la muestra A , nb=tamaño de la muestra B La hipótesis nula se rechaza cuando qc > q(k; N-k; ) Diferencias significativas qc > q(k; N-k; :0,05) Diferencias altamente significativas qc > q(k; N-k; :0,01) qc se aproxima a una distribución de q(k; N-k; ), k: número e categorías del factor glD: grados de libertad del CMDentro Tabla Rango Total Studentizado Se rechazó la hipótesis nula de ANOVA en el ejemplo del pH del agua de lluvia en las cuatro estaciones meteorológicas ¿entre que ambientes el pH del agua de lluvia es diferente? . Localidad Marino (1) Volcánico (2) Desértico (3) Mesopotamico (4) ni 4 3 6 6 x 23,5 16,0 36,2 36,3 Cuadrado Medio Dentro = 0,056 1. Para cada par posible de comparaciones contrastar las siguientes hipótesis: Ho: µA= µB ; Ha: µA≠ µB 2. Calcular las diferencias de medias comenzando por las medias mayores BA XX 3. Calcular nbna CMDentro SE 11 2 0966,0 6 1 6 1 2 056,0 SE 1080,0 4 1 6 1 2 056,0 SE 1138,0 3 1 6 1 2 056,0 SE 1278,0 3 1 4 1 2 056,0 SE 4. Buscar valores críticos Tabla Rango Total Studentizado q. q(4; 15; 0,05)=4,08 y q(4; 15; 0,01)=5,245 Datos 5. Armar la tabla, tomar la decisión estadística e interpretar los resultados Se puede afirmar, con un error de 5%, que el pH del agua de lluvia de las estaciones meteorológicas 3 y 4, correspondientes a ambientes de clima desértico y mesopotámico, son iguales entre si y diferentes al de las estaciones meteorológicas 1 y 2 (ambiente marítimo y volcánico respectivamente). Además el pH del agua de lluvia de las estaciones meteorológicas 1 y 2, marítimo y volcánico, son diferentes entre sí. Comparación (A vs. B) Diferencias BA XX SE qc q(4; 15; 0,05) Conclusión 4 vs. 3 36,3-36,2=0,1 0,0966 1,035 4,08 Aceptar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 3 es igual. 4 vs. 1 36,3-23,5=12,8 0,1080 118,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 1 es igual. 4 vs. 2 36,3-16,0=20,3 0,1138 171,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 2 es igual. 3 vs.1 36,2-23,5=12,7 0,1080 117,58 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 1 es igual. 3 vs. 2 36,2-16,0=20,2 0,1138 170,72 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 2 es igual. 1 vs. 2 23,5-16,0=7,5 0,1278 58,68 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 1 y 2 es igual. 6. PRUEBAS DE HOMOGENEIDAD DE VARIANZAS: a. Bartlett • Objetivo Probar la homogeneidad de las varianzas entre mas de 2 muestras • Requerimientos Se puede utilizar con tamaño de muestra, ni, diferentes. Se recomienda ni > 3, preferentemente con ni > 5. Es muy sensible a alejamientos del supuesto de normalidad. • Hipótesis 22 2 2 1: kHo 22: jiHa para al menos un par de (i, j) kNnk snSkN k i i k i iip 11 )1(3 1 1 )ln()1()(ln)( 1 1 2 2 • Estadístico de prueba k : Número de muestras ni : Tamaño de la i-ésima muestra s2i : Varianza estimada para la i-ésima población N = n1 + n2 + + nk i iip sn kN S 22 )1( 1 La hipótesis nula se acepta . • Prueba de hipótesis 2 2/ 2 1, k < •Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que todas las poblaciones de donde se obtuvieron las muestras, tienen la misma varianza, con una confianza α. Ejemplo PRUEBA DE HOMOGENEIDAD DE VARIANZAS. PRUEBA DE BARTLETT (MUESTRAS DE TAMAÑO DIFERENTE) Ejemplo del pH del agua de lluvia en las cuatro estaciones meteorológicas se presenta algunos datos que facilitan los cálculos. Marítimo (1) Volcánico (2) Desértico (3) Mesopotámico (4) Totales ni 4 3 6 6 19 ni-1 3 2 5 5 15 1/ni 0,2500 0,3333 0,1667 0,1667 0,9167 Si 0,2500 0,2500 0,2200 0,2400 0,9600 S2i 0,0630 0,0630 0,0480 0,0580 0,2320 ln S2i -2,7730 -2,7730 -3,0280 -2,8540 -11,4280 (ni-1)ln S 2 i -8,319 -5,546 -15,14 -14,27 -43,2750 (ni-1)S 2 i 0,189 0,126 0,24 0,29 0,8450 kNnk snSkN k i i k i iip 11 )1(3 1 1 )ln()1()(ln)( 1 1 2 2 i iip sn kN S 22 )1( 1 0563,08450,0 419 12 pS 8765,2ln 2 pS 22 2 2 1: kHo 22: jiHa 05,0 para al menos un par de (i, j) 1169,0 0944,1 1280,0 419 1 9167,0)14(3 1 1 )275,43()8765,2()419(2 2Decisión estadística: 0,1169<9,35 ( < ). Se acepta la hipótesis nula, las varianzas son iguales. 2/ 2 1, k 35,92 025,0;14 025,02/ 6. PRUEBAS DE HOMOGENEIDAD DE VARIANZAS: b. Fmax de Hartley • Objetivo Probar la homogeneidad de las varianzas entre mas de 2 muestras • Requerimientos Se puede utilizar solamente con tamaño de muestra, ni, iguales. Supone distribuciones normales. Se necesita una tabla especial con los valores críticos de Fmax. • Hipótesis 22 2 2 1: kHo 22: jiHa para al menos un par de (i, j) • Estadístico de prueba i = 1, ... , k, con k igual al número de muestras, la varianza mayor de las k muestras la varianza menor de las k muestras La hipótesis nula se acepta . • Prueba de hipótesis •Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que todas las poblaciones de donde se obtuvieron las muestras, tienen la misma varianza, con una confianza α. )min( )max( max 2 2 i i s s F Fmax < FMAX(k, n-1, α/2) 1: k , numero de muestras 2: n -1, numero de datos menos 1 )max( 2is )min( 2is GRACIAS
Compartir