Logo Studenta

Análise de Variância para Comparação de Médias

¡Este material tiene más páginas!

Vista previa del material en texto

ANÁLISIS DE LA VARIANZA 
 
COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES 
 
ANOVA 
Marta Alperin 
Profesora Adjunta de Estadística 
alperin@fcnym.unlp.edu.ar 
http://www.fcnym.unlp.edu.ar/catedras/estadistica 
mailto:alperin@fcnym.unlp.edu.ar
INTRODUCCION 
 
• Para todo profesional de las Ciencias Naturales es importante 
comparar medias muestrales. 
 
 Dos procedimientos: 
 Límites de confianza 
 Prueba de hipótesis “t” 
 
Porque no se realizan test de hipótesis “t” para comparar todos los 
pares posibles de medias? 
 
 Dos problemas 
1º a medida que el número de comparaciones aumenta, aumenta la 
probabilidad de cometer errores de tipo I, rechazar la hipótesis 
nula. 
 
2º por lo general contamos con muy pocas observaciones en cada 
muestra estadística como para tener una buena estimación de la 
varianza poblacional 2. 
 
Ejemplo 
 Supuestos 
- Las diferencias ambientales afectan los niveles de acidez-alcalinidad de las aguas 
de lluvia. 
- El pH del agua de lluvia es una propiedad que cambia. 
 
Experimento 
Total de las estaciones meteorológicas del país que tenían relevado datos de pH 
de agua de lluvia en 2006 (m). 
Estaciones meteorológicas seleccionadas para el experimento (k=4) 
 
ANOVA SIMPLE DE UNA VÍA PARA UN MODELO II O MODELO DE EFECTOS ALEATORIOS 
M1 M2 
M3 M4 
Localidad 
Replica 
Marino 
(1) 
Volcánico 
(2) 
Desértico 
(3) 
Mesopotámico 
(4) 
1 5,6 5,1 6,2 6,1 
2 5,9 5,3 6,0 5,6 
3 5,8 5,6 5,9 6,2 
4 6,2 5,7 6,1 
5 6,1 6,3 
6 6,3 6,0 
Datos del pH del agua de lluvia de 4 localidades argentinas con distintas características 
climáticas 
La denominación más corriente para ANOVA es 
• x la variable dependiente o respuesta (el pH) 
• la variable independiente o factor de variación tiene al menos 3 
categorías o condiciones en las cuales se toman los datos a 
comparar (las distintas estaciones meteorológicas elegidas 
aleatoriamente para relevar datos) 
• k categorías de la variable independiente (4, cada una de la 
estaciones meteorológicas) 
• ni repeticiones o réplicas (cantidad de datos tomados en cada 
estación meteorológica) 
• N número total de datos (19) 
 
1. EL MODELO 
 
1
i
1 iix
CMDentro CMEntre
CMTotal
Hipótesis nula 
Hipótesis alternartiva 
Se denomina modelo lineal para la observación ijx a: 
 ijiijx   )( 
donde: 
ijx es la j-ésimo dato del i-ésimo factor 
 es la media general de los datos o el punto de equilibrio 
)(  i es el efecto del i-ésimo factor 
ij es una variable aleatoria normal, independientemente distribuida con esperanza “0” y 
varianza es igual a la varianza poblacional 
2 0 ; 
22    
El ANOVA intenta encontrar si existe más variación Entre muestras 
 diferentes o Dentro de una misma muestra. 
 
H0: las muestras son tomadas de la misma población normalmente 
 distribuida (o de poblaciones idénticas). 
H1: las muestras son tomadas de diferentes poblaciones aunque todas 
 tienen la misma varianza. 
 
Si las muestras son tomadas en forma aleatoria de una población común 
( la hipótesis nula), la variación entre las muestras es aproximadamente 
la misma que la variación dentro de las muestras y que ambas reflejen la 
variación de la población. 
Si las muestras son tomadas de diferentes poblaciones (la hipótesis 
alternativa), la variación entre las muestras es el reflejo de la variación de 
la población de la cual es extraída. Variaciones entre muestras, muestran 
la diferencia entre las poblaciones. 
 
¿Cómo estimar la varianza poblacional común 2 ? 
Recordemos 
gl
SC
CM 
2
1
)( XxSC i
n
i


Si llamamos 

n
ijx
1
 suma de las observaciones de cada muestra 
iX promedio de la i-ésima muestra 
X promedio de todos los datos o Gran media 
Cada desviación de una observación a la gran media, se puede descomponer en 
dos términos: la desviación de cada dato a la media grupal, más la desviación de la 
media de cada grupo a la gran media. 
)()()( iijiij XxXXXx 
¿Cómo estimar la varianza poblacional común 2
• Calculando una varianza ponderada a partir de las varianzas muestrales de 
las distintas poblaciones. Esto es calculando el Cuadrado Medio (CM) CM 
Dentro o CM Error. 
? 
glDentro
SCDentro
CMDentro  ;   
  








k
i
n
j
iij XxSCDentro
1
2
1
; 


k
i
i kNnglDentro
1
)1( 
 
• Calculando una varianza ponderada a partir de las varianzas entre las medias 
muestrales de las distintas poblaciones y la gran media esto es el CM Entre: 
glEntre
SCEntre
CMEntre  ; 2
1
)( XXnSCEntre i
k
i
i 

; 1 kglEntre 
• También se puede calcular el CM Total: 
glTotal
SCTotal
CMTotal  ; 
2
11
)( XxSCTotal ij
n
j
k
i
 

; 1 NglTotal 
En ANOVA se cumplen las siguientes relaciones: 
 
 SCTotal = SCEntre + SCDentro 
 
 GLTotal = GLEntre + GLDentro 
 
 CMTotal ≠ CMEntre +CMDentro 
El CMDentro es un estimador insesgado de la varianza poblacional 2. Las 
medias poblacionales tienen todas la misma varianza, entonces las “i” 
varianzas muestrales estiman al mismo parámetro poblacional, y el 
promedio ponderado de estas varianzas es un buen estimador de esta 
varianza poblacional 2. 
 
El CMEntre, 
• Hipótesis Nula del ANOVA es cierta, estima a la varianza poblacional 2 
 Solo cuando las i son iguales, ya que la componente de la varianza total 
producida por los tratamientos se anula y entonces CMEntre es 2. 
 
• Si la Hipótesis nula no es verdadera el CMEntre estima a la 2 más una 
cantidad que representa una medida de la magnitud de los efectos de los 
factores. 
La relación entre las varianzas calculadas, CMEntre y CMDentro, 
permite comparar medias poblacionales. 
Con esto resolvemos la paradoja de cómo a partir de un análisis de 
varianzas es posible comparar medias. 
3. PROCEDIMIENTO PARA EL CALCULO 
SC = 


n
i
i Xx
1
2)( =  2x -  
2
 x /n Recordemos 
SCTotal = 
 
K
i
n
j1 1
(xij- X )
2 = 
 
K
i
n
j
ijx
1 1
2 – C 
Factor de corrección de la media: C = (
 
K
i
n
j
ijx
1 1
)
2
N 
SCEntre = 

K
i 1
ni ( Xi - X )
2 = 

K
i 1
(
n
1
xij)
2 / ni - C 
SCDentro =  
 
K
i
n
j1 1
( (xij- Xi )
2) = SCTotal – SCEntre 
•GLTotal = N-1 
•GLEntre = k-1 
•GLDentro = GLtotal – GLEntre 
•CMTotal = SCTotal / GLTotal; 
•CMEntre = SCEntre/GLEntre; 
•CMDentro = SCDentro/GLDentro 
Hiptesis de ANOVA 
H0 : 1 = 2 = … = k ; 
Ha: i ≠ j para al menos un par de (i, j) 
 
 
Prueba estadística 
Comparar el CMEntre con el CMDentro. Las dos varianzas miden en forma 
independiente la varianza de la distribución de medias muestrales. 
 
 ¿Que probabilidad hay que estos 2 valores estimen la 
 misma varianza poblacional? 
 
Respuesta 
“F” es el cociente entre varianzas. 
La hipótesis nula se rechazará cuando 
 
 
 
 
F con 1 = (k -1) y 2 = (N -k) grados de libertad 
(Los valores críticos de F se encuentran en tablas) 
Se realiza una prueba a una cola ya que se trata de detectar la variabilidad 
que tienda a aumentar la varianza Entre medias. 
CMDentro
CMEntre
> F(k-1;N-k; ) 
o, 2ENTRE=
2
DENTRO
 
 
o, 2ENTRE>
2
DENTRO 
A mayor diferencia entre las medias observadas de los 
tratamientos, mayor es la evidencia que indica una diferencia 
entre las medias poblacionales correspondientes. 
 
Analizando la relación expresada en la SCEntre, se puede ver 
que a medida que las medias se alejan una de otras, las 
desviaciones aumentarán en valor absoluto y la SCEntre 
aumentará en magnitud. 
 
Por consiguiente a mayor valor de SCEntre mayor peso de la 
evidencia en rechazar la hipótesis nula. 
Fuente de 
variación 
Suma de Cuadrados gl Cuadrado 
Medio 
f 
calculado 
Entre los 
tratamientos 
 
 
Dentro de los 
tratamientos 
 
 
Total 


K
i 1
(

n
j
ijx
1
)2 /ni - C 
 
 
SCTotal – SCEntre 
 

 
Ki
n
j
ijx
1 1
2
 - C 
 
k-1 
 
 
N-k 
 
 
N-1 
 
SCEntre 
GLEntre 
 
SCDentro 
GLDentro 
 
 
 
CME 
CMD 
 
TABLA RESUMEN DE ANOVA para el caso de un experimento 
aleatorizado que contiene k medias de tratamientos 
Para C = (
 
K
j
n
i
Xij
1 1
)
2
N 
Localidad 
 
Replica 
Marino 
(1) 
Volcánico 
(2) 
Desértico 
(3) 
Mesopotamico 
(4) 
Totales 
1 5,6 5,1 6,2 6,1 
2 5,9 5,3 6,0 5,6 
3 5,8 5,6 5,9 6,2 
4 6,2 5,7 6,1 
5 6,1 6,3 
6 6,3 6,0 
ni 4 3 6 6 19 
x 23,5 16,0 36,2 36,3 112,0 

n
ijx
1
 5,9 5,3 6,0 6,1 23,3 
(
n
ijx
1
)
2
 552,3 256,0 1310,4 1317,7 3436,4 
i
n
ij
n
x
1
2)(
 
138,1 85,3 218,4 219,6 661,4 

n
ijx
1
2
 138,3 85,5 218,6 219,9 662,3 
 
Factor de corrección: C = (
 
K
j
n
i
Xij
1 1
)2 N 
C = (23,5+16,0+36,2+36,3)2 / 19 = (112,0)2 / 19 =12544,0 / 19 = 660,2 
 
SCTotal = 
 
K
j
n
i
ijx
1 1
2
 – C SCT = 662,3 – 660,3 = 2,05 
 
SCEntre=

K
i 1
(

n
j
ijx
1
)2 / ni - C SCE = 661,4 – 660,3 = 1,21 
 
SCDentro = SCT – SCE SCD = 2,0 – 1,2 = 0,84 
 
gl T = N – 1 ; glE = K–1 ; glD = glT – glE = (N-K) 
 
gl T = 19–1= 18 ; gl E = 4 – 1 = 3 ; gl D = 19 – 4 = 15 
 
CME = SCE / gl E CME = 1,21 / 3 = 0,402 
 
CMD = SCD / gl D CMD = 0,84 / 15 = 0,056 
 
f = CME / CMD f = 0,402 / 0,056 = 7,163 
 
Valor Crítico de tabla: F (K-1; N-K; α) F (3; 15; 0,05) = 3,287 
Ho: las 4 medias poblacional i del pH del agua de lluvia de las diferentes estaciones 
meteorológicas son iguales 
H1: la media del pH del agua de lluvia de al menos una de las diferentes estaciones 
meteorológicas es diferente 
 
Hipótesis Nula: µ1 = µ2 = µ3 = µ4 ; ó σ
 2
ENTRE = σ
2
DENTRO 
Hipótesis Alternativa: al menos una media diferente; ó σ 2ENTRE > σ
2
DENTRO 
 
Riesgo de error de tipo I: α = 0,05 
Fuente de 
variación 
Suma de 
cuadrados 
gl 
Cuadrado 
Medio 
f 
Entre las 
localidades 
 
Dentro de las 
localidades 
 
Total 
 
1,21 
 
 
0,84 
 
2,0 
 
3 
 
 
15 
 
18 
 
0,402 
 
 
0,056 
 
 
7,163 
 
 
f = 0,402 / 0,056 = 7,163 
F (3; 15; 0,05) = 3,287 
Región crítica: f >F (3; 15; 0,10) 
Como f> F critico de tabla, rechazo la 
Hipótesis nula. Por lo tanto puedo 
afirmar, con un error del 5%, que el pH 
del agua de lluvia es una propiedad que 
toma valores diferentes según se trate 
del lugar. 
Tabla resumen de ANOVA 
4. SUPUESTOS del ANOVA 
1º Se han tomado una muestra aleatoria simple de cada una de los 
 “i” distribuciones. 
2º Las “i” distribuciones son normales. 
3º Las “i” distribuciones tienen todas idéntica varianza. 
Discrepancias moderadas con el cumplimiento de los “supuestos del 
ANOVA” (aleatoriedad del muestreo, normalidad en las distribuciones y 
homogeneidad de varianzas) prácticamente no afectan las propiedades 
de la prueba. Sin embargo, si las diferencias son importantes se debe 
recurrir a otra estrategia de análisis. 
 
5. COMPARACIONES MÚLTIPLES. PRUEBA DE TUKEY 
Para todos los pares posibles de comparaciones entre medias. 
A es la media más grande a comparar y B la más pequeña. 
 
 
Ho: µA= µB 
Ha: µA≠ µB 
SE
XX
q BAc


Estadístico de prueba 
Tamaños de muestra iguales 
ni
CMDentro
SE 
Tamaños de muestra diferentes 
nbna
CMDentro
SE
11
2

na=tamaño de la muestra A , 
nb=tamaño de la muestra B 
 
 
La hipótesis nula se rechaza cuando qc > q(k; N-k; ) 
 
Diferencias significativas qc > q(k; N-k; :0,05) 
Diferencias altamente significativas qc > q(k; N-k; :0,01) 
qc se aproxima a una distribución de q(k; N-k; ), 
k: número e categorías del factor 
glD: grados de libertad del CMDentro 
Tabla Rango Total Studentizado 
Se rechazó la hipótesis nula de ANOVA en el ejemplo del pH del agua de lluvia en las cuatro 
estaciones meteorológicas 
¿entre que ambientes el pH del agua de lluvia es diferente? . 
Localidad 
 
Marino 
(1) 
Volcánico 
(2) 
Desértico 
(3) 
Mesopotamico 
(4) 
ni 4 3 6 6 
x 23,5 16,0 36,2 36,3 
 
Cuadrado Medio 
Dentro = 0,056 
1. Para cada par posible de comparaciones contrastar las siguientes hipótesis: 
 Ho: µA= µB ; Ha: µA≠ µB 
2. Calcular las diferencias de medias comenzando por las medias mayores BA XX 
3. Calcular 
nbna
CMDentro
SE
11
2

0966,0
6
1
6
1
2
056,0
SE 1080,0
4
1
6
1
2
056,0
SE
1138,0
3
1
6
1
2
056,0
SE 1278,0
3
1
4
1
2
056,0
SE
4. Buscar valores críticos Tabla Rango Total Studentizado q. 
 q(4; 15; 0,05)=4,08 y q(4; 15; 0,01)=5,245 
Datos 
5. Armar la tabla, tomar la decisión estadística e interpretar los resultados 
Se puede afirmar, con un error de 5%, que el pH del agua de lluvia de las 
estaciones meteorológicas 3 y 4, correspondientes a ambientes de clima desértico 
y mesopotámico, son iguales entre si y diferentes al de las estaciones 
meteorológicas 1 y 2 (ambiente marítimo y volcánico respectivamente). Además el 
pH del agua de lluvia de las estaciones meteorológicas 1 y 2, marítimo y volcánico, 
son diferentes entre sí. 
Comparación 
(A vs. B) 
Diferencias 
BA XX  
SE qc q(4; 15; 0,05) Conclusión 
4 vs. 3 36,3-36,2=0,1 0,0966 1,035 4,08 
Aceptar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 4 y 3 es igual. 
4 vs. 1 36,3-23,5=12,8 0,1080 118,5 4,08 
Rechazar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 4 y 1 es igual. 
4 vs. 2 36,3-16,0=20,3 0,1138 171,5 4,08 
Rechazar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 4 y 2 es igual. 
3 vs.1 36,2-23,5=12,7 0,1080 117,58 4,08 
Rechazar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 3 y 1 es igual. 
3 vs. 2 36,2-16,0=20,2 0,1138 170,72 4,08 
Rechazar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 3 y 2 es igual. 
1 vs. 2 23,5-16,0=7,5 0,1278 58,68 4,08 
Rechazar Ho: el pH del agua de lluvia de las 
estaciones meteorológicas 1 y 2 es igual. 
 
6. PRUEBAS DE HOMOGENEIDAD DE VARIANZAS: a. Bartlett 
• Objetivo 
Probar la homogeneidad de las varianzas entre mas de 2 muestras 
 
• Requerimientos 
Se puede utilizar con tamaño de muestra, ni, diferentes. 
Se recomienda ni > 3, preferentemente con ni > 5. 
Es muy sensible a alejamientos del supuesto de normalidad. 
 
• Hipótesis 
22
2
2
1: kHo   
22: jiHa   para al menos un par de (i, j) 

























kNnk
snSkN
k
i i
k
i
iip
11
)1(3
1
1
)ln()1()(ln)(
1
1
2
2
• Estadístico de prueba 
k : Número de muestras 
ni : Tamaño de la i-ésima 
muestra 
s2i : Varianza estimada 
para la i-ésima población 
N = n1 + n2 + + nk 
 


i
iip sn
kN
S 22 )1(
1
La hipótesis nula se acepta 
. 
• Prueba de hipótesis 
2 2/
2
1, k
 
< 
•Decisión estadística 
Cuando se acepta la hipótesis nula, se 
puede afirmar que todas las poblaciones de 
donde se obtuvieron las muestras, tienen la 
misma varianza, con una confianza α. 
Ejemplo PRUEBA DE HOMOGENEIDAD DE VARIANZAS. PRUEBA DE BARTLETT 
(MUESTRAS DE TAMAÑO DIFERENTE) 
 
Ejemplo del pH del agua de lluvia en las cuatro estaciones meteorológicas se presenta 
algunos datos que facilitan los cálculos. 
 
Marítimo 
(1) 
Volcánico 
(2) 
Desértico 
(3) 
Mesopotámico 
(4) 
Totales 
ni 4 3 6 6 19 
ni-1 3 2 5 5 15 
1/ni 0,2500 0,3333 0,1667 0,1667 0,9167 
Si 0,2500 0,2500 0,2200 0,2400 0,9600 
S2i 0,0630 0,0630 0,0480 0,0580 0,2320 
ln S2i -2,7730 -2,7730 -3,0280 -2,8540 -11,4280 
(ni-1)ln S
2
i -8,319 -5,546 -15,14 -14,27 -43,2750 
(ni-1)S
2
i 0,189 0,126 0,24 0,29 0,8450 
 

























kNnk
snSkN
k
i i
k
i
iip
11
)1(3
1
1
)ln()1()(ln)(
1
1
2
2
 


i
iip sn
kN
S 22 )1(
1
0563,08450,0
419
12 

pS 8765,2ln
2 pS
22
2
2
1: kHo   
22: jiHa  
05,0
 para al menos un par de (i, j) 
 
 
 
 
1169,0
0944,1
1280,0
419
1
9167,0)14(3
1
1
)275,43()8765,2()419(2 












2Decisión estadística: 0,1169<9,35 ( < ). Se acepta la hipótesis nula, las varianzas son iguales. 
 
2/
2
1, k
35,92 025,0;14 
025,02/ 
6. PRUEBAS DE HOMOGENEIDAD DE VARIANZAS: b. Fmax de Hartley 
• Objetivo 
Probar la homogeneidad de las varianzas entre mas de 2 muestras 
 
• Requerimientos 
Se puede utilizar solamente con tamaño de muestra, ni, iguales. 
Supone distribuciones normales. 
Se necesita una tabla especial con los valores críticos de Fmax. 
 
• Hipótesis 
22
2
2
1: kHo   
22: jiHa   para al menos un par de (i, j) 
• Estadístico de prueba 
i = 1, ... , k, con k igual al número de muestras, 
 la varianza mayor de las k muestras 
 la varianza menor de las k muestras 
La hipótesis nula se acepta 
. 
• Prueba de hipótesis 
 
•Decisión estadística 
Cuando se acepta la hipótesis nula, se 
puede afirmar que todas las poblaciones de 
donde se obtuvieron las muestras, tienen la 
misma varianza, con una confianza α. 
)min(
)max(
max
2
2
i
i
s
s
F 
Fmax < FMAX(k, n-1, α/2) 
1: k , numero de muestras 
2: n -1, numero de datos menos 1 
)max( 2is
)min( 2is
GRACIAS

Otros materiales

Materiales relacionados

28 pag.
Taller 2do_parcial_E (1)

UNIP

User badge image

richard esparza

40 pag.
chi-cuadrado - Daniel Sandoval Murillo

User badge image

Desafío México Veintitrés

301 pag.
bfa003805

UNM

User badge image

Materiales Muy Locos

8 pag.
Introducción al Diseño Experimental

User badge image

Desafío México Veintitrés