Logo Studenta

ESTADÍSTICA 2 MODULO 3

¡Este material tiene más páginas!

Vista previa del material en texto

Módulo 3 
Unidad 4 y 5 
Lectura 3 
Otras pruebas de 
hipótesis 
 
 
 
 
 
 
 
 
 
Materia: Herramientas Matemáticas V – Estadística II 
Profesora: Mgter. Verónica Herrero 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 2  
 
 
Unidad 4: Pruebas para 
variables categóricas 
 
Introducción 
Hasta ahora, cuando trabajábamos con datos categóricos, nos 
concentramos en el parámetro proporción. En muchas ocasiones debemos 
abordar algunas de las siguientes situaciones: 
 
a) Considerar toda una distribución de valores de una variable 
categórica (y no sólo una variable dicotómica) 
 
b) Tener en cuenta la distribución bivariada de dos variables 
categóricas (es decir, analizar las ocurrencias de categorías de 
ambas dimensiones al mismo tiempo) 
 
 
Para el primer tipo de situación desarrollaremos una prueba denominada 
de bondad de ajuste, que sirve para sacar una conclusión acerca de la 
distribución que efectivamente sigue una determinada variable. 
 
El segundo tipo de problema, en el que nos auxiliaremos con tablas de 
contingencia, es abordado por las pruebas denominadas de independencia. 
 
Ambas pruebas utilizan estadísticos con distribución chi cuadrado. 
 
 
 
 
 
 
Bibliografía Básica 
Para cumplir con los 
objetivos de la Unidad 4 
del programa, es necesario 
profundizar en los temas 
desarrollados en el 
Capítulo 15 del texto de 
Bibliografía Básica. 
(Berenson & Levine, 
1996), relacionándolos con 
los comentarios, ejemplos y 
recomendaciones de las 
lecturas del módulo. Note 
que el tema de prueba de 
bondad de ajuste no se 
encuentra en la bibliografía 
básica pero sí en el 
programa y en las lectura 
del módulo. 
Capítulos: 15 (Apartado 
15.6) 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 3  
 
4.1. Prueba de bondad de ajuste 
 
La prueba de bondad de ajuste sirve para determinar si una población 
tiene una distribución teórica específica, ya sea una distribución conocida o 
una distribución ad hoc. 
 
La prueba se basa en qué tan buen ajuste o concordancia se tiene entre las 
frecuencias de ocurrencia de las observaciones en una muestra observada y 
las frecuencias esperadas que se obtienen a partir de la distribución 
hipotética. 
 
El estadístico de prueba tiene distribución chi cuadrado con (k-1) grados de 
libertad, donde k es la cantidad total de valores que tiene la distribución 
analizada. 
 
∑
=
−
−
=
k
i e
oe
k f
ff
1
2
2
1
)(χ 
 
En este caso las hipótesis nula y alternativa que se consideran en la prueba 
de hipótesis son: 
 
Hipótesis nula: 
 
Ho: La variable tiene la distribución supuesta (en este lugar se especifican 
los aspectos a probar, ya sea una descripción de cómo distribuye, o con el 
nombre de la distribución conocida y sus parámetros correspondientes) 
 
Hipótesis alternativa: 
 
H1: La variable no sigue la distribución supuesta 
 
Tabla Chi-cuadrado 
Para las pruebas de esta 
unidad Ud. deberá utilizar 
nuevamente la tabla con 
la que trabajó en el 
módulo anterior para 
las pruebas sobre la 
varianza. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 4  
 
En las pruebas chi cuadrado de bondad de ajuste, siempre se coloca el 
riesgo de no aceptar la hipótesis nula siendo ésta cierta (el nivel de 
significación, α) en el extremo superior de valores de la distribución chi 
cuadrado, como muestra la siguiente figura. 
 
Figura Prueba chi cuadrado de bondad de ajuste-Ubicación de la zona de 
rechazo 
 
 
Fuente: elaboración propia, con captura de imagen de distribución chi 
cuadrado de 
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20c
hi%20cuadrado/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCua
drado.gif 
 
 
Como puede observarse en el estadístico de prueba, el valor que surja a 
partir de los datos muéstrales será elevado cuando difieran 
sistemáticamente las frecuencias observadas de las esperadas (que se 
construyen teniendo en cuenta la distribución hipotética indicada en la 
hipótesis nula). Por ello es que valores elevados del estadístico caerán en la 
zona de rechazo. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 5  
 
 
Veamos una aplicación completa de esta prueba. 
 
Se supone que el número de defectos en un dispositivo para 
pagos electrónicos sigue una distribución Poisson. 
 
Toma una muestra aleatoria de 43 dispositivos y se observa 
el número de defectos. Los resultados obtenidos fueron los 
siguientes: 
 
Número de 
defectos 
 
Frecuencia 
observada 
0 
 
25 
1 
 
10 
2 
 
6 
3 ó más 2 
 
 
 
En primer lugar, explicitaremos las hipótesis de la prueba. 
 
 
 
Ho: El número de defectos en el dispositivo tiene una 
distribución de Poisson. 
 
H1: El número de defectos en el dispositivo no tiene una 
distribución de Poisson. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 6  
 
Si trabajamos con un α=0,05, el valor crítico de chi cuadrado 
con 3 grados de libertad será 7,83. 
 
La regla de decisión quedará entonces: 
 
Si el estadístico muestral es inferior a 7,83, no se rechaza Ho. 
 
Si el estadístico muestral es mayor o igual a 7,83, se rechaza 
Ho. 
 
 
A los fines de construir la tabla de distribución teórica, o 
frecuencias esperadas, deberemos estimar en primer lugar el 
valor de λ, ya que no nos ha sido proporcionado. 
Calcularemos entonces, el valor esperado con los datos de la 
muestra: 
 
43
2.36.210.125.0 +++
=λ 
 
43
28
=λ 
 
65,0=λ 
 
 
Podemos utilizar ahora el parámetro estimado λ=0,65, para 
calcular con la fórmula de la distribución de Poisson o con la 
tabla las frecuencias esperadas: 
!
)(
x
exP
xλλ−
= 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 7  
 
 
Con esta fórmula obtuvimos las siguientes probabilidades, 
que luego aplicaremos al tamaño total de la muestra para 
calcular las frecuencias esperadas. 
 
Defectos 
 
Probabilidad 
0 
 
0,52205 
1 
 
0,33933 
2 
 
0,10519 
3 ó más 0,03343 
 
Frecuencias esperadas: 
Defectos 
Frecuencia 
Esperada 
0 22,44815 
1 14,59119 
2 4,52317 
3 o más 1,43749 
Total 43 
 
 
Ahora aplicaremos la fórmula del estadístico de prueba. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 8  
 
∑
=
−
−
=
k
i e
oe
k f
ff
1
2
2
1
)(χ 
 
 
Defectos Frecuencia 
esperada 
Frecuencia 
observada 
fe-fo (fe-fo)2 (fe-fo)/fe 
0 22,44815 25 -2,55185 6,51193842 0,29008798 
1 14,59119 10 4,59119 21,0790256 1,44464061 
2 4,52317 6 -1,47683 2,18102685 0,48218989 
3 ó más 1,43749 2 -0,56251 0,3164175 0,22011805 
Total 43 43 2,43703653 
 
Teniendo en cuenta la regla de decisión, no se rechaza la 
hipótesis nula. 
 
En síntesis, con la evidencia aportada por la muestra, no 
podemos descartar, con una significación de 0,05, que el 
número de defectos se distribuye Poisson. 
 
 
Tenga en cuenta que este tema (prueba de bondad de ajuste) no se 
encuentra desarrollado en la bibliografía básica de la materia. 
 
 
4.2. Prueba de independencia de dos 
variables categóricas 
 
La prueba de independencia permite establecer si existe o no relación 
entre variables categóricas, cuando cada una de las cuales posee dos o más 
categorías. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 9  
 
 
Veamos un ejemplo. 
 
Se llevó a cabo una encuesta de expectativas económicas vinculada con la 
confianza de los consumidores, y se toma como referencia, la evolución 
previa de la situación económica que percibieron los encuestados. En 
particular, se distinguen en las respuestas quienes mejoraron su situación, 
quienes la mantuvieron igual y quienes empeoraron en el último año.Interesa considerar la posible relación de la evolución de la situación 
económica percibida para diferentes segmentos de edad de la población. 
 
Se distinguieron los encuestados de acuerdo con los siguientes grupos: 
 
De 18 a 29 años: Jóvenes 
De 30 a 59 años: Adultos plenos 
De 60 años y más: Adultos mayores. 
 
 
Se consideraron de manera conjunta ambas variables en una tabla de 
contingencia, donde en las celdas se indica cuántos individuos reúnen al 
mismo tiempo las características reflejadas en la fila y columna 
correspondientes. Los resultados arrojados por el estudio son los 
siguientes: 
 
 
 
 
 
 
 
 
Bibliografía Básica 
Recuerde revisar este tema 
en detalle en el texto de 
Berenson & Levine 
(1996). El punto 15.6 
complementa lo explicado 
en este apartado. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 10  
 
Tabla: Encuestados según cambio en la situación económica personal y 
grupos de edad 
 
 Cambios en la situación económica personal en 
el último año 
Edades 
 
Mejoró Se mantuvo igual Empeoró 
Jóvenes 
 
180 150 90 
Adultos plenos 
 
120 180 70 
Adultos 
mayores 
 
70 100 130 
Fuente: elaboración propia 
 
 
La prueba Chi cuadrado que presentaremos permite establecer si existe 
relación entre escalas como las planteadas en el ejemplo. 
 
La prueba Chi cuadrada es una prueba de carácter general que se utiliza 
cuando se desea determinar si las frecuencias absolutas obtenidas en la 
observación (como en la tabla del ejemplo previo), difieren 
significativamente o no de las que se esperarían bajo cierta hipótesis 
planteada de interrelación de las categorías de las variables consideradas. 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 11  
 
Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes 
totales, en filas y en columnas 
Tabla cruzada: cambio en la situación económica * grupo de edad 
 
 Cambios en la situación 
económica personal en el último 
año 
Total 
 Mejoró Se mantuvo 
igual 
Empeoró 
Grupo 
de 
edad 
Jóvenes Total 180 150 90 420 
% en grupo de 
edad 
42,9% 35,7% 21,4% 100,0% 
% en cambio 48,6% 34,9% 31,0% 38,5% 
% del total 
 
 
16,5% 13,8% 8,3% 38,5% 
Adultos 
plenos 
Total 120 180 70 370 
% en grupo de 
edad 
32,4% 48,6% 18,9% 100,0% 
% en cambio 32,4% 41,9% 24,1% 33,9% 
% del total 
 
 
11,0% 16,5% 6,4% 33,9% 
Adultos 
mayore
s 
Total 70 100 130 300 
% en grupo de 
edad 
23,3% 33,3% 43,3% 100,0% 
% en cambio 18,9% 23,3% 44,8% 27,5% 
% del total 
 
6,4% 9,2% 11,9% 27,5% 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 12  
 
 
Total Total 370 430 290 1090 
% en grupo de 
edad 
33,9% 39,4% 26,6% 100,0% 
% en cambio 100,0% 100,0% 100,0% 100,0% 
% del total 33,9% 39,4% 26,6% 100,0% 
 
 
Considerando los datos de la tabla previa, se puede observar que entre los 
que mejoraron, es más elevada la proporción de jóvenes, respecto del total, 
en tanto, entre los que se mantuvieron, la proporción que se destaca es la de 
Adultos plenos. Finalmente, entre los individuos que vieron desmejorar su 
situación económica, presentan proporcionalmente una mayor presencia de 
Adultos mayores que el resto. 
 
A los fines de corroborar si tal observación puede sostenerse, o bien si se 
trata sólo de una casualidad presente en los datos de la muestra, la prueba 
Chi cuadrado permite someter a contraste las siguientes hipótesis: 
 
Ho: 
 
Las variables son independientes entre sí (es decir, no tienen relación) 
 
H1: 
Las variables no son independientes. 
 
 
Observe que si bien estamos interesados en considerar la vinculación entre 
las variables, la hipótesis nula parte del supuesto neutral de no relación o 
independencia. En el caso de rechazar la hipótesis nula, detectaremos la 
relación que suponemos que existe, que motivó el estudio. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 13  
 
El estadístico justamente considerará esta situación, en la cual, si los 
valores observados se distancian significativamente del valor esperado bajo 
el supuesto de independencia, el estadístico resultará en un valor elevado 
(ubicado en la zona de rechazo), y se rechazará la hipótesis nula. El 
estadístico Chi cuadrado está dado por: 
 
∑ −=
e
eo
f
ff 22 )(χ 
 
Este estadístico se distribuye Chi cuadrado con (c-1).(f-1) grados de 
libertad. 
 
Donde 
 
fo: frecuencias observadas 
fe: frencuencias esperadas 
c= número de columnas 
f= número de filas 
 
También en la prueba chi cuadrado de independencia se localizaa el riesgo 
de no aceptar la hipótesis nula siendo ésta cierta (el nivel de significación, 
α) en el extremo superior de valores de la distribución chi cuadrado, como 
muestra la siguiente figura. 
 
 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 14  
 
Figura Prueba chi cuadrado de independencia -Ubicación de la zona de 
rechazo 
 
 
Fuente: elaboración propia, con captura de imagen de distribución chi 
cuadrado de 
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20c
hi%20cuadrado/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCua
drado.gif 
 
 
Nuevamente puede observarse que si las frecuencias esperadas (bajo la 
hipótesis nul cierta de independencia o no relación entre variables), difieren 
sistemáticamente de las observadas, tendremos elementos como para 
descartar la independencia, y concluiremos que existe relación entre las 
variables. En tal caso, el valor del estadístico asumirá valores elevados. De 
lo contrario, si en general, las frecuencias esperadas (bajo la hipótesis de no 
relación) no difieren de las observadas, no tendremos elementos para 
descartar la independencia. 
 
Continuemos ahora con el ejemplo, obteniendo las frecuencias esperadas y 
completando el test. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 15  
 
Suponiendo una significación de 0,05, dado que se trabaja con 4 grados de 
libertad (tres filas y tres columnas), el valor crítico del estadístico chi 
cuadrado es: 9,5. 
 
La regla de decisión será: 
 
Si el estadístico obtenido con datos muestrales es inferior a 9,5, no se 
rechazará la hipótesis nula. 
 
Si el estadístico basado en los datos muestrales es mayor a 9,5, se rechazará 
la hipótesis nula de independencia, y se concluirá que existe relación entre 
las variables. 
 
Para calcular las frecuencias esperadas de cada celda de la tabla de 
contingencia, se debe multiplicar la frecuencia marginal de la fila de la celda 
por la frecuencia marginal de la columna de la celda, y luego dividir ese 
resultado por el tamaño total de la muestra. Por ejemplo, para calcular la 
frecuencia esperada de la celda “Jóvenes que mejoraron su situación 
económica”, realizamos la siguiente operación: 
 
 
 
 
1090
370.420
=ef 
 
 
La siguiente tabla sintetiza las frecuencias marginales para poder calcular 
las frecuencias esperadas de todas las celdas interiores de la tabla. 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 16  
 
Tabla de contingencia: frecuencias marginales 
 
 Cambios en la situación 
económica personal en el 
último año 
 
Edades Mejoró Se 
mantuvo 
igual 
Empeoró Total 
Jóvenes 420 
 
Adultos plenos 370 
 
Adultos 
mayores 
 300 
 
Total 370 430 290 1090 
 
 
Con el procedimiento descripto, la tabla de frecuencias esperadas resulta: 
 
Frecuencias esperadas 
 
 Cambios en la situación económica 
personal en el último año 
 
Edades Mejoró Se mantuvo 
igual 
Empeoró Total 
Jóvenes 142,569 165,688 111,743 420 
 
Adultos 
plenos 
125,596 145,963 98,440 370 
 
Adultos 
mayores 
101,835 118,349 79,817300 
 
Total 370 430 290 1090 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 17  
 
 
 
La siguiente tabla surge de comparar los valores observados y esperados: 
 
 Cambios en la situación económica 
personal en el último año 
Edades Mejoró Se mantuvo 
igual 
Empeoró 
Jóvenes -37,431 15,688 21,743 
 
Adultos 
plenos 
5,596 -34,037 28,440 
 
Adultos 
mayores 
31,835 18,349 -50,183 
 
 
Finalmente los valores que suman de cada celda para construir el 
estadístico muestral. El valor del estadístico basado en datos muestrales es: 
76,3, que cae en la zona de rechazo, por lo tanto se concluye las variables 
grupo de edad de los encuestados se relaciona con la percepción de cambio 
en su situación económica en el último año. 
Tabla con los valores que se suman para obtener el estadísitico muestral, 
cada celda contiene los valores de 
ije
eo
f
ff
⎥
⎦
⎤
⎢
⎣
⎡ − 2)(
 , para la celda ij, 
respectivamente. 
 Cambios en la situación económica 
personal en el último año 
Edades Mejoró Se mantuvo igual Empeoró 
Jóvenes 9,827 1,485 4,231 
 
Adultos 
plenos 
0,249 7,937 8,217 
 
Adultos 
mayores 
9,952 2,845 31,552 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 18  
 
 
 
Unidad 4: Análisis de Varianza 
(ANOVA) 
 
 
5.1. Análisis de varianza de un factor 
 
El análisis de varianza o como es más conocido, ANOVA, sus siglas de la 
denominación en inglés: ANalysis Of VAriance, examina dos o más 
conjuntos de datos, en particular sus varianzas, e intenta detectar 
diferencias estadísticamente representativas entre las medias de dichos 
conjuntos. 
 
El propósito del ANOVA es comprobar si existen diferencias significativas 
entre las medias de c grupos (c≥3). 
 
Si sólo comparamos dos medias, el ANOVA producirá el mismo resultado 
que la prueba t para muestras independientes (si estamos comparando dos 
grupos diferentes de casos u observaciones) o la prueba t para muestras 
dependientes (si estamos comparando dos variables en un conjunto de 
casos u observaciones). El problema de aplicar la metodología de 
comparación de a pares cuando la cantidad de grupos estudiados es 
superior a dos, es que, en cada comparación se está sujeto a la probabilidad 
de cometer el error tipo I (con riesgo α), y en consecuencia la significación 
real de la prueba no será la comprometida. 
 
El método de análisis de varianza se basa en el hecho de que hay una 
diferencia entre los grupos sólo si la varianza intergrupos es mayor que la 
varianza intra-grupo. 
 
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la 
media de todas estas varianzas de grupo. 
 
Bibliografía Básica 
Para cumplir con los 
objetivos de la Unidad 5 
del programa, es necesario 
profundizar en los temas 
desarrollados en el 
Capítulo 14 del texto de 
Bibliografía Básica. 
(Berenson & Levine, 
1996), relacionándolos 
con los comentarios, 
ejemplos y 
recomendaciones de las 
lecturas del módulo. 
 
Capítulos: 14 (Apartados 
14.1, 14.2, 14.3, 14.4) 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 19  
 
 
 
La separación de la suma de cuadrados 
 
La idea básica del ANOVA es el hecho de que las varianzas pueden ser 
divididas, es decir separadas. Se debe recordar que la varianza se calcula 
como la suma de desviaciones al cuadrado respecto de la media general (o 
gran media), dividida por n-1 (el tamaño de la muestra menos uno). Por 
eso, para una muestra de tamaño n, la varianza es una función de las sumas 
de cuadrados (de desvíos), a la cual denominaremos SS. La partición de la 
varianza funciones como mostraremos a continuación: 
 
Figura. Descomposición de la suma de cuadrados 
 
 
Fuente. Elaboración propia 
 
 
La nomenclatura que usaremos en este tema difiere levemente de la 
empleada en el texto de la bibliografía básica. Todos los valores 
correspondientes a las sumas de cuadrados entre grupo se identificarán en 
este caso con una letra E (mientras que en el texto se utiliza una A, por 
“among”). Todos los valores correspondientes a las sumas de cuadrados 
dentro grupo se identificarán en este caso con una letra D (mientras que en 
el texto se utiliza una W, por “within”). 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 20  
 
 
Lógica básica del ANOVA 
 
El propósito del análisis de varianza es probar si son estadísticamente 
significativas las diferentes en las medias para tres ó más grupos de casos. 
 
Para ello se analiza la varianza, particionando la varianza total en sus 
componentes: el que se debe al error aleatorio (Suma de cuadrados dentro 
de los grupos) y el que se debe a las diferencias entre las medias (Suma de 
cuadrados entre los grupos). 
 
Estos componentes de la varianza son sometidos a la prueba de 
significación estadística, y si resulta significativa, se rechaza la hipótesis 
nula referida a la no existencia de diferencia entre las medias y se concluye 
que hasta nueva evidencia se mantiene como válida la hipótesis alternativa 
referida a que las medias de la población son diferentes entre sí (o más 
precisamente, que al menos una de las medias consideradas lo es). 
 
Analizaremos un problema específico para presentar todos los conceptos y 
procedimientos de la prueba. 
 
Una cadena de supermercados posee tres sucursales en una ciudad, cada 
una ubicada en zonas con características diferenciadas, que determinan una 
aparente distinta frecuencia mensual de compra por parte de los clientes. 
Interesa saber si efectivamente las zonas presentan diferencia en este 
aspecto, para lo cual se llevó a cabo un seguimiento de tres clientes 
seleccionados al azar en cada sucursal durante el último mes, y se registró el 
número de veces que realizaron compras en la sucursal respectiva. La 
siguiente tabla resume lo observado. 
 
 
 
 
 
 
 
Nomenclatura 
Tenga presente que el 
texto de Berenson y 
Levine (1996) utiliza las 
abreviaturas 
correspondientes a la 
nomenclatura en inglés, 
donde : 
SSA: Sum of squares 
among (Suma de 
cuadrados entre grupos) 
SSW: Sum of squares 
within (suma de 
cuadrados dentro de 
grupos) 
SST: Sum of squares 
Total (Suma de cuadrados 
Totales) 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 21  
 
Tabla: Frecuencia mensual de concurrencia a la sucursal correspondiente 
 
 Zona 1 Zona 2 Zona 3 
Observación 1 
 
2 6 8 
Observación 2 
 
3 7 8 
Observación 3 
 
1 5 7 
Media del grupo 
 
2 6 7,67 
 
 
 
En la prueba ANOVA, las hipótesis se explicitan de la siguiente manera: 
 
Hipótesis nula: 
 
Ho: Las medias de los c grupos son iguales 
 
 
Hipótesis alternativa: 
 
Al menos una de las medias de los grupos es diferente a las demás. 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 22  
 
En el ejemplo planteado, quedarían expresadas de la siguiente manera. 
 
 
Hipótesis nula: 
 
Ho: Las medias de frecuencia mensual de compra de las 3 zonas son iguales 
 
 
Hipótesis alternativa: 
 
Al menos una de las medias de las zonas es diferente a las demás. 
 
 
5.1.1. Dispersión total 
 
La variación total (SST) está dada por la suma de cuadrados de todos los 
valores respecto de la media del total de datos o gran media. 
 
∑∑
= =
−=
c
j
n
i
ij
j
xxSST
1 1
2)(
 
 
Donde 
 
x es la gran media 
 
ijx es la i-ésima observación del grupo j 
Cálculo Gran Media 
Tenga en cuenta que la 
gran media es el 
promedio de todas las 
observaciones. No es 
correcto realizar el 
promedio de las 
medias de los grupos, 
dado que si la cantidad de 
elementos de cada grupo 
es diferente, el cálculo de 
la media quedará 
distorsionado. Revise la 
fórmula de cálculo 14.1 
que se presenta en el texto 
deBerenson & Levine 
(1996). 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 23  
 
 
nj indica la cantidad de casos del grupo j 
 
c es la cantidad de grupos 
 
 
Tabla: Cálculo de la gran media y de la SST 
 
 Zona 1 Zona 2 Zona 3 
Observación 1 
 
2 6 8 
Observación 2 
 
3 7 8 
Observación 3 
 
1 5 7 
Media del grupo 
 
2 6 7,67 
Gran Media 
 
5,2 
Suma de cuadrados 
totales 
55,56 
 
 
5.1.2. Dispersión entre grupos 
 
La variación o dispersión entre grupos se resume a través de la suma 
de cuadrados entre grupos (SSE), que considera las diferencias entre las 
medias de cada grupo y la gran media. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 24  
 
∑
=
−=
c
j
jj xxnSSA
1
2)(
 
 
Donde 
 
jx es la media del grupo j 
 
 
 
5.1.3. Dispersión dentro de grupos 
 
La variación o dispersión dentro grupos considera la suma de 
cuadrados dentro de grupos (SSD), que tiene en cuenta las diferencias 
entre cada uno de los valores observados en cada grupo y la media 
correspondiente a su grupo. 
 
∑∑
==
−=
jn
i
jij
c
j
xxSSD
1
2
1
)(
 
 
Donde 
 
jx es la media del grupo j 
 
Veamos los resultados de las SSE y SSD para los datos del ejemplo: 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 25  
 
 Zona 1 Zona 2 Zona 3 
Observación 1 
 
2 6 8 
Observación 2 
 
3 7 8 
Observación 3 
 
1 5 7 
Media del grupo 
 
2 6 7,67 
Suma de cuadrados 
(dentro) 
 
2 2 0,67 
 4,67 
 
 
 
Suma de cuadrados 
entre 
 
 50,86 
Gran Media 
 
5,2 
Suma de cuadrados 
totales 
55,56 
 
 
Las medias de los tres grupos, parecen ser bastante diferentes. Las sumas 
de cuadrados en cada grupo son relativamente reducidas. En total suma 
4,56. Por otra parte, si analizamos la SS total, obtenemos 55,56. En 
definitiva, calcular la varianza (suma de cuadrados) basados en la 
variabilidad en los grupos conduce a una estimación mucho menor de la 
varianza que calcularla basada sobre la variabilidad total. La razón para ello 
en este ejemplo es que hay una gran diferencia entre las medias, y esta 
diferencia genera la diferencia entre las SS. 
 
Nomenclatura 
Tenga presente que el 
texto de Berenson y 
Levine (1996) utiliza las 
abreviaturas 
correspoendientes a la 
nomenclatura en inglés, 
donde SS corresponde a 
“Sum of Squares” o 
Suma de Cuadrados. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 26  
 
 
Cada una de las sumas de cuadrados descriptas tiene asociados grados de 
libertad diferentes: 
 
• La SST tiene n-1 grados de libertad, ya que pierde un grado de 
libertad respecto del total de datos de la muestra, por el cálculo de la 
gran media 
 
• La SSE tiene c-1 grados de libertad, también debido a que si se 
conoce la gran media, al menos uno de los valores de las medias de 
los grupos quedará automáticamente determinado. 
 
• La SSD tiene n-c grados de libertad, ya que en cada uno de los c 
grupos resultan (nj -1) grados de libertad, ya que en cada grupo se 
pierde un grado de libertad por el cálculo de la media muestral de 
ese grupo. 
 
 
Suma de cuadrados del Error (Suma de Cuadrados Dentro) y 
Suma de cuadrados del Efecto (Suma de Cuadrados Entre) 
 
La variabilidad dentro de los grupos es generalmente denominada Varianza 
de Error. Este término denota el hecho de que no podemos realmente 
explicarlo o tenerlo en cuenta en este diseño que estamos considerando. Sin 
embargo, la variabilidad entre grupos (Efecto), puede ser explicada. Como 
su nombre lo indica, esta variabilidad se debe a las diferencias en las 
medias entre los grupos. Explicado de otra forma, ser miembro de un grupo 
explica esta variabilidad ya que conocemos que esto se asocia con las 
diferencias en las medias. 
 
El ANOVA es otro ejemplo de prueba en la que se desea conocer la 
significación estadística. En este caso el test o prueba se basa en la 
comparación de la varianza debida a la variabilidad entre grupos 
(Cuadrados medios entre, CME) con la variabilidad dentro de los grupos 
(Cuadrados medios dentro, CMD, o Cuadrados medios del error). Bajo 
hipótesis nula (que se expresa como: no hay diferencias entre las medias de 
los grupos de la población), la varianza estimada basada en la variabilidad 
dentro de los grupos debería ser aproximadamente la misma que la 
varianza debida a variabilidad entre grupos. Podemos entonces comparar 
estas dos estimaciones de la varianza a través de la prueba F, la cual somete 
a prueba si el cociente de dos varianzas es significativamente mayor que 1. 
Nomenclatura 
Tenga presente que el 
texto de Berenson y 
Levine (1996) utiliza las 
abreviaturas 
correspondientes a la 
nomenclatura en inglés, 
donde MS corresponde a 
“Medium Squares” o 
Cuadrados Medios. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 27  
 
 
En el ejemplo, el test es elevadamente significativo, por lo cual se concluye 
que en efecto las medias de los grupos (al menos una de ellas) son 
significativamente diferentes entre sí. 
 
 
Considerando las sumas de cuadrados y sus respectivos grados de libertad 
podemos obtener las tres varianzas que caracterizan al problema: 
 
• Los cuadrados medios totales (o términos cuadráticos medios 
totales) se obtienen de la siguiente manera: 
 
1−
=
n
SSTCMT
 
 
 
• Los cuadrados medios entre (o términos cuadráticos medios entre) 
se obtienen de la siguiente manera: 
 
1−
=
c
SSECME
 
 
• Los cuadrados medios dentro (o términos cuadráticos medios 
dentro) se obtienen de la siguiente manera: 
 
cn
SSDCMD
−
=
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 28  
 
El texto de la bibliografía básica denota con MS a los Cuadrados medios. 
 
 
Contraste de hipótesis en el ANOVA 
 
El estadístico de prueba tiene distribución F, y se construye en base a los 
datos de la muestra de la siguiente manera: 
 
 
CMD
CMEF =
 
 
 
 
La distribución, que corresponde a un cociente de varianzas, tiene 
asociados grados de libertad del numerador iguales a los de los CME, 
que son c-1, y grados de libertad en el denominador iguales a los de los 
CMD, que son n-c. 
La zona de rechazo en las pruebas ANOVA se establece determinando un 
valor crítico en la distribución F, con los grados de libertad mencionados, 
de manera que resulte por encima de este valor, una probabilidad igual al 
nivel de significación elegido. En este caso también, la zona de rechazo se 
ubica en los valores elevados de la distribución. Este hecho se relaciona con 
la relación mencionada previamente de los cuadrados medios dentro y 
entre como estimadores de la varianza. En términos intuitivos, puede 
observarse que un valor elevado del estadístico muestral, proviene de una 
situación en la cual los CME son más elevados (predominantes en cuanto a 
la fuente de variación de los datos). En tal situación, la variabilidad de los 
datos se asocia principalmente con el grupo al cual pertenece el individuo, y 
en consecuencia resulta sospechosa la hipótesis de igualdad de todas las 
medias poblacionales de los grupos. 
 
El valor crítico de la prueba en el ejemplo, de una distribución F, con 2 
grados de libertad en el numerador y 6 grados de libertad en el 
denominador, con una significación de 0,05, es 5,14. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 29  
 
 
La regla de decisión queda determinada de la siguiente manera: 
 
• Si el estadístico muestral F es mayor o igual a 5,14, se rechaza la 
hipótesis nula (y en consecuencia no puede afirmarse que las medias 
de todos los grupos son iguales). 
 
• Si el estadístico muestral F es menor a 5,14, no se rechaza la 
hipótesis nula (y en consecuencia no disponemosde evidencia para 
descartar que las medias de todos los grupos sean iguales). 
 
El siguiente gráfico muestra dónde se ubica la zona de rechazo en las 
pruebas ANOVA. 
 
Figura 
 
 
 
Fuente: elaboración propia, con captura de imagen de distribución tomada 
de 
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20f/
BlogAqueronte/Estadistica/Tablas/f.gif 
 
Zona de Rechazo 
En virtud de la lógica de 
análisis de ANOVA, 
siempre la zona de 
rechazo se ubica en el 
extremo superior de 
la distribución. Los 
valores altos del 
estadístico F permiten 
rechazar la hipótesis nula. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 30  
 
 
Toda la información requerida para un ANOVA se sintetiza en una tabla 
ANOVA. Para el ejemplo, la siguiente tabla ANOVA, nos permite llevar a 
cabo la prueba: 
 
Tabla de ANOVA 
 
Fuente de 
variación 
Suma de 
cuadrados 
Grados de 
libertad 
Cuadrados 
medios 
F 
Entre 
grupos 
(Efecto) 
 
50,89 2 25,44 
 
32,71 
Dentro de 
grupos 
(Error) 
 
4,67 6 0,778 
Total 55,56 8 - 
 
 
El valor de estadístico muestral F es 32,71, superior al valor crítico, por lo 
tanto, en base a la evidencia obtenida, podemos afirmar que al menos una 
de las zonas donde están implantadas las sucursales del supermercado, 
posee una frecuencia promedio de compra de los clientes distinta al resto. 
 
Comparaciones Post hoc 
El hecho de rechazar la hipótesis nula de un ANOVA no nos dice nada 
acerca de las diferencias de las medias entre sí, sólo nos permite asegurar 
que tal diferencia es significativa, en al menos una de las medias 
consideradas. 
 
Nos preguntamos en el ejemplo, ¿cuál o cuáles de las sucursales difieren 
significativamente en cuanto a sus frecuencias promedio de compra? 
 
Prueba de Tukey-
Kramer 
El procedimiento de 
Tukey Kramer para las 
comparaciones múltiples 
se encuentra desarrollado 
en el punto 11.4.5 del 
texto de Berenson & 
Levine (1996). 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 31  
 
 
Para poder identificar cuál o cuáles medias difieren se realizan pruebas 
como el test de Tuckey, que posibilitan su detección. 
 
Dado que estas pruebas se realizan una vez que ha sido rechazada la 
hipótesis nula del ANOVA, a posteriori, se denominan post hoc. 
 
Para llevar a cabo esta prueba se sigue el siguiente procedimiento: 
 
1. En primer lugar se calculan las diferencias de a pares de todos los 
grupos 
 
 
 
Para todo 
 
 
 
Es decir, para todas las medias de diferentes grupos. 
 
 
En total serán necesarias 
 
 
 
 
Comparaciones de medias de a pares. 
 
 
 
 
'jj xx −
'jj ≠
2
)1( −cc
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 32  
 
 
2. En segundo lugar, se debe obtener el alcance crítico, con la siguiente 
fórmula: 
 
 
 
 
 
 
 
 
Si los tamaños de las muestras de cada grupo son diferentes debe 
calcularse el ac para cada par de medias de muestra. 
 
El valor de Q se obtiene de la tabla correspondiente a la tabla de 
Tuker Kramer. 
 
 
3. Finalmente se comparar las diferencias obtenidas en (1) con el ac 
que le corresponde. 
 
Si la diferencia obtenida excede al ac, pueden considerarse distintas 
las medias respectivas. 
 
Supuestos del ANOVA 
 
Para poder realizar la prueba ANOVA debe verificarse el cumplimiento de 
los supuestos, que garantizan la validez. 
 
1. Aleatoriedad o independencia de errores 
 
Es imprescindible garantizar la aleatoriedad en la asignación de los 
casos a los diferentes niveles del tratamiento, ya que de lo contrario, no 
será posible arribar a conclusiones correctas acerca del efecto del nivel 
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+= −
'
),(
11.
2 jj
cncU nn
CMDQac
Tabla de valores Q 
Ud. dispone de una tabla 
de valores Q en los anexos 
del módulo, al igual que al 
final del texto de 
Bibliografía básica. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 33  
 
del tratamiento o grupo al cual está asignado el caso, sobre la variable 
dependiente. 
 
Este aspecto debe ser garantizado desde el propio diseño del estudio 
experimental del cual provenga la muestra de análisis. 
 
2. Normalidad 
La segunda condición que debe cumplirse se relaciona con la 
distribución de los datos de cada uno de los grupos. Los datos deben 
distribuirse de manera normal en torno de la media de cada grupo. 
 
En general, la prueba ANOVA es robusta (en el sentido de resistir aún si 
no se cumple de manera estricta esta propiedad), siempre que las 
distribuciones no sean demasiado sesgadas. 
 
 
3. Homogeneidad de varianzas 
 
Las varianzas de todos los grupos deben ser iguales. Este supuesto es 
crítico, y puede verificarse su cumplimiento a través de un test de 
Levene de igualdad de varianzas. 
 
Si las muestras tienen igual tamaño, no se verá afectado el resultado del 
ANOVA por la falta de cumplimiento de este supuesto. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 34  
 
Ejercicios 
 
Resolver los siguientes ejercicios con las técnicas aprendidas. 
1. Supongamos que un fármaco que se administra a 3 grupos de 
personas y se les realiza cierta medición del efecto causado: 
 Resultado de la medición 
Gripe (nivel 1) 5 3 2 5 4 3 
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 5 
Sanos (nivel 3) 2 3 2 1 2 3 2 
En este caso los factores que influyen en las observaciones son tres: el que 
la persona padezca la gripe, apendicitis, o que esté sana. 
a. Plantee las hipótesis del problema. 
b. Utilice una significación de 0,05. 
c. Escriba una conclusión 
 
 
2. Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, 
obteniéndose los resultados de la tabla que se adjunta. Queremos 
saber si se puede concluir que todos los tratamientos tienen el 
mismo efecto. 
 
Tratamientos 
 
Observaciones ni 
Tratamiento 1 
 
-1 1 2 0 -1 5 
Tratamiento 2 
 
-2 -4 -5 -4 -7 5 
Tratamiento 3 
 
0 -1 -2 -4 -1 5 
Tratamiento 4 
 
1 4 6 3 8 5 
Anexo de Ejercitación 
Además de estos ejercicios, 
Ud. encontrará en el anexo 
del módulo una guía de 
ejercicios y sus 
respectivas soluciones. 
Le recomendamos que 
realice toda la ejercitación 
posible para identificar con 
claridad las situaciones en 
las que se aplica cada 
prueba estudiada. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 35  
 
a. Plantee las hipótesis del problema. 
b. Utilice una significación de 0,05. 
c. Escriba una conclusión 
 
 
3. La tabla siguiente presenta la distribución de frecuencia del número 
de defectos encontrados en el análisis de los últimos 200 artículos 
producidos en un proceso de producción. Usando un nivel de 
confianza del 5% se desea verificar mediante una prueba chi 
cuadrado si dichos valores proceden de una distribución de Poisson 
con una media de3.5 defectos por artículo. 
 
 
4. Se realizó una encuesta para caracterizar a los lectores de diarios en 
ciudades pequeñas, en áreas rurales y en granjas. La respuesta 
acerca de si leían o no algún diario, resultó en la siguiente tabla: 
 
Comunidad Lectores? Total 
Si No 
Urbana 529 121 650 
Rural 373 137 510 
Granja 237 89 326 
Total 1139 347 1486 
 
a) Con α=0.05 ¿brindan los datos evidencia suficiente para indicar 
que las proporciones de lectores difieren entre los distintos 
grupos de comunidades? 
 
b) Encuentre el valor p para la prueba. 
 
 
5. Se realizó un estudio de las decisiones de tres administradores de 
carteras de acciones, para comparar las ganancias obtenidas. 
¿Proporcionan los datos suficiente evidencia para indicar que hay 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 36  
 
diferencias en las compras exitosas entre los administradores 
(α=0.05)?Resultado Administrador Total 
A B C 
Con ganancia 63 71 55 189 
Sin ganancia 37 29 45 111 
Total 100 100 100 300 
 
6. Ante la sospecha de que el hábito de fumar de una embarazada 
puede influir en el peso de su hijo al nacer, se tomaron dos 
muestras, una de fumadoras y otra de no fumadoras, y se clasificó a 
sus hijos en tres categorías en función de su peso en relación con los 
percentiles P10 y P90 de la población. El resultado se expresa en la 
tabla siguiente: 
 Peso del niño 
¿Madre fumadora? Menor de P10 Entre P10 y P90 Mayor de P90 
Si 117 529 19 
No 124 1147 117 
¿Hay una evidencia significativa a favor de la sospecha teniendo en 
cuenta los resultados de la muestra? 
 
Bibliografía Lectura 3 
Berenson & Levine (1996). Estadística para administración y 
economía. Sexta Edición. Ed. Prentice Hall Hispanoamericana. México. 
 
 
 
www.uesiglo21.edu.ar

Continuar navegando

Otros materiales