RAFAEL~1 - FERNANDA NOEMI CAMPOS MENDIETA

Otros

•

Outros

Desafio PASSEI DIRETO

27/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Otros

101.415 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

https://www.facebook.com/groups/stats.ebooksandpapers/

https://www.facebook.com/groups/stats.ebooksandpapers/
Estadística multivariante
y no paramétrica con SPSS
Aplicación a las ciencias de la salud
https://www.facebook.com/groups/stats.ebooksandpapers/

https://www.facebook.com/groups/stats.ebooksandpapers/
Rafael Álvarez Cáceres
Estadística multivariante
y no paramétrica con SPSS
Aplicación a las ciencias de la salud

https://www.facebook.com/groups/stats.ebooksandpapers/
Motivo de cubierta: Concha de Spirula
(Cortesía del Dr. Arturo Valledor de Lozoya.)
© Rafael Álvarez Cáceres, 1995
Reservados todos los derechos.
«No está permitida la reproducción total o parcial de este libro,
ni su tratamiento informático, ni la transmisión de ninguna
forma o por cualquier medio, ya sea electrónico, mecánico,
por fotocopia, por registro u otros métodos, sin el permiso
previo y por escrito de los titulares del Copyright.»
Ediciones Díaz de Santos, S.A.
Juan Bravo, 3A. 28006 Madrid
España
ISBN: 978-84-7978-180-4
Depósito legal: M. 30.116-1994
Fotocomposición: Ángel Gallardo (Madrid)
Impresión: Lavel, S.A.
Encuademación: Novimar, S.L.
https://www.facebook.com/groups/stats.ebooksandpapers/
PRESENTACIÓN
El contenido de este libro es fruto de más de 10 años de expe-
riencia docente en el campo de la estadística y de la metodología
de la investigación científica en ciencias de la salud Durante los
últimos años he dirigido e impartido múltiples cursos de estadística,
estadística multivariante y metodología de la investigación en nu-
merosos centros sanitarios, entre los que son destacables la Escuela
Nacional de Sanidad y la Consejería de Salud de la Comunidad de
Madrid. Dada la falta de bibliografía sobre estos temas y en parte
animado por mis alumnos, me he decidido a escribir este libro, que
pretende cubrir un hueco en la bibliografía estadística.
En los últimos 15 años, la aplicación del método científico a las
ciencias de la salud, ha aumentado considerablemente, lo cual ha
llevado aparejado, una gran difusión de las técnicas estadísticas. En
la mayoría de los trabajos son analizadas de forma simultánea varias
variables y resulta necesario para ello emplear técnicas de análisis
multivariante; también, en los últimos años hemos asistido a un
aumento de la aplicación de la estadística no paramétrica.
Este libro analiza los métodos estadísticos multivariantes y no
paramétricos más utilizados. Los temas se abordan conceptualmente,
pero también con el rigor matemático necesario para interpretar y
aplicar estos métodos cada vez más difundidos. La resolución de
los ejemplos debe realizarse mediante ordenador y como paquete
estadístico he elegido SPSS1, puesto que en nuestro país es el más
difundido entre los profesionales de las ciencias de la salud.
En muchas ocasiones no se cumplen los supuestos paramétricos
1 SPSS es marca registrada de SPSS Inc CHICAGO U.S.A.
https://www.facebook.com/groups/stats.ebooksandpapers/
VIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
de los métodos estadísticos que se pretende utilizar, lo cual impide
aplicarlos si queremos ser rigurosos. En éstos y otros casos debemos
aplicar métodos estadísticos no paramétricos, cuya utilización aumen-
ta día a día.
A los docentes que quieran utilizar como texto este libro, basán-
dome en mi larga experiencia como docente, les recomiendo dividir
su contenido en dos cursos. En el primero se han de incluir las
siguientes técnicas estadísticas:
ANÁLISIS DE LA VARIANZA
ANÁLISIS DE LA COVARIANZA
CORRELACIÓN
REGRESIÓN
REGRESIÓN LOGÍSTICA
A los alumnos deben exigírseles conocimientos de estadística
básica, con entendimiento claro de la teoría del contraste de hipótesis
y de informática a nivel de usuario, teniendo en cuenta que los
ejemplos deben resolverse mediante ordenador.
El segundo curso debería incluir las materias siguientes:
ANÁLISIS DE COMPONENTES PRINCIPALES
ANÁLISIS FACTORIAL
ANÁLISIS DE CLUSTERS
ANÁLISIS DISCRIMINANTE
Los asistentes a este curso deben conocer las técnicas estadísticas
del primer curso y poseer los conocimientos previos exigidos en el
mismo. El segundo curso debe comenzar con una introducción con-
ceptual sobre matrices y vectores.
Con objeto de mejorar futuras ediciones, ruego me ayudéis a
descubrir erratas. También agradecería sugerencias sobre los temas
aquí tratados, para lo cual podéis escribirme a la siguiente dirección:
RAFAEL ÁLVAREZ CÁCERES
C/ Nieremberg, 23, 5° B
28002 MADRID
https://www.facebook.com/groups/stats.ebooksandpapers/
ÍNDICE

Presentación.................................................................................... VII
Instrucciones para el manejo de este libro ................................ XVII
Capítulo 1. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL
PROCEDIMIENTO ONEWAY ................................................... 1
Comparación simultánea de varias medias .......................... 1
Tipos de análisis de la varianza .............................................. 3
Fundamentos del análisis de la varianza ............................... 3
La varianza dentro de grupos............................................ 5
La varianza entre grupos .................................................... 6
Detección de diferencias significativas ............................ 8
Modelo matemático............................................................. 9
Suma de cuadrados............................................................. 10
Cuadrados medios ................ ............................................. 12
Hipótesis de Anova............................................................. 13
Disposición de los resultados. Tabla de Anova ............... 15
Comparaciones múltiples................................................... 16
Modelos de Anova de una vía .......................................... 17
Asunciones de Anova......................................................... 19
El subcomando Variables. El procedimiento Oneway ......... 20
El subcomando Statistics.......................................................... 22
Comparaciones múltiples. Los subcomandos Contrast y
Ranges .................................................................................. 26
https://www.facebook.com/groups/stats.ebooksandpapers/
X ÍNDICE
El subcomando Contrast .................................................... 26
El subcomando Ranges ...................................................... 32
Modelos polinómicos: el Subcomando Polynomial............... 36
El subcomando Options ........................................................... 37
Tratamiento de valores ausentes (Missing) .................... 37
Opciones de formato .......................................................... 38
Resultados en fichero matricial.......................................... 38
Lectura de datos matriciales .............................................. 40
Otras opciones ..................................................................... 42
Capítulo 2. ANÁLISIS MULTIFACTORIAL DE LA VARIAN-
ZA. ANÁLISIS DE LA COVARIANZA. EL PROCEDIMIENTO
ANOVA...................................................................................... 43
Análisis multifactorial de la varianza ...................................... 43
Estructura de los datos ...................................................... 45
Modelo matemático............................................................. 45
Interacción............................................................................ 47
Suma de cuadrados............................................................. 47
Cuadrados medios .............................................................. 49
Hipótesis de Anova ............................................................ 50
Tabla de Anova dos vías ................................................... 51
Asunciones enAnova de dos vías.................................... 52
Anova con más de dos factores ........................................ 53
Análisis de la covarianza ......................................................... 53
El modelo matemático de Ancova.................................... 55
Suma de cuadrados. Cuadrados medios .......................... 55
Hipótesis y asunciones de Ancova ................................... 56
El procedimiento Anova .......................................................... 57
El subcomando variables ................................................... 57
Ancova con SPSS................................................................. 61
El subcomando Statistics .................................................... 63
El subcomando Options...................................................... 68
Capítulo 3. MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCE-
DIMIENTO CORRELACIÓN...................................................... 71
Coeficiente de correlación lineal de Pearson ....................... 71
El procedimiento Correlation .................................................. 74
https://www.facebook.com/groups/stats.ebooksandpapers/
ÍNDICE XI
El subcomando Statistics ......................................................... 77
El subcomando Options........................................................... 78
Capítulo 4. REGRESIÓN SIMPLE Y MÚLTIPLE; EL PROCEDI-
MIENTO REGRESSIÓN ............................................................. 81
Introducción .............................................................................. 81
Tipos de análisis de Regresión............................................... 82
Regresión lineal simple ........................................................... 83
Suma de cuadrados ............................................................ 84
Consistencia de la asociación lineal ................................. 86
Estimaciones en Regresión lineal simple......................... 88
Hipótesis en Regresión lineal simple ............................... 89
Asunciones del análisis de Regresión.............................. 90
Regresión lineal múltiple ......................................................... 91
Variabilidad cuadrática. Suma de cuadrados ................. 91
Consistencia de la Asociación lineal ................................ 93
Hipótesis en regresión lineal múltiple.............................. 94
Asunciones del análisis de Regresión.............................. 96
Interacción ........................................................................... 96
Multicolinealidad................................................................. 97
Correlación parcial ............................................................. 100
Análisis de residuos............................................................ 100
Análisis de Regresión con SPSS ............................................. 102
El subcomando Method ..................................................... 110
El subcomando Criteria...................................................... 115
El subcomando Statistics .................................................... 117
El subcomando Origin ........................................................ 123
El subcomando Select ........................................................ 123
El subcomando Missing ..................................................... 126
El subcomando Width ........................................................ 126
El subcomando Descriptives ............................................. 126
Análisis de residuos con SPSS .......................................... 129
El subcomando Residuals............................................. 132
El subcomando Casewise ............................................. 142
El subcomando Scatterplot .......................................... 146
El subcomando Partialplot............................................ 147
El subcomando Regwgt...................................................... 151
El subcomando Save .......................................................... 151
https://www.facebook.com/groups/stats.ebooksandpapers/
XII ÍNDICE
El subcomando Read .......................................................... 152
El subcomando Write ......................................................... 153
Capítulo 5. REGRESIÓN LOGÍSTICA .......................................... 155
Introducción............................................................................... 155
Tipos de Regresión Logística .................................................. 156
Modelo matemático................................................................... 156
Estimación y significado de los coeficientes......................... 157
Hipótesis en regresión logística simple ................................. 158
Evaluación estadística de b1 ............................................. 159
Evaluación estadística de Wald......................................... 161
Evaluación del incremento del estadístico de �2LL0 ...... 162
Evaluación de �2LL0........................................................... 163
Evaluación del estadístico Z2 ............................................. 164
El modelo múltiple .................................................................... 165
Hipótesis en el modelo múltiple ............................................. 165
Evaluación del incremento del estadístico de �2LL0 ...... 166
Evaluación de �2LL0 .......................................................... 167
Evaluación del estadístico Z2 ............................................. 168
Interacción ................................................................................. 169
Coeficiente de correlación parcial.......................................... 170
Variables Dummy .................................................................... 171
Magnitud del efecto: riesgo relativo y Odds Ratio ............... 171
Riesgo relativo ..................................................................... 172
Razón de predominio (Odds Ratio) .................................. 173
Análisis del riesgo en regresión logística.............................. 175
Regresión logística con SPSS................................................... 176
El subcomando Variables .................................................. 177
El subcomando Categorical ............................................... 183
El subcomando Contrast..................................................... 185
El subcomando Method ...................................................... 187
El subcomando Criteria ...................................................... 188
El subcomando Select ........................................................ 189
El subcomando origin ......................................................... 193
El subcomando Print .......................................................... 193
El subcomando Missing ...................................................... 194
El subcomando External ..................................................... 194
El subcomando Classplot .................................................. 194
https://www.facebook.com/groups/stats.ebooksandpapers/
ÍNDICE XIII
Análisis de residuos ........................................................... 197
Variables temporales .................................................... 197
El subcomando Casewise............................................. 199
El subcomando Save .......................................................... 202
El subcomando Id ............................................................... 202
Capítulo 6. ANÁLISIS DE GRUPOS LOS PROCEDIMIENTOS
CLUSTER Y QUICK CLUSTER.................................................. 203
Análisis de Cluster: Clasificación............................................203
Proximidades. Distancias y similaridades ............................. 204
Similaridades ...................................................................... 204
Distancias ............................................................................ 205
Métodos de análisis de Cluster.............................................. 207
Métodos jerárquicos ........................................................... 207
Análisis de Clusters con SPSS .............................................. 209
El subcomando Measure .................................................. 209
El subcomando Method .................................................... 210
El subcomando Print ......................................................... 210
El subcomando Plot ............................................................ 211
El subcomando Id .............................................................. 212
El subcomando Save ......................................................... 212
El subcomando Write ......................................................... 212
El subcomando Read ......................................................... 213
El subcomando Missing ..................................................... 213
Ejemplos ................................................................................... 214
Ejemplo 2. Cluster de variables ....................................... 218
Métodos no jerárquicos .......................................................... 221
Métodos en Clusters no jerárquicos ................................ 221
Clusters no jerárquicos con SPSS ..................................... 221
El subcomando Criteria ................................................ 222
El subcomando Initial ................................................... 222
El subcomando Print ..................................................... 223
El subcomando Missing ............................................... 223
El subcomando Save .................................................... 224
El subcomando Write .................................................. 224
Ejemplo de Cluster no jerárquico .............................. 224
https://www.facebook.com/groups/stats.ebooksandpapers/
XIV ÍNDICE
Capítulo 7. COMPONENTES PRINCIPALES. ANÁLISIS FAC-
TORIAL; EL PROCEDIMIENTO FACTOR ............................... 231
Componentes principales y análisis factorial ....................... 231
Componentes principales ........................................................ 232
Modelo matemático ........................................................... 233
Fases de un análisis de componentes principales ......... 234
Elección de los componentes principales .................. 234
Rotación de los ejes ..................................................... 236
Rotaciones ortogonales .......................................... 237
Rotaciones oblicuas ................................................ 238
Representación gráfica ........................................... 238
Puntuaciones factoriales ......................................... 238
Análisis factorial ........................................................................ 239
Modelo matemático del análisis factorial ........................ 240
Fases en un modelo factorial ............................................. 241
Examen de la matriz de correlaciones ...................... 241
Prueba de Barlett...................................................... 242
Índice KMO ............................................................. 243
Correlación Antiimagen .......................................... 244
Medida de adecuación de la muestra ................... 244
Correlación múltiple ............................................... 245
Extracción de los factores comunes............................ 245
Rotación de factores ...................................................... 247
Puntuaciones factoriales ............................................... 247
Bondad del ajuste. Residuos .............................................. 248
Análisis factorial con SPSS ...................................................... 249
El subcomando Extraction ................................................ 250
El subcomando Criteria ..................................................... 250
El subcomando Rotation ..................................................... 251
El subcomando Print .......................................................... 251
El subcomando Plot ........................................................... 252
El subcomando Save .......................................................... 253
El subcomando Diagonal ................................................... 253
El subcomando Write ........................................................ 253
El subcomando Read ......................................................... 254
Ejemplos .............................................................................. 254
https://www.facebook.com/groups/stats.ebooksandpapers/
ÍNDICE XV
Ejemplo sobre componentes principales .................. 254
Ejemplo sobre análisis factorial exploratorio ............. 259
Ejemplo sobre análisis factorial confirmativo ............ 263
Capítulo 8. ANÁLISIS DISCRIMINANTE..................................... 267
Introducción............................................................................... 267
Métodos de análisis discriminante ......................................... 268
Función discriminante. Puntuaciones discriminantes ........... 269
Fundamentos matemáticos ..................................................... 270
Análisis discriminante con SPSS. El comando Dscriminant .. 272
Los subcomandos Groups y Variables ............................. 272
El subcomando Analysis .................................................... 277
El subcomando Method ...................................................... 278
El subcomando Maxsteps................................................... 286
Subcomandos de Criterio................................................... 286
El subcomando Functions................................................... 288
El subcomando Select......................................................... 288
El subcomando Options ..................................................... 289
El subcomando Statistics ................................................... 291
El subcomando Priors ......................................................... 302
El subcomando Save........................................................... 302
Capítulo 9. ESTADÍSTICA NO PARAMÉTRICA; EL PROCEDI-
MIENTO NPAR ......................................................................... 305
Estadística paramétrica y no paramétrica ............................. 305
El procedimiento Npar ............................................................ 306
El subcomando Option ....................................................... 307
El subcomando Statistics .................................................... 308
Pruebas para una sola muestra ............................................... 309
Prueba binomial. El subcomando binomial ...................... 309
Prueba Chi Cuadrado. El subcomando Chi-Square ........ 314
Prueba de Kolmogorov Smirnov. El subcomando K-S ..... 316
Prueba de las Rachas ......................................................... 322
Pruebas para dos variables relacionadas .............................. 327
Prueba de McNemar........................................................... 328
Prueba de los signos para dos variables relacionadas ... 334
Prueba de Wilcoxon para dos variables relacionadas .... 337
https://www.facebook.com/groups/stats.ebooksandpapers/
XVI ÍNDICE
Pruebas para K variables relacionadas .................................. 342
Prueba de Friedman .........................................................343
Coeficiente de concordancia de Kendall ......................... 346
La prueba de la Q de Cochran ......................................... 354
Pruebas para dos muestras independientes ................................. 358
Prueba de la mediana ............................................................ 359
La prueba de Mann-Whitney................................................. 361
La prueba de Kolmogorov-Smimov para dos variables
independientes ................................................................. 366
Prueba de las Rachas para dos variables .............................. 368
La prueba de los valores extremos de Moses ....................... 372
Pruebas no paramétricas para K variables .................................. 375
La prueba de Kruskal-Wallis ................................................ 376
La prueba de la mediana para K variables ............................ 380
Apéndice. DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO .... 383
Al Ejemplo Coromar .................................................................. 383
A2 Ejemplo vascular .................................................................. 386
A3 Ejemplo peces ...................................................................... 389
Bibliografía recomendada ................................................................ 391
https://www.facebook.com/groups/stats.ebooksandpapers/
INSTRUCCIONES PARA
EL MANEJO DE ESTE LIBRO
Este libro va dirigido a personas con conocimientos estadísticos
y de SPSS a nivel básico2, puede ser utilizado, como de aprendizaje
o como de consulta, es recomendable para resolver los ejemplos
disponer de un ordenador que tenga instalado el paquete SPSS,
aunque ello no es imprescindible. Recomendamos al lector estudiar
con detenimiento los fundamentos y aplicaciones de las técnicas
estadísticas descritas y después trabajar los ejemplos.
Este libro incluye la realización de múltiples ejemplos, la mayoría
basados en el fichero de datos CORONAR, puesto que este es el
fichero básico del curso en el disquete adjunto se incluyen el fichero
de sistema CORONAR.SYS el fichero de datos CORONAR.DAT y el
fichero de instrucciones CORONAR.SPS, también se incluyen los
ficheros VASCULAR.SYS y PECES.SYS. Recomendamos, al lector crear
un subdirectorio llamado DATOS, del directorio donde estén los
programas de SPSS, las órdenes de los ejemplos suponen que los
ficheros de trabajo están en dicho subdirectorio, si están instalados
en otro el lector deberá tenerlo en cuenta.
Los listados de instrucciones comienzan con el PROMPT de SPSS:
SPSS/PC: EL CUAL NO DEBE SER TECLEADO POR EL LECTOR, al
resaltarlo en negritas queremos indicar que esto es lo que usted
debe ver en la pantalla de su ordenador, si introduce las órdenes
desde el prompt, tampoco debe teclear los dos puntos resaltados en
negrita, que indican una orden que continúa desde la orden anterior.
2 El libro Estadística básica y procesamiento de datos con SPSS aplicado a las
ciencias de la salud. C.S.C.M., Madrid, 1994, cuyo autor es Rafael Álvarez Cáceres, va
dirigido a personas sin conocimientos previos de estadística ni de SPSS.
https://www.facebook.com/groups/stats.ebooksandpapers/
XVIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Supongamos que va a desarrollar una sesión de trabajo con
SPSS y quiere teclear las siguientes instrucciones:
SPSS/PC: GET FILE 'DATOS/CORONAR.SYS'.
SPSS/PC: ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3.
SPSS/PC: FINISH.
Si trabaja desde el prompt, no debe de teclear lo resaltado en
negrita.
Si usted desea trabajar desde el editor de textos incluido en
SPSS REVIEW, las instrucciones anteriores debe teclearlas en review
de la manera siguiente:
GET FILE 'DATOS/CORONAR.SYS'.
ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3.
FINISH.
https://www.facebook.com/groups/stats.ebooksandpapers/
Capítulo 1

En este capítulo vamos a estudiar el análisis de la varianza, que
es una técnica estadística que nos permite, entre otras cosas, com-
parar dos o más medias de forma simultánea.
Los métodos de comparación de dos medias, que SPSS ejecuta
mediante el procedimiento TTEST, sólo eran válidos para comparar
de forma simultánea dos medias. El análisis de la varianza plantea
el problema como un modelo matemático, en el cual la variable
dependiente es la variable cuantitativa, y la variable independiente
la variable cualitativa, también llamada factor. En el modelo de una
vía sólo hay una variable independiente; si hubiese dos en el modelo,
se aplicaría el análisis de la varianza de dos vías, etc.
Una posibilidad muy interesante que nos proporciona el proce-
dimiento ONEWAY es el cálculo de intervalos de confianza para la
media.
COMPARACIÓN SIMULTÁNEA DE VARIAS MEDIAS
Supongamos que en un estudio queremos comparar de forma
simultánea varias medias. Por ejemplo, en un estudio queremos
conocer el comportamiento de la tensión arterial sistólica (TAS) en
las distintas clases sociales. Para ello deberíamos hacer una compa-
ración simultánea de TAS entre las clases sociales alta, media y
baja y podríamos pensar (de forma equivocada) en realizar las
siguientes comparaciones de medias dos a dos mediante TTEST:

ANÁLISIS DE LA VARIANZA DE
UNA VÍA. EL PROCEDIMIENTO
ONEWAY
https://www.facebook.com/groups/stats.ebooksandpapers/

Podríamos plantear, en este caso, tres contrastes de dos medias,
TAS en clase alta (TAS-A) con TAS en clase media (TAS-M), etc.
Cada contraste lo hemos planteado con una probabilidad de cometer
error tipo I (α) de 0.05; ésta es la probabilidad de error que admitimos
en caso de rechazar la hipótesis nula. Pero esa probabilidad, que es
la de encontrar diferencias significativas simplemente por azar, actúa
en cada comparación y por lo tanto, al realizar los tres contrastes
admitiendo en cada uno de ellos un error del 5%, la probabilidad
de que un contraste sea significativo simplemente por azar es mucho
mayor que 0.05. Un símil que puede ayudar a comprender esto es
el siguiente: si tiramos un dado perfecto, una sola vez, la probabilidad
de sacar un número par es 0.5 (50%), pero si tiramos el dado tres
veces seguidas, la probabilidad de que al menos en una tirada
salga un número par es mayor que 0.5. En un contraste de hipótesis
ocurre una cosa parecida; si fijamos un nivel de significación α =
0.05, ésta es la probabilidad que aceptamos de estar equivocados
en caso de rechazar la hipótesis nula, que sería cuando encontrá-
ramos diferencias significativas. Pero esta es la probabilidad para
un solo contraste; ocurre como con el dado, la probabilidad de que
sacar par es 0.5, lo que resulta válido para una sola tirada, pero si
realizamos varios contrastes la probabilidad de considerar diferen-
cias significativas por azar es mayor. Algunos autores, como Bonfe-
rroni, proponen dividir el nivel de significación global para la prueba
por el número de comparaciones que realizan. En el ejemplo que
estamos analizando, si queremos trabajar con α = 0.05 y dado que
hay tres comparaciones, dividiríamos 0.05 entre 3, cuyo resultado
es 0.0167. Según esto deberíamos calcular los puntos críticos de la t
de Student como si realizáramos un contraste con α = 0.0167, pero
consideraríamos el contraste global α = 0.05. Esta técnica tiene el
inconveniente de que es muy conservadora; ello quiere decir que
para rechazar la hipótesis nula tiene que haber diferencias grandes,
y aunque controlamos la probabilidad de cometer error tipo I (α),

2 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 3
aumentamos la probabilidad de cometer error tipo II (β), que sería
la probabilidad de no considerar las diferencias como significativas,
cuando realmente lo son. El análisis de la varianza tiene en cuenta
estos inconvenientes y nos permite realizaruna comparación si-
multánea de varias medias, de forma bastante eficiente y teniendo
en cuenta los problemas analizados en este apartado.
TIPOS DE ANÁLISIS DE LA VARIANZA
Hemos dicho en la introducción al capítulo que el análisis de la
varianza plantea los problemas anteriores según un modelo mate-
mático, en el que la variable dependiente sería la variable cuantita-
tiva, y la independiente la variable cualitativa. Algunos autores llaman
factor a la variable independiente y niveles del factor a las categorías
(en el caso de la clase social, sería un factor con tres niveles).
Siguiendo con el ejemplo de TAS (variable cuantitativa) y clase
social (variable cualitativa), al comparar medias lo que estamos
analizando es si la TAS depende de la categoría de la variable; si la
TAS varía significativamente de una clase social a otra, es que el
valor de la TAS depende, en parte, de la categoría de la variable a
que pertenezca el individuo. En este caso, tenemos una variable
independiente y una sola dependiente, y éste es el modelo básico
del análisis de la varianza de una vía, también denominado de un
factor, que es la variable independiente. Podríamos plantear un
estudio en el que la variable dependiente fuera la TAS y hubiese
dos variables independientes, la clase social y el sexo. En este
caso, tendríamos un análisis de la varianza de dos factores, con dos
variables independientes cualitativas (factores). Si tuviéramos una
variable dependiente (cuantitativa) y tres independientes cualitativas
(tres factores), podríamos plantear un modelo de análisis de la va-
rianza de tres factores (tres variables independientes), etc.
En este capítulo sólo estudiaremos el análisis de la varianza de
una vía.
FUNDAMENTOS DEL ANÁLISIS DE LA VARIANZA
Supongamos que en una población extraemos K muestras re-
presentativas (homogéneas y aleatorias) de n elementos cada una.
https://www.facebook.com/groups/stats.ebooksandpapers/
4 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las muestras pueden tener tamaños diferentes pero, con objeto de
facilitar la comprensión de los conceptos, vamos a plantear inicial-
mente el problema considerando las K muestras iguales. En ca-
da elemento de la muestra anotamos el valor de una variable cuan-
titativa X. Tendremos por lo tanto K grupos con n elementos cada
uno, con valores de X, que podemos disponer de la siguiente ma-
nera:

En la tabla anterior, el primer subíndice indica el grupo (nivel
del factor) y el segundo el orden del elemento en el muestreo,
dentro del grupo indicado por el primer subíndice. La notación
empleada es la más comente; obsérvese que es distinta a la notación
matricial, en la que el primer subíndice indica la fila y el segundo la
columna. El elemento X2n es el valor de la variable dependiente
(cuantitativa) del enésimo elemento del segundo grupo (segundo
nivel). indica la media muestral del jésimo grupo, Sj2 indica la
varianza muestral del jésimo grupo y a la varianza de cada grupo la
llamaremos varianza dentro de grupos, porque mide la variabilidad
dentro de cada grupo. La media de todos los datos X viene dada
por la siguiente expresión:
jX
https://www.facebook.com/groups/stats.ebooksandpapers/

El número total de datos es N = k n.
Los K grupos anteriores son muestras representativas de la misma
población. Por lo tanto, las K medias muéstrales serán estimadores
de la media poblacional µ, y las diferencias entre ellas serán única-
mente debidas al azar. Las K varianzas muéstrales (varianzas dentro
de grupos) serán estimadores de la varianza poblacional σ2 y las
diferencias entre ellas serán únicamente debidas al azar.
La varianza dentro de grupos
La varianza dentro de grupos mide la variabilidad dentro de
cada grupo y cada una de las k varianzas intragrupo es un estimador
de la varianza poblacional σ2. La varianza intragrupos viene dada
por la siguiente expresión:

Si cada varianza intragrupo es un estimador de la varianza po-
blacional, también lo será la media ponderada de las k varianzas
intragrupo. La ponderación se realiza según el tamaño de cada
muestra, como hemos partido del supuesto de que las K muestras
tienen el mismo tamaño, la ponderación es la misma para cada
muestra y el resultado es la media aritmética de las K varianzas
intragrupos, según la siguiente expresión:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 5
https://www.facebook.com/groups/stats.ebooksandpapers/

Sustituyendo en (1-3) Sj2 por su valor según la expresión (1.2)
queda la siguiente expresión:

La expresión (1-4) es la media de las varianzas intragrupos, y es
un estimador de la varianza poblacional. A 5d2 la denominaremos
varianza dentro de grupos.
La varianza entre grupos
Otra estimación de la varianza poblacional podemos realizarla a
partir del error estándar de la media (E.E.M.) recuérdese que el
error estándar de la media es la desviación típica de la distribución
de medias muéstrales. Una estimación del error estándar de la media
viene dado por:

6 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El E.E.M. también viene dado por:
https://www.facebook.com/groups/stats.ebooksandpapers/

Sustituyendo en (1-7) el valor del E.E.M. dado por (1-5), sustitu-
yendo la varianza poblacional por su estimador S2 y despejando,
tendremos otro estimador de la varianza poblacional, según la si-
guiente expresión:

En la expresión anterior hemos sustituido la varianza poblacional
por un estimador, al ser todos los términos de la expresión (1-8)
parámetros muéstrales, al que llamaremos varianza entre grupos.
La varianza entre grupos es un estimador de la varianza poblacional,
bajo el supuesto de que las K medias muéstrales son estimadores
de la misma media poblacional µ. Téngase en cuenta que, al ser las
K muestras representativas de la misma población, no debe haber
diferencias, más allá de las aleatorias, entre la varianza dentro de
grupos y la varianza entre grupos; por tanto, si las comparamos
según la prueba de la F de Snedecor, no debe haber diferencias
significativas entre ellas salvo por efecto del azar, ya que las dos
son estimadores del mismo parámetro, la varianza poblacional σ2. El
lector debe intentar comprender bien estos conceptos, porque el
análisis de la varianza se basa en ellos.
Supongamos ahora que en una población tomamos K muestras
representativas para estudiar una determinada variable cuantitativa,
pero cada muestra difiere de las otras en que corresponde a una
categoría distinta de una variable cualitativa que tiene K categorías
distintas. Supongamos que en una población tomamos 3 muestras

ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 7
Elevando la expresión anterior al cuadrado:
https://www.facebook.com/groups/stats.ebooksandpapers/
8 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
representativas para estudiar la TAS, pero cada una de una clase
social distinta; en este caso, la variable cualitativa es la clase social
y tiene 3 categorías. Si las medias muéstrales tienen valores signifi-
cativamente distintos, debido a pertenecer a distintas categorías de
la variable (distintos grupos), la varianza dentro de grupos no se
modificará significativamente y seguirá siendo un estimador de la
varianza poblacional global (que incluye todas las categorías de la
variable; en el ejemplo de la TAS y la clase social nos estaríamos
refiriendo a la varianza de la TAS de toda la población). Pero la
varianza dentro de grupos, que era un estimador de la varianza
poblacional, bajo el supuesto de que entre las medias muéstrales
no había diferencias significativas, se verá incrementada en un factor
proporcional al efecto debido a pertenecer a distintos grupos.
Detección de diferencias significativas
El análisis de la varianza se basa en que, si existen diferencias
significativas entre las medias de cada grupo, la varianza entre
grupos se verá incrementada ypor lo tanto será significativamente
distinta y mayor que la varianza dentro de grupos; esta diferencia
será detectada por la prueba de la F de Snedecor.
La varianza entre grupos no puede ser menor que la varianza
dentro de grupos (salvo una pequeña probabilidad, debida al azar);
por lo tanto, el contraste de hipótesis lo plantearemos de una sola
cola, puesto que únicamente contrastaremos la posibilidad de que
la varianza entre grupos sea mayor que la varianza dentro de grupos,
ya que no tendría sentido contrastar que sea menor.
Si la prueba de la F de Snedecor detecta diferencias significativas
entre la varianza dentro de grupos y la varianza entre grupos, ello
indica que al menos una de las medias es significativamente distinta
de las demás (puede ser una o más de una). De ahí el nombre de
análisis de la varianza, pues detecta diferencias entre medias anali-
zando diferencias entre varianzas.
Al análisis de la varianza se le conoce casi umversalmente por
las siglas ANOVA, que corresponden a su nombre en inglés (ANA-
LISYS OF VARIANCE); por lo tanto en el resto del capítulo nos
referiremos en ocasiones al análisis de la varianza como ANOVA.
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 9
Modelo matemático
El modelo matemático de ANOVA se basa en descomponer la
diferencia observada entre un elemento y la media global en dos
partes: entre grupos, debida al efecto de grupo (si es que lo hay),
esta fracción de la variabilidad es la explicada por la variable inde-
pendiente, y dentro de grupos debida a todas las demás causas,
que pueden ser efectos de otras variables no controladas por el
modelo. Esto se puede expresar matemáticamente de la siguiente
manera:

Xji es el valor de la variable cuantitativa en el iésimo elemento
del jésimo grupo, y la diferencia de dicho valor respecto a la media
poblacional global será debida al efecto del grupo (µj � µ), más a
las diferencias no controladas por el modelo, efecto de otras varia-
bles, (Xji � µj).
Siguiendo con el ejemplo de la TAS y la clase social, si el perte-
necer a una determinada clase social tiene incidencia sobre la TAS
(por supuesto nos referimos a efectos medios), la TAS media será
significativamente distinta en los grupos seleccionados para el es-
tudio, y la TAS de un individuo cualquiera (iésimo) de una clase
social cualquiera (jésima), tendrá una diferencia con la TAS pobla-
cional media µ (la TAS media poblacional sería la de todos los
individuos de la población muestreada, sin distinguir clases sociales),
a causa de dos factores: uno es la diferencia con respecto a µ
debida a pertenecer a una determinada clase social (µj � µ), y otra
debida al resto de variables del individuo que no están controladas
por el modelo. El que una clase social determinada tenga una TAS
media mayor que otra, no implica que muchos individuos de la
clase social donde la media es más alta no tengan TAS normales o
bajas.
https://www.facebook.com/groups/stats.ebooksandpapers/
10 ESTADÍSTICA MULTIVARIANTE V NO PARAMÉTRICA CON SPSS
Suma de cuadrados
A partir del modelo anterior podemos estudiar la variabilidad
cuadrática. Vamos a distinguir tres tipos de variabilidad cuadrática
del valor de la variable en la muestra, respecto de la media pobla-
cional. A estos parámetros que miden la variabilidad cuadrática les
vamos a llamar suma de cuadrados, SUM SQUARE (SS), según la
terminología anglosajona.

La variabilidad cuadrática total es la debida a todas las causas.
La descomponemos en dos partes: la variabilidad cuadrática entre
grupos SSentre, que es la parte de la variabilidad cuadrática que
explica la variable independiente, como consecuencia de que los
valores pertenezcan a distintos grupos (ENTRE GRUPOS), y la va-
riabilidad cuadrática consecuencia de las diferencias observadas
dentro de cada grupo (SSdentro), debidas al resto de las causas. Las
variabilidades cuadráticas se calculan según las siguientes expre-
siones matemáticas:

La expresión anterior es la suma de las desviaciones cuadráticas
de cada valor de la variable, respecto a la media global, que es la
media de todos los datos implicados en el análisis. Es un estimador
de la suma de las desviaciones cuadráticas, respecto a la media
poblacional µ, por todas las causas.
https://www.facebook.com/groups/stats.ebooksandpapers/

La expresión anterior es la suma de las desviaciones cuadráticas
de la media de cada grupo, respecto a la media global de todos los
datos. Es un estimador de la suma de las desviaciones cuadráticas
de la media de cada grupo, respecto a la media poblacional µ.
Representa la variabilidad cuadrática entre grupos.

La expresión anterior es la suma de las desviaciones cuadráti-
cas de cada elemento respecto a la media de su grupo. Es un es-
timador de la suma de las desviaciones cuadráticas de cada valor
de la variable, respecto de la media poblacional de su correspon-
diente grupo µi. Representa la variabilidad cuadrática dentro de
grupos.
La suma de cuadrados total la hemos descompuesto en la suma
de cuadrados entre y dentro de grupos, y la suma algebraica de
los componentes es igual a la total:

Las expresiones anteriores no tienen denominador; por lo tanto,
cuanto más grande sea la muestra, más sumandos habrá y más
grandes serán sus valores. Para que sean parámetros comparables,
necesitamos el valor de la suma de cuadrados medios.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 11
https://www.facebook.com/groups/stats.ebooksandpapers/
12 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Cuadrados medios
La suma de cuadrados representa la suma de las variabilidades
cuadráticas, pero para poder ser utilizados en comparaciones, ne-
cesitamos tener parámetros que estimen la variabilidad cuadrática
media. Para conseguir esto, dividiremos las sumas de cuadrados
entre sus correspondientes grados de libertad. Los grados de libertad
totales son N � 1, y estos grados de libertad son iguales a la suma
de los grados de libertad ENTRE GRUPOS más los grados de libertad
DENTRO de GRUPOS. A las desviaciones cuadráticas medias les
llamaremos cuadrados medios, MEANS SQUARES (el uso de las
siglas anglosajonas es obligado, porque las salidas de la mayoría
de los paquetes estadísticos se refieren a los parámetros estadísticos
según esta terminología y sus correspondientes siglas); en abrevia-
tura, los cuadrados medios se denominan a menudo por sus siglas
en inglés MS. En el análisis de la varianza solamente vamos a utilizar
los cuadrados medios entre grupos y dentro de grupos.
El cuadrado medio entre grupos, MSENTRE, es igual a la suma de
cuadrados entre grupos, dividida por K � 1, que son los grados de
libertad, ya que el número de elementos que han intervenido es k,
que es el número de grupos. Puesto que la suma de cuadrados
entre grupos es la suma de las diferencias cuadráticas de la media
de cada grupo respecto a la media global, hay k medias, y los
grados de libertad son iguales a K � 1. MSENTRE viene dado por la
siguiente expresión:

MSENTRE es un estimador de la varianza entre grupos. La varianza
entre grupos es un estimador de la varianza poblacional σ2, si no
hay diferencias significativas entre las medias de cada grupo, si
hay diferencias significativas entre las medias de los grupos, esta
varianza es igual a la varianza poblacional más un sumando propor-
cional al efecto grupos.
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 13
El cuadrado medio dentro de grupos, MSDENTRO, es igual a la suma
de cuadrados dentro de grupos dividida por N � K, que son los gra-
dos de libertad correspondientes. Los grados de libertad totales son
N � 1. Dada la aditividad de los grados de libertad, los grados de li-
bertad entre grupos, más los grados de libertad dentro de grupos, de-
ben ser iguala los grados de libertad totales N � 1, por lo tanto:

El cuadrado medio dentro de grupos viene dado por la siguiente
expresión:

MSDENTR0 es un estimador de la varianza poblacional de la varia-
ble σ2, haya o no haya diferencias significativas entre los valores
por el hecho de pertenecer a distintos grupos.
Hipótesis de Anova
Al realizar un análisis de la varianza de una vía, contrastamos las
siguientes hipótesis:

La hipótesis nula postula que las medias de todos los grupos en
la población son iguales. La hipótesis alternativa postula que al

https://www.facebook.com/groups/stats.ebooksandpapers/
14 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
menos hay una media µr distinta de otra µs. Si hay una sola media
que es significativamente distinta de otra, rechazaremos la hipótesis
nula; por supuesto si las diferencias entre medias son muchas, con
mayor motivo se rechazará la hipótesis nula.
MSENTRE y MSDENTRO son estimadores de la varianza poblacional,
si no hay diferencias significativas entre las medias. Si las hay
MSDENTRO sigue siendo un estimador de la varianza poblacional,
pero MSENTRE detecta esta diferencia significativa entre las medias;
será por tanto significativamente mayor que MSDENTRO y, al someter
al cociente MSENTRE/MSDENTRO a la prueba de la F de Snedecor,
quedará claro que existen diferencias significativas entre los dos
cuadrados medios.
El contraste de hipótesis que plantear en este caso es de una
sola cola, puesto que sólo existe la posibilidad de que el cuadrado
medio entre grupos sea mayor o igual que el cuadrado medio
dentro de grupos (salvo una pequeña posibilidad debida al azar);
por lo tanto, sólo contrastaremos la posibilidad de que el cuadrado
medio entre grupos sea mayor que el cuadrado medio dentro de
grupos, y plantearemos el contraste de la siguiente manera:

El que en la hipótesis nula figure el signo menor igual no quiere
decir que contrastemos la posibilidad de que sea menor; recuérdese
que las hipótesis nulas no se demuestran, sino que se rechazan o
no. Sin embargo el no poder rechazarla en este caso significaría
que no hemos podido demostrar que MSENTRE sea mayor que
MSDENTRO.
El análisis de la varianza resuelve el problema de la comparación
de medias; compara dos varianzas, de ahí su nombre. Si la diferencia
entre las dos varianzas (cuadrados medios) es significativa, indica
que existen diferencias significativas entre las medias, por lo que
se rechazará la hipótesis nula.
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 15
Disposición de los resultados. Tabla de Anova
Los resultados de un análisis de la varianza se disponen en una
tabla especial, en la que se muestran los parámetros fundamentales
en ANOVA. Estas tablas, según los distintos autores, pueden variar
en algunos elementos, aunque no en los esenciales. La tabla utilizada
por SPSS es la siguiente:

La tabla anterior, que vamos a analizar es la que utiliza SPSS en
el análisis de la varianza de una vía.
En primer lugar, nos indica el nombre de la variable dependiente
y su etiqueta, si la tiene. Debajo nos indica el nombre de la variable
independiente y su etiqueta, si la tiene.
El cuerpo de la tabla tiene 6 columnas con los siguientes ele-
mentos:
SOURCE. En esta columna se indica cuál es la fuente de varia-
ción de los parámetros que se muestran. BETWEEN GROUPS significa
entre grupos; los parámetros de esta fila son los correspondientes a
las variaciones entre los grupos. WITHIN GROUPS significa dentro
de grupos; los parámetros de esta fila son los correspondientes a la
variación dentro de grupos. TOTAL: en esta fila, los parámetros son
los correspondientes a las variaciones por todas las causas.
D.F. Son los grados de libertad, en esta columna figurarán los
grados de libertad de cada fuente de variación. Observe que la

https://www.facebook.com/groups/stats.ebooksandpapers/
16 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
suma de los grados de libertad entre más dentro son igual a los
totales.
SUM OF SQUARES. En esta columna se mostrará el valor de las
sumas cuadráticas correspondientes a cada variación.
MEANS SQUARES. En esta columna se mostrarán los cuadrados
medios correspondientes a cada fuente de variación.
F. RATIO. En esta columna se muestra el valor del cociente
entre los cuadrados medios entre y dentro de grupos. Este cociente
es la F de Snedecor experimental. Recuérdese que este cociente
se distribuye según una F de Snedecor si no hay diferencias signi-
ficativas entre las medias.
F. PROB. En esta columna se indica cuál es la probabilidad de
encontrar una F como la observada si no hubiera diferencias sig-
nificativas. Si esta probabilidad es menor del nivel de significa-
ción (α), establecido para resolver el contraste, concluiremos que
la probabilidad es demasiado pequeña para considerarla debida al
azar y que el cuadrado medio entre grupos es mayor que el cua-
drado medio dentro de grupos debido a que entre las medias
existen diferencias significativas. Si el nivel de significación lo hemos
fijado en 0.05, que es lo habitual, aceptaremos que existen diferencias
significativas entre las medias cuando F.PROB sea menor que 0.05.
Si el análisis de la varianza no es significativo, no podemos
rechazar la hipótesis nula y, por lo tanto, no tenemos evidencia de
que existan diferencias entre las medias, con lo cual habremos
concluido el estudio.
El análisis de la varianza únicamente nos informa de si existen o
no diferencias significativas entre las medias, pero no nos dice
cuáles son. Si el análisis de la varianza es significativo, debemos
proceder a la realización de pruebas de comparación múltiple, a fin
de dilucidar entre qué medias existen diferencias significativas.
Comparaciones múltiples
Estas pruebas sólo tiene sentido realizarlas si el análisis de la
varianza ha sido significativo. El análisis de la varianza lo único que
nos dice es si existen diferencias significativas entre las medias,
pero no nos dice entre cuáles. Para dilucidar esta cuestión debemos

https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 17
proceder a realizar alguna de las muchas pruebas de comparación
múltiple existentes SPSS nos permite realizar hasta 7 de estas prue-
bas, además de las comparaciones a priori. Un planteamiento co-
rrecto es realizar una sola prueba de comparación múltiple; es ma-
nifiestamente incorrecto realizar varias y escoger los resultados
que más nos interesen.
En este libro no vamos a entrar en detalles matemáticos respecto
a estas pruebas, puesto que es un tema complejo e incluso entre
los especialistas existen discrepancias en este punto. Remitimos al
lector a la literatura especializada.
Las pruebas de comparación múltiple pueden ser de dos tipos.
A PRIORI
A POSTERIORI.
Las pruebas a priori se plantean antes (a priori) de ver los resul-
tados y deben cumplir una serie de requisitos; uno de éstos es que
los grados de libertad de las comparaciones planteadas no pueden
superar los grados de libertad ENTRE GRUPOS, es decir K � I.
Insistimos en que estas pruebas deben planificarse sin ver los re-
sultados y efectuarse una sola vez siguiendo la planificación prevista.
Si no se cumplen estas normas, podemos cometer importantes erro-
res estadísticos.
Las pruebas a posteriori permiten realizar todas las comparacio-
nes posibles entre las medias. Pero debe elegirse una sola prueba
y asumir los resultados obtenidos.
Modelos de análisis de la varianza de una vía
En el análisis de la varianza de una vía debemos distinguir
dos tipos fundamentales:

https://www.facebook.com/groups/stats.ebooksandpapers/
18 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el modelo de efectos fijos, el investigador fija los niveles del
factor (categorías de la variable cualitativa),que quiere comparar.
Supongamos que queremos comparar el número de días de hospi-
talización de los pacientes sometidos a una determinada intervención
quirúrgica, en tres hospitales determinados, A, B, C. En este caso
queremos realizar esta comparación entre los hospitales A, B, C. La
variable dependiente, en este caso es el número de días de hospi-
talización y la variable independiente (FACTOR) el tipo de hospital;
en este caso, el factor tiene tres niveles A, B, C. Es un modelo de
ANOVA de una vía (una sola variable independiente), de efectos
fijos, porque los niveles del factor son fijados por el investigador.
En el modelo de efectos aleatorios no se evalúan todos los niveles
del factor, sino solamente algunos escogidos al azar entre todos los
posibles. Supongamos que en un país pensamos que existen dife-
rencias significativas entre el número de días de hospitalización
tras una determinada enfermedad según el hospital donde se realice
la intervención. Si el número de hospitales es muy grande, en una
primera aproximación podemos realizar un estudio escogiendo un
grupo pequeño de hospitales, al azar.
Hemos planteado el mismo experimento de dos maneras distintas;
en un caso, con efectos fijos, porque nosotros queremos estudiar
las diferencias entre tres hospitales concretos (no importa que el
número de hospitales hubiera sido mayor); en el segundo caso,
nuestro interés no es comparar un grupo de hospitales determinado,
sino averiguar si el factor hospital influye en la duración de la
hospitalización, pero sin importarnos en principio una comparación
entre hospitales concretos. Si encontramos diferencias significativas,
deberíamos planteamos un estudio más completo del problema.
El tipo de modelo no influye en los planteamientos. En el modelo
aleatorio, si el análisis de la varianza es significativo, no tiene sentido
en principio realizar pruebas de comparación múltiple, ya que si
hemos planteado un modelo aleatorio es para ver si el factor cuyos
niveles han sido muestreados influye en la variable dependiente. Si
ANOVA es significativo, la conclusión es que los niveles del factor
influyen en la variable dependiente, y lo habitual será plantearse
otro experimento más completo. Una comparación entre grupos
elegidos al azar puede realizarse, pero quizá no tenga sentido. En
el modelo de efectos fijos los niveles han sido fijados por el investí-

https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 19
gador, debido a que tiene un interés especial en estudiar las posibles
diferencias existentes entre esos niveles.
Asunciones del análisis de la varianza
El análisis de la varianza es una prueba paramétrica y, para que
pueda ser aplicada, deben cumplirse unas condiciones que básica-
mente son las tres siguientes:
REPRESENTATIVIDAD. Las K muestras, que forman los K grupos,
que van a intervenir en el análisis, deben ser estadísticamente re-
presentativas de la población de referencia.
NORMALIDAD. La media muestral de cada grupo, correspon-
diente a la variable dependiente debe distribuirse normalmente.
Esto ocurre siempre si n, el tamaño de la muestra de cada grupo, es
mayor que 30 y también si la variable se distribuye normalmente
en la población de referencia, aunque n sea menor que 30. Única-
mente no podremos garantizar que la media muestral se distribuya
normalmente cuando las muestras sean menores que 30 y la variable
dependiente no se distribuya normalmente en algún nivel del factor.
Si el número de elementos de algún grupo es menor que 30, antes
de proceder al análisis de la varianza debemos realizar alguna
prueba de normalidad, en este caso la más indicada es la de Shapiro-
Wilks (ver procedimiento EXAMINE).
HOMOCEDASTICIDAD. Esta complicada palabra es lo mismo
que decir que las varianzas de todos los grupos son homogéneas o
que no se detectan diferencias significativas entre las varianzas de
los grupos. Recuérdese que la prueba de la F de Snedecor es útil
para la comparación de dos varianzas, pero no para comparar varias
varianzas simultáneamente. SPSS, en el procedimiento ONEWAY,
permite realizar las pruebas de la F de Barltlett-Box la C de Cochran
y la F máxima de Hartley; todas ellas nos indicarán si las varianzas
de todos los grupos son homogéneas o no.
Si no se cumple la primera de las asunciones, la representatividad,
no podemos realizar el análisis de la varianza ni ninguna otra prueba
paramétrica o no paramétrica, ya que la primera condición que

https://www.facebook.com/groups/stats.ebooksandpapers/
20 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
debe cumplirse para sacar conclusiones sobre una población es
que la muestra sea representativa.
Si no se cumplen la segunda y/o la tercera asunción, podemos
realizar una transformación de datos (mediante el procedimiento
EXAMINE) y, si con la transformación de datos no solucionamos el
problema, podemos aplicar la prueba de Kruskall-Wallis; que es
una prueba no paramétrica para comparar K medias que sólo exige
el cumplimiento de la primera de las condiciones.
EL PROCEDIMIENTO ONEWAY.
EL SUBCOMANDO VARIABLES
El paquete estadístico SPSS permite realizar análisis de la varianza
de una vía con dos procedimientos distintos, ONEWAY y ANOVA.
En este capítulo sólo vamos a estudiar ONEWAY. El procedimiento
ANOVA permite realizar análisis de la varianza de una y de varías
vías, así como el análisis de la covarianza, pero en cuanto al análisis
de la varianza de una vía ONEWAY tiene más posibilidades que
ANOVA. ONEWAY, sin embargo sólo puede realizar análisis de la
varianza de una vía.
El subcomando VARIABLES, que puede ser omitido, asociado a
ONEWAY, indica qué variables van a ser analizadas. En primer
lugar debe ir la variable dependiente, antes de la palabra clave BY,
y tras BY la variable independiente. ONEWAY sólo realiza análisis
de la varianza de una vía; si antes de la palabra clave BY incluimos
más de una variable independiente, (pueden incluirse hasta 100),
realizará un análisis de la varianza de una vía para cada variable
independiente. Supongamos que en un listado de órdenes incluimos
la siguiente:

En la instrucción anterior hay una variable independiente, VAR4
y tres variables dependientes VAR1 VAR2 y VAR3, en este caso
SPSS realizara 3 análisis de la varianza, siendo en todos ellos la
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 21
variable independiente VAR4, los análisis a realizar son: VARI con
VAR4, VAR2 con VAR4 y VAR3 con VAR4.
A continuación vamos a ver un ejemplo práctico. Inicie una
sesión con SPSS y siga las siguientes instrucciones:

La segunda de las anteriores instrucciones, mediante el procedi-
miento ONEWAY, indica a SPSS que debe proceder a realizar un
análisis de la varianza de una vía. El subcomando VARIABLES indica
que la variable dependiente es TAS y la independiente CLSO; con
este estudio pretendemos saber si el valor medio de la TAS es
diferente según la clase social, (niveles del factor). En este caso el
factor CLSO tiene tres niveles ALTA, MEDIA y BAJA. Es un modelo
de efectos fijos. Obsérvese que junto a la variable dependiente,
figuran entre paréntesis los valores 1 y 3. Esto quiere decir que los
valores de CLSO que deben entrar en el estudio son del 1 al 3,
ambos inclusive (en ese caso son todos, puesto que sólo hay tres
niveles). Veamos los resultados:

https://www.facebook.com/groups/stats.ebooksandpapers/
22 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior se nos muestran los resultados del análisis
entre TAS y CLSO. En este caso hay tres grupos o, lo que es lo mismo,
el factor tiene tres niveles, correspondientes a las tres categorías de
la variable independiente CLSO. Como hay tres grupos los grados
de libertad ENTRE GRUPOS son K � 1 y K= 3; por lo tanto, hay dos
gradosde libertad. Los grados de libertad totales son N � 1, los casos
válidos analizados son N= 70; por lo tanto, N � 1 = 69. La diferencia
entre los grados de libertad totales y entre grupos es 69 � 2 = 67,
que son los grados de libertad dentro de grupos, etc.
En el subapartado (Disposición de los resultados, página 15) se
analizan de forma genérica todos los parámetros de la tabla anterior.
Si el lector quiere ampliar su conocimiento sobre alguno de ellos,
le remitimos a dicho subapartado.
En el análisis de la tabla anterior, vemos que el cociente entre los
cuadrados medios entre y dentro de grupos es 0.1676, que es la F
experimental, y la probabilidad de encontrar un valor de F mayor
que Fes 0.861, que es mayor de 0.05. No podemos rechazar la hipótesis
nula, y por lo tanto no tenemos evidencia suficiente para afirmar que
la TAS es significativamente distinta en alguna de las clases sociales.
Recuérdese que la hipótesis nula es la igualdad de todas las medias.
(En este caso las tensiones sistólicas medias de las clases sociales);
esto no quiere decir que hayamos demostrado la hipótesis nula, pues
las hipótesis nulas no se demuestran nunca. Significa que no hemos
podido demostrar que sean distintas. Recuerde que la prueba de la
F, en este caso, es de una cola; sólo contrastamos que el cuadrado
medio ENTRE sea mayor que el cuadrado medio DENTRO, puesto
que teóricamente nunca puede ser significativamente menor, salvo
una pequeña probabilidad, por azar.
EL SUBCOMANDO STATISTICS
Este subcomando permite la ampliación de los datos estadísticos
sobre las variables implicadas en el análisis. Las opciones que pue-
den asociarse a este subcomando son las siguientes:
1. Esta opción asociada al subcomando STATISTICS, muestra
una tabla con el número de casos, la media aritmética, la desviación

https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 23
típica, el error estándar de la media, el mínimo, el máximo e inter-
valos de confianza del 95% para cada grupo y para el total de los
datos. Destacamos especialmente los intervalos de confianza, que
SPSS debería incluir también en el procedimiento MEANS.
2. Esta opción, asociada al subcomando STATISTICS, muestra
parámetros que son de interés, algunos para el modelo de efectos
fijos FIXED EFFECTS MODEL, y otros para el modelo de efectos
aleatorios RANDOM EFFECTS MODEL. Al solicitar esta opción aso-
ciada al subcomando STATISTICS se muestran todos los parámetros
denominando los correspondientes a cada tipo de modelo. El lector
es quien tiene que elegir los adecuados al estudio que está reali-
zando. Los parámetros mostrados y que son útiles en el modelo de
efectos fijos son la desviación típica, el error estándar de la media e
intervalos de confianza del 95%. Los parámetros mostrados y útiles
en el modelo de efectos aleatorios, son una estimación del compo-
nente añadido de la varianza entre grupos con un intervalo del 95%.
3. Esta opción, asociada al subcomando STATISTICS, permite
que se realice una prueba de homogeneidad de varianzas. Ésta es
una de las condiciones de aplicabilidad del análisis de la varianza
y recomendamos hacerlo, en todos los casos, ya que si las varianzas
de todos los grupos no son homogéneas, podríamos cometer errores
al aplicar el análisis de la varianza. Las pruebas de homogeneidad
de varianzas que se realizan al solicitar esta opción son:
La prueba C de Cochran.
La prueba F de Barlett-Box.
La prueba F máxima de Hartley.
Actualmente una de las pruebas de comparación de varianzas
más utilizadas, es la de Barlett-Box.
ALL. Esta opción, asociada al subcomando STATISTICS, muestra
todos los estadísticos correspondientes a las tres opciones anteriores.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

https://www.facebook.com/groups/stats.ebooksandpapers/
24 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica que debe rea-
lizarse un análisis de la varianza de una vía, considerando como
variable dependiente TAD y como variable independiente CLSO.
En el análisis deben entrar los niveles del 1 al 3, ambos inclusive,
del factor CLSO; en este caso solo hay tres niveles, por lo tanto se
incluyen todos los niveles en el análisis, y se solicitan las opciones
1 y 3 del subcomando STATISTICS. Obsérvese que no hemos in-
cluido el subcomando VARIABLES; como ya indicamos en el apar-
tado anterior, este subcomando es opcional.
Los resultados obtenidos, como consecuencia de las instrucciones
anteriores, son los siguientes:

La tabla anterior es la correspondiente al análisis de la varianza
de una vía entre las variables TAD y CLSO. La F experimental
obtenida es 1.0654 y la probabilidad de obtener un valor como éste
o más extremo es 0.3503. Como esta probabilidad es mayor que
0.05, no podemos rechazar la hipótesis nula y concluimos que no
tenemos evidencia de que existan diferencias significativas entre
las clases sociales respecto a la tensión arterial diastólica.

https://www.facebook.com/groups/stats.ebooksandpapers/

La tabla anterior muestra los parámetros estadísticos correspon-
dientes a la opción 1 del subcomando STATISTICS. Los parámetros
estadísticos se muestran para cada grupo y para el total de los
datos. Han sido incluidos en el análisis trece casos del gru-
po 1 (clase social alta), la tensión arterial diastólica media para este
grupo es 84.7692 y la desviación típica es 11.2484. El error estándar
de la media es 3.1197, el intervalo del 95% de confianza para la
media es 77.9719 � 91.5665. Esto quiere decir que hay un 95% de
probabilidad de que la tensión arterial diastólica media de la clase
social alta, en la población muestreada, esté comprendida entre
77.9719 y 91.5665. Sería un gravísimo error interpretar el intervalo
de confianza considerando que el 95% de los individuos de clase
social alta tienen una tensión arterial diastólica con valores entre
77.9719 y 91.565. El valor mínimo observado de la TAD en la clase
social alta (CLSO = 1) es 65 y el máximo valor observado en esta
misma clase social es 100. Obsérvese que los valores mínimos y
máximos están en la parte inferior de la tabla.
La interpretación del intervalo de confianza al 95%, para el total
de los datos, es que hay un 95% de probabilidad de que la TAD
media de la población muestreada (sin distinción de clases sociales)
esté comprendida entre 79.0179 y 84.3821.
Dejamos para el lector la interpretación de los parámetros co-
rrespondientes al resto de los grupos.

ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 25
https://www.facebook.com/groups/stats.ebooksandpapers/
26 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La tabla anterior nos muestra los resultados correspondientes a
las pruebas de comparación de varianzas. Tanto los parámetros
correspondientes a la prueba de Cochrans como a la de Barlett-Box
tienen una probabilidad de 0.244 y 0.248. Como dichos valores son
mayores de 0.05, no podemos rechazar la hipótesis nula, y por lo
tanto aceptamos que las varianzas son homogéneas; esto es lo mismo
que decir que los grupos son homocedásticos y por lo tanto se
cumple, una de las condiciones necesarias para aplicar el análisis
de la varianza. La hipótesis nula en las pruebas anteriores es que
las varianzas de todos los grupos son iguales. La hipótesis alternativa
es que al menos una es distinta de las demás.
COMPARACIONES MÚLTIPLES. LOS SUBCOMANDOS
CONTRAST Y RANGES
Como ya hemos comentado en otros apartados, la primera parte
del análisis de la varianza, en caso de que la F experimental sea
significativa, sólo nos indica si existe alguna media significativamente
distinta de las demás, pero sin saber donde se encuentran las dife-
rencias. Para resolver la cuestión, debemos realizar alguna de las
pruebas de comparación múltiple, de las muchas existentes. Las
pruebas de comparaciónmúltiple pueden ser a priori o a posteriori.
SPSS dispone de dos subcomandos asociados a ONEWAY para
realizar comparaciones múltiples.
El subcomando CONTRAST
Este subcomando permite realizar comparaciones de medias
entre dos grupos de datos. Los grupos sobre los que se efectúa el
contraste pueden ser definidos de múltiples formas, a partir de los
datos implicados en el análisis definido por el comando ONEWAY.
Los datos correspondientes a cada valor del factor pueden ser
agrupados de distintos maneras, marcando cada grupo con un nú-
mero. Dicho número puede ser positivo o negativo y lo denomina-
remos marcador. La media correspondiente a cada grupo se multi-
plicará por el número con que fue marcada.
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 27
Las medias de todos los grupos marcadas con un número positivo
se multiplicarán por su marcador y se sumarán, con lo que se
obtendrá un resultado al que denominaremos media positiva. Las
medias de todos los grupos marcadas por un número negativo se
multiplicarán por su marcador y se sumarán, con lo que se obtendrá
un resultado al que denominaremos media negativa. El contraste
de medias, se realizará sobre la diferencia entre la media positiva y
la media negativa, mediante la prueba de la T de Student, se evaluará
si las diferencias obtenidas son estadísticamente significativas.
Si todos los marcadores de todos los grupos son del mismo
signo, la media de cada grupo se multiplicará por su marcador, y la
media final obtenida será contrastada con respecto a cero, en este
caso, pues nuestro interés se centra en ver si la media de los datos
marcados es significativamente distinta de cero.
En resumen, cuando hay marcadores positivos y negativos, el
contraste se realiza entre ellos; si solamente hay marcadores de un
signo, el contraste se realiza sobre cero.
Al agrupar datos mediante el subcomando CONTRAST, debe
tenerse en cuenta que ni la media positiva ni la negativa son medias
ponderadas. La media de cada grupo se multiplica por su marcador,
independientemente del número de datos que tenga. Esta circuns-
tancia debe tenerse especialmente en cuenta cuando el número de
datos de cada grupo sea distinto.
Se puede definir un solo contraste por cada subcomando CON-
TRAST, pero pueden usarse varios subcomandos CONTRAST por
cada comando ONEWAY.
La sintaxis de este subcomando es compleja, por lo que reco-
mendamos al lector que estudie el próximo ejemplo con la máxima
atención.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

https://www.facebook.com/groups/stats.ebooksandpapers/

En el listado anterior, hay tres instrucciones; la primera carga la
información del fichero de sistema CORONAR.SYS para el análisis.
La segunda instrucción, que consta de 7 líneas, encabezada por
el comando ONEWAY, indica a SPSS que realice un análisis de la
varianzá de una vía de la variable TAS, en relación con los tres
valores del factor CLSO. Asociados al comando ONEWAY, utilizamos
los subcomandos STATISTICS y 6 veces el subcomando CONTRAST,
lo que nos va a permitir realizar 6 contrastes de medias distintos.
En el primer contraste, tenemos la secuencia de marcadores 1 0
�1. Cada número se refiere a un valor de la clase social: el 1 es el
marcador para CLSO = 1, clase social alta, el 0 es el marcador para
CLSO = 2, clase social media, y el �1 es el marcador para CLSO = 3,
clase social baja. La media de cada grupo será multiplicada por su
marcador (al ser 0 el marcador de la clase social media, los datos
correspondientes a la clase social media CLSO = 2 no participarán
en el contraste) y se comparará la media positiva, con la media
negativa. El resultado de este contraste, es una comparación de la
tensión arterial sistólica entre los individuos de clase social alta y
los de clase social baja.
En el segundo contraste, los marcadores son: 1 0 1, aquí quedan
eliminados del contraste los casos con CLSO = 2, clase social media,
por ser 0 su marcador, los marcadores de la clase social alta y baja
son 1 en ambos casos y, al ser los dos positivos, se sumarán las
medias de los dos, y la media resultante, será contrastada con cero,
El propósito de este contraste es comprobar que la TAS media de
las clases ALTA y BAJA, consideradas conjuntamente, son significa-
tivamente distintas de cero. En este caso no se comparan entre sí,
sino que se consideran los datos de las dos clases sociales de
forma conjunta. Desde el punto de vista clínico, este contraste no
tiene ningún sentido y se comenta con fines didácticos.
En el tercer contraste, los marcadores son: 0.5 0 y �0.5. En este

28 ESTADÍSTICA MULTiVARIANTE Y NO PARAMÉTRICA CON SPSS
https://www.facebook.com/groups/stats.ebooksandpapers/
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 29
caso, al igual que en los dos anteriores, los datos correspondientes
a CLSO = 2 quedan excluidos del contraste, al ser 0 su marcador. El
marcador de la clase social alta, CLSO = 1, es 0.5 y el de la clase
social baja, CLSO = 3, �0.5. La media de la TAS para la clase social
alta será multiplicada por 0.5 y la media de la TAS para la clase
social baja será multiplicada por 0.5. A continuación se restarán las
medias obtenidas, después de multiplicarlas por sus marcadores, y
su resultado se contrastará con respecto a cero. Conceptualmente,
el contraste anterior realiza una comparación de la TAS media de la
clase social alta, dividida por dos, con la TAS media de la clase
social baja, dividida por dos.
En el cuarto contraste, los marcadores son: 2 0 2. En este caso,
los datos correspondientes a la clase social media, CLSO = 2, se
excluyen del contraste al ser 0 su marcador. La TAS media de la
clase social alta CLSO = 1, se multiplica por dos y se suma a la TAS
media de la clase social baja, CLSO = 3, también multiplicada por
dos. El resultado de la suma' anterior se contrasta con respecto a
cero. Conceptualmente, el contraste anterior compara la suma del
doble de las medias de las clases sociales alta y baja con cero. Es
evidente que un contraste de este tipo no tiene sentido clínico; se
incluye por motivos didácticos.
En el quinto contraste, los marcadores son: 1 1 �2 En este caso,
los datos correspondientes a todos los valores del factor se incluyen
en el contraste. Los marcadores de CLSO = 1 y CLSO = 2 son 1; por
lo tanto, las medias de la TAS de estas dos clases sociales se sumarán
y este resultado se contrastará con el doble de la TAS media de la
clase social baja, CLSO = 3. Recuérdese que la media correspon-
diente a cada valor del factor se multiplica por su marcador y se
suman, de forma independiente, las positivas por un lado y las
negativas por otro.
En el sexto contraste, los marcadores son: 1 1 2. Todos son po-
sitivos, por lo que se sumarán las medias de cada factor, multi-
plicadas por su marcador, y el resultado se contrastará con 0.
En este caso, la TAS media de la clase social alta se multiplicará
por 1, la TAS media de la clase social media, se multiplicará por 1
y la TAS media de la clase social baja se multiplicará por 2. A
continuación se sumarán y se contrastará el resultado con respec-
to a 0.
https://www.facebook.com/groups/stats.ebooksandpapers/
30 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En los resultados aparecen varías tablas que comentaremos de
forma separada.
Los resultados obtenidos son los siguientes:

En la tabla anterior, se muestran los resultados de un análisis de
la varianza de una vía. TAS es la variable dependiente y CLSO el
factor. Después de la tabla de ANOVA, que en este caso no detecta
diferencias significativas entre las medias de la TAS en las clases
sociales, aparece una tabla con parámetros estadísticos referentes
a la TAS, para cada grupo y para el total de los datos. Esta tabla es
consecuencia de la opción

Materiales relacionados

60 pag.

Unidad 1 Delgado - FERNANDA NOEMI CAMPOS MENDIETA

Desafio PASSEI DIRETO

RAFAEL~1 - FERNANDA NOEMI CAMPOS MENDIETA

Otros

Outros

Otros

Otros materiales

Materiales relacionados

Otros materiales