Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
https://www.facebook.com/groups/stats.ebooksandpapers/ https://www.facebook.com/groups/stats.ebooksandpapers/ Estadística multivariante y no paramétrica con SPSS Aplicación a las ciencias de la salud https://www.facebook.com/groups/stats.ebooksandpapers/ https://www.facebook.com/groups/stats.ebooksandpapers/ Rafael Álvarez Cáceres Estadística multivariante y no paramétrica con SPSS Aplicación a las ciencias de la salud https://www.facebook.com/groups/stats.ebooksandpapers/ Motivo de cubierta: Concha de Spirula (Cortesía del Dr. Arturo Valledor de Lozoya.) © Rafael Álvarez Cáceres, 1995 Reservados todos los derechos. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.» Ediciones Díaz de Santos, S.A. Juan Bravo, 3A. 28006 Madrid España ISBN: 978-84-7978-180-4 Depósito legal: M. 30.116-1994 Fotocomposición: Ángel Gallardo (Madrid) Impresión: Lavel, S.A. Encuademación: Novimar, S.L. https://www.facebook.com/groups/stats.ebooksandpapers/ PRESENTACIÓN El contenido de este libro es fruto de más de 10 años de expe- riencia docente en el campo de la estadística y de la metodología de la investigación científica en ciencias de la salud Durante los últimos años he dirigido e impartido múltiples cursos de estadística, estadística multivariante y metodología de la investigación en nu- merosos centros sanitarios, entre los que son destacables la Escuela Nacional de Sanidad y la Consejería de Salud de la Comunidad de Madrid. Dada la falta de bibliografía sobre estos temas y en parte animado por mis alumnos, me he decidido a escribir este libro, que pretende cubrir un hueco en la bibliografía estadística. En los últimos 15 años, la aplicación del método científico a las ciencias de la salud, ha aumentado considerablemente, lo cual ha llevado aparejado, una gran difusión de las técnicas estadísticas. En la mayoría de los trabajos son analizadas de forma simultánea varias variables y resulta necesario para ello emplear técnicas de análisis multivariante; también, en los últimos años hemos asistido a un aumento de la aplicación de la estadística no paramétrica. Este libro analiza los métodos estadísticos multivariantes y no paramétricos más utilizados. Los temas se abordan conceptualmente, pero también con el rigor matemático necesario para interpretar y aplicar estos métodos cada vez más difundidos. La resolución de los ejemplos debe realizarse mediante ordenador y como paquete estadístico he elegido SPSS1, puesto que en nuestro país es el más difundido entre los profesionales de las ciencias de la salud. En muchas ocasiones no se cumplen los supuestos paramétricos 1 SPSS es marca registrada de SPSS Inc CHICAGO U.S.A. https://www.facebook.com/groups/stats.ebooksandpapers/ VIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS de los métodos estadísticos que se pretende utilizar, lo cual impide aplicarlos si queremos ser rigurosos. En éstos y otros casos debemos aplicar métodos estadísticos no paramétricos, cuya utilización aumen- ta día a día. A los docentes que quieran utilizar como texto este libro, basán- dome en mi larga experiencia como docente, les recomiendo dividir su contenido en dos cursos. En el primero se han de incluir las siguientes técnicas estadísticas: ANÁLISIS DE LA VARIANZA ANÁLISIS DE LA COVARIANZA CORRELACIÓN REGRESIÓN REGRESIÓN LOGÍSTICA A los alumnos deben exigírseles conocimientos de estadística básica, con entendimiento claro de la teoría del contraste de hipótesis y de informática a nivel de usuario, teniendo en cuenta que los ejemplos deben resolverse mediante ordenador. El segundo curso debería incluir las materias siguientes: ANÁLISIS DE COMPONENTES PRINCIPALES ANÁLISIS FACTORIAL ANÁLISIS DE CLUSTERS ANÁLISIS DISCRIMINANTE Los asistentes a este curso deben conocer las técnicas estadísticas del primer curso y poseer los conocimientos previos exigidos en el mismo. El segundo curso debe comenzar con una introducción con- ceptual sobre matrices y vectores. Con objeto de mejorar futuras ediciones, ruego me ayudéis a descubrir erratas. También agradecería sugerencias sobre los temas aquí tratados, para lo cual podéis escribirme a la siguiente dirección: RAFAEL ÁLVAREZ CÁCERES C/ Nieremberg, 23, 5° B 28002 MADRID https://www.facebook.com/groups/stats.ebooksandpapers/ ÍNDICE Presentación.................................................................................... VII Instrucciones para el manejo de este libro ................................ XVII Capítulo 1. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY ................................................... 1 Comparación simultánea de varias medias .......................... 1 Tipos de análisis de la varianza .............................................. 3 Fundamentos del análisis de la varianza ............................... 3 La varianza dentro de grupos............................................ 5 La varianza entre grupos .................................................... 6 Detección de diferencias significativas ............................ 8 Modelo matemático............................................................. 9 Suma de cuadrados............................................................. 10 Cuadrados medios ................ ............................................. 12 Hipótesis de Anova............................................................. 13 Disposición de los resultados. Tabla de Anova ............... 15 Comparaciones múltiples................................................... 16 Modelos de Anova de una vía .......................................... 17 Asunciones de Anova......................................................... 19 El subcomando Variables. El procedimiento Oneway ......... 20 El subcomando Statistics.......................................................... 22 Comparaciones múltiples. Los subcomandos Contrast y Ranges .................................................................................. 26 https://www.facebook.com/groups/stats.ebooksandpapers/ X ÍNDICE El subcomando Contrast .................................................... 26 El subcomando Ranges ...................................................... 32 Modelos polinómicos: el Subcomando Polynomial............... 36 El subcomando Options ........................................................... 37 Tratamiento de valores ausentes (Missing) .................... 37 Opciones de formato .......................................................... 38 Resultados en fichero matricial.......................................... 38 Lectura de datos matriciales .............................................. 40 Otras opciones ..................................................................... 42 Capítulo 2. ANÁLISIS MULTIFACTORIAL DE LA VARIAN- ZA. ANÁLISIS DE LA COVARIANZA. EL PROCEDIMIENTO ANOVA...................................................................................... 43 Análisis multifactorial de la varianza ...................................... 43 Estructura de los datos ...................................................... 45 Modelo matemático............................................................. 45 Interacción............................................................................ 47 Suma de cuadrados............................................................. 47 Cuadrados medios .............................................................. 49 Hipótesis de Anova ............................................................ 50 Tabla de Anova dos vías ................................................... 51 Asunciones enAnova de dos vías.................................... 52 Anova con más de dos factores ........................................ 53 Análisis de la covarianza ......................................................... 53 El modelo matemático de Ancova.................................... 55 Suma de cuadrados. Cuadrados medios .......................... 55 Hipótesis y asunciones de Ancova ................................... 56 El procedimiento Anova .......................................................... 57 El subcomando variables ................................................... 57 Ancova con SPSS................................................................. 61 El subcomando Statistics .................................................... 63 El subcomando Options...................................................... 68 Capítulo 3. MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCE- DIMIENTO CORRELACIÓN...................................................... 71 Coeficiente de correlación lineal de Pearson ....................... 71 El procedimiento Correlation .................................................. 74 https://www.facebook.com/groups/stats.ebooksandpapers/ ÍNDICE XI El subcomando Statistics ......................................................... 77 El subcomando Options........................................................... 78 Capítulo 4. REGRESIÓN SIMPLE Y MÚLTIPLE; EL PROCEDI- MIENTO REGRESSIÓN ............................................................. 81 Introducción .............................................................................. 81 Tipos de análisis de Regresión............................................... 82 Regresión lineal simple ........................................................... 83 Suma de cuadrados ............................................................ 84 Consistencia de la asociación lineal ................................. 86 Estimaciones en Regresión lineal simple......................... 88 Hipótesis en Regresión lineal simple ............................... 89 Asunciones del análisis de Regresión.............................. 90 Regresión lineal múltiple ......................................................... 91 Variabilidad cuadrática. Suma de cuadrados ................. 91 Consistencia de la Asociación lineal ................................ 93 Hipótesis en regresión lineal múltiple.............................. 94 Asunciones del análisis de Regresión.............................. 96 Interacción ........................................................................... 96 Multicolinealidad................................................................. 97 Correlación parcial ............................................................. 100 Análisis de residuos............................................................ 100 Análisis de Regresión con SPSS ............................................. 102 El subcomando Method ..................................................... 110 El subcomando Criteria...................................................... 115 El subcomando Statistics .................................................... 117 El subcomando Origin ........................................................ 123 El subcomando Select ........................................................ 123 El subcomando Missing ..................................................... 126 El subcomando Width ........................................................ 126 El subcomando Descriptives ............................................. 126 Análisis de residuos con SPSS .......................................... 129 El subcomando Residuals............................................. 132 El subcomando Casewise ............................................. 142 El subcomando Scatterplot .......................................... 146 El subcomando Partialplot............................................ 147 El subcomando Regwgt...................................................... 151 El subcomando Save .......................................................... 151 https://www.facebook.com/groups/stats.ebooksandpapers/ XII ÍNDICE El subcomando Read .......................................................... 152 El subcomando Write ......................................................... 153 Capítulo 5. REGRESIÓN LOGÍSTICA .......................................... 155 Introducción............................................................................... 155 Tipos de Regresión Logística .................................................. 156 Modelo matemático................................................................... 156 Estimación y significado de los coeficientes......................... 157 Hipótesis en regresión logística simple ................................. 158 Evaluación estadística de b1 ............................................. 159 Evaluación estadística de Wald......................................... 161 Evaluación del incremento del estadístico de �2LL0 ...... 162 Evaluación de �2LL0........................................................... 163 Evaluación del estadístico Z2 ............................................. 164 El modelo múltiple .................................................................... 165 Hipótesis en el modelo múltiple ............................................. 165 Evaluación del incremento del estadístico de �2LL0 ...... 166 Evaluación de �2LL0 .......................................................... 167 Evaluación del estadístico Z2 ............................................. 168 Interacción ................................................................................. 169 Coeficiente de correlación parcial.......................................... 170 Variables Dummy .................................................................... 171 Magnitud del efecto: riesgo relativo y Odds Ratio ............... 171 Riesgo relativo ..................................................................... 172 Razón de predominio (Odds Ratio) .................................. 173 Análisis del riesgo en regresión logística.............................. 175 Regresión logística con SPSS................................................... 176 El subcomando Variables .................................................. 177 El subcomando Categorical ............................................... 183 El subcomando Contrast..................................................... 185 El subcomando Method ...................................................... 187 El subcomando Criteria ...................................................... 188 El subcomando Select ........................................................ 189 El subcomando origin ......................................................... 193 El subcomando Print .......................................................... 193 El subcomando Missing ...................................................... 194 El subcomando External ..................................................... 194 El subcomando Classplot .................................................. 194 https://www.facebook.com/groups/stats.ebooksandpapers/ ÍNDICE XIII Análisis de residuos ........................................................... 197 Variables temporales .................................................... 197 El subcomando Casewise............................................. 199 El subcomando Save .......................................................... 202 El subcomando Id ............................................................... 202 Capítulo 6. ANÁLISIS DE GRUPOS LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER.................................................. 203 Análisis de Cluster: Clasificación............................................203 Proximidades. Distancias y similaridades ............................. 204 Similaridades ...................................................................... 204 Distancias ............................................................................ 205 Métodos de análisis de Cluster.............................................. 207 Métodos jerárquicos ........................................................... 207 Análisis de Clusters con SPSS .............................................. 209 El subcomando Measure .................................................. 209 El subcomando Method .................................................... 210 El subcomando Print ......................................................... 210 El subcomando Plot ............................................................ 211 El subcomando Id .............................................................. 212 El subcomando Save ......................................................... 212 El subcomando Write ......................................................... 212 El subcomando Read ......................................................... 213 El subcomando Missing ..................................................... 213 Ejemplos ................................................................................... 214 Ejemplo 2. Cluster de variables ....................................... 218 Métodos no jerárquicos .......................................................... 221 Métodos en Clusters no jerárquicos ................................ 221 Clusters no jerárquicos con SPSS ..................................... 221 El subcomando Criteria ................................................ 222 El subcomando Initial ................................................... 222 El subcomando Print ..................................................... 223 El subcomando Missing ............................................... 223 El subcomando Save .................................................... 224 El subcomando Write .................................................. 224 Ejemplo de Cluster no jerárquico .............................. 224 https://www.facebook.com/groups/stats.ebooksandpapers/ XIV ÍNDICE Capítulo 7. COMPONENTES PRINCIPALES. ANÁLISIS FAC- TORIAL; EL PROCEDIMIENTO FACTOR ............................... 231 Componentes principales y análisis factorial ....................... 231 Componentes principales ........................................................ 232 Modelo matemático ........................................................... 233 Fases de un análisis de componentes principales ......... 234 Elección de los componentes principales .................. 234 Rotación de los ejes ..................................................... 236 Rotaciones ortogonales .......................................... 237 Rotaciones oblicuas ................................................ 238 Representación gráfica ........................................... 238 Puntuaciones factoriales ......................................... 238 Análisis factorial ........................................................................ 239 Modelo matemático del análisis factorial ........................ 240 Fases en un modelo factorial ............................................. 241 Examen de la matriz de correlaciones ...................... 241 Prueba de Barlett...................................................... 242 Índice KMO ............................................................. 243 Correlación Antiimagen .......................................... 244 Medida de adecuación de la muestra ................... 244 Correlación múltiple ............................................... 245 Extracción de los factores comunes............................ 245 Rotación de factores ...................................................... 247 Puntuaciones factoriales ............................................... 247 Bondad del ajuste. Residuos .............................................. 248 Análisis factorial con SPSS ...................................................... 249 El subcomando Extraction ................................................ 250 El subcomando Criteria ..................................................... 250 El subcomando Rotation ..................................................... 251 El subcomando Print .......................................................... 251 El subcomando Plot ........................................................... 252 El subcomando Save .......................................................... 253 El subcomando Diagonal ................................................... 253 El subcomando Write ........................................................ 253 El subcomando Read ......................................................... 254 Ejemplos .............................................................................. 254 https://www.facebook.com/groups/stats.ebooksandpapers/ ÍNDICE XV Ejemplo sobre componentes principales .................. 254 Ejemplo sobre análisis factorial exploratorio ............. 259 Ejemplo sobre análisis factorial confirmativo ............ 263 Capítulo 8. ANÁLISIS DISCRIMINANTE..................................... 267 Introducción............................................................................... 267 Métodos de análisis discriminante ......................................... 268 Función discriminante. Puntuaciones discriminantes ........... 269 Fundamentos matemáticos ..................................................... 270 Análisis discriminante con SPSS. El comando Dscriminant .. 272 Los subcomandos Groups y Variables ............................. 272 El subcomando Analysis .................................................... 277 El subcomando Method ...................................................... 278 El subcomando Maxsteps................................................... 286 Subcomandos de Criterio................................................... 286 El subcomando Functions................................................... 288 El subcomando Select......................................................... 288 El subcomando Options ..................................................... 289 El subcomando Statistics ................................................... 291 El subcomando Priors ......................................................... 302 El subcomando Save........................................................... 302 Capítulo 9. ESTADÍSTICA NO PARAMÉTRICA; EL PROCEDI- MIENTO NPAR ......................................................................... 305 Estadística paramétrica y no paramétrica ............................. 305 El procedimiento Npar ............................................................ 306 El subcomando Option ....................................................... 307 El subcomando Statistics .................................................... 308 Pruebas para una sola muestra ............................................... 309 Prueba binomial. El subcomando binomial ...................... 309 Prueba Chi Cuadrado. El subcomando Chi-Square ........ 314 Prueba de Kolmogorov Smirnov. El subcomando K-S ..... 316 Prueba de las Rachas ......................................................... 322 Pruebas para dos variables relacionadas .............................. 327 Prueba de McNemar........................................................... 328 Prueba de los signos para dos variables relacionadas ... 334 Prueba de Wilcoxon para dos variables relacionadas .... 337 https://www.facebook.com/groups/stats.ebooksandpapers/ XVI ÍNDICE Pruebas para K variables relacionadas .................................. 342 Prueba de Friedman .........................................................343 Coeficiente de concordancia de Kendall ......................... 346 La prueba de la Q de Cochran ......................................... 354 Pruebas para dos muestras independientes ................................. 358 Prueba de la mediana ............................................................ 359 La prueba de Mann-Whitney................................................. 361 La prueba de Kolmogorov-Smimov para dos variables independientes ................................................................. 366 Prueba de las Rachas para dos variables .............................. 368 La prueba de los valores extremos de Moses ....................... 372 Pruebas no paramétricas para K variables .................................. 375 La prueba de Kruskal-Wallis ................................................ 376 La prueba de la mediana para K variables ............................ 380 Apéndice. DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO .... 383 Al Ejemplo Coromar .................................................................. 383 A2 Ejemplo vascular .................................................................. 386 A3 Ejemplo peces ...................................................................... 389 Bibliografía recomendada ................................................................ 391 https://www.facebook.com/groups/stats.ebooksandpapers/ INSTRUCCIONES PARA EL MANEJO DE ESTE LIBRO Este libro va dirigido a personas con conocimientos estadísticos y de SPSS a nivel básico2, puede ser utilizado, como de aprendizaje o como de consulta, es recomendable para resolver los ejemplos disponer de un ordenador que tenga instalado el paquete SPSS, aunque ello no es imprescindible. Recomendamos al lector estudiar con detenimiento los fundamentos y aplicaciones de las técnicas estadísticas descritas y después trabajar los ejemplos. Este libro incluye la realización de múltiples ejemplos, la mayoría basados en el fichero de datos CORONAR, puesto que este es el fichero básico del curso en el disquete adjunto se incluyen el fichero de sistema CORONAR.SYS el fichero de datos CORONAR.DAT y el fichero de instrucciones CORONAR.SPS, también se incluyen los ficheros VASCULAR.SYS y PECES.SYS. Recomendamos, al lector crear un subdirectorio llamado DATOS, del directorio donde estén los programas de SPSS, las órdenes de los ejemplos suponen que los ficheros de trabajo están en dicho subdirectorio, si están instalados en otro el lector deberá tenerlo en cuenta. Los listados de instrucciones comienzan con el PROMPT de SPSS: SPSS/PC: EL CUAL NO DEBE SER TECLEADO POR EL LECTOR, al resaltarlo en negritas queremos indicar que esto es lo que usted debe ver en la pantalla de su ordenador, si introduce las órdenes desde el prompt, tampoco debe teclear los dos puntos resaltados en negrita, que indican una orden que continúa desde la orden anterior. 2 El libro Estadística básica y procesamiento de datos con SPSS aplicado a las ciencias de la salud. C.S.C.M., Madrid, 1994, cuyo autor es Rafael Álvarez Cáceres, va dirigido a personas sin conocimientos previos de estadística ni de SPSS. https://www.facebook.com/groups/stats.ebooksandpapers/ XVIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS Supongamos que va a desarrollar una sesión de trabajo con SPSS y quiere teclear las siguientes instrucciones: SPSS/PC: GET FILE 'DATOS/CORONAR.SYS'. SPSS/PC: ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3. SPSS/PC: FINISH. Si trabaja desde el prompt, no debe de teclear lo resaltado en negrita. Si usted desea trabajar desde el editor de textos incluido en SPSS REVIEW, las instrucciones anteriores debe teclearlas en review de la manera siguiente: GET FILE 'DATOS/CORONAR.SYS'. ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3. FINISH. https://www.facebook.com/groups/stats.ebooksandpapers/ Capítulo 1 En este capítulo vamos a estudiar el análisis de la varianza, que es una técnica estadística que nos permite, entre otras cosas, com- parar dos o más medias de forma simultánea. Los métodos de comparación de dos medias, que SPSS ejecuta mediante el procedimiento TTEST, sólo eran válidos para comparar de forma simultánea dos medias. El análisis de la varianza plantea el problema como un modelo matemático, en el cual la variable dependiente es la variable cuantitativa, y la variable independiente la variable cualitativa, también llamada factor. En el modelo de una vía sólo hay una variable independiente; si hubiese dos en el modelo, se aplicaría el análisis de la varianza de dos vías, etc. Una posibilidad muy interesante que nos proporciona el proce- dimiento ONEWAY es el cálculo de intervalos de confianza para la media. COMPARACIÓN SIMULTÁNEA DE VARIAS MEDIAS Supongamos que en un estudio queremos comparar de forma simultánea varias medias. Por ejemplo, en un estudio queremos conocer el comportamiento de la tensión arterial sistólica (TAS) en las distintas clases sociales. Para ello deberíamos hacer una compa- ración simultánea de TAS entre las clases sociales alta, media y baja y podríamos pensar (de forma equivocada) en realizar las siguientes comparaciones de medias dos a dos mediante TTEST: ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY https://www.facebook.com/groups/stats.ebooksandpapers/ Podríamos plantear, en este caso, tres contrastes de dos medias, TAS en clase alta (TAS-A) con TAS en clase media (TAS-M), etc. Cada contraste lo hemos planteado con una probabilidad de cometer error tipo I (α) de 0.05; ésta es la probabilidad de error que admitimos en caso de rechazar la hipótesis nula. Pero esa probabilidad, que es la de encontrar diferencias significativas simplemente por azar, actúa en cada comparación y por lo tanto, al realizar los tres contrastes admitiendo en cada uno de ellos un error del 5%, la probabilidad de que un contraste sea significativo simplemente por azar es mucho mayor que 0.05. Un símil que puede ayudar a comprender esto es el siguiente: si tiramos un dado perfecto, una sola vez, la probabilidad de sacar un número par es 0.5 (50%), pero si tiramos el dado tres veces seguidas, la probabilidad de que al menos en una tirada salga un número par es mayor que 0.5. En un contraste de hipótesis ocurre una cosa parecida; si fijamos un nivel de significación α = 0.05, ésta es la probabilidad que aceptamos de estar equivocados en caso de rechazar la hipótesis nula, que sería cuando encontrá- ramos diferencias significativas. Pero esta es la probabilidad para un solo contraste; ocurre como con el dado, la probabilidad de que sacar par es 0.5, lo que resulta válido para una sola tirada, pero si realizamos varios contrastes la probabilidad de considerar diferen- cias significativas por azar es mayor. Algunos autores, como Bonfe- rroni, proponen dividir el nivel de significación global para la prueba por el número de comparaciones que realizan. En el ejemplo que estamos analizando, si queremos trabajar con α = 0.05 y dado que hay tres comparaciones, dividiríamos 0.05 entre 3, cuyo resultado es 0.0167. Según esto deberíamos calcular los puntos críticos de la t de Student como si realizáramos un contraste con α = 0.0167, pero consideraríamos el contraste global α = 0.05. Esta técnica tiene el inconveniente de que es muy conservadora; ello quiere decir que para rechazar la hipótesis nula tiene que haber diferencias grandes, y aunque controlamos la probabilidad de cometer error tipo I (α), 2 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 3 aumentamos la probabilidad de cometer error tipo II (β), que sería la probabilidad de no considerar las diferencias como significativas, cuando realmente lo son. El análisis de la varianza tiene en cuenta estos inconvenientes y nos permite realizaruna comparación si- multánea de varias medias, de forma bastante eficiente y teniendo en cuenta los problemas analizados en este apartado. TIPOS DE ANÁLISIS DE LA VARIANZA Hemos dicho en la introducción al capítulo que el análisis de la varianza plantea los problemas anteriores según un modelo mate- mático, en el que la variable dependiente sería la variable cuantita- tiva, y la independiente la variable cualitativa. Algunos autores llaman factor a la variable independiente y niveles del factor a las categorías (en el caso de la clase social, sería un factor con tres niveles). Siguiendo con el ejemplo de TAS (variable cuantitativa) y clase social (variable cualitativa), al comparar medias lo que estamos analizando es si la TAS depende de la categoría de la variable; si la TAS varía significativamente de una clase social a otra, es que el valor de la TAS depende, en parte, de la categoría de la variable a que pertenezca el individuo. En este caso, tenemos una variable independiente y una sola dependiente, y éste es el modelo básico del análisis de la varianza de una vía, también denominado de un factor, que es la variable independiente. Podríamos plantear un estudio en el que la variable dependiente fuera la TAS y hubiese dos variables independientes, la clase social y el sexo. En este caso, tendríamos un análisis de la varianza de dos factores, con dos variables independientes cualitativas (factores). Si tuviéramos una variable dependiente (cuantitativa) y tres independientes cualitativas (tres factores), podríamos plantear un modelo de análisis de la va- rianza de tres factores (tres variables independientes), etc. En este capítulo sólo estudiaremos el análisis de la varianza de una vía. FUNDAMENTOS DEL ANÁLISIS DE LA VARIANZA Supongamos que en una población extraemos K muestras re- presentativas (homogéneas y aleatorias) de n elementos cada una. https://www.facebook.com/groups/stats.ebooksandpapers/ 4 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS Las muestras pueden tener tamaños diferentes pero, con objeto de facilitar la comprensión de los conceptos, vamos a plantear inicial- mente el problema considerando las K muestras iguales. En ca- da elemento de la muestra anotamos el valor de una variable cuan- titativa X. Tendremos por lo tanto K grupos con n elementos cada uno, con valores de X, que podemos disponer de la siguiente ma- nera: En la tabla anterior, el primer subíndice indica el grupo (nivel del factor) y el segundo el orden del elemento en el muestreo, dentro del grupo indicado por el primer subíndice. La notación empleada es la más comente; obsérvese que es distinta a la notación matricial, en la que el primer subíndice indica la fila y el segundo la columna. El elemento X2n es el valor de la variable dependiente (cuantitativa) del enésimo elemento del segundo grupo (segundo nivel). indica la media muestral del jésimo grupo, Sj2 indica la varianza muestral del jésimo grupo y a la varianza de cada grupo la llamaremos varianza dentro de grupos, porque mide la variabilidad dentro de cada grupo. La media de todos los datos X viene dada por la siguiente expresión: jX https://www.facebook.com/groups/stats.ebooksandpapers/ El número total de datos es N = k n. Los K grupos anteriores son muestras representativas de la misma población. Por lo tanto, las K medias muéstrales serán estimadores de la media poblacional µ, y las diferencias entre ellas serán única- mente debidas al azar. Las K varianzas muéstrales (varianzas dentro de grupos) serán estimadores de la varianza poblacional σ2 y las diferencias entre ellas serán únicamente debidas al azar. La varianza dentro de grupos La varianza dentro de grupos mide la variabilidad dentro de cada grupo y cada una de las k varianzas intragrupo es un estimador de la varianza poblacional σ2. La varianza intragrupos viene dada por la siguiente expresión: Si cada varianza intragrupo es un estimador de la varianza po- blacional, también lo será la media ponderada de las k varianzas intragrupo. La ponderación se realiza según el tamaño de cada muestra, como hemos partido del supuesto de que las K muestras tienen el mismo tamaño, la ponderación es la misma para cada muestra y el resultado es la media aritmética de las K varianzas intragrupos, según la siguiente expresión: ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 5 https://www.facebook.com/groups/stats.ebooksandpapers/ Sustituyendo en (1-3) Sj2 por su valor según la expresión (1.2) queda la siguiente expresión: La expresión (1-4) es la media de las varianzas intragrupos, y es un estimador de la varianza poblacional. A 5d2 la denominaremos varianza dentro de grupos. La varianza entre grupos Otra estimación de la varianza poblacional podemos realizarla a partir del error estándar de la media (E.E.M.) recuérdese que el error estándar de la media es la desviación típica de la distribución de medias muéstrales. Una estimación del error estándar de la media viene dado por: 6 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS El E.E.M. también viene dado por: https://www.facebook.com/groups/stats.ebooksandpapers/ Sustituyendo en (1-7) el valor del E.E.M. dado por (1-5), sustitu- yendo la varianza poblacional por su estimador S2 y despejando, tendremos otro estimador de la varianza poblacional, según la si- guiente expresión: En la expresión anterior hemos sustituido la varianza poblacional por un estimador, al ser todos los términos de la expresión (1-8) parámetros muéstrales, al que llamaremos varianza entre grupos. La varianza entre grupos es un estimador de la varianza poblacional, bajo el supuesto de que las K medias muéstrales son estimadores de la misma media poblacional µ. Téngase en cuenta que, al ser las K muestras representativas de la misma población, no debe haber diferencias, más allá de las aleatorias, entre la varianza dentro de grupos y la varianza entre grupos; por tanto, si las comparamos según la prueba de la F de Snedecor, no debe haber diferencias significativas entre ellas salvo por efecto del azar, ya que las dos son estimadores del mismo parámetro, la varianza poblacional σ2. El lector debe intentar comprender bien estos conceptos, porque el análisis de la varianza se basa en ellos. Supongamos ahora que en una población tomamos K muestras representativas para estudiar una determinada variable cuantitativa, pero cada muestra difiere de las otras en que corresponde a una categoría distinta de una variable cualitativa que tiene K categorías distintas. Supongamos que en una población tomamos 3 muestras ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 7 Elevando la expresión anterior al cuadrado: https://www.facebook.com/groups/stats.ebooksandpapers/ 8 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS representativas para estudiar la TAS, pero cada una de una clase social distinta; en este caso, la variable cualitativa es la clase social y tiene 3 categorías. Si las medias muéstrales tienen valores signifi- cativamente distintos, debido a pertenecer a distintas categorías de la variable (distintos grupos), la varianza dentro de grupos no se modificará significativamente y seguirá siendo un estimador de la varianza poblacional global (que incluye todas las categorías de la variable; en el ejemplo de la TAS y la clase social nos estaríamos refiriendo a la varianza de la TAS de toda la población). Pero la varianza dentro de grupos, que era un estimador de la varianza poblacional, bajo el supuesto de que entre las medias muéstrales no había diferencias significativas, se verá incrementada en un factor proporcional al efecto debido a pertenecer a distintos grupos. Detección de diferencias significativas El análisis de la varianza se basa en que, si existen diferencias significativas entre las medias de cada grupo, la varianza entre grupos se verá incrementada ypor lo tanto será significativamente distinta y mayor que la varianza dentro de grupos; esta diferencia será detectada por la prueba de la F de Snedecor. La varianza entre grupos no puede ser menor que la varianza dentro de grupos (salvo una pequeña probabilidad, debida al azar); por lo tanto, el contraste de hipótesis lo plantearemos de una sola cola, puesto que únicamente contrastaremos la posibilidad de que la varianza entre grupos sea mayor que la varianza dentro de grupos, ya que no tendría sentido contrastar que sea menor. Si la prueba de la F de Snedecor detecta diferencias significativas entre la varianza dentro de grupos y la varianza entre grupos, ello indica que al menos una de las medias es significativamente distinta de las demás (puede ser una o más de una). De ahí el nombre de análisis de la varianza, pues detecta diferencias entre medias anali- zando diferencias entre varianzas. Al análisis de la varianza se le conoce casi umversalmente por las siglas ANOVA, que corresponden a su nombre en inglés (ANA- LISYS OF VARIANCE); por lo tanto en el resto del capítulo nos referiremos en ocasiones al análisis de la varianza como ANOVA. https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 9 Modelo matemático El modelo matemático de ANOVA se basa en descomponer la diferencia observada entre un elemento y la media global en dos partes: entre grupos, debida al efecto de grupo (si es que lo hay), esta fracción de la variabilidad es la explicada por la variable inde- pendiente, y dentro de grupos debida a todas las demás causas, que pueden ser efectos de otras variables no controladas por el modelo. Esto se puede expresar matemáticamente de la siguiente manera: Xji es el valor de la variable cuantitativa en el iésimo elemento del jésimo grupo, y la diferencia de dicho valor respecto a la media poblacional global será debida al efecto del grupo (µj � µ), más a las diferencias no controladas por el modelo, efecto de otras varia- bles, (Xji � µj). Siguiendo con el ejemplo de la TAS y la clase social, si el perte- necer a una determinada clase social tiene incidencia sobre la TAS (por supuesto nos referimos a efectos medios), la TAS media será significativamente distinta en los grupos seleccionados para el es- tudio, y la TAS de un individuo cualquiera (iésimo) de una clase social cualquiera (jésima), tendrá una diferencia con la TAS pobla- cional media µ (la TAS media poblacional sería la de todos los individuos de la población muestreada, sin distinguir clases sociales), a causa de dos factores: uno es la diferencia con respecto a µ debida a pertenecer a una determinada clase social (µj � µ), y otra debida al resto de variables del individuo que no están controladas por el modelo. El que una clase social determinada tenga una TAS media mayor que otra, no implica que muchos individuos de la clase social donde la media es más alta no tengan TAS normales o bajas. https://www.facebook.com/groups/stats.ebooksandpapers/ 10 ESTADÍSTICA MULTIVARIANTE V NO PARAMÉTRICA CON SPSS Suma de cuadrados A partir del modelo anterior podemos estudiar la variabilidad cuadrática. Vamos a distinguir tres tipos de variabilidad cuadrática del valor de la variable en la muestra, respecto de la media pobla- cional. A estos parámetros que miden la variabilidad cuadrática les vamos a llamar suma de cuadrados, SUM SQUARE (SS), según la terminología anglosajona. La variabilidad cuadrática total es la debida a todas las causas. La descomponemos en dos partes: la variabilidad cuadrática entre grupos SSentre, que es la parte de la variabilidad cuadrática que explica la variable independiente, como consecuencia de que los valores pertenezcan a distintos grupos (ENTRE GRUPOS), y la va- riabilidad cuadrática consecuencia de las diferencias observadas dentro de cada grupo (SSdentro), debidas al resto de las causas. Las variabilidades cuadráticas se calculan según las siguientes expre- siones matemáticas: La expresión anterior es la suma de las desviaciones cuadráticas de cada valor de la variable, respecto a la media global, que es la media de todos los datos implicados en el análisis. Es un estimador de la suma de las desviaciones cuadráticas, respecto a la media poblacional µ, por todas las causas. https://www.facebook.com/groups/stats.ebooksandpapers/ La expresión anterior es la suma de las desviaciones cuadráticas de la media de cada grupo, respecto a la media global de todos los datos. Es un estimador de la suma de las desviaciones cuadráticas de la media de cada grupo, respecto a la media poblacional µ. Representa la variabilidad cuadrática entre grupos. La expresión anterior es la suma de las desviaciones cuadráti- cas de cada elemento respecto a la media de su grupo. Es un es- timador de la suma de las desviaciones cuadráticas de cada valor de la variable, respecto de la media poblacional de su correspon- diente grupo µi. Representa la variabilidad cuadrática dentro de grupos. La suma de cuadrados total la hemos descompuesto en la suma de cuadrados entre y dentro de grupos, y la suma algebraica de los componentes es igual a la total: Las expresiones anteriores no tienen denominador; por lo tanto, cuanto más grande sea la muestra, más sumandos habrá y más grandes serán sus valores. Para que sean parámetros comparables, necesitamos el valor de la suma de cuadrados medios. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 11 https://www.facebook.com/groups/stats.ebooksandpapers/ 12 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS Cuadrados medios La suma de cuadrados representa la suma de las variabilidades cuadráticas, pero para poder ser utilizados en comparaciones, ne- cesitamos tener parámetros que estimen la variabilidad cuadrática media. Para conseguir esto, dividiremos las sumas de cuadrados entre sus correspondientes grados de libertad. Los grados de libertad totales son N � 1, y estos grados de libertad son iguales a la suma de los grados de libertad ENTRE GRUPOS más los grados de libertad DENTRO de GRUPOS. A las desviaciones cuadráticas medias les llamaremos cuadrados medios, MEANS SQUARES (el uso de las siglas anglosajonas es obligado, porque las salidas de la mayoría de los paquetes estadísticos se refieren a los parámetros estadísticos según esta terminología y sus correspondientes siglas); en abrevia- tura, los cuadrados medios se denominan a menudo por sus siglas en inglés MS. En el análisis de la varianza solamente vamos a utilizar los cuadrados medios entre grupos y dentro de grupos. El cuadrado medio entre grupos, MSENTRE, es igual a la suma de cuadrados entre grupos, dividida por K � 1, que son los grados de libertad, ya que el número de elementos que han intervenido es k, que es el número de grupos. Puesto que la suma de cuadrados entre grupos es la suma de las diferencias cuadráticas de la media de cada grupo respecto a la media global, hay k medias, y los grados de libertad son iguales a K � 1. MSENTRE viene dado por la siguiente expresión: MSENTRE es un estimador de la varianza entre grupos. La varianza entre grupos es un estimador de la varianza poblacional σ2, si no hay diferencias significativas entre las medias de cada grupo, si hay diferencias significativas entre las medias de los grupos, esta varianza es igual a la varianza poblacional más un sumando propor- cional al efecto grupos. https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 13 El cuadrado medio dentro de grupos, MSDENTRO, es igual a la suma de cuadrados dentro de grupos dividida por N � K, que son los gra- dos de libertad correspondientes. Los grados de libertad totales son N � 1. Dada la aditividad de los grados de libertad, los grados de li- bertad entre grupos, más los grados de libertad dentro de grupos, de- ben ser iguala los grados de libertad totales N � 1, por lo tanto: El cuadrado medio dentro de grupos viene dado por la siguiente expresión: MSDENTR0 es un estimador de la varianza poblacional de la varia- ble σ2, haya o no haya diferencias significativas entre los valores por el hecho de pertenecer a distintos grupos. Hipótesis de Anova Al realizar un análisis de la varianza de una vía, contrastamos las siguientes hipótesis: La hipótesis nula postula que las medias de todos los grupos en la población son iguales. La hipótesis alternativa postula que al https://www.facebook.com/groups/stats.ebooksandpapers/ 14 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS menos hay una media µr distinta de otra µs. Si hay una sola media que es significativamente distinta de otra, rechazaremos la hipótesis nula; por supuesto si las diferencias entre medias son muchas, con mayor motivo se rechazará la hipótesis nula. MSENTRE y MSDENTRO son estimadores de la varianza poblacional, si no hay diferencias significativas entre las medias. Si las hay MSDENTRO sigue siendo un estimador de la varianza poblacional, pero MSENTRE detecta esta diferencia significativa entre las medias; será por tanto significativamente mayor que MSDENTRO y, al someter al cociente MSENTRE/MSDENTRO a la prueba de la F de Snedecor, quedará claro que existen diferencias significativas entre los dos cuadrados medios. El contraste de hipótesis que plantear en este caso es de una sola cola, puesto que sólo existe la posibilidad de que el cuadrado medio entre grupos sea mayor o igual que el cuadrado medio dentro de grupos (salvo una pequeña posibilidad debida al azar); por lo tanto, sólo contrastaremos la posibilidad de que el cuadrado medio entre grupos sea mayor que el cuadrado medio dentro de grupos, y plantearemos el contraste de la siguiente manera: El que en la hipótesis nula figure el signo menor igual no quiere decir que contrastemos la posibilidad de que sea menor; recuérdese que las hipótesis nulas no se demuestran, sino que se rechazan o no. Sin embargo el no poder rechazarla en este caso significaría que no hemos podido demostrar que MSENTRE sea mayor que MSDENTRO. El análisis de la varianza resuelve el problema de la comparación de medias; compara dos varianzas, de ahí su nombre. Si la diferencia entre las dos varianzas (cuadrados medios) es significativa, indica que existen diferencias significativas entre las medias, por lo que se rechazará la hipótesis nula. https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 15 Disposición de los resultados. Tabla de Anova Los resultados de un análisis de la varianza se disponen en una tabla especial, en la que se muestran los parámetros fundamentales en ANOVA. Estas tablas, según los distintos autores, pueden variar en algunos elementos, aunque no en los esenciales. La tabla utilizada por SPSS es la siguiente: La tabla anterior, que vamos a analizar es la que utiliza SPSS en el análisis de la varianza de una vía. En primer lugar, nos indica el nombre de la variable dependiente y su etiqueta, si la tiene. Debajo nos indica el nombre de la variable independiente y su etiqueta, si la tiene. El cuerpo de la tabla tiene 6 columnas con los siguientes ele- mentos: SOURCE. En esta columna se indica cuál es la fuente de varia- ción de los parámetros que se muestran. BETWEEN GROUPS significa entre grupos; los parámetros de esta fila son los correspondientes a las variaciones entre los grupos. WITHIN GROUPS significa dentro de grupos; los parámetros de esta fila son los correspondientes a la variación dentro de grupos. TOTAL: en esta fila, los parámetros son los correspondientes a las variaciones por todas las causas. D.F. Son los grados de libertad, en esta columna figurarán los grados de libertad de cada fuente de variación. Observe que la https://www.facebook.com/groups/stats.ebooksandpapers/ 16 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS suma de los grados de libertad entre más dentro son igual a los totales. SUM OF SQUARES. En esta columna se mostrará el valor de las sumas cuadráticas correspondientes a cada variación. MEANS SQUARES. En esta columna se mostrarán los cuadrados medios correspondientes a cada fuente de variación. F. RATIO. En esta columna se muestra el valor del cociente entre los cuadrados medios entre y dentro de grupos. Este cociente es la F de Snedecor experimental. Recuérdese que este cociente se distribuye según una F de Snedecor si no hay diferencias signi- ficativas entre las medias. F. PROB. En esta columna se indica cuál es la probabilidad de encontrar una F como la observada si no hubiera diferencias sig- nificativas. Si esta probabilidad es menor del nivel de significa- ción (α), establecido para resolver el contraste, concluiremos que la probabilidad es demasiado pequeña para considerarla debida al azar y que el cuadrado medio entre grupos es mayor que el cua- drado medio dentro de grupos debido a que entre las medias existen diferencias significativas. Si el nivel de significación lo hemos fijado en 0.05, que es lo habitual, aceptaremos que existen diferencias significativas entre las medias cuando F.PROB sea menor que 0.05. Si el análisis de la varianza no es significativo, no podemos rechazar la hipótesis nula y, por lo tanto, no tenemos evidencia de que existan diferencias entre las medias, con lo cual habremos concluido el estudio. El análisis de la varianza únicamente nos informa de si existen o no diferencias significativas entre las medias, pero no nos dice cuáles son. Si el análisis de la varianza es significativo, debemos proceder a la realización de pruebas de comparación múltiple, a fin de dilucidar entre qué medias existen diferencias significativas. Comparaciones múltiples Estas pruebas sólo tiene sentido realizarlas si el análisis de la varianza ha sido significativo. El análisis de la varianza lo único que nos dice es si existen diferencias significativas entre las medias, pero no nos dice entre cuáles. Para dilucidar esta cuestión debemos https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 17 proceder a realizar alguna de las muchas pruebas de comparación múltiple existentes SPSS nos permite realizar hasta 7 de estas prue- bas, además de las comparaciones a priori. Un planteamiento co- rrecto es realizar una sola prueba de comparación múltiple; es ma- nifiestamente incorrecto realizar varias y escoger los resultados que más nos interesen. En este libro no vamos a entrar en detalles matemáticos respecto a estas pruebas, puesto que es un tema complejo e incluso entre los especialistas existen discrepancias en este punto. Remitimos al lector a la literatura especializada. Las pruebas de comparación múltiple pueden ser de dos tipos. A PRIORI A POSTERIORI. Las pruebas a priori se plantean antes (a priori) de ver los resul- tados y deben cumplir una serie de requisitos; uno de éstos es que los grados de libertad de las comparaciones planteadas no pueden superar los grados de libertad ENTRE GRUPOS, es decir K � I. Insistimos en que estas pruebas deben planificarse sin ver los re- sultados y efectuarse una sola vez siguiendo la planificación prevista. Si no se cumplen estas normas, podemos cometer importantes erro- res estadísticos. Las pruebas a posteriori permiten realizar todas las comparacio- nes posibles entre las medias. Pero debe elegirse una sola prueba y asumir los resultados obtenidos. Modelos de análisis de la varianza de una vía En el análisis de la varianza de una vía debemos distinguir dos tipos fundamentales: https://www.facebook.com/groups/stats.ebooksandpapers/ 18 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS En el modelo de efectos fijos, el investigador fija los niveles del factor (categorías de la variable cualitativa),que quiere comparar. Supongamos que queremos comparar el número de días de hospi- talización de los pacientes sometidos a una determinada intervención quirúrgica, en tres hospitales determinados, A, B, C. En este caso queremos realizar esta comparación entre los hospitales A, B, C. La variable dependiente, en este caso es el número de días de hospi- talización y la variable independiente (FACTOR) el tipo de hospital; en este caso, el factor tiene tres niveles A, B, C. Es un modelo de ANOVA de una vía (una sola variable independiente), de efectos fijos, porque los niveles del factor son fijados por el investigador. En el modelo de efectos aleatorios no se evalúan todos los niveles del factor, sino solamente algunos escogidos al azar entre todos los posibles. Supongamos que en un país pensamos que existen dife- rencias significativas entre el número de días de hospitalización tras una determinada enfermedad según el hospital donde se realice la intervención. Si el número de hospitales es muy grande, en una primera aproximación podemos realizar un estudio escogiendo un grupo pequeño de hospitales, al azar. Hemos planteado el mismo experimento de dos maneras distintas; en un caso, con efectos fijos, porque nosotros queremos estudiar las diferencias entre tres hospitales concretos (no importa que el número de hospitales hubiera sido mayor); en el segundo caso, nuestro interés no es comparar un grupo de hospitales determinado, sino averiguar si el factor hospital influye en la duración de la hospitalización, pero sin importarnos en principio una comparación entre hospitales concretos. Si encontramos diferencias significativas, deberíamos planteamos un estudio más completo del problema. El tipo de modelo no influye en los planteamientos. En el modelo aleatorio, si el análisis de la varianza es significativo, no tiene sentido en principio realizar pruebas de comparación múltiple, ya que si hemos planteado un modelo aleatorio es para ver si el factor cuyos niveles han sido muestreados influye en la variable dependiente. Si ANOVA es significativo, la conclusión es que los niveles del factor influyen en la variable dependiente, y lo habitual será plantearse otro experimento más completo. Una comparación entre grupos elegidos al azar puede realizarse, pero quizá no tenga sentido. En el modelo de efectos fijos los niveles han sido fijados por el investí- https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 19 gador, debido a que tiene un interés especial en estudiar las posibles diferencias existentes entre esos niveles. Asunciones del análisis de la varianza El análisis de la varianza es una prueba paramétrica y, para que pueda ser aplicada, deben cumplirse unas condiciones que básica- mente son las tres siguientes: REPRESENTATIVIDAD. Las K muestras, que forman los K grupos, que van a intervenir en el análisis, deben ser estadísticamente re- presentativas de la población de referencia. NORMALIDAD. La media muestral de cada grupo, correspon- diente a la variable dependiente debe distribuirse normalmente. Esto ocurre siempre si n, el tamaño de la muestra de cada grupo, es mayor que 30 y también si la variable se distribuye normalmente en la población de referencia, aunque n sea menor que 30. Única- mente no podremos garantizar que la media muestral se distribuya normalmente cuando las muestras sean menores que 30 y la variable dependiente no se distribuya normalmente en algún nivel del factor. Si el número de elementos de algún grupo es menor que 30, antes de proceder al análisis de la varianza debemos realizar alguna prueba de normalidad, en este caso la más indicada es la de Shapiro- Wilks (ver procedimiento EXAMINE). HOMOCEDASTICIDAD. Esta complicada palabra es lo mismo que decir que las varianzas de todos los grupos son homogéneas o que no se detectan diferencias significativas entre las varianzas de los grupos. Recuérdese que la prueba de la F de Snedecor es útil para la comparación de dos varianzas, pero no para comparar varias varianzas simultáneamente. SPSS, en el procedimiento ONEWAY, permite realizar las pruebas de la F de Barltlett-Box la C de Cochran y la F máxima de Hartley; todas ellas nos indicarán si las varianzas de todos los grupos son homogéneas o no. Si no se cumple la primera de las asunciones, la representatividad, no podemos realizar el análisis de la varianza ni ninguna otra prueba paramétrica o no paramétrica, ya que la primera condición que https://www.facebook.com/groups/stats.ebooksandpapers/ 20 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS debe cumplirse para sacar conclusiones sobre una población es que la muestra sea representativa. Si no se cumplen la segunda y/o la tercera asunción, podemos realizar una transformación de datos (mediante el procedimiento EXAMINE) y, si con la transformación de datos no solucionamos el problema, podemos aplicar la prueba de Kruskall-Wallis; que es una prueba no paramétrica para comparar K medias que sólo exige el cumplimiento de la primera de las condiciones. EL PROCEDIMIENTO ONEWAY. EL SUBCOMANDO VARIABLES El paquete estadístico SPSS permite realizar análisis de la varianza de una vía con dos procedimientos distintos, ONEWAY y ANOVA. En este capítulo sólo vamos a estudiar ONEWAY. El procedimiento ANOVA permite realizar análisis de la varianza de una y de varías vías, así como el análisis de la covarianza, pero en cuanto al análisis de la varianza de una vía ONEWAY tiene más posibilidades que ANOVA. ONEWAY, sin embargo sólo puede realizar análisis de la varianza de una vía. El subcomando VARIABLES, que puede ser omitido, asociado a ONEWAY, indica qué variables van a ser analizadas. En primer lugar debe ir la variable dependiente, antes de la palabra clave BY, y tras BY la variable independiente. ONEWAY sólo realiza análisis de la varianza de una vía; si antes de la palabra clave BY incluimos más de una variable independiente, (pueden incluirse hasta 100), realizará un análisis de la varianza de una vía para cada variable independiente. Supongamos que en un listado de órdenes incluimos la siguiente: En la instrucción anterior hay una variable independiente, VAR4 y tres variables dependientes VAR1 VAR2 y VAR3, en este caso SPSS realizara 3 análisis de la varianza, siendo en todos ellos la https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 21 variable independiente VAR4, los análisis a realizar son: VARI con VAR4, VAR2 con VAR4 y VAR3 con VAR4. A continuación vamos a ver un ejemplo práctico. Inicie una sesión con SPSS y siga las siguientes instrucciones: La segunda de las anteriores instrucciones, mediante el procedi- miento ONEWAY, indica a SPSS que debe proceder a realizar un análisis de la varianza de una vía. El subcomando VARIABLES indica que la variable dependiente es TAS y la independiente CLSO; con este estudio pretendemos saber si el valor medio de la TAS es diferente según la clase social, (niveles del factor). En este caso el factor CLSO tiene tres niveles ALTA, MEDIA y BAJA. Es un modelo de efectos fijos. Obsérvese que junto a la variable dependiente, figuran entre paréntesis los valores 1 y 3. Esto quiere decir que los valores de CLSO que deben entrar en el estudio son del 1 al 3, ambos inclusive (en ese caso son todos, puesto que sólo hay tres niveles). Veamos los resultados: https://www.facebook.com/groups/stats.ebooksandpapers/ 22 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS En la tabla anterior se nos muestran los resultados del análisis entre TAS y CLSO. En este caso hay tres grupos o, lo que es lo mismo, el factor tiene tres niveles, correspondientes a las tres categorías de la variable independiente CLSO. Como hay tres grupos los grados de libertad ENTRE GRUPOS son K � 1 y K= 3; por lo tanto, hay dos gradosde libertad. Los grados de libertad totales son N � 1, los casos válidos analizados son N= 70; por lo tanto, N � 1 = 69. La diferencia entre los grados de libertad totales y entre grupos es 69 � 2 = 67, que son los grados de libertad dentro de grupos, etc. En el subapartado (Disposición de los resultados, página 15) se analizan de forma genérica todos los parámetros de la tabla anterior. Si el lector quiere ampliar su conocimiento sobre alguno de ellos, le remitimos a dicho subapartado. En el análisis de la tabla anterior, vemos que el cociente entre los cuadrados medios entre y dentro de grupos es 0.1676, que es la F experimental, y la probabilidad de encontrar un valor de F mayor que Fes 0.861, que es mayor de 0.05. No podemos rechazar la hipótesis nula, y por lo tanto no tenemos evidencia suficiente para afirmar que la TAS es significativamente distinta en alguna de las clases sociales. Recuérdese que la hipótesis nula es la igualdad de todas las medias. (En este caso las tensiones sistólicas medias de las clases sociales); esto no quiere decir que hayamos demostrado la hipótesis nula, pues las hipótesis nulas no se demuestran nunca. Significa que no hemos podido demostrar que sean distintas. Recuerde que la prueba de la F, en este caso, es de una cola; sólo contrastamos que el cuadrado medio ENTRE sea mayor que el cuadrado medio DENTRO, puesto que teóricamente nunca puede ser significativamente menor, salvo una pequeña probabilidad, por azar. EL SUBCOMANDO STATISTICS Este subcomando permite la ampliación de los datos estadísticos sobre las variables implicadas en el análisis. Las opciones que pue- den asociarse a este subcomando son las siguientes: 1. Esta opción asociada al subcomando STATISTICS, muestra una tabla con el número de casos, la media aritmética, la desviación https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 23 típica, el error estándar de la media, el mínimo, el máximo e inter- valos de confianza del 95% para cada grupo y para el total de los datos. Destacamos especialmente los intervalos de confianza, que SPSS debería incluir también en el procedimiento MEANS. 2. Esta opción, asociada al subcomando STATISTICS, muestra parámetros que son de interés, algunos para el modelo de efectos fijos FIXED EFFECTS MODEL, y otros para el modelo de efectos aleatorios RANDOM EFFECTS MODEL. Al solicitar esta opción aso- ciada al subcomando STATISTICS se muestran todos los parámetros denominando los correspondientes a cada tipo de modelo. El lector es quien tiene que elegir los adecuados al estudio que está reali- zando. Los parámetros mostrados y que son útiles en el modelo de efectos fijos son la desviación típica, el error estándar de la media e intervalos de confianza del 95%. Los parámetros mostrados y útiles en el modelo de efectos aleatorios, son una estimación del compo- nente añadido de la varianza entre grupos con un intervalo del 95%. 3. Esta opción, asociada al subcomando STATISTICS, permite que se realice una prueba de homogeneidad de varianzas. Ésta es una de las condiciones de aplicabilidad del análisis de la varianza y recomendamos hacerlo, en todos los casos, ya que si las varianzas de todos los grupos no son homogéneas, podríamos cometer errores al aplicar el análisis de la varianza. Las pruebas de homogeneidad de varianzas que se realizan al solicitar esta opción son: La prueba C de Cochran. La prueba F de Barlett-Box. La prueba F máxima de Hartley. Actualmente una de las pruebas de comparación de varianzas más utilizadas, es la de Barlett-Box. ALL. Esta opción, asociada al subcomando STATISTICS, muestra todos los estadísticos correspondientes a las tres opciones anteriores. Inicie una sesión con SPSS y siga las siguientes instrucciones: https://www.facebook.com/groups/stats.ebooksandpapers/ 24 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS La segunda de las instrucciones anteriores indica que debe rea- lizarse un análisis de la varianza de una vía, considerando como variable dependiente TAD y como variable independiente CLSO. En el análisis deben entrar los niveles del 1 al 3, ambos inclusive, del factor CLSO; en este caso solo hay tres niveles, por lo tanto se incluyen todos los niveles en el análisis, y se solicitan las opciones 1 y 3 del subcomando STATISTICS. Obsérvese que no hemos in- cluido el subcomando VARIABLES; como ya indicamos en el apar- tado anterior, este subcomando es opcional. Los resultados obtenidos, como consecuencia de las instrucciones anteriores, son los siguientes: La tabla anterior es la correspondiente al análisis de la varianza de una vía entre las variables TAD y CLSO. La F experimental obtenida es 1.0654 y la probabilidad de obtener un valor como éste o más extremo es 0.3503. Como esta probabilidad es mayor que 0.05, no podemos rechazar la hipótesis nula y concluimos que no tenemos evidencia de que existan diferencias significativas entre las clases sociales respecto a la tensión arterial diastólica. https://www.facebook.com/groups/stats.ebooksandpapers/ La tabla anterior muestra los parámetros estadísticos correspon- dientes a la opción 1 del subcomando STATISTICS. Los parámetros estadísticos se muestran para cada grupo y para el total de los datos. Han sido incluidos en el análisis trece casos del gru- po 1 (clase social alta), la tensión arterial diastólica media para este grupo es 84.7692 y la desviación típica es 11.2484. El error estándar de la media es 3.1197, el intervalo del 95% de confianza para la media es 77.9719 � 91.5665. Esto quiere decir que hay un 95% de probabilidad de que la tensión arterial diastólica media de la clase social alta, en la población muestreada, esté comprendida entre 77.9719 y 91.5665. Sería un gravísimo error interpretar el intervalo de confianza considerando que el 95% de los individuos de clase social alta tienen una tensión arterial diastólica con valores entre 77.9719 y 91.565. El valor mínimo observado de la TAD en la clase social alta (CLSO = 1) es 65 y el máximo valor observado en esta misma clase social es 100. Obsérvese que los valores mínimos y máximos están en la parte inferior de la tabla. La interpretación del intervalo de confianza al 95%, para el total de los datos, es que hay un 95% de probabilidad de que la TAD media de la población muestreada (sin distinción de clases sociales) esté comprendida entre 79.0179 y 84.3821. Dejamos para el lector la interpretación de los parámetros co- rrespondientes al resto de los grupos. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 25 https://www.facebook.com/groups/stats.ebooksandpapers/ 26 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS La tabla anterior nos muestra los resultados correspondientes a las pruebas de comparación de varianzas. Tanto los parámetros correspondientes a la prueba de Cochrans como a la de Barlett-Box tienen una probabilidad de 0.244 y 0.248. Como dichos valores son mayores de 0.05, no podemos rechazar la hipótesis nula, y por lo tanto aceptamos que las varianzas son homogéneas; esto es lo mismo que decir que los grupos son homocedásticos y por lo tanto se cumple, una de las condiciones necesarias para aplicar el análisis de la varianza. La hipótesis nula en las pruebas anteriores es que las varianzas de todos los grupos son iguales. La hipótesis alternativa es que al menos una es distinta de las demás. COMPARACIONES MÚLTIPLES. LOS SUBCOMANDOS CONTRAST Y RANGES Como ya hemos comentado en otros apartados, la primera parte del análisis de la varianza, en caso de que la F experimental sea significativa, sólo nos indica si existe alguna media significativamente distinta de las demás, pero sin saber donde se encuentran las dife- rencias. Para resolver la cuestión, debemos realizar alguna de las pruebas de comparación múltiple, de las muchas existentes. Las pruebas de comparaciónmúltiple pueden ser a priori o a posteriori. SPSS dispone de dos subcomandos asociados a ONEWAY para realizar comparaciones múltiples. El subcomando CONTRAST Este subcomando permite realizar comparaciones de medias entre dos grupos de datos. Los grupos sobre los que se efectúa el contraste pueden ser definidos de múltiples formas, a partir de los datos implicados en el análisis definido por el comando ONEWAY. Los datos correspondientes a cada valor del factor pueden ser agrupados de distintos maneras, marcando cada grupo con un nú- mero. Dicho número puede ser positivo o negativo y lo denomina- remos marcador. La media correspondiente a cada grupo se multi- plicará por el número con que fue marcada. https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 27 Las medias de todos los grupos marcadas con un número positivo se multiplicarán por su marcador y se sumarán, con lo que se obtendrá un resultado al que denominaremos media positiva. Las medias de todos los grupos marcadas por un número negativo se multiplicarán por su marcador y se sumarán, con lo que se obtendrá un resultado al que denominaremos media negativa. El contraste de medias, se realizará sobre la diferencia entre la media positiva y la media negativa, mediante la prueba de la T de Student, se evaluará si las diferencias obtenidas son estadísticamente significativas. Si todos los marcadores de todos los grupos son del mismo signo, la media de cada grupo se multiplicará por su marcador, y la media final obtenida será contrastada con respecto a cero, en este caso, pues nuestro interés se centra en ver si la media de los datos marcados es significativamente distinta de cero. En resumen, cuando hay marcadores positivos y negativos, el contraste se realiza entre ellos; si solamente hay marcadores de un signo, el contraste se realiza sobre cero. Al agrupar datos mediante el subcomando CONTRAST, debe tenerse en cuenta que ni la media positiva ni la negativa son medias ponderadas. La media de cada grupo se multiplica por su marcador, independientemente del número de datos que tenga. Esta circuns- tancia debe tenerse especialmente en cuenta cuando el número de datos de cada grupo sea distinto. Se puede definir un solo contraste por cada subcomando CON- TRAST, pero pueden usarse varios subcomandos CONTRAST por cada comando ONEWAY. La sintaxis de este subcomando es compleja, por lo que reco- mendamos al lector que estudie el próximo ejemplo con la máxima atención. Inicie una sesión con SPSS y siga las siguientes instrucciones: https://www.facebook.com/groups/stats.ebooksandpapers/ En el listado anterior, hay tres instrucciones; la primera carga la información del fichero de sistema CORONAR.SYS para el análisis. La segunda instrucción, que consta de 7 líneas, encabezada por el comando ONEWAY, indica a SPSS que realice un análisis de la varianzá de una vía de la variable TAS, en relación con los tres valores del factor CLSO. Asociados al comando ONEWAY, utilizamos los subcomandos STATISTICS y 6 veces el subcomando CONTRAST, lo que nos va a permitir realizar 6 contrastes de medias distintos. En el primer contraste, tenemos la secuencia de marcadores 1 0 �1. Cada número se refiere a un valor de la clase social: el 1 es el marcador para CLSO = 1, clase social alta, el 0 es el marcador para CLSO = 2, clase social media, y el �1 es el marcador para CLSO = 3, clase social baja. La media de cada grupo será multiplicada por su marcador (al ser 0 el marcador de la clase social media, los datos correspondientes a la clase social media CLSO = 2 no participarán en el contraste) y se comparará la media positiva, con la media negativa. El resultado de este contraste, es una comparación de la tensión arterial sistólica entre los individuos de clase social alta y los de clase social baja. En el segundo contraste, los marcadores son: 1 0 1, aquí quedan eliminados del contraste los casos con CLSO = 2, clase social media, por ser 0 su marcador, los marcadores de la clase social alta y baja son 1 en ambos casos y, al ser los dos positivos, se sumarán las medias de los dos, y la media resultante, será contrastada con cero, El propósito de este contraste es comprobar que la TAS media de las clases ALTA y BAJA, consideradas conjuntamente, son significa- tivamente distintas de cero. En este caso no se comparan entre sí, sino que se consideran los datos de las dos clases sociales de forma conjunta. Desde el punto de vista clínico, este contraste no tiene ningún sentido y se comenta con fines didácticos. En el tercer contraste, los marcadores son: 0.5 0 y �0.5. En este 28 ESTADÍSTICA MULTiVARIANTE Y NO PARAMÉTRICA CON SPSS https://www.facebook.com/groups/stats.ebooksandpapers/ ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 29 caso, al igual que en los dos anteriores, los datos correspondientes a CLSO = 2 quedan excluidos del contraste, al ser 0 su marcador. El marcador de la clase social alta, CLSO = 1, es 0.5 y el de la clase social baja, CLSO = 3, �0.5. La media de la TAS para la clase social alta será multiplicada por 0.5 y la media de la TAS para la clase social baja será multiplicada por 0.5. A continuación se restarán las medias obtenidas, después de multiplicarlas por sus marcadores, y su resultado se contrastará con respecto a cero. Conceptualmente, el contraste anterior realiza una comparación de la TAS media de la clase social alta, dividida por dos, con la TAS media de la clase social baja, dividida por dos. En el cuarto contraste, los marcadores son: 2 0 2. En este caso, los datos correspondientes a la clase social media, CLSO = 2, se excluyen del contraste al ser 0 su marcador. La TAS media de la clase social alta CLSO = 1, se multiplica por dos y se suma a la TAS media de la clase social baja, CLSO = 3, también multiplicada por dos. El resultado de la suma' anterior se contrasta con respecto a cero. Conceptualmente, el contraste anterior compara la suma del doble de las medias de las clases sociales alta y baja con cero. Es evidente que un contraste de este tipo no tiene sentido clínico; se incluye por motivos didácticos. En el quinto contraste, los marcadores son: 1 1 �2 En este caso, los datos correspondientes a todos los valores del factor se incluyen en el contraste. Los marcadores de CLSO = 1 y CLSO = 2 son 1; por lo tanto, las medias de la TAS de estas dos clases sociales se sumarán y este resultado se contrastará con el doble de la TAS media de la clase social baja, CLSO = 3. Recuérdese que la media correspon- diente a cada valor del factor se multiplica por su marcador y se suman, de forma independiente, las positivas por un lado y las negativas por otro. En el sexto contraste, los marcadores son: 1 1 2. Todos son po- sitivos, por lo que se sumarán las medias de cada factor, multi- plicadas por su marcador, y el resultado se contrastará con 0. En este caso, la TAS media de la clase social alta se multiplicará por 1, la TAS media de la clase social media, se multiplicará por 1 y la TAS media de la clase social baja se multiplicará por 2. A continuación se sumarán y se contrastará el resultado con respec- to a 0. https://www.facebook.com/groups/stats.ebooksandpapers/ 30 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS En los resultados aparecen varías tablas que comentaremos de forma separada. Los resultados obtenidos son los siguientes: En la tabla anterior, se muestran los resultados de un análisis de la varianza de una vía. TAS es la variable dependiente y CLSO el factor. Después de la tabla de ANOVA, que en este caso no detecta diferencias significativas entre las medias de la TAS en las clases sociales, aparece una tabla con parámetros estadísticos referentes a la TAS, para cada grupo y para el total de los datos. Esta tabla es consecuencia de la opción
Compartir