Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ANÁLISIS DE REGRESIÓN LINEAL: CODIFICACIÓN E INTERPRETACIÓN Facultad de Psicología Grado en Psicología Autor: Germán Torres Varas Tutor: Juan Delgado Sánchez-Mateos Fecha de presentación: Junio de 2023 Análisis de regresión lineal: codificación e interpretación 1 DECLARACIÓN DE AUTORÍA Declaro que he redactado el trabajo Análisis de regresión lineal: codificación e interpretación para la asignatura de Trabajo Fin de Grado en el curso académico 2022/2023 de forma autónoma, con la ayuda de las fuentes bibliográficas citadas en la bibliografía, y que he identificado como tales todas las partes tomadas de las fuentes indicadas, textualmente o conforme a su sentido. Fdo Germán Torres Varas Análisis de regresión lineal: codificación e interpretación 2 ÍNDICE DE CONTENIDO DECLARACIÓN DE AUTORÍA ................................................................. 1 RESUMEN ............................................................................................... 5 1. INTRODUCCIÓN .............................................................................. 6 1.1. JUSTIFICACIÓN DEL TRABAJO ............................................................................................................. 6 1.2. FUNDAMENTACIÓN TEÓRICA ............................................................................................................. 6 1.3. OBJETIVOS ..................................................................................................................................... 6 2. METODOLOGÍA ............................................................................... 8 2.1. MATERIALES .................................................................................................................................. 8 2.2. PROCEDIMIENTO ............................................................................................................................ 8 2.3. ANÁLISIS DE LA INFORMACIÓN........................................................................................................... 8 3. RESULTADOS ................................................................................ 10 3.1. DISEÑOS METODOLÓGICOS ............................................................................................................. 10 3.2. ANÁLISIS DE VARIANZA Y ANÁLISIS DE REGRESIÓN ............................................................................... 11 3.3. DISEÑO SIMPLE DE VARIOS GRUPOS .................................................................................................. 18 3.3.1. Codificaciones en regresión ................................................................................................ 20 3.3.2. Codificación “dummy” ........................................................................................................ 20 3.3.3. Codificación de efectos ....................................................................................................... 22 3.3.4. Codificación Helmert (y Helmert inverso) ........................................................................... 24 3.4. DISEÑO FACTORIAL ....................................................................................................................... 27 3.4.1. Codificación “dummy” ........................................................................................................ 29 3.4.2. Codificación de efectos ....................................................................................................... 34 3.4.3. Codificación Helmert inverso .............................................................................................. 36 3.5. DISEÑO DE MEDIDAS REPETIDAS ...................................................................................................... 38 4. CONCLUSIONES Y PROSPECTIVA ................................................. 42 5. REFERENCIAS BIBLIOGRÁFICAS .................................................. 43 ANEXOS ............................................................................................... 46 ANEXO I. DATOS DEL EXPERIMENTO DE CRAMPTON (1947)................................................................................ 46 ANEXO II. TABLA DE LA CODIFICACIÓN DEL EXPERIMENTO DE EDWARDS (1972) ..................................................... 47 Análisis de regresión lineal: codificación e interpretación 3 ÍNDICE DE TABLAS Tabla 1. Diseño simple de dos grupos.........................................................12 Tabla 2. Resultado del análisis de regresión................................................12 Tabla 3. Tabla resumen del experimento de Crampton (1947)......................18 Tabla 4. Resultados del ANOVA para el ejemplo de Crampton (1947)............19 Tabla 5. Resultados del contraste “Simple” del ANOVA.................................19 Tabla 6. Codificación “dummy” del experimento de Crampton (1947)............21 Tabla 7. Resultados de la regresión con la codificación “dummy”..................21 Tabla 8. Codificación de efectos.................................................................22 Tabla 9. Resultados de la regresión con codificación de efectos....................23 Tabla 10. Codificación de Helmert inverso o diferencia.................................24 Tabla 11. Resultados con la codificación de Helmert inverso.........................25 Tabla 12. Codificación Helmert...................................................................25 Tabla 13. Resultados con la codificación Helmert.........................................26 Tabla 14. Factorial 2x3 de Crampton (1947)...............................................29 Tabla 15. Codificación “dummy clásica” para el experimento de Crampton (1947).......................................................................................................30 Tabla 16. Resultados con la codificación “dummy clásica”............................30 Tabla 17. Codificación “dummy” más apropiada para el experimento de Crampton (1947)........................................................................................31 Tabla 18. Resultados con la codificación “dummy” con interacción................31 Tabla 19. Ejemplo de codificaciones de diferentes efectos simples................33 Tabla 20. Codificación de efectos...............................................................34 Tabla 21. Resultados con la codificación de efectos.....................................34 Tabla 22. Cambio en la codificación de efectos............................................35 Tabla 23. Resultado con el cambio en la codificación de efectos...................36 Tabla 24. Codificación Helmert inverso para el diseño factorial.....................36 Tabla 25. Resultado con la codificación Helmert inverso...............................37 Tabla 26. Datos del trabajo de Edwards (1972)...........................................38 Tabla 27. Codificación para los datos de Edwards (1972).............................38 Análisis de regresión lineal: codificación e interpretación 4 Tabla 28. Resultados con la codificación de efectos del tratamiento..............39 Tabla 29. Resultados con la codificación completa.......................................39 ÍNDICE DE IMÁGENES Imagen 1. Esquema de un diseño simple....................................................11 Imagen 2. Ejemplo de un diseño 2x2.........................................................28 ÍNDICE DE GRÁFICOS Gráfico 1. Representación del ejemplo de diseño simple..............................16 Gráfico 2. “Dosis de Vitamina C“ y “Tipo de suplemento”.............................33 Análisis de regresión lineal: codificación e interpretación 5 RESUMEN Desde los trabajos de Fisher de principios del pasado siglo se utiliza el análisis de varianza, aunque no siempre con plenosentido. Dado que el análisis de varianza (ANOVA) y el de regresión (ANREG) son diferentes aplicaciones del modelo lineal general (MLG), en este trabajo se expone cómo se abordan los diseños experimentales clásicos desde la perspectiva del ANREG. Esto implica la codificación del factor, o los factores, en los distintos diseños. También se analizan las ventajas de este enfoque, sobre todo su flexibilidad y la cantidad y calidad de información que proporcionan. Se revisan ejemplos concretos con el software Jamovi. Palabras clave: análisis de regresión, ANOVA, codificaciones, pruebas estadísticas Análisis de regresión lineal: codificación e interpretación 6 1. INTRODUCCIÓN 1.1. JUSTIFICACIÓN DEL TRABAJO Escribió Jacob Cohen (1968): «Si le dijeras a un estadístico que has descubierto que el análisis de regresión lineal múltiple y el análisis de varianza (y covarianza) son sistemas idénticos, él murmuraría algo como “Claro, ambas son parte del modelo lineal general” y tendrías problemas para mantener su atención». Esta frase constata que el ANOVA y el ANREG son diferentes formas de aplicar el Modelo Lineal General. El ANOVA fue adaptado por Fisher durante los años 20 del siglo pasado para ser una herramienta práctica, rápida y fácil de usar en una época en la que no había excesiva capacidad de cálculo (Yates & Mather, 1963). La principal diferencia en el uso de ambos análisis proviene de la tradición, siendo más habitual el uso del ANOVA en el estudio de manipulación de variables (como en los experimentos) y el ANREG en el estudio de la variación natural, pero siendo ambos matemáticamente equivalentes (Cohen, 1968). El uso del ANREG, no tan utilizado en los diseños experimentales, tiene un sentido de interpretación coherente con el ANOVA y, a través de la codificación de variables, permite generalizar su uso a diseños donde puede no parecer la mejor opción, como en el caso de tratamientos mediante variables categóricas. 1.2. FUNDAMENTACIÓN TEÓRICA Este trabajo utiliza como guía la propuesta de Jacob Cohen (1968) sobre los métodos de análisis en la investigación a partir aproximadamente de los años 70. Patricia Cohen, Elazar Pedhazur (1997), Fred Kerlinger (1973), entre otros muchos, insuflaron un nuevo vigor a los métodos cuantitativos experimentales llevando la aplicación del análisis de regresión a los diseños experimentales en psicología. 1.3. OBJETIVOS Los objetivos de este estudio son: 1. La exposición comprensiva de los conceptos clave de un análisis de regresión, de la relación entre el análisis de varianza y el de regresión; Análisis de regresión lineal: codificación e interpretación 7 2. La ejemplificación y esquematización de las aplicaciones de un análisis de regresión a datos experimentales utilizando codificaciones (“dummy”, de efectos o tratamientos y la codificación Helmert), abriendo así el camino a personalizar las codificaciones para conseguir el contraste que proporcione la información conveniente para los objetivos del investigador, dada la condición del experimento. 3. Del mismo modo, y fundamentalmente, un objetivo básico de este trabajo es el de proponer un esquema simple y claro para el uso de este tipo de análisis en la investigación en Psicología. Análisis de regresión lineal: codificación e interpretación 8 2. METODOLOGÍA 2.1. MATERIALES Para elaborar este trabajo se ha usado la bibliografía pertinente, toda ella incluida en las referencias bibliográficas de este trabajo, incluyendo libros, artículos y otro tipo de trabajos, como revisiones bibliográficas. Para realizar los ejemplos, tanto las tablas como los análisis estadísticos, se ha usado el programa Jamovi, basado en R, versión 2.3.18; el propio programa R, en su versión 4.2.1; y Microsoft Excel para la realización de algunas tablas. 2.2. PROCEDIMIENTO Las fuentes han sido obtenidas a través de Google Scholar y la biblioteca de Ciudad Jardín, de la Facultad de Psicología de la USAL, a la vez que su plataforma virtual “Brumario”, donde se han descargado los artículos disponibles de las revistas temáticas de referencia. No se ha realizado una búsqueda exhaustiva en las bases de datos más comunes (Academic Search, Book Citation Index, CSIC, JSTOR, PsycARTICLES, PsicBOOKS, PSYCINFO, etc.) dada la naturaleza de este trabajo, donde el objetivo no es tanto una revisión bibliográfica como una propuesta de un tipo de análisis poco utilizado y poco sistematizado en la investigación en Psicología. El criterio de inclusión de los recursos bibliográficos es la aparición de los conceptos del análisis de regresión en todas sus formas en primer momento, filtrando según la temática particular leída en los resúmenes correspondientes, excluyendo tras ello los artículos que tratasen casos especiales o excesivamente matemáticos (basados en demostraciones o buscando justificar herramientas matemáticas). Idiomas de publicación que se han incluido han sido el español y el inglés, y ámbito geográfico mundial. 2.3. ANÁLISIS DE LA INFORMACIÓN La información se ha recogido en torno a tres ítems: análisis de regresión en diseños de grupos, en diseños factoriales y en diseños de medidas repetidas. Se ha realizado un recorrido desde los libros más generales sobre el análisis Análisis de regresión lineal: codificación e interpretación 9 estadístico para buscar definiciones de términos usados en todos los campos, siguiendo por libros específicos sobre el análisis de regresión, en los que se ha profundizado sobre las aplicaciones prácticas de éste, y apoyando las lecturas con artículos especialmente referentes como los de Cohen (1968), Pedhazur (1977) o Thompson (2016). Análisis de regresión lineal: codificación e interpretación 10 3. RESULTADOS 3.1. DISEÑOS METODOLÓGICOS Se explican a continuación los diseños más usados en psicología, con la intención de que sirva su ejemplo para generalizar el método del ANREG. Cabe destacar que dentro de algunos diseños se reseñará más específicamente lo que sea más habitual en psicología y que los ejemplos que se usen serán muy generales, dando por hecho que cumplen las condiciones mencionadas en cada diseño. Siguiendo la guía del trabajo de Fontes de Gracia et al. (2001): - Diseño simple multigrupo: aquellos diseños en los que solo se manipula una variable independiente y a la vez sólo se registra una variable dependiente, pero consta de varios grupos experimentales (niveles de un tratamiento, dosis de un medicamento, etc.), por lo que la variable independiente tendrá, al menos, dos niveles. El paradigma más clásico de estos experimentos es el de un grupo control comparado con dos niveles de tratamiento. - Diseño simple de medidas repetidas: a cada sujeto experimental se le aplican sucesivamente los diferentes niveles del tratamiento, por lo que se reduce el tamaño de muestra necesario para hacer comparaciones, amén de conseguir una significativa reducción del error. Puede tener una o varias variables independientes y la variable dependiente constará de varias mediciones en cada sujeto experimental (en algunos casos la unidad experimental puede ser un grupo). Es un diseño más complejo en cuanto a las codificaciones que se pueden usar en ANREG. - Diseño factorial de grupos: son los que constan de más de una variable independiente, por lo que los grupos se forman en función de la combinación de estas variables. En este caso existen diferentes efectos debido a los tratamientos y las interacciones de estos. Análisis de regresión lineal: codificación e interpretación 11 3.2. ANÁLISIS DE VARIANZA Y ANÁLISIS DE REGRESIÓN Para resumir los conceptos principales de varianza y regresión se puede usar este pequeño ejemplo del diseño simple de dos grupos, grupo control y grupo experimental. El esquema de cómo funciona este diseño es el siguiente:Imagen 1. Esquema de un diseño simple De esta manera, la única comparación pertinente es la de índices de ambos grupos. Tradicionalmente, se realizaría un ANOVA simple, o una prueba t para grupos independientes, y se aplicaría una prueba de significación de una hipótesis estadística. La conclusión pertinente, siguiendo la teoría de la inferencia de Neyman – Pearson, sería rechazar o aceptar la hipótesis nula con cierto margen de error. Realmente, la explicación que proporciona el ANOVA es si una varianza (tratamientos) y la otra (error) son iguales o no dentro de unos márgenes, pero no añade información sobre qué variación de medias tiene, qué relación presentan los datos, qué efecto se puede esperar en cada grupo, etc. Además, es muy sensible a las puntuaciones anómalas (“balas perdidas” según J. W. Tukey). Una manera de obtener más información es utilizar un análisis de regresión, que, aunque es igualmente sensible en ciertas condiciones, devuelve un modelo numérico más general y completo que el ANOVA. Utilizaremos como ejemplo el siguiente experimento: se realiza un entrenamiento específico de matemáticas en un grupo de primaria, asignando al azar a los niños al grupo control o al experimental. Se mide el efecto del entrenamiento a través Análisis de regresión lineal: codificación e interpretación 12 de las notas en un examen que se hace tras terminar el mismo. Al finalizar, se obtiene esta tabla (los datos han sido inventados para el ejemplo): Tabla 1. Diseño simple de dos grupos Notas Control 7 5 6 4 3 8 4 5 7 2 7 5 6 7 9 Experimental 5 8 6 9 8 10 8 7 6 8 9 7 8 7 6 Un ANOVA, como se suele hacer con cualquier programa informático, devuelve una serie de resultados que reflejarán la suma de cuadrados debidas al tratamiento y al error, y se realizará una prueba F en base a sus medias cuadráticas. Para tener más resultados hay que pedir estadísticos descriptivos, contrastes, pruebas post-hoc, etc. El ANREG devuelve esos resultados de una sola vez. Para pedir el análisis de regresión se usa la pestaña correspondiente del programa que se esté utilizando; en este trabajo, es el software Jamovi, por lo que en este caso se pide la regresión especificando como variable dependiente las notas y como factores los grupos. Los nombres de las variables y los pasos a seguir son análogos en la mayoría de los programas estadísticos. Por comparar, en SPSS habría que pedirlo a través de “Analizar→Regresión→Lineales” e introducir en el cuadro correspondiente la variable dependiente y la independiente. En ambos casos se recibe como respuesta una tabla similar: Tabla 2. Resultado del análisis de regresión Medidas de Ajuste del Modelo Modelo R² 1 0.240 Análisis de regresión lineal: codificación e interpretación 13 Coeficientes del Modelo - Notas Predictor Estimador EE t p Constante ᵃ 5.67 0.428 13.23 < .001 Grupo: Experimental – Control 1.80 0.606 2.97 0.006 ᵃ Representa el nivel de referencia En esta situación en que solo hay dos grupos, uno con cierto tratamiento y otro de control, no es pertinente pedir algunos coeficientes, dado que lo más sencillo y correcto es determinar cómo se ajusta la recta de regresión a los datos. Al analizar datos con un ANREG (realmente con cualquier método) lo que hacemos es crear un modelo matemático que nos ayude a explicar la realidad de lo que vemos (Arnau, 1977). A partir de los resultados de la regresión, se observa, en las medidas de ajuste del modelo, el coeficiente R2. Como es bien sabido, es el coeficiente de determinación. Éste explica qué porcentaje de la varianza de la variable dependiente es explicada por la variación de la variable independiente, en este caso, qué proporción de la varianza de las notas es explicada por el entrenamiento. En el caso de comparaciones entre dos grupos, ésta es la misma definición que la η2 de un ANOVA (Richardson, 2011). Es el primer indicador que analizar, dado que va a dar una primera impresión de la pertinencia o no del análisis: en el caso de la regresión, se lo considera una medida de bondad de ajuste. No hay que olvidar que este coeficiente sigue estando sometido a sus propios errores y sesgos, y su interpretación podría ser motivo de otro trabajo como este. Se puede tomar en el sentido de que valores altos pueden significar que el modelo está sobreajustado, con lo que podría explicar muy bien los propios datos, pero ser muy poco generalizable (Palma, 2022; Sapra, 2014). En este caso extremo, se deben tener en cuenta ya múltiples factores, como los tamaños muestrales, los grados de libertad, etc. En este ejemplo se sitúa en 0.24, con lo que no parece existir ese sobreajuste. Significaría, como decíamos, que el 24 % de la variación de las notas cabría atribuirlo al entrenamiento. Análisis de regresión lineal: codificación e interpretación 14 La siguiente tabla nos da los coeficientes del modelo. En el modelo de regresión lineal se busca una ecuación del tipo: 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 + ⋯ + 𝛽𝑛𝑥𝑛 + 𝜀𝑖 como modelo de los datos. Como el diseño es simple, solo tiene una variable independiente y el modelo de regresión se reduce a la ecuación de la recta: 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝜀𝑖 Además, el modelo de regresión lineal aplica el método de mínimos cuadrados, donde el factor 𝜀𝑖 (el error) es reducido a cero (Pedhazur, 1997), por lo que la ecuación que buscamos queda aún más reducida a: 𝑌 = 𝑎 + 𝑏𝑥 En la tabla de coeficientes del modelo se observa: En la columna de “Estimador”, el dato correspondiente a “Constante” es el coeficiente a de la ecuación de regresión (se interpreta de forma diferente en las diversas codificaciones), mientras que el estimador de “Grupos” es la pendiente de la recta: el coeficiente b de la ecuación, que indica el cambio provocado por el tratamiento. Es necesario aclarar en este punto, y válido para todo el ANREG, que estos coeficientes pueden variar dependiendo de qué tipo de contraste concreto se haga; no es lo mismo comparar el grupo control con el experimental que al contrario. Una vez aclarado qué tipo de contraste se ha realizado (por defecto será un contraste simple, codificación “dummy”, que se ve en los puntos 3.3.2 y 3.4.1), se puede entender realmente la información que presenta. En este caso, la ecuación de regresión sería: 𝑌 = 5,67 + 1,80𝑥 En este caso se ha pedido un contraste del grupo 2 (experimental) sobre el grupo 1 (control), el predeterminado por los programas estadísticos, con lo que los coeficientes corresponden, respectivamente, a la media del grupo control (coeficiente a: 5,67) y la diferencia de medias con el grupo experimental (coeficiente b: 1,80, factor que multiplica a x). En general, los programas estadísticos al pedir un ANREG sin codificar nada, asignan a las variables Análisis de regresión lineal: codificación e interpretación 15 categóricas un 0 o un 1 según su orden de aparición en la tabla de datos. En este caso, al aparecer el grupo control antes, le ha asignado el 0, y al experimental el 1. La Y que predicen estas ecuaciones de regresión es la media del grupo correspondiente, por lo que cada puntuación individual variará respecto a esta Y predicha, dando el componente de variabilidad que se analiza en los ANOVA típicos (Cohen et al, 2013). En este punto, entonces, se tiene información sobre las varianzas (R2) y sobre las medias. El modelo de regresión lineal explica un 24% de la varianza de nuestro experimento y la diferencia entre las medias de los grupos es 1,80 puntos de nota. La media del grupo control es 5,67 y, con un sencillo cálculo, la del grupo experimental es 7,47. Los siguientes valores de la tabla son los Errores de estimación (EE). Este valor da una medida del error estándar del coeficiente b. El EE viene determinado por la varianza dela variable dependiente dada la variable independiente, es decir, la suma de cuadrados de los residuos entre sus grados de libertad (más conocido como media cuadrática de error), dividido por la suma de cuadrados de la variable independiente (Kerlinger y Pedhazur, 1973). 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑏 = √ 𝑀𝐶𝑒 𝑆𝐶𝑥 Este coeficiente es una medida que se puede interpretar como la variabilidad del error en función de la variabilidad de la variable independiente (cuánto varía el error conforme cambia la variable independiente). La prueba t que aparece en la tabla, no es otra que el sencillo contraste: 𝑡 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑏 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑏 usado para saber si dicho coeficiente es diferente sustancialmente de 0. Esto es una cuestión importante en regresión, puesto que, si este coeficiente b no fuese diferente de 0, la ecuación se podría reducir a una recta paralela al eje X, no teniendo efecto alguno el tratamiento. Todos los valores del intervalo de Análisis de regresión lineal: codificación e interpretación 16 confianza del coeficiente a se hallan a partir de los valores de b, despejando de su correspondiente identidad (Pedhazur, 1997). En las gráficas de este experimento se ve el sentido de estos valores: Gráfico 1. Representación del ejemplo de diseño simple Se observa en la gráfica la variabilidad de cada grupo y cómo la varianza se reduce en el grupo experimental. En este caso particular, en el ANREG se debe tener también en cuenta que la variable dependiente sólo existe en el intervalo [0, 10], indispensable para extrapolar el efecto del entrenamiento a la población de la que se haya extraído la muestra. NOTA ACLARATORIA Añadamos en este punto que, en adelante, se consideran los resultados desde la teoría de la decisión estadística de Neyman y Pearson, en la que se decide rechazar la hipótesis nula (H0), y aceptar una alternativa (H1, habitual y erróneamente no propuesta ni cuantificada) cuando el valor de tablas es igual o menor que el valor del estadístico obtenido. Dado que es práctica común, aunque discutible y tal vez inadecuada (Gigerenzer, 2004), se comparará el valor p (nivel de significación) obtenido a partir de las pruebas de significación de la H0 (valor Análisis de regresión lineal: codificación e interpretación 17 clásico de la teoría de la inferencia de Fisher) con un valor (nivel de confianza) convencionalmente fijado en una probabilidad = 0.05. Teniendo claro que no se pueden mezclar teorías y que no se pueden comparar niveles de significación con niveles de confianza, nos ceñiremos a los usos más frecuentes (aunque inconsistentes teórica y formalmente) en el uso de las pruebas de significación, considerando estadísticamente significativos palores p menores o iguales a 0.05. Análisis de regresión lineal: codificación e interpretación 18 3.3. DISEÑO SIMPLE DE VARIOS GRUPOS Para analizar este tipo de diseños, hay que tener en cuenta que deben cumplir una seria de criterios (Fontes de Gracia et al, 2001): - Se tiene una variable independiente (diseño “simple”). Los grupos deben formarse de manera aleatoria para minimizar el error. Sólo se registra una variable dependiente. - Los grupos experimentales se forman entre diferentes niveles de variable independiente, existe un efecto total del tratamiento y efectos de cada nivel. Se asume que el error proviene de la variación intragrupo, mientras que el efecto se considera la variación entre los grupos. - Este tipo de diseños es sensible a los tamaños de muestra de los grupos y para poder realizar correctamente los análisis deben ser grupos de tamaño suficientemente grande. Este término se debe enmarcar en cada experimento. Se usan los datos del experimento Crampton (1947)1 para ilustrar este caso. En el experimento se usaron 60 cobayas a las que se les dieron 3 dosis diferentes de vitamina C (500μg, 1000 μg o 2000 μg) de dos suplementos diferentes y se medía la longitud de los incisivos como variable dependiente. El diseño original es factorial, sin embargo, aquí se usan los datos referentes a los 3 niveles de dosis de vitamina C. La tabla de datos tiene la siguiente estructura: Tabla 3. Tabla resumen del experimento de Crampton (1947) Grupo Variable independiente Variable dependiente Tamaño 1 500μg Longitud de los incisivos 20 cobayas 2 1000μg Longitud de los incisivos 20 cobayas 3 2000μg Longitud de los incisivos 20 cobayas 1La tabla de resultados original se puede consultar en el ANEXO I Análisis de regresión lineal: codificación e interpretación 19 Recurriendo a un ANOVA clásico se obtiene la varianza explicara por la dosis y su significación estadística. La tabla ANOVA es la siguiente: Tabla 4. Resultados del ANOVA para el ejemplo de Crampton (1947) ANOVA - Longitud de los incisivos Suma de Cuadrados gl Media Cuadrática F p η² Dosis de vitamina C 2426 2 1213.2 67.4 < .001 0.703 Residuos 1026 57 18.0 Se puede rechazar la hipótesis nula, así que el efecto de la dosis sobre la longitud se considera estadísticamente significativo a los niveles de confianza usuales. La dosis explica un 70% de la varianza de la longitud de los dientes (el efecto del tratamiento expresado a través del coeficiente η²). Se tiene que recurrir a pedir pruebas Post-Hoc, Medias marginales o contrastes para hallar más datos. Se evidencia que un ANOVA da información sin distinguir ni valorar las diferencias entre cada grupo. Al pedir una prueba ANOVA se puede elegir un tipo de contraste, donde más fácilmente se ve la conexión con el ANREG. Eligiendo la codificación para el contraste “Simple” obtenemos la siguiente tabla: Tabla 5. Resultados del contraste “Simple” del ANOVA Contrastes – “Dosis de vitamina C” Estimador EE t p 1000 - 500 9.13 1.34 6.81 < .001 2000 - 500 15.49 1.34 11.55 < .001 Esta tabla muestra la diferencia de medias entre los grupos correspondientes según la dosis. Presenta la prueba t y, en consecuencia, las medias tienen muy baja probabilidad de ser iguales si H0 es cierta, o, en la línea de la nota aclaratoria previa, la diferencia es estadísticamente significativa, aunque a veces este Análisis de regresión lineal: codificación e interpretación 20 sentido no es totalmente correcto (Ferreira y Platino, 2015; Delgado, 1992). Sólo falta la información sobre la media del Grupo 1, el de 500μg. Se parece “sospechosamente” a los valores de una recta de regresión del tipo: 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 En la que x1 y x2 representan los grupos de las dosis 1000μg y 2000μg respectivamente, y β1 y β2 representan las diferencias de cada grupo respecto a la media del primer grupo, que estaría representado por β0. Y si se parece “sospechosamente”, es porque son lo mismo. 3.3.1. Codificaciones en regresión La codificación en regresión es un proceso para asignar ciertos símbolos siguiendo un conjunto de reglas determinadas por la definición de la variable que se esté usando (Kerlinger y Pedhazur, 1973). Traducido a la práctica se trata de asignar ciertos valores numéricos a variables categóricas, normalmente números sencillos como 0, 1 o alguna fracción intuitiva. Potencialmente las codificaciones permiten obtener respuestas bastante precisas a las preguntas experimentales. Para introducir las codificaciones en los programas estadísticos, hay que hacerlo como “Covariables”, opción que se debe usar igualmente para variables continuas; y no como “Factor”, opción en la que el programa codifica automáticamente la variable independiente cuando es categórica. En la codificación de la variable categórica independiente se pueden usar diferentes números para cada nivel que presente; sin embargo, ya han sido desarrolladas unas cuantas codificaciones estándar que nosproporcionan información relevante (Chen et al, 2011; UCLA). Entre éstas se encuentran la codificación “dummy”, la de efectos y la Helmert, aunque existen más, como la polinómica, la de desviación y la de diferencia, al menos. 3.3.2. Codificación “dummy” Es la más sencilla de todas. En esta codificación se asignan solamente ceros y unos, por lo que, además, también es rápida. Se trata de asignar sucesivamente en columnas un 0 al nivel de referencia y un 1 al nivel que se quiere contrastar, resultando en k - 1 columnas (siendo k el número de niveles de la variable Análisis de regresión lineal: codificación e interpretación 21 independiente), y se realizan por tanto todos los contrastes no redundantes que permita la variable. Siguiendo con el experimento de Crampton (1947): Tabla 6. Codificación “dummy” del experimento de Crampton (1947) Grupo Variable independiente Dummy G2 Dummy G3 1 500μg 0 0 2 1000μg 1 0 3 2000μg 0 1 De esta manera, se añaden en el programa dos columnas más, poniendo el 0 o 1 en cada sujeto de cada grupo según corresponda. Al pedir la regresión e introducir estas dos columnas como covariables, devuelve una tabla como la siguiente: Tabla 7. Resultados de la regresión con codificación “dummy” Medidas de Ajuste del Modelo Modelo R² 1 0.703 Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 10.61 0.949 11.18 < .001 Dummy G2 9.13 1.341 6.81 < .001 Dummy G3 15.49 1.341 11.55 < .001 El R2 tiene el mismo valor que el η2 del ANOVA y su significado es análogo en este caso (Palma, 2022; Sapra, 2014). Para interpretar la tabla de coeficientes del modelo, se toma la ecuación de regresión: 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 Análisis de regresión lineal: codificación e interpretación 22 El primer valor de los estimadores de dicha tabla, llamado “Constante” (en otros programas también es habitual que aparezca como “Intercepto” – del inglés “Intercept” o intersección entre la recta, el plano o el hiperplano de regresión y el eje Y en el valor 0 de la(s) X –), que es el valor de β0. Se corresponde con el grupo de referencia, al que se le haya asignado siempre un 0 en la codificación, en este caso el Grupo 1, de 500μg. Los valores correspondientes a las siguientes filas son β1 y β2, siendo la diferencia de la media de cada grupo con el grupo de referencia. “Dummy G2” es la diferencia de la media del Grupo 2 con el Grupo 1 y “Dummy G3” la del Grupo 3 con el Grupo 1. Se ve no sólo que la dosis de vitamina C influye en el tamaño de los dientes, sino en cuánto lo hace. La interpretación de los valores t y su significación estadística es la explicada en el apartado 3.2., viendo que en este experimento estas diferencias de medias sí son sustancialmente diferentes de 0. Cuando se pide una prueba de contraste “Simple” en un ANOVA, los valores que devuelve son los de una regresión con codificación “dummy”, sin la media del grupo de referencia, dado que es la codificación predeterminada de los programas estadísticos. 3.3.3. Codificación de efectos Esta codificación se realiza de manera muy parecida a la “dummy”, pero al grupo que antes se usaba de referencia se le asigna -1 en vez de 0, con lo que el coeficiente del grupo al que le asignemos el -1 no aparecerá en la tabla de resultados (Kerlinger y Pedhazur, 1973; Chen et al, 2011). La tabla resumen de esta codificación para el mismo experimento es: Tabla 8. Codificación de efectos Grupo Variable independiente Efecto G2 Efecto G3 1 500μg -1 -1 2 1000μg 1 0 3 2000μg 0 1 Análisis de regresión lineal: codificación e interpretación 23 En este caso, la tabla de coeficientes devolverá como “Constante” la media total de los tres grupos, como “Efecto G2” la diferencia del Grupo 2 con la media total y como “Efecto G3” la diferencia del Grupo 3 con la media total, es decir, los efectos de cada nivel de la variable2. Tabla 9. Resultados de la regresión con codificación de efectos Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.813 0.548 34.35 < .001 Efecto G2 0.922 0.775 1.19 0.239 Efecto G3 7.287 0.775 9.41 < .001 Ahora en la tabla se aprecia que la diferencia de la media del Grupo 2 con la media total no es estadísticamente significativa (una interpretación más apropiada sería que aporta poca “información” a la regresión), con lo que se puede matizar la interpretación del experimento, dado que si bien las medias de los grupos son diferentes (resultado de la codificación “dummy”), se ve que realmente el Grupo 2 se sitúa en la media de la muestra usada en el experimento. Esta codificación se corresponde con el contraste de ANOVA llamado “Desviación”. Para hallar el efecto del Grupo 1, dado que la suma de efectos tiene que ser 0 (Pedhazur, 1997), solo hay que resolver la igualdad: 𝐸1 = −(𝐸2 + 𝐸3) En la que los Ei son los coeficientes (valores j) de cada efecto. 𝐸1 = −(𝐸2 + 𝐸3) = −(0.922 + 7.287) = −8.209 Teniendo así que el Grupo 1 está por debajo de la media total en 8,209 puntos. En la codificación de efectos usar -1, 0 y 1 no es exclusivo, se pueden usar números cualesquiera siempre que la suma de cada columna sea 0. Al asignar valores diferentes para codificar, se asignan también pesos diferentes a cada 2 Recordando que el efecto de cada tratamiento se define en el análisis de varianza como la diferencia entre la media del grupo y la media total. Suele representarse, para un grupo “j” como j. Por eso se denomina “codificación de efectos”. Análisis de regresión lineal: codificación e interpretación 24 nivel de la variable. Hay que tener en cuenta a la hora de interpretar que cambiar signos cambia el sentido del contraste; y que cualquier valor diferente de -1, 0 y 1 resultará en un coeficiente de valor inverso al cambio realizado. No obstante, el cambio en los valores de la codificación no cambia los valores de R2 ni de las pruebas F o las t que aparecen (Cohen, 1968). La codificación de efectos es especialmente útil en variables ordinales (Cohen, 1968; Kerlinger y Pedhazur, 1975; Chen et al., 2011). 3.3.4. Codificación Helmert (y Helmert inverso) Se incluyen en este apartado dos codificaciones que parten del mismo razonamiento y cuya única diferencia es el orden de los contrastes. Esta codificación halla la diferencia de medias entre el grupo elegido y los anteriores grupos en el caso de la codificación Helmert3 inverso (también llamado codificación de diferencia) o entre el grupo elegido y los siguientes en el caso de la codificación Helmert. En ambos casos se asigna el valor positivo al grupo elegido para el contraste y valores negativos para los de referencia, pero ahora hay que tener en cuenta la cantidad de niveles de la variable independiente que se incluyen en cada contraste y que la suma de cada columna tiene que ser 0, al igual que en el de efectos. De esta manera, para Helmert inverso o diferencia tenemos la siguiente tabla: Tabla 10. Codificación de Helmert inverso o diferencia Grupo Variable independiente Diferencia G2-G1 Diferencia G3-(G2+G1) 1 500μg -1/2 -1/3 2 1000μg 1/2 -1/3 3 2000μg 0 2/3 A los niveles de referencia del contraste se les asigna − 1 𝑘 , siendo k el número de niveles que se incluyen en el contraste; y al nivel que se contrasta se le asigna 3 Se denominan así por haber sido propuestos en 1906 por el matemático alemán Friedrich Robert Helmert. Análisis de regresión lineal: codificación e interpretación 25 𝑘−1 𝑘 . Hay que señalar que este tipo de codificación también permite asignar valores cualesquiera que sigan las reglas mencionadas, cambiando los pesos relativos de cada nivel de la variable consecuentemente. Con esta codificación se obtiene la siguiente tabla de resultados: Tabla 11. Resultadoscon la codificación de Helmert inverso Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.81 0.548 34.35 < .001 Diferencia G2-G1 9.13 1.341 6.81 < .001 Diferencia G3-(G1+G2) 10.93 1.162 9.41 < .001 Esta tabla muestra como “Constante” la media total y en las filas siguientes las diferencias de medias correspondiente. En el caso del experimento de Crampton (1947), las diferencias de cada grupo con los anteriores tienen p <.001, siendo reseñable que el Grupo 3 podría ser sustancialmente diferente de los anteriores tanto individualmente como en su conjunto. La codificación Helmert sigue la misma lógica, pero compara cada grupo con los siguientes, siendo su tabla de codificación: Tabla 12. Codificación Helmert Grupo Variable independiente Diferencia G2-G1 Diferencia G3-(G2+G1) 1 500μg 2/3 0 2 1000μg -1/3 1/2 3 2000μg -1/3 -1/2 De esta codificación se obtienen los siguientes resultados: Análisis de regresión lineal: codificación e interpretación 26 Tabla 13. Resultados con la codificación Helmert Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.81 0.548 34.35 < .001 Helmert G1-(G2+G3) -12.31 1.162 -10.60 < .001 Helmert G2-G3 -6.36 1.341 -4.74 < .001 La interpretación es análoga a la de Helmert inverso, pero en sentido contrario. Las codificaciones Helmert son ortogonales, lo que se traduce en alguna utilidad añadida: la principal, que cada contraste proporciona información independiente de la que proporciona cualquier otro, lo que no ocurre con la codificación “dummy” ni en la de efectos. Análisis de regresión lineal: codificación e interpretación 27 3.4. DISEÑO FACTORIAL En el diseño factorial el experimento consta de dos o más factores (variables independientes), cada uno de los cuales tiene diferentes niveles o valores. Se pretende que el experimento incluya todas las combinaciones posibles entre ellos, permitiendo de este modo el estudio de cada variable experimental sobre la variable respuesta. Se pueden seguir añadiendo factores y niveles, en teoría, de manera indeterminada (Fontes de Gracia et al., 2001). Sobre la práctica, el límite lo marca la capacidad real en cuanto a muestra y tratamientos, siendo muy poco habitual experimentos factoriales de más de 4 factores, al menos en psicología. Los experimentos factoriales conllevan una serie de ventajas frente a otros tipos de diseños; el principal de ellos, ya conocido y aprovechado por Fisher (Box, 1980), es que permite analizar varios factores en el mismo número de ensayos necesarios para analizar cada factor por separado, permitiendo además estudiar la interacción de las variables independientes, cosa imposible en diseños simples, siendo más próximo a las condiciones reales. La ecuación de regresión siendo los factores “A” y “B”, quedaría definida del siguiente modo: 𝑌 = 𝛽0 + 𝛽𝑖𝐴𝑖 + 𝛽𝑗𝐵𝑗 + 𝛽𝑘𝐴𝐵 + 𝜀 Donde la β0 representa la ordenada en el origen; en βiAi se colocan los diferentes niveles de la variable “A” con sus coeficientes; en βjBj se hace lo propio con el factor “B”; en βkAB se incluye la interacción de los factores; y por último el término referente al error. En general, dependiendo del diseño factorial, pueden existir diferentes interacciones, lo más habitual, sin embargo, es que haya una o dos interacciones. Con un ejemplo inventado de un diseño 2x2, se explica fácilmente el análisis de su regresión. Análisis de regresión lineal: codificación e interpretación 28 Imagen 2. Ejemplo de un diseño 2x2 En este ejemplo se ve que ambos tratamientos tienen un efecto igual en puntuación. Se considera que esta es la definición de efecto aditivo, cuya ausencia tiene consecuencias muy diferentes. En el caso de este tipo de experimentos, tras introducir los datos de cada grupo, las tablas de resultados del ANREG devuelven los resultados de la codificación que se haya introducido. Por ejemplo, una codificación “dummy” devuelve la media del grupo A1B1 como constante y las diferencias del resto de grupos respecto de A1B1. La importancia de la codificación en estos experimentos es importante cuando los efectos no son aditivos por su diferente interpretación. En los diseños factoriales los efectos simples son aquellos que surgen de fijar un nivel de tratamiento en una variable y analizar lo que sucede en los niveles de la otra variable. Se puede denominar A(B1) al efecto del tratamiento A en el nivel de B1. En el caso del ejemplo de la Imagen 2: 𝐴(𝐵1) = 10 − 5 = 5. Los efectos principales son los debidos a cada tratamiento, por lo que quedan configurados como las diferencias en los niveles del mismo tratamiento. Se considera este efecto como la influencia de cada tratamiento sobre la variable de respuesta. Numéricamente se obtiene de restar las medias marginales de cada nivel de tratamiento promediadas a través de los niveles del otro factor. En el ejemplo de la Imagen 2: �̅�𝐴 = �̅�𝐴2 − �̅�𝐴1 = 10+15 2 − 10+5 2 = 5. La interacción entre tratamientos viene reflejada en las diferencias que existan entre los efectos simples de un factor, es decir, cuando 𝐴(𝐵1) ≠ 𝐴(𝐵2). Análisis de regresión lineal: codificación e interpretación 29 Con los datos completos del experimento de Crampton (1947) sobre la longitud de los incisivos de las cobayas se pueden ver estos efectos. Las 3 dosis diferentes de vitamina C se presentaban en dos complementos alimenticios: zumo de naranja y suplemento de ácido ascórbico. De esta forma, el experimento original seguía un diseño factorial 2x3. El resumen del experimento se presenta en la siguiente tabla: Tabla 14. Factorial 2x3 Suplemento alimenticio (Factor A) A1 (Vitamina C) A2 (Zumo de naranja) Dosis de vitamina C (Factor B) B1 (500μg) A1B1 (10 cobayas) A2B1 (10 cobayas) B2 (1000μg) A1B2 (10 cobayas) A2B2 (10 cobayas) B3 (2000μg) A1B3 (10 cobayas) A2B2 (10 cobayas) De este modo, en cada grupo se puede dar un efecto por cada nivel de cada variable y por la interacción entre ambos niveles. En el caso de diseños factoriales es importante tener en cuenta el orden en que se han introducido los datos para poder realizar las codificaciones de manera apropiada al objetivo. En el caso del ejemplo, se han introducido los datos en una sola columna siguiendo el orden A1B1→A2B3, como se ve en el siguiente punto. No hay que olvidar que cualquier prueba estadística requiere del cumplimiento de sus supuestos para aplicar las herramientas, aquí se dan por hecho. 3.4.1. Codificación “dummy” Dependiendo del objetivo de nuestro experimento, hay al menos dos maneras diferentes de llevar a cabo la codificación. La más simple, seguir las reglas de la codificación “dummy” al pie de la letra: Análisis de regresión lineal: codificación e interpretación 30 Tabla 15. Codificación “dummy clásica” para el experimento de Crampton (1947) Grupo Codificación “dummy” A1B2 A1B3 A2B1 A2B2 A2B3 A1B1 0 0 0 0 0 A1B2 1 0 0 0 0 A1B3 0 1 0 0 0 A2B1 0 0 1 0 0 A2B2 0 0 0 1 0 A2B3 0 0 0 0 1 De esta codificación se obtiene la R2 de los factores experimentales en su conjunto y las diferencias de medias con el grupo A1B1 (500μg-Vitamina C) que se ha codificado como grupo de referencia. Tabla 16. Resultado con la codificación “dummy clásica” Medidas de Ajuste del Modelo Prueba Global del Modelo Modelo R² F gl1 gl2 p 1 0.794 41.6 5 54 < .001 Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 7.98 1.15 6.95 < .001 A1B2 8.79 1.62 5.41 < .001 A1B3 18.16 1.62 11.18 < .001 A2B1 5.25 1.62 3.23 0.002 A2B2 14.72 1.62 9.06 < .001 A2B3 18.08 1.62 11.13 < .001 La prueba global de modelo debe tener elmismo valor con cualquier codificación. La tabla de coeficientes devuelve como “Constante” la media del grupo A1B1 y el resto de los coeficientes refieren la diferencia de medias del grupo Análisis de regresión lineal: codificación e interpretación 31 correspondiente con el grupo de referencia. Se ve además que todos los grupos se diferencian del referente de manera estadísticamente significativa, con lo que cabe suponer que ambas variables tienen efecto. Sin embargo, con esta codificación es imposible distinguir la cantidad de efecto debida a cada factor y la debida a la interacción entre los factores, si existiera. La respuesta está en la otra codificación “dummy” que se puede realizar: Tabla 17. Codificación “dummy” más apropiada para el experimento de Crampton (1947) Grupo Codificación “dummy” Dummy B2-B1 Dummy B3-B1 Dummy A2-A1 A1B1 0 0 0 A1B2 1 0 0 A1B3 0 1 0 A2B1 0 0 1 A2B2 1 0 1 A2B3 0 1 1 Las dos primeras columnas comparan B2 y B3 con su nivel de referencia, B1; la tercera compara A2 con su referente, A1. Al construir el modelo en este caso es necesario incluir las interacciones entre la columna “Dummy A2-A1” con cada una de las otras columnas, obteniendo así el efecto de interacción de A y B. Se obtiene la siguiente tabla: Tabla 18. Resultados con la codificación “dummy” con interacción Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 7.980 1.15 6.949 < .001 Dummy B2-B1 8.790 1.62 5.413 < .001 Dummy B3-B1 18.160 1.62 11.182 < .001 Dummy A2-A1 5.250 1.62 3.233 0.002 Dummy B2-B1 ✻ Dummy A2-A1 0.680 2.30 0.296 0.768 Dummy B3-B1 ✻ Dummy A2-A1 -5.330 2.30 -2.321 0.024 Análisis de regresión lineal: codificación e interpretación 32 Las medidas de ajuste del modelo son las mismas que en el primer caso, dado que son contrastes equivalentes. La ecuación de regresión a la que responden es: 𝑌 = 7,98 + 8,79 ∗ 𝐷𝑜𝑠𝑖𝑠1000𝜇𝑔 + 18,16 ∗ 𝐷𝑜𝑠𝑖𝑠2000𝜇𝑔 + 5,25 ∗ 𝑍𝑢𝑚𝑜 + 0,68 ∗ 𝐷𝑜𝑠𝑖𝑠1000𝜇𝑔 ∗ 𝑍𝑢𝑚𝑜 − 5,33 ∗ 𝐷𝑜𝑠𝑖𝑠2000𝜇𝑔 ∗ 𝑍𝑢𝑚𝑜 Como en todas las codificaciones “dummy”, la “Constante” es la media del grupo de referencia, que en este caso sigue siendo A1B1. El segundo coeficiente es la diferencia de medias cuando está presente el factor B2 y el tercer coeficiente es la diferencia cuando está presente el factor B3. Ahora el tercer término marca la diferencia de medias cuando está presente el suplemento “Zumo”, es decir, en cada A2 con cada A1. Los siguientes términos definen la interacción entre el suplemento “Zumo” con cada nivel de dosis. Por ejemplo, para hallar la media del grupo A2B2, podríamos sumar: 𝑀𝑒𝑑𝑖𝑎 𝐴2𝐵2 = 7,98 + 8,79 + 5.25 + 0.68 = 22,7. En los valores p se observa que el coeficiente de interacción del suplemento con la dosis de 1000μg no es estadísticamente significativo, indicando que el efecto que se produce cuando ambas variables están presentes es cercano a la suma de los efectos de cada variable. Esto es un efecto aditivo en los dos primeros niveles de ambas variables. No pasa lo mismo con la interacción del tipo de suplemento con la dosis de 2000μg, cuyo valor p de .024 indica cierta probabilidad de que exista interacción. El signo negativo del coeficiente significa que es una interacción negativa, por lo que la interpretación es clara: en la dosis más alta el cambio de suplemento implica un menor efecto (resultado de la operación 5,25 − 5,33 = −0,08). En la gráfica del experimento se ven estos resultados: Análisis de regresión lineal: codificación e interpretación 33 Gráfico 2. “Dosis de Vitamina C” y “Tipo de suplemento” Si al construir el modelo en el programa estadístico no se piden las interacciones de suplemento y dosis, se obtiene la diferencia de medias entre los niveles de cada variable de manera independiente, es decir, los efectos principales de cada variable. Con la codificación “dummy” además se pueden codificar todos los contrastes necesarios. Los efectos simples, por ejemplo, se codifican de la siguiente manera: Tablas 19. Ejemplo de codificaciones de diferentes efectos simples A A A A1 A2 A1 A2 A1 A2 B B1 B B1 0 B B1 0 B2 0 1 B2 1 B2 1 B3 B3 B3 Efecto simple A(B2) Efecto diferencial B2(A1) Efecto simple B2(A2) De manera análoga, se puede seleccionar el efecto particular que se necesite estudiar, excluyendo al resto. Análisis de regresión lineal: codificación e interpretación 34 3.4.2. Codificación de efectos Esta codificación devuelve como “Constante” la media total y como coeficientes la diferencia (desviación) de los respectivos niveles con la media total, por lo que también se llama codificación de desviación. Esta diferencia entre la media de un grupo y la media total se llama también efecto (Kerlinger y Pedhazur, 1973). La codificación se realiza de la siguiente manera: Tabla 20. Codificación de efectos Grupo Codificación de efectos Efecto B1-Media total Efecto B1-Media total Efecto Zumo-Media total A1B1 -1 -1 -1 A1B2 1 0 -1 A1B3 0 1 -1 A2B1 -1 -1 1 A2B2 1 0 1 A2B3 0 1 1 De igual forma, hay que pedir en la construcción del modelo las interacciones entre la última columna, que codifica el efecto del factor suplemento, con las dos columnas anteriores, que codifican los efectos de cada nivel de la variable dosis. Se obtiene la siguiente tabla: Tabla 21. Resultados con la codificación de efectos Medidas de Ajuste del Modelo Prueba Global del Modelo Modelo R² F gl1 gl2 p 1 0.794 41.6 5 54 < .001 Análisis de regresión lineal: codificación e interpretación 35 Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.813 0.469 40.13 < .001 Efecto B2-Media total 0.922 0.663 1.39 0.170 Efecto B3-Media total 7.287 0.663 10.99 < .001 Efecto Zumo-Media total 1.850 0.469 3.95 < .001 Efecto B2-Media total ✻ Efecto Zumo-Media total 1.115 0.663 1.68 0.098 Efecto B3-Media total ✻ Efecto Zumo-Media total -1.890 0.663 -2.85 0.006 Como ya se mencionó, la prueba F y R2 no cambian cuando se codifica de una u otra manera. En este caso se analiza cada coeficiente con relación a la media total de la muestra, que aparece en el valor de la Constante. Vemos que la diferencia entre la dosis de 1000μg y la media no es significativa, al igual que la interacción entre la dosis de 1000μg y el suplemento. Se puede concluir que tanto el grupo A1B2 como el A2B2 se localizan cercanos a la media de la muestra y que ninguno de los dos parece tener un efecto claro. Variando las dos primeras columnas en la codificación, se obtiene un nuevo contraste: Tabla 22. Cambio en la codificación de efectos Grupo Codificación de efectos Efecto B1-Media total Efecto B3-Media total Efecto A2-Media total A1B1 1 0 -1 A1B2 -1 -1 -1 A1B3 0 1 -1 A2B1 1 0 1 A2B2 -1 -1 1 A2B3 0 1 1 Análisis de regresión lineal: codificación e interpretación 36 Tabla 23. Resultado con el cambio de codificación de efectos Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.813 0.469 40.13 < .001 Efecto B1-Media total -8.208 0.663 -12.38 < .001 Efecto B3-Media total 7.287 0.663 10.99 < .001 Efecto A2-Media total 1.850 0.469 3.95 < .001 Efecto B1-Media total ✻ Efecto A2-Media total 0.775 0.663 1.17 0.248 Efecto B3-Media total ✻ Efecto A2-Media total -1.890 0.663 -2.85 0.006 La diferencia de la media entre la dosis de 500μg y la media total es estadísticamente significativa y la interacción de dicha dosis con el suplemento no lo es. Se llega a una conclusión análoga a la de la codificación “dummy”: entre los dos primeros niveles de la variable “Dosisde Vitamina C” y la variable “Tipo de suplemento” no existe una interacción estadísticamente significativa, pero sí en el último nivel de la variable “Dosis de Vitamina C”. 3.4.3. Codificación Helmert inverso Siguiendo las reglas de esta codificación vistas en el punto 3.3.4. y aplicándolas en las dos variables la tabla de la codificación queda de la siguiente manera: Tabla 24. Codificaciones Helmert inverso para el diseño factorial Grupo Codificación Helmert inverso Helmert inverso B2-B1 Helmert inverso B3-(B1+B2) Helmert inverso A2-A1 A1B1 -1/2 -1/3 -1/2 A1B2 1/2 -1/3 -1/2 A1B3 0 2/3 -1/2 A2B1 -1/2 -1/3 1/2 A2B2 1/2 -1/3 1/2 A2B3 0 2/3 1/2 Análisis de regresión lineal: codificación e interpretación 37 Tabla 25. Resultado con la codificación Helmert inverso Medidas de Ajuste del Modelo Prueba Global del Modelo Modelo R² F gl1 gl2 p 1 0.794 41.6 5 54 < .001 Coeficientes del Modelo - Longitud de los incisivos Predictor Estimador EE t p Constante 18.813 0.469 40.129 < .001 Helmert inverso B2-B1 9.130 1.148 7.951 < .001 Helmert inverso B3-(B2+B1) 10.930 0.995 10.990 < .001 Helmert inverso A2 3.700 0.938 3.946 < .001 Helmert inverso B2-B1 ✻ Helmert inverso A2 0.680 2.297 0.296 0.768 Helmert inverso B3-(B2+B1) ✻ Helmert inverso A2 -5.670 1.989 -2.851 0.006 Los valores de la prueba F y de R2 siguen siendo los mismos, lo cual ayuda a ver que en todos los contrastes se han incluido los mismos datos experimentales. El único valor que no es estadísticamente significativo en los coeficientes es el de la interacción entre las variables cuando “Dosis de Vitamina C” es 1000μg. En este contraste se obtiene también la diferencia de medias entre el grupo A2 y el A1, dato que el resto de los contrastes no había devuelto. Este dato se corresponde con el efecto principal de A. Comparando con los resultados del punto 3.3.4, se ve que los resultados de las diferencias de medias entre los niveles de la variable dosis son iguales. Al tratarse de una codificación ortogonal cada contraste es independiente, por lo que a la hora de construir el modelo se puede incluir o excluir cualquier contraste sin que varíe la significancia ni el valor de los coeficientes. Análisis de regresión lineal: codificación e interpretación 38 3.5. DISEÑO DE MEDIDAS REPETIDAS Se parte de unos datos contenidos en el texto clásico de Edwards (1972). En este experimento se presentan 5 tratamientos y 5 bloques (o sujetos participantes, el modelo matemático del diseño es estrictamente idéntico) que pasan por cada tratamiento en el mismo orden, lo que lo convierte en un diseño de bloques o de medidas repetidas. Los diseños de medidas repetidas, al tener una fuente de variación debida a las características de cada sujeto experimental (en este caso los bloques), se codifican con unas reglas un poco distintas. Hay diferentes formas de resolverlos, aquí se presenta la propuesta por Pedhazur (1977). La tabla que resume el experimento es la siguiente: Tabla 26. Datos del trabajo de Edwards (1972) Bloques Tratamientos ΣBloque 1 2 3 4 5 1 18 20 20 21 21 100 2 17 19 19 20 20 95 3 16 17 18 19 20 90 4 16 16 17 18 18 85 5 16 16 15 17 16 80 A la hora de codificar estos datos se sigue para los tratamientos una codificación de efectos, obteniendo 4 columnas (los grados de libertad de la variable “Tratamientos”) y para analizar los bloques, se añade una quinta columna con las sumas de las puntuaciones de cada bloque. La tabla resumida4 es: Tabla 27. Codificación para los datos de Edwards (1972) Puntuaciones Tratamientos Factor “Bloques” 1 2 3 4 Tratamiento 1 - Bloques (1→5) 1 0 0 0 ΣBloque (1→5) Tratamiento 2 - Bloques (1→5) 0 1 0 0 ΣBloque (1→5) Tratamiento 3 - Bloques (1→5) 0 0 1 0 ΣBloque (1→5) Tratamiento 4 - Bloques (1→5) 0 0 0 1 ΣBloque (1→5) Tratamiento 5 - Bloques (1→5) -1 -1 -1 -1 ΣBloque (1→5) 4 La tabla de codificación desarrollada se puede consultar en el Anexo II. Análisis de regresión lineal: codificación e interpretación 39 Se pide primero la regresión con las columnas de los tratamientos como covariables para obtener sus resultados. Tabla 28. Resultados con la codificación de efectos del tratamiento Medidas de Ajuste del Modelo Modelo R² 1 0.267 Coeficientes del Modelo - Puntuaciones Predictor Estimador EE t p Constante 18.000 0.338 53.218 < .001 Tratamiento 1 -1.400 0.676 -2.070 0.052 Tratamiento 2 -0.400 0.676 -0.591 0.561 Tratamiento 3 -0.200 0.676 -0.296 0.771 Tratamiento 4 1.000 0.676 1.478 0.155 En esta tabla se obtiene la información de la media de la muestra y el coeficiente de determinación, viendo que los tratamientos explican el 26,7% de la varianza. Los coeficientes de regresión no son estadísticamente significativos y se puede concluir erróneamente que el efecto de los tratamientos no es significativo. Añadiendo el factor “Bloques” y pidiendo la prueba de modelo global se obtienen los resultados completos: Tabla 29. Resultados con la codificación completa Medidas de Ajuste del Modelo Prueba Global del Modelo Modelo R² F gl1 gl2 p 1 0.908 37.4 5 19 < .001 Análisis de regresión lineal: codificación e interpretación 40 Coeficientes del Modelo - Puntuaciones Predictor Estimador EE t p Constante 1.70e-14 1.5719 1.08e-14 1.000 Tratamiento 1 -1.400 0.2462 -5.686 < .001 Tratamiento 2 -0.400 0.2462 -1.624 0.121 Tratamiento 3 -0.200 0.2462 -0.812 0.427 Tratamiento 4 1.000 0.2462 4.061 < .001 Factor "Bloques" 0.200 0.0174 11.487 < .001 Con el factor de los bloques el modelo explica un 90,8% de la varianza de los datos. Es necesario tener en cuenta que la codificación de efectos de los tratamientos y las sumas del factor “Bloques” son ortogonales (Pedhazur, 1977), por lo que: 𝑅𝑚𝑜𝑑𝑒𝑙𝑜 2 = 𝑅𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 2 + 𝑅𝑏𝑙𝑜𝑞𝑢𝑒𝑠 2 De tal forma que 𝑅𝑏𝑙𝑜𝑞𝑢𝑒𝑠 2 = 0.908 − 0.267 = 0.641. Conviene aclarar un problema que surge con esta manera de codificar: las pruebas F y de significación que nos devuelva el programa son incorrectas. Al incorporar el factor “Bloques” en una sola columna, los programas informáticos le asignan un solo grado de libertad, cosa errónea, dado que los grados de libertad de esa variable son 4 (nº de bloques-1), con lo que los grados de libertad de los residuos también son incorrectos porque se calculan restando los grados de libertad de tratamientos y bloques a los grados de libertad total siguiendo la fórmula 𝑔𝑙𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 = 𝑔𝑙𝑡𝑜𝑡𝑎𝑙 − 𝑔𝑙𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 − 𝑔𝑙𝑏𝑙𝑜𝑞𝑢𝑒𝑠 − 1 = 25 − 4 − 4 − 1 = 16, y no los 19 que aparecen en la tabla. La manera más rápida de hallar las pruebas F correspondientes es a través de las R2 siguiendo la fórmula: 𝐹 = 𝑅𝑚𝑜𝑑𝑒𝑙𝑜 2 𝑔𝑙𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 ⁄ 𝑅𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 2 𝑔𝑙𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 ⁄ = 0.908 8⁄ 0.092 16⁄ = 19,74 Y la F para tratamientos, siguiendo la fórmula análoga 𝐹 = 0.267 4⁄ 0.092 16⁄ = 11,6. Análisis de regresión lineal: codificación e interpretación 41 El coeficiente “Constante” se ha convertido en prácticamente 0 cuando se añade el factor “Bloques”. No es particular de estos datos, sino que siempre que se use esta codificación el valor será 0 debido a la manera en que se calculan las matrices de regresión. Los coeficientes para cada tratamiento no han cambiado y el coeficiente para el factor “Bloque” siempre será el inverso de número de bloques que haya en el experimento, en este caso 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 = 1 5 = 0,2. Solo los tratamientos 1 y 4 presentan una desviación estadísticamente significativa de la media muestral. Para hallar el efecto del tratamiento 5 (el de referencia) se puede seguir la propiedad general de que la suma de los efectosde los tratamientos ha de ser 0. −1,40 − 0,40 − 0,20 + 1 + 𝐸𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 5 = 0 𝐸𝑓𝑒𝑐𝑡𝑜 𝑑𝑒𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 5 = 1 La media del tratamiento 5 se diferencia en un punto de la media total, es decir, no produce ningún efecto sobre la media mayor que la producida por el tratamiento 4. Análisis de regresión lineal: codificación e interpretación 42 4. CONCLUSIONES Y PROSPECTIVA Se ha visto de una manera práctica cómo resolver diseños experimentales usando las codificaciones de ANREG para obtener otra información con los datos experimentales. No se han presentado otras codificaciones, pero existen muchas otras con las que obtener el ajuste lineal, para analizar ciertas diferencias concretas en algunos experimentos muy específicos (con factores cuantitativos), etc.; no obstante, el potencial de trabajar con codificaciones es prácticamente ilimitado. Siguiendo las reglas básicas, derivadas de los fundamentos matemáticos de la estadística (en el fondo, del álgebra lineal), se puede extraer todo tipo de información experimental a partir de los mismos datos. En esta tarea se reconoce el papel de los métodos cuantitativos en psicología, especialmente a partir de los años 70, donde pioneros en el uso de éstos desarrollaron y adaptaron nuevas técnicas estadísticas al campo de la psicología. Se tiene que valorar la capacidad de cómputo presente hoy en día para seguir investigando en esta materia, puesto que no existe problema en este momento para trabajar con grandes cantidades de datos y variables. Hay que valorar también las nuevas perspectivas en el ANREG, al que podemos incorporar herramientas de inteligencia artificial y “machine learning”. Campos en los que siempre ha sido complejo el análisis de los datos experimentales, como la psicolingüística o la psicopatología, se pueden ver ampliamente apoyados por el uso del ANREG, tanto sólo como con otras herramientas de IA. Merece la pena mencionar los grupos de trabajo e investigadores contemporáneos que, usando los análisis de regresión y las herramientas de IA, están desarrollando herramientas para optimizar qué tratamientos psicológicos funcionan mejor con cada tipo de persona, como el estudio llevado a cabo por Chekroud et al (2021), o analizar el impacto que tiene la elección de determinados tratamientos sobre las personas y sobre el coste de la intervención, como el estudio de Delgadillo et al (2022). Análisis de regresión lineal: codificación e interpretación 43 5. REFERENCIAS BIBLIOGRÁFICAS Arnau, J. (1977). Utilización de modelos matemáticos en psicología. Anuario de psicología/The UB Journal of psychology, 3-18. Arnau, J., & Bono, R. (2008). Estudios longitudinales de medidas repetidas: Modelos de diseño y análisis. Escritos de Psicología (Internet), 2 (1), 32-41. Bock, R. D. (1985). Multivariate statistical methods in behavioral research. Scientific Software International. Box, J. F. (1980). RA Fisher and the design of experiments, 1922–1926. The American Statistician, 34(1), 1-7. Chekroud, A. M., Bondar, J., Delgadillo, J., Doherty, G., Wasil, A., Fokkema, M., ... & Choi, K. (2021). The promise of machine learning in predicting treatment outcomes in psychiatry. World Psychiatry, 20(2), 154-170. Chen, X., Ender, P., Mitchell, M., & Wells, C. (2011). Additional coding systems for categorical variables in regression analysis. Regression with SPSS (chap. 5). Cochran, W. G. (1980). Fisher and the analysis of variance. In RA Fisher: An Appreciation (pp. 17-34). Springer New York. Coding systems for categorical Variables in Regression Analysis. UCLA: Statistical Consulting Group. https://stats.oarc.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in- regression-analysis/ Recuperado el 28 de Abril de 2023 Cohen, J. (1968). Multiple regression as a general data-analytic system. Psychological bulletin, 70(6p1), 426. Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2013). Applied multiple regression/correlation analysis for the behavioral sciences. Routledge. Cohen, P., West, S. G., & Aiken, L. S. (2014). Applied multiple regression/correlation analysis for the behavioral sciences. Psychology press. Crampton, E. W. (1947). The growth of the odontoblasts of the incisor tooth as a criterion of the vitamin C intake of the guinea pig. Journal of Nutrition, 33, 491-504. Delgado Sánchez-Mateos, J. (1992). Algunos problemas básicos del análisis de varianza. Salamanca: Ediciones Universidad de Salamanca. Delgadillo, J., Ali, S., Fleck, K., Agnew, C., Southgate, A., Parkhouse, L., ... & Barkham, M. (2022). Stratified care vs stepped care for depression: A cluster randomized clinical trial. JAMA psychiatry, 79(2), 101-108. Análisis de regresión lineal: codificación e interpretación 44 Edwards, A. (1972). Experimental design in psychological research (Rev. ed.). Holt, Rinehart & Winston. Ferreira, J. C., & Patino, C. M. (2015). What does the p value really mean? Jornal Brasileiro de Pneumologia, 41(5), 485. Fisher, R. A. (1992). The arrangement of field experiments. Breakthroughs in statistics: Methodology and distribution, 82-91. Fontes de Gracia, S., García, C., Garriga, A., Pérez-Llantada, M., & Sarriá, E. (2001). Diseños de investigación en Psicología. Madrid: Universidad Nacional de Educación a Distancia (UNED). Fox, J., & Weisberg, S. (2020). car: Companion to Applied Regression. [R package]. Retrieved from https://cran.r-project.org/package=car. García Pérez, A. (2017). Estadística básica con R. Universidad Nacional de Educación a Distancia. Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics 33, 587–606 Hoaglin, D. C. (2003). John W. Tukey and data analysis. Statistical Science, 311-318. Kerlinger, F. N., & Pedhazur, E. J. (1973): Multiple regression in behavioral research. Nueva York: Holt, Rinehart & Winston. Kirk, R. E. (2012). Experimental design: Procedures for the behavioral sciences. Sage Publications. Lenth, R. (2020). emmeans: Estimated Marginal Means, aka Least-Squares Means. [R package]. Retrieved from https://cran.r-project.org/package=emmeans. Palma, R. P. (2022). Análisis crítico del coeficiente de determinación (R2), como indicador de la calidad de modelos lineales y no lineales. Matemática, 20(2). Pedhazur, E. J. (1977). Coding subjects in repeated measures designs. Psychological Bulletin, 84(2), 298. Pedhazur, E. J. (1997). Multiple regression in behavioral research. Explanation and prediction. 3ª Edición. (1ª Ed. de 1975). Harcourt Brace: Orlando, FL. Poor, D. D. (1973). Analysis of variance for repeated measures designs: Two approaches. Psychological Bulletin, 80(3), 204. R Core Team (2021). R: A Language and environment for statistical computing. (Version 4.1) [Computer software]. Retrieved from https://cran.r-project.org. (R packages retrieved from MRAN snapshot 2022-01-01). Richardson, J. T. (2011). Eta squared and partial eta squared as measures of effect size in educational research. Educational research review, 6(2), 135-147. Rodríguez, E. M. (2005). Errores frecuentes en la interpretación del coeficiente de determinación lineal. Anuario jurídico y económico escurialense, (38), 315-331. https://cran.r-project.org/package=car Análisis de regresión lineal: codificación e interpretación 45 Sapra, R. L. (2014). Using R2 with caution. Current Medicine Research and Practice, 4(3), 130- 134. The jamovi project (2022). jamovi. (Version 2.3) [Computer Software]. Retrieved from https://www.jamovi.org. Thompson, B. (2016). The case for using the general linear model as a unifying conceptual framework for teaching statistics and psychometric theory. Journal of Methods and Measurement in the Social Sciences, 6(2), 30–41. doi:10.2458/azu_jmmss.v6i2.18801 Tukey, J. W. (1951). Components in regression. Biometrics, 7(1), 33-69.Winer, B. J., Brown, D. R., & Michels, K. M. (1971). Statistical principles in experimental design (Vol. 2, p. 596). New York: McGraw-Hill. Yates, F., & Mather, K. (1963). Ronald Aylmer Fisher, 1890-1962. https://www.jamovi.org/ Análisis de regresión lineal: codificación e interpretación 46 ANEXOS ANEXO I. DATOS DEL EXPERIMENTO DE CRAMPTON (1947) Dosis 500 1000 2000 S u p le m e n to V it a m in a 4.2 16.5 23.6 11.5 16.5 18.5 7.3 15.2 33.9 5.8 17.3 25.5 6.4 22.5 26.4 10 17.3 32.5 11.2 13.6 26.7 11.2 14.5 21.5 5.2 18.8 23.3 7 15.5 29.5 Z u m o d e n a ra n ja 15.2 19.7 25.5 21.5 23.3 26.4 17.6 23.6 22.4 9.7 26.4 24.5 14.5 20 24.8 10 25.2 30.9 8.2 25.8 26.4 9.4 21.2 27.3 16.5 14.5 29.4 9.7 27.3 23 Análisis de regresión lineal: codificación e interpretación 47 ANEXO II. TABLA DE LA CODIFICACIÓN DEL EXPERIMENTO DE EDWARDS (1972) Puntuaciones Tratamiento 1 Tratamiento 2 Tratamiento 3 Tratamiento 4 Factor "Bloques" Tratamiento 1 - Bloques (1→5) 18 1 0 0 0 100 17 1 0 0 0 95 16 1 0 0 0 90 16 1 0 0 0 85 16 1 0 0 0 80 Tratamiento 2 - Bloques (1→5) 20 0 1 0 0 100 19 0 1 0 0 95 17 0 1 0 0 90 16 0 1 0 0 85 16 0 1 0 0 80 Tratamiento 3 - Bloques (1→5) 20 0 0 1 0 100 19 0 0 1 0 95 18 0 0 1 0 90 17 0 0 1 0 85 15 0 0 1 0 80 Tratamiento 4 - Bloques (1→5) 21 0 0 0 1 100 20 0 0 0 1 95 19 0 0 0 1 90 18 0 0 0 1 85 17 0 0 0 1 80 Tratamiento 5 - Bloques (1→5) 21 -1 -1 -1 -1 100 20 -1 -1 -1 -1 95 20 -1 -1 -1 -1 90 18 -1 -1 -1 -1 85 16 -1 -1 -1 -1 80
Compartir