Vista previa del material en texto
Inferencia causal en regresión: consejos para autores Joseph Bulbulia, Uffe Schjoedt, John H. Shaver, Richard Sosis & Wesley J. Wildman Sesgo de variable omitida El primer tipo de confusión causal es el sesgo de variable omitida. El sesgo de variable omitida ocurre cuando hay una causa común tanto para X como para Y. Z. X ← Z → Y. Aquí, X e Y están correlacionados porque Z causa ambos. La asociación que Z induce crea una ilusión de causalidad. Contrafactual: si cambiáramos X, ¿habría un cambio correspondiente en Y? La respuesta es no. Cuando incluimos Z, la correlación entre X e Y se rompe (Figura 1(b)). Toda la variación en X que predice la variación en Y está explicada por la variación en Z. La forma de manejar el sesgo de variable omitida es ajustar Z en nuestro modelo estadístico. Sesgo post-tratamiento El segundo tipo de confusión es el "sesgo post-tratamiento" o "confusión de canalización". Imagina un escenario en el que Z es causado por X y, a su vez, Y es causado por Z: así que X → Z → Y. En el lenguaje que es familiar para los científicos psicológicos, podemos decir que Z "medio completa" la relación entre X e Y. X causa Y: si cambiáramos X induciríamos un cambio en Y. Aunque hay un efecto causal de X en Y, si incluyéramos Z en nuestro modelo de regresión, romperíamos esta relación (Figura 2(b)). Esto se debe a que toda la variación que X causa en Y está contenida en Z. Aquí, X e Y son condicionalmente independientes dado Z. Agregar Z induce confusión porque nuestro interés está en el efecto total de X en Y. Si estuviéramos interesados en el efecto total de X en Y, no deberíamos incluir Z como mediador en nuestro modelo estadístico. El sesgo post-tratamiento ilustra uno de los peligros en la inferencia causal de "controlar" las variables incorrectas. Recomendamos que los investigadores no ajusten ninguna variable mediadora que pueda bloquear una conexión causal entre una exposición y un resultado. Nuestros perspicaces lectores habrán notado que para el sesgo de variable omitida, la independencia condicional de X en Y dado Z es deseable, mientras que para el sesgo post-tratamiento, la independencia condicional de X en Y dado Z es indeseable. En resumen, los datos no contienen las suposiciones causales necesarias para la inferencia causal. Se necesita una justificación para elegir un modelo causal que esté motivado por la ciencia y la experiencia previas. Sesgo del collider Imagina un escenario en el que tanto X como Y causan Z, pero X e Y no están relacionados entre sí. Como se indica en la Figura 3(a), debido a que X e Y no están relacionados, el coeficiente de regresión de X sobre Y será poco confiable. Como se muestra en la Figura 3(b), si incluyéramos Z en nuestro modelo de regresión, abriríamos un camino entre X e Y, lo que daría una ilusión de causalidad. Aquí, Z induce un sesgo del collider. Como se muestra en la Figura 3(c), para evitar sesgos, debemos omitir Z de nuestro modelo de regresión. Por ejemplo, sesgos en nuestra estrategia de muestreo podrían causar involuntariamente que estratifiquemos sobre un collider, sesgando nuestras estimaciones de X sobre Y. Del mismo modo, datos faltantes podrían introducir un sesgo del collider. Los diseños experimentales son útiles para la inferencia causal, pero también presentan riesgos de sesgos de confusión, como el sesgo del collider. El sesgo del collider es otro ejemplo de cómo "controlar" demasiadas variables introduce sesgos en la estimación causal. Hemos visto que incluir variables sin prestar atención a la confusión conduce a sesgos en la inferencia causal. Debido a que el mundo es complejo, los confounders del collider pueden ser difíciles de identificar. Sesgo descendente El cuarto tipo de confusión se puede llamar sesgo descendente. El sesgo descendente es una variación del sesgo post- tratamiento y del sesgo del collider. Condicionar en una variable que es causada por una variable principal es condicionar parcialmente en la variable principal. Si la variable principal es un confundidor post-tratamiento o un confundidor del collider, dicho condicionamiento introducirá sesgo. Diez sugerencias para la inferencia causal 1) Alentamos a los investigadores a considerar que cuando están interesados en la inferencia causal, están interesados en un contrafactual: ¿cómo cambiaría un parámetro en el mundo (Y) si cambiara otro parámetro (X)? Como primer paso en la inferencia causal, sugerimos que los autores aclaren las variables de exposición y las variables de resultado de interés para su estudio. 2) Los autores interesados en dividir el efecto total de X sobre Y en el efecto directo de X sobre Y y el efecto indirecto de X sobre Y a través de Z deben proporcionar una motivación explícita para un modelo de mediación, así como una estrategia para la identificación. Sin dicho cuidado, los autores corren el riesgo de utilizar la mediación de manera que pueda inducir confusión post-tratamiento. 3) Sugerimos que los autores interesados en la inferencia causal presenten un Grafo Acíclico Dirigido (DAG) que aclare todas las vías que vinculan una variable de exposición con una variable de resultado, incluidas las variables no medidas para las cuales no se han recopilado. También sugerimos que los autores utilicen sus DAG para identificar confundidores de variables omitidas, confundidores post-tratamiento, confundidores del collider y confundidores descendentes. 4) La inferencia causal requiere cerrar todas las vías de retroceso que vinculan la exposición con un resultado. Recomendamos que los investigadores incluyan cualquier variable que pueda inducir una conexión espuria entre la exposición y el resultado de interés. 5) Los investigadores deben ser conscientes de que sus DAG están subdeterminados por sus datos. Cuando exista incertidumbre sobre posibles relaciones causales, recomendamos que los autores presenten varios DAG. Los autores deben modelar los resultados para cada uno de los DAG posibles y aclarar si y cómo cambia la inferencia como resultado de asumir un gráfico sobre los demás. Los autores no deben dudar en informar sobre casos en los que el sesgo en la inferencia causal es inevitable. Un descubrimiento así puede ser importante. Los autores también pueden considerar utilizar un análisis de sensibilidad para evaluar la robustez de su inferencia frente a sesgos de confundidores (VanderWeele et al., 2020). 6) Cuando falten datos de manera aleatoria condicional a otros predictores en el modelo, recomendamos que los autores utilicen una estrategia de estimación que integre la incertidumbre inducida por los datos faltantes, como la regresión utilizando conjuntos de datos imputados múltiples o la imputación bayesiana (McElreath, 2020). 7) Los autores deben limitar las "variables de control" al subconjunto necesario para cerrar las vías de retroceso (es decir, para manejar el sesgo de variable omitida). Los autores no deben controlar los confundidores del collider o los confundidores post-tratamiento. 8) Los autores no deben controlar a los descendientes de los confundidores del collider o los confundidores post- tratamiento. 9) Los autores no deben ofrecer una interpretación causal de ningún coeficiente de regresión que utilicen como control estadístico. Para evitar la "falacia de la tabla 2", en la que se asume la inferencia causal a partir de los coeficientes de control, los autores pueden optar por colocar todas las tablas de regresión en sus materiales complementarios y reportar solo las estimaciones de sus variables de exposición. 10) Recomendamos que los autores informen un efecto causal como una diferencia entre el resultado contrafactual promedio esperado para una población objetivo bajo un nivel de exposición en comparación con el resultado contrafactual promedio esperado para esa misma población bajo un nivel diferente de exposición. ConclusionesPor ejemplo, la teoría de la evolución de Darwin mediante la selección natural ofrece una "inferencia hacia la mejor explicación" para los hechos conocidos. Los argumentos de Darwin son obras maestras de razonamiento causal contrafactual, aunque no implicaron estimaciones de magnitudes de efectos causales. Finalmente, como hemos enfatizado en editoriales anteriores, la investigación descriptiva ocupa un lugar importante en la búsqueda del descubrimiento científico (Bulbulia et al., 2019). Desde hace mucho tiempo se comprende que identificar efectos causales a partir de datos empíricos requiere un modelo que no puede derivarse únicamente de los datos empíricos.