Logo Studenta

C4 Inferencia causal en regresión

¡Estudia con miles de materiales!

Vista previa del material en texto

Inferencia causal en regresión: consejos para autores 
Joseph Bulbulia, Uffe Schjoedt, John H. Shaver, Richard Sosis & Wesley J. Wildman 
 
Sesgo de variable omitida 
 
El primer tipo de confusión causal es el sesgo de variable omitida. El sesgo de variable omitida ocurre cuando hay una 
causa común tanto para X como para Y. Z. X ← Z → Y. 
Aquí, X e Y están correlacionados porque Z causa ambos. La asociación que Z induce crea una ilusión de causalidad. 
Contrafactual: si cambiáramos X, ¿habría un cambio correspondiente en Y? La respuesta es no. Cuando incluimos Z, la 
correlación entre X e Y se rompe (Figura 1(b)). Toda la variación en X que predice la variación en Y está explicada por 
la variación en Z. La forma de manejar el sesgo de variable omitida es ajustar Z en nuestro modelo estadístico. 
 
Sesgo post-tratamiento 
El segundo tipo de confusión es el "sesgo post-tratamiento" o "confusión de canalización". 
Imagina un escenario en el que Z es causado por X y, a su vez, Y es causado por Z: así que X → Z → Y. En el lenguaje 
que es familiar para los científicos psicológicos, podemos decir que Z "medio completa" la relación entre X e Y. X causa 
Y: si cambiáramos X induciríamos un cambio en Y. Aunque hay un efecto causal de X en Y, si incluyéramos Z en nuestro 
modelo de regresión, romperíamos esta relación (Figura 2(b)). Esto se debe a que toda la variación que X causa en Y 
está contenida en Z. Aquí, X e Y son condicionalmente independientes dado Z. Agregar Z induce confusión porque 
nuestro interés está en el efecto total de X en Y. Si estuviéramos interesados en el efecto total de X en Y, no deberíamos 
incluir Z como mediador en nuestro modelo estadístico. 
El sesgo post-tratamiento ilustra uno de los peligros en la inferencia causal de "controlar" las variables incorrectas. 
Recomendamos que los investigadores no ajusten ninguna variable mediadora que pueda bloquear una conexión 
causal entre una exposición y un resultado. 
Nuestros perspicaces lectores habrán notado que para el sesgo de variable omitida, la independencia condicional de X 
en Y dado Z es deseable, mientras que para el sesgo post-tratamiento, la independencia condicional de X en Y dado Z 
es indeseable. 
En resumen, los datos no contienen las suposiciones causales necesarias para la inferencia causal. Se necesita una 
justificación para elegir un modelo causal que esté motivado por la ciencia y la experiencia previas. 
 
Sesgo del collider 
Imagina un escenario en el que tanto X como Y causan Z, pero X e Y no están relacionados entre sí. Como se indica en 
la Figura 3(a), debido a que X e Y no están relacionados, el coeficiente de regresión de X sobre Y será poco confiable. 
Como se muestra en la Figura 3(b), si incluyéramos Z en nuestro modelo de regresión, abriríamos un camino entre X e 
Y, lo que daría una ilusión de causalidad. Aquí, Z induce un sesgo del collider. Como se muestra en la Figura 3(c), para 
evitar sesgos, debemos omitir Z de nuestro modelo de regresión. Por ejemplo, sesgos en nuestra estrategia de 
muestreo podrían causar involuntariamente que estratifiquemos sobre un collider, sesgando nuestras estimaciones de 
X sobre Y. Del mismo modo, datos faltantes podrían introducir un sesgo del collider. 
Los diseños experimentales son útiles para la inferencia causal, pero también presentan riesgos de sesgos de confusión, 
como el sesgo del collider. El sesgo del collider es otro ejemplo de cómo "controlar" demasiadas variables introduce 
sesgos en la estimación causal. 
Hemos visto que incluir variables sin prestar atención a la confusión conduce a sesgos en la inferencia causal. Debido 
a que el mundo es complejo, los confounders del collider pueden ser difíciles de identificar. 
 
 
Sesgo descendente 
El cuarto tipo de confusión se puede llamar sesgo descendente. El sesgo descendente es una variación del sesgo post-
tratamiento y del sesgo del collider. Condicionar en una variable que es causada por una variable principal es 
condicionar parcialmente en la variable principal. Si la variable principal es un confundidor post-tratamiento o un 
confundidor del collider, dicho condicionamiento introducirá sesgo. 
Diez sugerencias para la inferencia causal 
1) Alentamos a los investigadores a considerar que cuando están interesados en la inferencia causal, están 
interesados en un contrafactual: ¿cómo cambiaría un parámetro en el mundo (Y) si cambiara otro parámetro 
(X)? Como primer paso en la inferencia causal, sugerimos que los autores aclaren las variables de exposición y 
las variables de resultado de interés para su estudio. 
2) Los autores interesados en dividir el efecto total de X sobre Y en el efecto directo de X sobre Y y el efecto 
indirecto de X sobre Y a través de Z deben proporcionar una motivación explícita para un modelo de mediación, 
así como una estrategia para la identificación. Sin dicho cuidado, los autores corren el riesgo de utilizar la 
mediación de manera que pueda inducir confusión post-tratamiento. 
3) Sugerimos que los autores interesados en la inferencia causal presenten un Grafo Acíclico Dirigido (DAG) que 
aclare todas las vías que vinculan una variable de exposición con una variable de resultado, incluidas las 
variables no medidas para las cuales no se han recopilado. También sugerimos que los autores utilicen sus DAG 
para identificar confundidores de variables omitidas, confundidores post-tratamiento, confundidores del 
collider y confundidores descendentes. 
4) La inferencia causal requiere cerrar todas las vías de retroceso que vinculan la exposición con un resultado. 
Recomendamos que los investigadores incluyan cualquier variable que pueda inducir una conexión espuria 
entre la exposición y el resultado de interés. 
5) Los investigadores deben ser conscientes de que sus DAG están subdeterminados por sus datos. Cuando exista 
incertidumbre sobre posibles relaciones causales, recomendamos que los autores presenten varios DAG. Los 
autores deben modelar los resultados para cada uno de los DAG posibles y aclarar si y cómo cambia la 
inferencia como resultado de asumir un gráfico sobre los demás. Los autores no deben dudar en informar 
sobre casos en los que el sesgo en la inferencia causal es inevitable. Un descubrimiento así puede ser 
importante. Los autores también pueden considerar utilizar un análisis de sensibilidad para evaluar la robustez 
de su inferencia frente a sesgos de confundidores (VanderWeele et al., 2020). 
6) Cuando falten datos de manera aleatoria condicional a otros predictores en el modelo, recomendamos que los 
autores utilicen una estrategia de estimación que integre la incertidumbre inducida por los datos faltantes, 
como la regresión utilizando conjuntos de datos imputados múltiples o la imputación bayesiana (McElreath, 
2020). 
7) Los autores deben limitar las "variables de control" al subconjunto necesario para cerrar las vías de retroceso 
(es decir, para manejar el sesgo de variable omitida). Los autores no deben controlar los confundidores del 
collider o los confundidores post-tratamiento. 
8) Los autores no deben controlar a los descendientes de los confundidores del collider o los confundidores post-
tratamiento. 
9) Los autores no deben ofrecer una interpretación causal de ningún coeficiente de regresión que utilicen como 
control estadístico. Para evitar la "falacia de la tabla 2", en la que se asume la inferencia causal a partir de los 
coeficientes de control, los autores pueden optar por colocar todas las tablas de regresión en sus materiales 
complementarios y reportar solo las estimaciones de sus variables de exposición. 
10) Recomendamos que los autores informen un efecto causal como una diferencia entre el resultado 
contrafactual promedio esperado para una población objetivo bajo un nivel de exposición en comparación con 
el resultado contrafactual promedio esperado para esa misma población bajo un nivel diferente de exposición. 
ConclusionesPor ejemplo, la teoría de la evolución de Darwin mediante la selección natural ofrece una "inferencia hacia la mejor 
explicación" para los hechos conocidos. Los argumentos de Darwin son obras maestras de razonamiento causal 
contrafactual, aunque no implicaron estimaciones de magnitudes de efectos causales. Finalmente, como hemos 
enfatizado en editoriales anteriores, la investigación descriptiva ocupa un lugar importante en la búsqueda del 
descubrimiento científico (Bulbulia et al., 2019). 
Desde hace mucho tiempo se comprende que identificar efectos causales a partir de datos empíricos requiere un 
modelo que no puede derivarse únicamente de los datos empíricos.

Continuar navegando