Inferencia causal en regresión

Sociología

•

SIN SIGLA

Marcos A.

21/12/2023

¡Estudia con miles de materiales!

Vista previa del material en texto

Inferencia causal en regresión: consejos para autores
Joseph Bulbulia, Uffe Schjoedt, John H. Shaver, Richard Sosis & Wesley J. Wildman

Sesgo de variable omitida

El primer tipo de confusión causal es el sesgo de variable omitida. El sesgo de variable omitida ocurre cuando hay una
causa común tanto para X como para Y. Z. X ← Z → Y.
Aquí, X e Y están correlacionados porque Z causa ambos. La asociación que Z induce crea una ilusión de causalidad.
Contrafactual: si cambiáramos X, ¿habría un cambio correspondiente en Y? La respuesta es no. Cuando incluimos Z, la
correlación entre X e Y se rompe (Figura 1(b)). Toda la variación en X que predice la variación en Y está explicada por
la variación en Z. La forma de manejar el sesgo de variable omitida es ajustar Z en nuestro modelo estadístico.

Sesgo post-tratamiento
El segundo tipo de confusión es el "sesgo post-tratamiento" o "confusión de canalización".
Imagina un escenario en el que Z es causado por X y, a su vez, Y es causado por Z: así que X → Z → Y. En el lenguaje
que es familiar para los científicos psicológicos, podemos decir que Z "medio completa" la relación entre X e Y. X causa
Y: si cambiáramos X induciríamos un cambio en Y. Aunque hay un efecto causal de X en Y, si incluyéramos Z en nuestro
modelo de regresión, romperíamos esta relación (Figura 2(b)). Esto se debe a que toda la variación que X causa en Y
está contenida en Z. Aquí, X e Y son condicionalmente independientes dado Z. Agregar Z induce confusión porque
nuestro interés está en el efecto total de X en Y. Si estuviéramos interesados en el efecto total de X en Y, no deberíamos
incluir Z como mediador en nuestro modelo estadístico.
El sesgo post-tratamiento ilustra uno de los peligros en la inferencia causal de "controlar" las variables incorrectas.
Recomendamos que los investigadores no ajusten ninguna variable mediadora que pueda bloquear una conexión
causal entre una exposición y un resultado.
Nuestros perspicaces lectores habrán notado que para el sesgo de variable omitida, la independencia condicional de X
en Y dado Z es deseable, mientras que para el sesgo post-tratamiento, la independencia condicional de X en Y dado Z
es indeseable.
En resumen, los datos no contienen las suposiciones causales necesarias para la inferencia causal. Se necesita una
justificación para elegir un modelo causal que esté motivado por la ciencia y la experiencia previas.

Sesgo del collider
Imagina un escenario en el que tanto X como Y causan Z, pero X e Y no están relacionados entre sí. Como se indica en
la Figura 3(a), debido a que X e Y no están relacionados, el coeficiente de regresión de X sobre Y será poco confiable.
Como se muestra en la Figura 3(b), si incluyéramos Z en nuestro modelo de regresión, abriríamos un camino entre X e
Y, lo que daría una ilusión de causalidad. Aquí, Z induce un sesgo del collider. Como se muestra en la Figura 3(c), para
evitar sesgos, debemos omitir Z de nuestro modelo de regresión. Por ejemplo, sesgos en nuestra estrategia de
muestreo podrían causar involuntariamente que estratifiquemos sobre un collider, sesgando nuestras estimaciones de
X sobre Y. Del mismo modo, datos faltantes podrían introducir un sesgo del collider.
Los diseños experimentales son útiles para la inferencia causal, pero también presentan riesgos de sesgos de confusión,
como el sesgo del collider. El sesgo del collider es otro ejemplo de cómo "controlar" demasiadas variables introduce
sesgos en la estimación causal.
Hemos visto que incluir variables sin prestar atención a la confusión conduce a sesgos en la inferencia causal. Debido
a que el mundo es complejo, los confounders del collider pueden ser difíciles de identificar.

Sesgo descendente
El cuarto tipo de confusión se puede llamar sesgo descendente. El sesgo descendente es una variación del sesgo post-
tratamiento y del sesgo del collider. Condicionar en una variable que es causada por una variable principal es
condicionar parcialmente en la variable principal. Si la variable principal es un confundidor post-tratamiento o un
confundidor del collider, dicho condicionamiento introducirá sesgo.
Diez sugerencias para la inferencia causal
1) Alentamos a los investigadores a considerar que cuando están interesados en la inferencia causal, están
interesados en un contrafactual: ¿cómo cambiaría un parámetro en el mundo (Y) si cambiara otro parámetro
(X)? Como primer paso en la inferencia causal, sugerimos que los autores aclaren las variables de exposición y
las variables de resultado de interés para su estudio.
2) Los autores interesados en dividir el efecto total de X sobre Y en el efecto directo de X sobre Y y el efecto
indirecto de X sobre Y a través de Z deben proporcionar una motivación explícita para un modelo de mediación,
así como una estrategia para la identificación. Sin dicho cuidado, los autores corren el riesgo de utilizar la
mediación de manera que pueda inducir confusión post-tratamiento.
3) Sugerimos que los autores interesados en la inferencia causal presenten un Grafo Acíclico Dirigido (DAG) que
aclare todas las vías que vinculan una variable de exposición con una variable de resultado, incluidas las
variables no medidas para las cuales no se han recopilado. También sugerimos que los autores utilicen sus DAG
para identificar confundidores de variables omitidas, confundidores post-tratamiento, confundidores del
collider y confundidores descendentes.
4) La inferencia causal requiere cerrar todas las vías de retroceso que vinculan la exposición con un resultado.
Recomendamos que los investigadores incluyan cualquier variable que pueda inducir una conexión espuria
entre la exposición y el resultado de interés.
5) Los investigadores deben ser conscientes de que sus DAG están subdeterminados por sus datos. Cuando exista
incertidumbre sobre posibles relaciones causales, recomendamos que los autores presenten varios DAG. Los
autores deben modelar los resultados para cada uno de los DAG posibles y aclarar si y cómo cambia la
inferencia como resultado de asumir un gráfico sobre los demás. Los autores no deben dudar en informar
sobre casos en los que el sesgo en la inferencia causal es inevitable. Un descubrimiento así puede ser
importante. Los autores también pueden considerar utilizar un análisis de sensibilidad para evaluar la robustez
de su inferencia frente a sesgos de confundidores (VanderWeele et al., 2020).
6) Cuando falten datos de manera aleatoria condicional a otros predictores en el modelo, recomendamos que los
autores utilicen una estrategia de estimación que integre la incertidumbre inducida por los datos faltantes,
como la regresión utilizando conjuntos de datos imputados múltiples o la imputación bayesiana (McElreath,
2020).
7) Los autores deben limitar las "variables de control" al subconjunto necesario para cerrar las vías de retroceso
(es decir, para manejar el sesgo de variable omitida). Los autores no deben controlar los confundidores del
collider o los confundidores post-tratamiento.
8) Los autores no deben controlar a los descendientes de los confundidores del collider o los confundidores post-
tratamiento.
9) Los autores no deben ofrecer una interpretación causal de ningún coeficiente de regresión que utilicen como
control estadístico. Para evitar la "falacia de la tabla 2", en la que se asume la inferencia causal a partir de los
coeficientes de control, los autores pueden optar por colocar todas las tablas de regresión en sus materiales
complementarios y reportar solo las estimaciones de sus variables de exposición.
10) Recomendamos que los autores informen un efecto causal como una diferencia entre el resultado
contrafactual promedio esperado para una población objetivo bajo un nivel de exposición en comparación con
el resultado contrafactual promedio esperado para esa misma población bajo un nivel diferente de exposición.
ConclusionesPor ejemplo, la teoría de la evolución de Darwin mediante la selección natural ofrece una "inferencia hacia la mejor
explicación" para los hechos conocidos. Los argumentos de Darwin son obras maestras de razonamiento causal
contrafactual, aunque no implicaron estimaciones de magnitudes de efectos causales. Finalmente, como hemos
enfatizado en editoriales anteriores, la investigación descriptiva ocupa un lugar importante en la búsqueda del
descubrimiento científico (Bulbulia et al., 2019).
Desde hace mucho tiempo se comprende que identificar efectos causales a partir de datos empíricos requiere un
modelo que no puede derivarse únicamente de los datos empíricos.