C4 El Control Estadístico Requiere Justificación Causal

Sociología

•

SIN SIGLA

0

Marcos A.

21/12/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

102.131 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

El Control Estadístico Requiere Justificación Causal
El control estadístico puede conducir a estimaciones más precisas de un efecto causal (Pearl, 2009), pero solo cuando
se controlan las variables adecuadas (Rohrer, 2018). Aunque el control de variables externas es una práctica común
(Atinc et al., 2012; Bernerth & Aguinis, 2016; Breaugh, 2008), la selección de estas variables rara vez se justifica en
términos causales. En este artículo, ilustramos que el control de una variable inapropiada puede resultar en
estimaciones causales sesgadas.
Una breve introducción a la inferencia causal
La inferencia causal implica estimar la magnitud de los efectos causales dada una estructura causal asumida. Utilizamos
la definición de causalidad de Pearl (1995), según la cual X es una causa de Y cuando una intervención en X (por
ejemplo, estableciendo X en un valor particular) produce un cambio en Y. Un efecto causal, es decir, el aumento
esperado en Y para una intervención de 1 unidad en X, se identifica cuando es posible obtener una estimación imparcial
del efecto causal a partir de los datos. Sin embargo, la inferencia causal se basa en supuestos teóricos que provienen
del conocimiento previo, además de la información estadística.
Un Grafo Acíclico Dirigido (DAG) representa las relaciones causales hipotetizadas entre variables. En un DAG, una vía
es una secuencia de flechas que conecta una variable con otra. Una vía que contiene dos variables transmitirá una
asociación a menos que haya un tenedor invertido.
En la Figura 1 (izquierda), X e Y están conectados por dos vías: X → Y y X → Z → V ← U → W → Y. La última vía no
transmite asociación debido al tenedor invertido, Z → V ← U. Pero la vía X → Y sí transmite asociación, por lo tanto,
esperamos que X e Y estén asociados en datos de muestra extraídos de una población representada por este grafo
causal.

Utilizamos "sesgo" para referirnos a la discrepancia entre un parámetro de la población y el efecto causal. En la Figura
1 (derecha), hay dos vías que conectan X e Y y transmiten asociación. Crucialmente, una vía, X ← C → Y, no es causal,
es decir, no forma parte del efecto causal de X sobre Y, por lo que manipular X no cambia C ni Y a través de C. Por lo
tanto, la asociación entre X e Y es una estimación sesgada del efecto causal. En general, una causa común (es decir, un
confundidor) de un predictor y un resultado resulta en una asociación sesgada para el efecto causal. Para eliminar este
sesgo, la vía de causa común (en este caso, la vía a través de C) debe eliminarse de la asociación estimada. Esto se
puede lograr a través de un diseño de investigación experimental en el que el predictor se aleatoriza.
Por lo tanto, los psicólogos han tenido que encontrar otro método para bloquear las vías de confusión. Uno de esos
métodos es el control estadístico, que se puede realizar mediante la regresión (McNamee, 2005).
Regresión lineal y control estadístico
En este enfoque, asumimos que todas las variables están estandarizadas (medias = 0, varianzas = 1).
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
Conceptualmente, este enfoque es el equivalente estadístico de tomar una muestra de participantes que tienen el
mismo valor en todas las variables predictoras, excepto una, y estimar la asociación entre esa única variable predictora
y Y en la muestra. Por lo tanto, los coeficientes de regresión múltiple se conocen como coeficientes de regresión parcial
porque representan la asociación aislada entre un solo X e Y cuando ninguno de los otros predictores está cambiando.
El gráfico de dispersión en la izquierda muestra una fuerte asociación lineal entre X e Y. C está correlacionado con
ambos X e Y, lo que plantea la posibilidad de que pueda ser un confundidor. El gráfico del medio muestra las líneas de
regresión a nivel poblacional que se obtendrían si fuera posible calcular el coeficiente de regresión simple de Y sobre
X para cada subpoblación con un valor fijo en C.

El gráfico de la derecha muestra el enfoque estadístico para hacer esto, es decir, la asociación desconfundida entre X e
Y. El eje x ahora representa los residuos que se obtienen cuando X se regresa en C, es decir, la parte de X que es
independiente de C (X = β1C + X̂1). Cuando Y se regresa en este predictor residualizado, Y = β1X̂C + β2, hay poca relación
restante entre X̂C e Y, y β2 es cercano a 0. Agregar la variable de control C a la regresión de Y sobre X, Y = β1X + β2C +
ε3, es equivalente a regresar Y en el X residualizado: el valor de β2 es el mismo en ambas ecuaciones.
Al controlar estadísticamente la variable correcta, se puede eliminar un efecto de confusión de una estimación, lo que
convierte al control estadístico en una herramienta valiosa para los investigadores interesados en la inferencia causal
y que tienen acceso a datos observacionales o cuasiexperimentales. Sin embargo, obtener una asociación no sesgada
depende de varias suposiciones adicionales: (a) cualquier interacción o efecto no lineal debe especificarse
correctamente, (b) las variables predictoras y de control deben medirse sin error o se debe utilizar un modelo que
maneje el error de medición, y (c) las variables relevantes deben medirse en un momento en que se pueda capturar el
proceso causal.
La inferencia causal no es la única razón por la que un investigador puede optar por controlar una tercera variable.
Controlar una variable que comparte varianza con el resultado pero no con el predictor reducirá la cantidad de varianza
residual en el resultado, lo que, a su vez, disminuirá el error estándar del coeficiente de regresión estimado y aumentará
el poder estadístico.
Prácticas comunes: ¿Cómo eligen los investigadores típicamente las variables de control?
Por ejemplo, Meehl (1970) señaló que no se debe considerar automáticamente que las variables de control son
exógenas, y en cambio, los investigadores deben considerar la posibilidad de que otras variables importantes en el
modelo, ya sea el predictor o el resultado, puedan afectar a la variable de control. Además, otros han argumentado
que los investigadores deben explicar la teoría detrás de su decisión de incluir o excluir variables de control. Como
mostramos en las secciones siguientes, cuando el objetivo central de un análisis de regresión es aprender acerca de
un proceso, la única forma de calificar una variable como una buena variable de control es considerar el modelo causal
que conecta la variable de control, el predictor y el resultado. El control de la tercera variable puede eliminar o agregar
un sesgo sustancial a la estimación del efecto causal. En este sentido, presentamos un marco para la selección y
justificación fundamentada de las variables de control.
Un paso adelante, dos pasos atrás: controlar la variable incorrecta
Aunque es posible eliminar el sesgo de una estimación de una relación causal al controlar una variable de confusión,
también es fácil agregar sesgo a una estimación al controlar una variable que no es una variable de confusión o que no
bloquea una vía de confusión.
Confusor y bloqueador de confusión
Un confusor es una variable que es causa (directa o indirecta) tanto de X como de Y (ver Figura 3a). Al controlar un
confusor, se puede bloquear la vía de confusión que oculta el efecto causal de X en Y. Pero también es posible bloquear
la vía de confusión controlando cualquier otra variable que se encuentre en esa vía. Llamamos a esta variable un
bloqueador de confusión porque no es en sí misma un confusor, pero al controlarla, se bloquea la vía de confusión. En
las Figuras 3b y 3c, el confusor no está medido, pero al controlar C, un bloqueador de confusión, se elimina el sesgo de
la asociación.

Collider
Cuando dos variables comparten un efecto común, el efecto común se llama "collider" entre ese par de variables
(Figuras 3d y 3e). Controlar un collider inducirá una asociación espuria (es decir,no causal) entre las variables que son
causas del collider.
Una variable que es un collider para un par de variables que no sean el resultado y el predictor aún puede sesgar la
estimación causal objetivo. Debido a que controlar un collider induce una asociación espuria entre sus causas, esto
puede transformar una vía entre el predictor y el resultado de una vía que no transmite asociación a una que sí lo hace.
En la Figura 3e, C es un collider para X y U. Cuando no se controla C, la vía no causal de X a Y (X → C ← U → Y) no
transmite una asociación debido al tenedor invertido (X → C ← U). Pero controlar C induce una asociación espuria
entre X y U, y la nueva vía no causal de X a Y (X – U → Y, donde X – U denota una asociación espuria) ahora transmite
asociación, lo que resulta en una estimación causal sesgada.

Mediador
Un mediador es una variable que es causada por X y es causa de Y. Si un investigador está interesado en el efecto total
del predictor (X → Y más X → C → Y) en el resultado (en comparación con solo el efecto directo, X → Y), entonces
controlar un mediador socavará este esfuerzo al bloquear una vía causal de interés. Incluso si un investigador está
interesado solo en el efecto directo, controlar un mediador podría inducir sesgo si el mediador y el resultado
comparten una causa común (Figura 3g).

Proxy
Un proxy es causado por X y no tiene relación causal con Y (Figura 3h; Pearl, 2009).
Modelos más complicados y datos longitudinales
En la sección anterior, utilizamos estructuras causales simples para mostrar cómo surge el sesgo, pero a menudo, los
diagramas causales reales son más complicados. Por ejemplo, un efecto causal puede estar confundido por un gran
conjunto de variables, muchas de las cuales no están medidas. No es necesario medir todas las variables de confusión
si hay una variable más próxima a través de la cual muchas (o todas) las variables de confusión influyen en el resultado
o predictor. Controlar esta variable bloquearía todas las vías de confusión en las que funciona como mediador (entre
el confusor y el resultado o predictor) sin tener que medir o controlar las variables de confusión en sí mismas.
Otra situación complicada es cuando una variable de control potencial ocupa dos roles. Por ejemplo, una variable
puede actuar como un confusor entre dos otros constructos si se mide en un momento y como un mediador si se mide
en otro momento; sin embargo, no es necesariamente posible hacer esta distinción para la misma instancia del
predictor y el resultado (ver Cuadro 1). Debido a que el objetivo del control estadístico es eliminar un efecto de
confusión sin bloquear el efecto causal.
Los datos longitudinales, cuando se miden las mismas variables en múltiples ocasiones de medición en los mismos
individuos, proporcionan información sobre la temporalidad de las variables.

Discusión
En este artículo, hemos demostrado la importancia de seleccionar cuidadosamente las variables de control. En
particular, resaltamos cómo controlar la variable incorrecta puede llevar a resultados e interpretaciones menos
precisos que si no se hubieran controlado variables. Además, aclaramos que las asociaciones estadísticas no son una
justificación suficiente para seleccionar una variable de control, ya que estas asociaciones podrían surgir de diferentes
estructuras causales. Hay dos razones por las cuales la estructura causal es importante, incluso si el enfoque se centra
en la existencia, en lugar del peso, de un efecto causal. En primer lugar, controlar la variable incorrecta puede, en
algunas situaciones, eliminar por completo el efecto de interés.