Logo Studenta

C4 El Control Estadístico Requiere Justificación Causal

¡Estudia con miles de materiales!

Vista previa del material en texto

El Control Estadístico Requiere Justificación Causal 
El control estadístico puede conducir a estimaciones más precisas de un efecto causal (Pearl, 2009), pero solo cuando 
se controlan las variables adecuadas (Rohrer, 2018). Aunque el control de variables externas es una práctica común 
(Atinc et al., 2012; Bernerth & Aguinis, 2016; Breaugh, 2008), la selección de estas variables rara vez se justifica en 
términos causales. En este artículo, ilustramos que el control de una variable inapropiada puede resultar en 
estimaciones causales sesgadas. 
Una breve introducción a la inferencia causal 
La inferencia causal implica estimar la magnitud de los efectos causales dada una estructura causal asumida. Utilizamos 
la definición de causalidad de Pearl (1995), según la cual X es una causa de Y cuando una intervención en X (por 
ejemplo, estableciendo X en un valor particular) produce un cambio en Y. Un efecto causal, es decir, el aumento 
esperado en Y para una intervención de 1 unidad en X, se identifica cuando es posible obtener una estimación imparcial 
del efecto causal a partir de los datos. Sin embargo, la inferencia causal se basa en supuestos teóricos que provienen 
del conocimiento previo, además de la información estadística. 
Un Grafo Acíclico Dirigido (DAG) representa las relaciones causales hipotetizadas entre variables. En un DAG, una vía 
es una secuencia de flechas que conecta una variable con otra. Una vía que contiene dos variables transmitirá una 
asociación a menos que haya un tenedor invertido. 
En la Figura 1 (izquierda), X e Y están conectados por dos vías: X → Y y X → Z → V ← U → W → Y. La última vía no 
transmite asociación debido al tenedor invertido, Z → V ← U. Pero la vía X → Y sí transmite asociación, por lo tanto, 
esperamos que X e Y estén asociados en datos de muestra extraídos de una población representada por este grafo 
causal. 
 
Utilizamos "sesgo" para referirnos a la discrepancia entre un parámetro de la población y el efecto causal. En la Figura 
1 (derecha), hay dos vías que conectan X e Y y transmiten asociación. Crucialmente, una vía, X ← C → Y, no es causal, 
es decir, no forma parte del efecto causal de X sobre Y, por lo que manipular X no cambia C ni Y a través de C. Por lo 
tanto, la asociación entre X e Y es una estimación sesgada del efecto causal. En general, una causa común (es decir, un 
confundidor) de un predictor y un resultado resulta en una asociación sesgada para el efecto causal. Para eliminar este 
sesgo, la vía de causa común (en este caso, la vía a través de C) debe eliminarse de la asociación estimada. Esto se 
puede lograr a través de un diseño de investigación experimental en el que el predictor se aleatoriza. 
Por lo tanto, los psicólogos han tenido que encontrar otro método para bloquear las vías de confusión. Uno de esos 
métodos es el control estadístico, que se puede realizar mediante la regresión (McNamee, 2005). 
Regresión lineal y control estadístico 
En este enfoque, asumimos que todas las variables están estandarizadas (medias = 0, varianzas = 1). 
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε 
Conceptualmente, este enfoque es el equivalente estadístico de tomar una muestra de participantes que tienen el 
mismo valor en todas las variables predictoras, excepto una, y estimar la asociación entre esa única variable predictora 
y Y en la muestra. Por lo tanto, los coeficientes de regresión múltiple se conocen como coeficientes de regresión parcial 
porque representan la asociación aislada entre un solo X e Y cuando ninguno de los otros predictores está cambiando. 
El gráfico de dispersión en la izquierda muestra una fuerte asociación lineal entre X e Y. C está correlacionado con 
ambos X e Y, lo que plantea la posibilidad de que pueda ser un confundidor. El gráfico del medio muestra las líneas de 
regresión a nivel poblacional que se obtendrían si fuera posible calcular el coeficiente de regresión simple de Y sobre 
X para cada subpoblación con un valor fijo en C. 
 
El gráfico de la derecha muestra el enfoque estadístico para hacer esto, es decir, la asociación desconfundida entre X e 
Y. El eje x ahora representa los residuos que se obtienen cuando X se regresa en C, es decir, la parte de X que es 
independiente de C (X = β1C + X̂1). Cuando Y se regresa en este predictor residualizado, Y = β1X̂C + β2, hay poca relación 
restante entre X̂C e Y, y β2 es cercano a 0. Agregar la variable de control C a la regresión de Y sobre X, Y = β1X + β2C + 
ε3, es equivalente a regresar Y en el X residualizado: el valor de β2 es el mismo en ambas ecuaciones. 
Al controlar estadísticamente la variable correcta, se puede eliminar un efecto de confusión de una estimación, lo que 
convierte al control estadístico en una herramienta valiosa para los investigadores interesados en la inferencia causal 
y que tienen acceso a datos observacionales o cuasiexperimentales. Sin embargo, obtener una asociación no sesgada 
depende de varias suposiciones adicionales: (a) cualquier interacción o efecto no lineal debe especificarse 
correctamente, (b) las variables predictoras y de control deben medirse sin error o se debe utilizar un modelo que 
maneje el error de medición, y (c) las variables relevantes deben medirse en un momento en que se pueda capturar el 
proceso causal. 
La inferencia causal no es la única razón por la que un investigador puede optar por controlar una tercera variable. 
Controlar una variable que comparte varianza con el resultado pero no con el predictor reducirá la cantidad de varianza 
residual en el resultado, lo que, a su vez, disminuirá el error estándar del coeficiente de regresión estimado y aumentará 
el poder estadístico. 
Prácticas comunes: ¿Cómo eligen los investigadores típicamente las variables de control? 
Por ejemplo, Meehl (1970) señaló que no se debe considerar automáticamente que las variables de control son 
exógenas, y en cambio, los investigadores deben considerar la posibilidad de que otras variables importantes en el 
modelo, ya sea el predictor o el resultado, puedan afectar a la variable de control. Además, otros han argumentado 
que los investigadores deben explicar la teoría detrás de su decisión de incluir o excluir variables de control. Como 
mostramos en las secciones siguientes, cuando el objetivo central de un análisis de regresión es aprender acerca de 
un proceso, la única forma de calificar una variable como una buena variable de control es considerar el modelo causal 
que conecta la variable de control, el predictor y el resultado. El control de la tercera variable puede eliminar o agregar 
un sesgo sustancial a la estimación del efecto causal. En este sentido, presentamos un marco para la selección y 
justificación fundamentada de las variables de control. 
Un paso adelante, dos pasos atrás: controlar la variable incorrecta 
Aunque es posible eliminar el sesgo de una estimación de una relación causal al controlar una variable de confusión, 
también es fácil agregar sesgo a una estimación al controlar una variable que no es una variable de confusión o que no 
bloquea una vía de confusión. 
Confusor y bloqueador de confusión 
Un confusor es una variable que es causa (directa o indirecta) tanto de X como de Y (ver Figura 3a). Al controlar un 
confusor, se puede bloquear la vía de confusión que oculta el efecto causal de X en Y. Pero también es posible bloquear 
la vía de confusión controlando cualquier otra variable que se encuentre en esa vía. Llamamos a esta variable un 
bloqueador de confusión porque no es en sí misma un confusor, pero al controlarla, se bloquea la vía de confusión. En 
las Figuras 3b y 3c, el confusor no está medido, pero al controlar C, un bloqueador de confusión, se elimina el sesgo de 
la asociación. 
 
Collider 
Cuando dos variables comparten un efecto común, el efecto común se llama "collider" entre ese par de variables 
(Figuras 3d y 3e). Controlar un collider inducirá una asociación espuria (es decir,no causal) entre las variables que son 
causas del collider. 
Una variable que es un collider para un par de variables que no sean el resultado y el predictor aún puede sesgar la 
estimación causal objetivo. Debido a que controlar un collider induce una asociación espuria entre sus causas, esto 
puede transformar una vía entre el predictor y el resultado de una vía que no transmite asociación a una que sí lo hace. 
En la Figura 3e, C es un collider para X y U. Cuando no se controla C, la vía no causal de X a Y (X → C ← U → Y) no 
transmite una asociación debido al tenedor invertido (X → C ← U). Pero controlar C induce una asociación espuria 
entre X y U, y la nueva vía no causal de X a Y (X – U → Y, donde X – U denota una asociación espuria) ahora transmite 
asociación, lo que resulta en una estimación causal sesgada. 
 
Mediador 
Un mediador es una variable que es causada por X y es causa de Y. Si un investigador está interesado en el efecto total 
del predictor (X → Y más X → C → Y) en el resultado (en comparación con solo el efecto directo, X → Y), entonces 
controlar un mediador socavará este esfuerzo al bloquear una vía causal de interés. Incluso si un investigador está 
interesado solo en el efecto directo, controlar un mediador podría inducir sesgo si el mediador y el resultado 
comparten una causa común (Figura 3g). 
 
Proxy 
Un proxy es causado por X y no tiene relación causal con Y (Figura 3h; Pearl, 2009). 
Modelos más complicados y datos longitudinales 
En la sección anterior, utilizamos estructuras causales simples para mostrar cómo surge el sesgo, pero a menudo, los 
diagramas causales reales son más complicados. Por ejemplo, un efecto causal puede estar confundido por un gran 
conjunto de variables, muchas de las cuales no están medidas. No es necesario medir todas las variables de confusión 
si hay una variable más próxima a través de la cual muchas (o todas) las variables de confusión influyen en el resultado 
o predictor. Controlar esta variable bloquearía todas las vías de confusión en las que funciona como mediador (entre 
el confusor y el resultado o predictor) sin tener que medir o controlar las variables de confusión en sí mismas. 
Otra situación complicada es cuando una variable de control potencial ocupa dos roles. Por ejemplo, una variable 
puede actuar como un confusor entre dos otros constructos si se mide en un momento y como un mediador si se mide 
en otro momento; sin embargo, no es necesariamente posible hacer esta distinción para la misma instancia del 
predictor y el resultado (ver Cuadro 1). Debido a que el objetivo del control estadístico es eliminar un efecto de 
confusión sin bloquear el efecto causal. 
Los datos longitudinales, cuando se miden las mismas variables en múltiples ocasiones de medición en los mismos 
individuos, proporcionan información sobre la temporalidad de las variables. 
 
 
 
Discusión 
En este artículo, hemos demostrado la importancia de seleccionar cuidadosamente las variables de control. En 
particular, resaltamos cómo controlar la variable incorrecta puede llevar a resultados e interpretaciones menos 
precisos que si no se hubieran controlado variables. Además, aclaramos que las asociaciones estadísticas no son una 
justificación suficiente para seleccionar una variable de control, ya que estas asociaciones podrían surgir de diferentes 
estructuras causales. Hay dos razones por las cuales la estructura causal es importante, incluso si el enfoque se centra 
en la existencia, en lugar del peso, de un efecto causal. En primer lugar, controlar la variable incorrecta puede, en 
algunas situaciones, eliminar por completo el efecto de interés.

Continuar navegando