Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
El Control Estadístico Requiere Justificación Causal El control estadístico puede conducir a estimaciones más precisas de un efecto causal (Pearl, 2009), pero solo cuando se controlan las variables adecuadas (Rohrer, 2018). Aunque el control de variables externas es una práctica común (Atinc et al., 2012; Bernerth & Aguinis, 2016; Breaugh, 2008), la selección de estas variables rara vez se justifica en términos causales. En este artículo, ilustramos que el control de una variable inapropiada puede resultar en estimaciones causales sesgadas. Una breve introducción a la inferencia causal La inferencia causal implica estimar la magnitud de los efectos causales dada una estructura causal asumida. Utilizamos la definición de causalidad de Pearl (1995), según la cual X es una causa de Y cuando una intervención en X (por ejemplo, estableciendo X en un valor particular) produce un cambio en Y. Un efecto causal, es decir, el aumento esperado en Y para una intervención de 1 unidad en X, se identifica cuando es posible obtener una estimación imparcial del efecto causal a partir de los datos. Sin embargo, la inferencia causal se basa en supuestos teóricos que provienen del conocimiento previo, además de la información estadística. Un Grafo Acíclico Dirigido (DAG) representa las relaciones causales hipotetizadas entre variables. En un DAG, una vía es una secuencia de flechas que conecta una variable con otra. Una vía que contiene dos variables transmitirá una asociación a menos que haya un tenedor invertido. En la Figura 1 (izquierda), X e Y están conectados por dos vías: X → Y y X → Z → V ← U → W → Y. La última vía no transmite asociación debido al tenedor invertido, Z → V ← U. Pero la vía X → Y sí transmite asociación, por lo tanto, esperamos que X e Y estén asociados en datos de muestra extraídos de una población representada por este grafo causal. Utilizamos "sesgo" para referirnos a la discrepancia entre un parámetro de la población y el efecto causal. En la Figura 1 (derecha), hay dos vías que conectan X e Y y transmiten asociación. Crucialmente, una vía, X ← C → Y, no es causal, es decir, no forma parte del efecto causal de X sobre Y, por lo que manipular X no cambia C ni Y a través de C. Por lo tanto, la asociación entre X e Y es una estimación sesgada del efecto causal. En general, una causa común (es decir, un confundidor) de un predictor y un resultado resulta en una asociación sesgada para el efecto causal. Para eliminar este sesgo, la vía de causa común (en este caso, la vía a través de C) debe eliminarse de la asociación estimada. Esto se puede lograr a través de un diseño de investigación experimental en el que el predictor se aleatoriza. Por lo tanto, los psicólogos han tenido que encontrar otro método para bloquear las vías de confusión. Uno de esos métodos es el control estadístico, que se puede realizar mediante la regresión (McNamee, 2005). Regresión lineal y control estadístico En este enfoque, asumimos que todas las variables están estandarizadas (medias = 0, varianzas = 1). Y = β0 + β1X1 + β2X2 + ... + βpXp + ε Conceptualmente, este enfoque es el equivalente estadístico de tomar una muestra de participantes que tienen el mismo valor en todas las variables predictoras, excepto una, y estimar la asociación entre esa única variable predictora y Y en la muestra. Por lo tanto, los coeficientes de regresión múltiple se conocen como coeficientes de regresión parcial porque representan la asociación aislada entre un solo X e Y cuando ninguno de los otros predictores está cambiando. El gráfico de dispersión en la izquierda muestra una fuerte asociación lineal entre X e Y. C está correlacionado con ambos X e Y, lo que plantea la posibilidad de que pueda ser un confundidor. El gráfico del medio muestra las líneas de regresión a nivel poblacional que se obtendrían si fuera posible calcular el coeficiente de regresión simple de Y sobre X para cada subpoblación con un valor fijo en C. El gráfico de la derecha muestra el enfoque estadístico para hacer esto, es decir, la asociación desconfundida entre X e Y. El eje x ahora representa los residuos que se obtienen cuando X se regresa en C, es decir, la parte de X que es independiente de C (X = β1C + X̂1). Cuando Y se regresa en este predictor residualizado, Y = β1X̂C + β2, hay poca relación restante entre X̂C e Y, y β2 es cercano a 0. Agregar la variable de control C a la regresión de Y sobre X, Y = β1X + β2C + ε3, es equivalente a regresar Y en el X residualizado: el valor de β2 es el mismo en ambas ecuaciones. Al controlar estadísticamente la variable correcta, se puede eliminar un efecto de confusión de una estimación, lo que convierte al control estadístico en una herramienta valiosa para los investigadores interesados en la inferencia causal y que tienen acceso a datos observacionales o cuasiexperimentales. Sin embargo, obtener una asociación no sesgada depende de varias suposiciones adicionales: (a) cualquier interacción o efecto no lineal debe especificarse correctamente, (b) las variables predictoras y de control deben medirse sin error o se debe utilizar un modelo que maneje el error de medición, y (c) las variables relevantes deben medirse en un momento en que se pueda capturar el proceso causal. La inferencia causal no es la única razón por la que un investigador puede optar por controlar una tercera variable. Controlar una variable que comparte varianza con el resultado pero no con el predictor reducirá la cantidad de varianza residual en el resultado, lo que, a su vez, disminuirá el error estándar del coeficiente de regresión estimado y aumentará el poder estadístico. Prácticas comunes: ¿Cómo eligen los investigadores típicamente las variables de control? Por ejemplo, Meehl (1970) señaló que no se debe considerar automáticamente que las variables de control son exógenas, y en cambio, los investigadores deben considerar la posibilidad de que otras variables importantes en el modelo, ya sea el predictor o el resultado, puedan afectar a la variable de control. Además, otros han argumentado que los investigadores deben explicar la teoría detrás de su decisión de incluir o excluir variables de control. Como mostramos en las secciones siguientes, cuando el objetivo central de un análisis de regresión es aprender acerca de un proceso, la única forma de calificar una variable como una buena variable de control es considerar el modelo causal que conecta la variable de control, el predictor y el resultado. El control de la tercera variable puede eliminar o agregar un sesgo sustancial a la estimación del efecto causal. En este sentido, presentamos un marco para la selección y justificación fundamentada de las variables de control. Un paso adelante, dos pasos atrás: controlar la variable incorrecta Aunque es posible eliminar el sesgo de una estimación de una relación causal al controlar una variable de confusión, también es fácil agregar sesgo a una estimación al controlar una variable que no es una variable de confusión o que no bloquea una vía de confusión. Confusor y bloqueador de confusión Un confusor es una variable que es causa (directa o indirecta) tanto de X como de Y (ver Figura 3a). Al controlar un confusor, se puede bloquear la vía de confusión que oculta el efecto causal de X en Y. Pero también es posible bloquear la vía de confusión controlando cualquier otra variable que se encuentre en esa vía. Llamamos a esta variable un bloqueador de confusión porque no es en sí misma un confusor, pero al controlarla, se bloquea la vía de confusión. En las Figuras 3b y 3c, el confusor no está medido, pero al controlar C, un bloqueador de confusión, se elimina el sesgo de la asociación. Collider Cuando dos variables comparten un efecto común, el efecto común se llama "collider" entre ese par de variables (Figuras 3d y 3e). Controlar un collider inducirá una asociación espuria (es decir,no causal) entre las variables que son causas del collider. Una variable que es un collider para un par de variables que no sean el resultado y el predictor aún puede sesgar la estimación causal objetivo. Debido a que controlar un collider induce una asociación espuria entre sus causas, esto puede transformar una vía entre el predictor y el resultado de una vía que no transmite asociación a una que sí lo hace. En la Figura 3e, C es un collider para X y U. Cuando no se controla C, la vía no causal de X a Y (X → C ← U → Y) no transmite una asociación debido al tenedor invertido (X → C ← U). Pero controlar C induce una asociación espuria entre X y U, y la nueva vía no causal de X a Y (X – U → Y, donde X – U denota una asociación espuria) ahora transmite asociación, lo que resulta en una estimación causal sesgada. Mediador Un mediador es una variable que es causada por X y es causa de Y. Si un investigador está interesado en el efecto total del predictor (X → Y más X → C → Y) en el resultado (en comparación con solo el efecto directo, X → Y), entonces controlar un mediador socavará este esfuerzo al bloquear una vía causal de interés. Incluso si un investigador está interesado solo en el efecto directo, controlar un mediador podría inducir sesgo si el mediador y el resultado comparten una causa común (Figura 3g). Proxy Un proxy es causado por X y no tiene relación causal con Y (Figura 3h; Pearl, 2009). Modelos más complicados y datos longitudinales En la sección anterior, utilizamos estructuras causales simples para mostrar cómo surge el sesgo, pero a menudo, los diagramas causales reales son más complicados. Por ejemplo, un efecto causal puede estar confundido por un gran conjunto de variables, muchas de las cuales no están medidas. No es necesario medir todas las variables de confusión si hay una variable más próxima a través de la cual muchas (o todas) las variables de confusión influyen en el resultado o predictor. Controlar esta variable bloquearía todas las vías de confusión en las que funciona como mediador (entre el confusor y el resultado o predictor) sin tener que medir o controlar las variables de confusión en sí mismas. Otra situación complicada es cuando una variable de control potencial ocupa dos roles. Por ejemplo, una variable puede actuar como un confusor entre dos otros constructos si se mide en un momento y como un mediador si se mide en otro momento; sin embargo, no es necesariamente posible hacer esta distinción para la misma instancia del predictor y el resultado (ver Cuadro 1). Debido a que el objetivo del control estadístico es eliminar un efecto de confusión sin bloquear el efecto causal. Los datos longitudinales, cuando se miden las mismas variables en múltiples ocasiones de medición en los mismos individuos, proporcionan información sobre la temporalidad de las variables. Discusión En este artículo, hemos demostrado la importancia de seleccionar cuidadosamente las variables de control. En particular, resaltamos cómo controlar la variable incorrecta puede llevar a resultados e interpretaciones menos precisos que si no se hubieran controlado variables. Además, aclaramos que las asociaciones estadísticas no son una justificación suficiente para seleccionar una variable de control, ya que estas asociaciones podrían surgir de diferentes estructuras causales. Hay dos razones por las cuales la estructura causal es importante, incluso si el enfoque se centra en la existencia, en lugar del peso, de un efecto causal. En primer lugar, controlar la variable incorrecta puede, en algunas situaciones, eliminar por completo el efecto de interés.
Compartir