Logo Studenta

Cacheiro-Laura

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD DE BUENOS AIRES
Facultad de Ciencias Exactas y Naturales
Departamento de Matemática
Tesis de Licenciatura
Introducción a la Inferencia Causal
Laura Cacheiro
Directora: Dra Mariela Sued
Fecha de Presentación: 14 de Julio de 2011
A la memoria de Martha y Ricardo
AGRADECIMIENTOS
Gracias1a Marie, por \hacerme ver", por su paciencia, por sus sonrisas, por demostrar que se puede ser
inteligente, sencilla, sensible, y comprometida, por haber sido un punto de in
exi�on en mi carrera:
Gracias a Migue, por su amor, por no permitirme caer, por su entusiasmo contagioso, y todas sus en-
vidiables cualidades sin las cuales no hubiera podido..:
Gracias a mis solcitos Maria Azul y Manuela.
Gracias a Pati por las sugerencias y a Andrea Bergesio por las correcciones.
Gracias a todos los profesores, docentes auxiliares, que colaboraron en mi formaci�on. En particular,
gracias a los que mas in
uyeron: a Norberto Fava por sus clases perfectas y su trato siempre afectuoso;
a Ursula Molter por el fervor que mani�esta cuando explica y por hacerme el aguante, en los primeros
a~nos de mi carrera ; a Eduardo Dubuc por maravillarme con sus enfoques matem�aticos y a Gabo Mindlin
por abrir mi cabeza, que no es poco decir, hacia los sistemas din�amicos y el caos.
A Mariano De Leo, Juan Pablo Borgna y Daniela Rodriguez, por soportar mis imbancables \no me
sale", por atender mis consultas fuera de horario, entendiendo, lo dif��cil que es estudiar y trabajar:
A Pablo Solerno, por todo,todo,todo,todo,todo,todo,todo,todo,todo,todo,todo.
A Florencia Sember, por su apoyo, su cari~no, sus carpetas y sus libros:
A Mariana Mazz�on por todos los a~nos de amistad y vivencias compartidos.
A Mercedes Fernandez Sau2, Analia Lagorio, Enrique Di Rico, Andr�es Mu~noz, Laura Noni, Sebas
Sosa, Ale Weil, Anita Ferrari, Tato Alvarez, Jorge Endelli, por compartir el estudio, los apuntes, las
buenas ideas, el carnet de biblioteca, las malas ideas, las risas, los cafes, los bajones, las lapiceras, los
nervios. A Guillermo Herrmann, por sus sugerencias acerca de este trabajo y nuestras charlas.
A mis amigas: Ceci, por leer \esto" a pesar de no ser matem�atica, Lore y Amy, por estar siempre.
A mis compa~neros de Sinergia, por las horas ganadas pensando y tratando de hacer una facultad
un poquito mejor:
A los 28 dias anuales por examen del GCBA.
1 Esta palabra no transmite lo que me gustaría, no es el mismo gracias que digo
veinte veces al día; estos GRACIAS se escriben de la misma manera pero signi�can algo
muchísimo mas profundo, quizás una primera aproximación rockera podría ser GRACIAS
TOTALES.
2 mi socia :)
Índice general
1. Introducción 1
2. Efecto medio del tratamiento 3
2.1. Presentación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Experimentos y estudio observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. El modelo contrafactual o modelo causal de Rubin . . . . . . . . . . . . . . . . . . . . . 4
2.3.1. Falta de identi�cabilidad sin restricciones . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2. Asociación vs. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Identi�cabilidad I: Intercambiabilidad - Aleatorización . . . . . . . . . . . . . . . . . . 11
2.5. Identi�cabilidad II: Aleatorización Condicional . . . . . . . . . . . . . . . . . . . . . . . 13
2.6. Estudios observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7. El ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8. Perdemos la identi�cabilidad por condicionar de más . . . . . . . . . . . . . . . . . . . 20
2.9. Cotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3. DAG�s 24
3.1. Grafos: Algunas de�niciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2. Distribuciones compatibles con un DAG G
- La factorización Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3. Representacion DAG de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Métodos grá�cos
para estudiar independencias condicionales . . . . . . . . . . . . . . . . . . . . . . . . . 28
4. Modelo de ecuaciones estructurales (SEM) 31
4.1. Ecuaciones estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.1. Diagramas causales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2. Modelo de ecuaciones estructurales no paramétricas . . . . . . . . . . . . . . . . . . . . 32
4.3. Acerca de la notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4. Modelos intervenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5. Conexión entre contrafactuales y sem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.6. Back Door . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.6.1. Intervención alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Capítulo 1
Introducción
Este trabajo procura introducir y desarrollar algunos conceptos básicos en la inferencia causal.
Uno de los objetivos de la inferencia causal es identi�car parámetros asociados a distribuciones de
variables que no son observadas en todos los individuos de la población. Este hecho requiere de la
aplicación de herramientas desarrolladas en el contexto de datos faltantes.
La causalidad es un área de interés en diferentes disciplinas, se trata de un concepto �losó�co. Su
complejidad se debe a que procura establecer a�rmaciones sobre lo que no (necesariamente) sucedió, o
lo que hubiera pasado si alguna circunstancia hubiera sido diferente. Un concepto causal es una relación
que no puede ser de�nida a partir solamente de la distribución conjunta de las variables observadas.
Luego las relaciones causales requieren introducir variables que ayuden a conceptualizar el problema de
interés.
Si bien puede resultar di�cultoso dar de�niciones claras en términos coloquiales, la matemática
brinda un rico soporte para abordar estas preguntas de manera sistemática.
El objetivo del análisis estadístico estándar es inferir parámetros de una distribución, a partir de
muestras de la misma; estudiar asociaciones estadísticas, para lo cual utiliza típicamente probabilidad y
técnicas de estimación, pero no hace una interpretación causal de los resultados. Sin embargo, muchas
de las ciencias que utilizan la estadística vieron la necesidad de responderse preguntas de índole causal,
como :¿Cuál es la e�cacia de una droga en una población determinada ?¿Qué porcentaje de crímenes
del pasado podrían haberse evitado con una política determinada? ¿Hace la obtención de un título
universitario aumentar los ingresos de un individuo en el mercado laboral? Este es el tipo de preguntas
causales a las que procura dar respuesta la inferencia causal.
La causalidad trasciende la matemática, resultando de suma importancia en diversas áreas del
conocimiento. En particular, J.Robins en epidemiología, Heckman y C. Manski en economía, S.Morgan
y R.Berk en sociología son algunos autores que han brindado un desarrollo propio, enriqueciendo y
retroalimentando la causalidad. Cabe tambien mencionar a D.Lewis y W. Salmon dentro de la �losofía
y J Pearl dentro de la computación cientí�ca. En parte a esto se debe la variablidad notacional con la
que tendremos que lidiar en el presente trabajo.
Esta tesis está organizada de la siguiente manera.
Empezaremos en el Capítulo 2 por presentar un posible abordaje para estudiar efectos causales, in-
cluyendo la noción de respuestas potenciales (o contrafactuales) y las de�niciones matemáticas formales
necesarias para lograr dar solución a lo que llamaremos problema de �identi�cación�de los parámetros
causales. Se de�nen conceptos como aleatorización y aleatorización condicional y una interpretación
�artesanal�con matemática básicade estas ideas.
En el Capitulo 3 mostramos como las funciones de probabilidad pueden ser asociadas a grafos de
forma tal que condiciones de independencia o independencia condicional pueden ser deducidas mediante
1
CAPÍTULO 1. INTRODUCCIÓN 2
el estudio de caminos en el grafo. Se de�ne una noción de separación grá�ca (d-separación) entre nodos,
que está íntimamente ligada con la independencia de las variables aleatorias que estos representan.
En el Capítulo 4 se presenta el modelo de ecuaciones estructurales. Se de�nen los modelos intervenidos
que permiten construir las variables contrafactuales, en el sentido de�nido en el Capítulo 2. Se enuncia
el Teorema Back Door, que establece condiciones que indican como identi�car la distribución de las
variables contrafactuales. Por último, presentamos una manera alternativa para representar los sistemas
intervenidos y una nueva demostración del Teorema de Back Door, utilizando las herramientas grá�cas
introducidas en el Capítulo 3, cuando la intervención se realiza en un único nodo.
La mayor parte de la bibliografía estudiada para la elaboración de este trabajo se encuentra citada a
lo largo del mismo. También han resultado muy enriquecedoras las notas elaboradas por la Dra.Andrea
Rotnitzky para el Curso �Inferencia Causal�en el X Congreso Monteiro [22].
El material que se encuentra en la lista bibliográ�ca pero que no fue citado fue también consultado
para la confección de este trabajo.
A lo largo de los siguientes capítulos utilizaremos la siguiente notación: el símbolo
a
introducido
por Dawid [3] denotará independencia e independencia condicional de variables aleatorias:
X
a
Z denota la independencia entre las variables aleatorias X y Z (1.0.1)
X
a
Z j W denota la independencia entre X y Z condicional a la variable W (1.0.2)
Además si (X;Y ); (W;Z) son dos vectores aleatorios entonces
(X; Y ) s (W;Z) signi�cará que ambos vectores tiene la misma distribución. (1.0.3)
En muchos casos, las demostraciones presentadas se realzan para variables aleatorias discretas, con
el próposito de enfatizar en los conceptos dejando de lado (importantes) tecnicismos.
Capítulo 2
Efecto medio del tratamiento
2.1. Presentación del problema
Siguiendo el enfoque propuesto por Hernán y Robins en algunos de sus trabajos ([9],[11],[12]), comen-
zaremos presentando el siguiente ejemplo para ilustrar el problema que se ha de abordar.
Supongamos que un paciente que estaba en espera para un trasplante de corazón, recibió el 1 de
enero un corazón nuevo y cinco días más tarde murió. Imaginemos que de alguna manera podemos
saber, tal vez por revelación divina, que si no hubiera recibido el corazón el 1 de enero (y todas las
demás cuestiones de su vida se hubieran mantenido sin cambios) entonces hubiera estado vivo cinco
dias después. La mayoría de las personas que cuentan con esta información, estarían de acuerdo en que
el trasplante ha causado la muerte del paciente. La intervención tuvo un efecto causal en su sobrevida,
cinco dias después.
Ahora pensemos que otra paciente recibió un trasplante el 1 de enero y cinco dias después está viva.
Nuevamente imaginemos que podemos saber que si no hubiera recibido el corazón, igualmente seguiría
viva. En esta paciente, el trasplante no tiene un efecto causal en su sobrevida. Esto ilustra como trabaja
el razonamiento humano en la inferencia causal: comparamos (la mayoría de las veces mentalmente) el
resultado cuando una acción está presente con el resultado cuando la acción está ausente, y el resto de
los factores se mantienen inalterados. Si los dos resultados son diferentes decimos que la acción tuvo un
efecto causal sobre el resultado o respuesta en el individuo; de lo contrario decimos que no observamos
un efecto causal de la acción en el resultado de interés para ese individuo.
Identi�car efectos causales individuales excede nuestras posibilidades en la medida en la que no
podemos saber que es lo que hubiera ocurrido con un individuo si hubiera sido sometido a la acción
contraria a la que en el se ejerció. Esta limitación demanda un enfoque diferente, dejando de lado la
pregunta individual sobre el efecto causal de cierto tratamiento, para introducir el efecto medio del
mismo en toda la población. Es decir, siguiendo con el ejemplo precedente, nos interesará comparar el
porcentaje de sobrevida en hipotéticos escenarios donde (i)todos los pacientes sean transplantados o
(ii)ningún paciente lo sea.
Reformulada la pregunta de interés cientí�co (determinar el efecto medio del tratamiento), resta
decidir si la información disponible (variables observadas) resulta su�ciente para responder a esta nueva
inquietud. En este sentido presentaremos las diferentes condiciones experimentales que pueden dar origen
a los datos, y veremos bajo que condiciones podemos dar respuesta a la pregunta planteada.
3
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 4
2.2. Experimentos y estudio observacionales
Comenzaremos el abordaje de la problemática causal comentando brevemente la noción de dos im-
portantes conceptos: experimentos (o diseños experimentales controlados) y estudios observacionales.
Un experimento (ideal) es una investigación donde el sistema en estudio está bajo el control del inves-
tigador. Esto signi�ca que tanto las personas o material investigado, la naturaleza de los tratamientos
y la manera en la que estos son asignados, como así también las manipulaciones y los procedimientos
de medición utilizados son seleccionados por el investigador.
En cambio, en un estudio observacional algunas de estas características, y en particular la asignación
de los individuos a los grupos de diferentes tipos de tratamiento, se escapan del control del investigador.
El modelo contrafactual de causalidad es valioso precisamente porque ayuda a los investigadores
a estipular supuestos, evaluar técnicas alternativas de análisis de datos, y pensar cuidadosamente so-
bre el proceso de exposición. Parte de su éxito se debe a la posibilidad que brinda al analista para
conceptualizar los estudios observacionales como si fueran diseños experimentales controlados.
2.3. El modelo contrafactual o modelo causal de Rubin
El modelo causal de Rubin, también conocido como modelo de respuestas potenciales, consta de dos
elementos fundamentales: las respuestas potenciales y el mecanismo de asignación del tratamiento.
Para poder desarrollar estos conceptos, siguiendo la notación introducida por Holland [14], denotemos
con la letra U a la población que se pretende estudiar. Cada unidad-individuo en U es denotada por u.
Para cada u 2 U , hay asociado un valor Y (u) de la variable de interés Y , a la que llamaremos respuesta
observada. Además, se dispone de una segunda variable A de�nida en U cuyo valor en cada individuo
indica a que acción este ha sido sometido. A modo de ejemplo, consideremos que cada individuo puede
ser asignado a tratamiento o control. En tal caso, tendremos que A(u) = t cuando el individuo u recibe
tratamiento mientras que A(u) = c, caso contrario. Siguiendo el ejemplo presentado, podemos pensar
que el tratamiento consiste en transplantarle al paciente un nuevo corazón. La manera en la que se
determina el valor de A en cada individuo merece la siguiente de�nición.
De�nición 2.3.1. Mecanismo de asignación es el método por el cual se determina la acción 1 a la
que es sometido cada integrante de la población.
El par (A; Y ) denota al conjunto de variables factuales (u observadas). En cada individuo u, A(u) e
Y (u) indican el nivel de tratamiento al cual el individuo u fue sometido y la respuesta en él observada.
La idea clave para el desarrollo de la inferencia causal radica en la capacidad potencial para exponer
o no cada unidad a cierta acción y conceptualizar el valor de la variable respuesta de interés bajo cada
uno de las posibles acciones.
Es decir, cada unidad puede ser potencialmente expuesta a cualquiera de las posibles acciones. En
nuestro ejemplo, las posibles acciones consisten en ser tratado o no (t y c, respectivamente).Los valores
de la variable respuesta son potencialmente afectados por la acción, t o c, a la cual la unidad es expuesta.
Necesitamos entonces introducir una variable respuesta para cada posible acción: Yt(u); Yc(u).
De�nición 2.3.2. Respuestas potenciales o contrafactuales. Yt(u), denota el valor de la re-
spuesta que sería observada si la unidad u fuera expuesta a t mientras que Yc(u) es la respuesta que
observaríamos si la unidad u fuera sometida al nivel c. Yt, Yc reciben el nombre de respuestas potenciales
o contrafactuales.
1Llamaremos indistintamente: acción, tratamiento, exposición.
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 5
Esta presentación presupone que el valor de la variable respuesta en cada individuo sólo depende del
tratamiento al cual éste fue sometido, independientemente de lo que ocurra con el nivel de tratamiento
en los demás individuos de la población. Esta suposición se conoce en la literatura como SUTVA
(stable-unit-treatment-value assumption) [24], y será asumida a lo largo del presente trabajo.
El efecto de t respecto a c en la unidad u medido en la variable respuesta de interés puede expresarse
por
Yt(u)� Yc(u) : (2.3.1)
Ahora bien, "El problema fundamental de la inferencia causal"[14] radica en la imposibilidad de
observar los valores de Yt y de Yc en una misma unidad y, por consiguiente, no podemos observar efecto
de t respecto a c en la unidad u, dado por la fórmula (2.3.1). La propuesta estadística para sortear
esta di�cultad consiste en estudiar el efecto medio (a lo largo de la población) de t respecto de c en la
variable respuesta de interés, comparando
E[Yt] con E[Yc] :
Por ejemplo, podemos considerar como parámetro de interés causal el efecto medio del tratamiento
(ATE: Average Treatment E¤ect), dado por
ATE = E[Yt]� E[Yc] : (2.3.2)
El signo de esta diferencia indicaría que política adoptar a nivel poblaciónal. Siempre y cuando un
valor mayor de Y indique un bene�cio, ATE > 0 indica evidencias en favor del nivel de tratamiento t,
mientras que ATE = 0 indica la falta de efecto medio del tratamiento a nivel poblaciónal. Surge así la
siguiente de�nición.
De�nición 2.3.3. Diremos que hay un efecto causal del tratamiento en la variable respuesta de interés
si el efecto medio es diferente de cero:
E[Yt]� E[Yc] 6= 0 :
En general, un parámetro causal de interés es una cantidad que nos interesa conocer. El mismo se
de�ne en función de la pregunta del investigador. Nosotros, a modo de ejemplo, estudiaremos el efecto
medio del tratamiento, dado por (2.3.2).
Típicamente, el parámetro causal de interés es un valor que depende de la distribución de las variables
aleatorias contrafactuales. En este caso, la fórmula (2.3.2) depende de la distribución de las variables Yt
e Yc. La variable respuesta factual Y (respuesta observada) se relaciona con las variables contrafactuales
mediante la hipótesis de consistencia, que será asumida en lo que resta del trabajo.
Y (u) =
�
Yt(u) si A(u) = t,
Yc(u) si A(u) = c ;
Es decir,
Y = IA=tYt + IA=cYc ; (2.3.3)
Entonces Y puede ser de�nida en términos de Yt, Yc y de A. Para profundizar en este concepto, se puede
consultar la página 31 del trabajo de Hernan y Robins [12], como así también [1].
A modo de síntesis, consideremos la siguiente tabla (extraído de [18]), donde se ilustra como se rela-
cionan las variables observadas con las variables contrafactuales en los diferentes grupos de tratamiento.
Grupo Yt Yc
Tratamiento(A = t) observable como Y contrafactual
Control (A = c) contrafactual observable como Y
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 6
Los efectos causales individuales se de�nen dentro de las �las de la tabla comparando Yt e Yc en
cada individuo. Sin embargo, considerando que la variable Yt es faltante en cada individuo del grupo
control, resulta imposible el cálculo directo de los efectos causales a nivel individual sólo por medio de
las variables observadas. Es por ello que el objeto de estudio serán parámetros causales poblaciónales,
como por ejemplo el ATE. Surgen así los diferentes parámetros causales de interés.
Resta entonces determinar cuándo la distribución de las variables observadas (en nuestro ejemplo
(A; Y ) ) determina el parámetro causal de interés. De esto trata la identi�cabilidad.
De�nición 2.3.4. Identi�cabilidad: Si el parámetro causal de interés queda determinado mediante
la distribución de las variables observadas, decimos que el mismo está identi�cado.
En los capitulos siguientes nos abocaremos a establecer condiciones que garanticen la identi�cabili-
dad. Para identi�car el efecto medio causal, basta con que E[Yt] y E[Yc] queden determinadas a partir
de la distribución de las variables observadas (o factuales). Además, es deseable proveer una fórmula que
permita expresar el parámetro causal de interés a partir de la distribución de las variables observadas.
Estudiaremos en la próxima sección el problema de la indenti�cabilidad para el ejemplo que nos
concierne: determinar bajo que condiciones E[Yt] � E[Yc] queda determinado mediante la distribución
de (A; Y ).
Para �nalizar esta sección, presentaremos algunas preguntas causales abordadas en la bibliografía
mediante las herramientas que desarrollaremos en este trabajo.
Ejemplo 1: Escuelas públicas versus escuelas católicas. Consideraremos un ejemplo considerado por
Morgan [17] en el cual se pretende determinar si los estudiantes del último año de escuela secundaria que
asisten a la escuela católica en USA tienen mejor desempeño (puntuación) en la prueba de rendimiento
estandarizada que los estudiantes del último año de escuela secundaria que asisten a la escuela pública.
En este contexto, el modelo contrafactual presupone que los estudiantes tienen dos resultados posibles
en la prueba de rendimiento: uno que se observaría si fueran educados en la escuela católica y otro que
se observaría si fueran educados en escuela pública (vamos a suponer que en los efectos de aprendizaje
todas las católicas son iguales y los de las públicas también).
Se de�ne A la variable "tratamiento" siendo
A =
�
t si el estudiante asiste a escuela católica
c si el estudiante asiste a escuela pública.
La variable factual o respuesta observada está dada por
Y = puntaje obtenido por el estudiante en la prueba de rendimiento.
y se de�nen las respuestas (o variables) contrafactuales :
Yt = puntaje en la prueba de rendimiento del estudiante si asistiera a escuela católica,
Yc = puntaje en la prueba de rendimiento del estudiante si asistiera a escuela pública.
Recordemos que la hipótesis de consistencia establece que
Y = IA=tYt + IA=cYc:
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 7
Por lo tanto la distribución de la variable observada Y contiene sólo una parte de la información
de las variables contrafactuales y por ello sin hipótesis adicionales no es evidente que podamos usar las
variables observadas A e Y para hallar la distribución de Yt y de Yc:
En este ejemplo, E[Yt] representa la nota promedio en una situación hipotética en la que todos
los estudiantes concurren a escuela católica, mientras que E[Yc] representa la nota promedio en una
situación hipotética en la que todos los alumnos concurren a escuela pública. ATE > 0 sugeriría dejar
la educación secundaria en manos de escuelas católicas, mientras que ATE < 0 sería una evidencia en
favor de las escuelas públicas.
Ejemplo 2: Formación Laboral. Consideraremos el problema de estudiar el efecto causal de la
formación laboral de recursos humanos sobre los ingresos futuros, presentado en Heckman et al [8]. Para
ello, los posibles niveles de tratamiento están dados por
A =
�
t si el empleado participa en el programa de entrenamiento
c caso contrario.
(2.3.4)
La respuesta observada está dada por
Y = salario anual del empleado
mientras que las variables contrafactuales son:
Yt = ingreso anual en presencia del "tratamiento"(es decir, si es el empleado es entrenado),
Yc = ingreso anual en ausencia de entrenamiento.
En este ejemplo E[Yt] representa el valor promedio de ingresos anuales sitodos empleados partic-
iparan del programa de capacitación mientras que E[Yc] es el valor promedio de ingresos anuales si
ningún empleado fuera capacitado.
ATE > 0 estaría indicando que la capacitación genera un incremento en la media del salario anual
de los empleados.
Ejemplo 3: Efecto de un fármaco [26]. Supongamos que se desea estudiar el efecto de cierto fármaco,
según la dosis suministrada. A diferencia de los ejemplos tratados hasta el momento, en este caso para
cada posible valor x de la dosis del fármaco consideramos una variable respuesta potencial: Yx es la
respuesta que un sujeto tendría si recibiera la dosis x.
Denotemos por X a la dosis asignada a cada paciente. La variable respuesta Y puede ser binaria (por
ejemplo: si se alivia el dolor de cabeza a la hora de haber recibido la droga o no) o continua: escala (0 a
100) que mide el nivel del dolor de cabeza 1 hora despues de haber recibido el fármaco. Bajo el supuesto
de consistencia, la respuesta Y coincide con el valor de la variable contrafactual correspondiente a la
dosis asignada: si X(u) = x, entonces Y (u) = Yx(u). En otras palabras, tenemos que Y (u) = YX(u)(u),
para cada individuo u 2 U . Resumiremos esta notación poniendo
Y = YX :
En este caso, las respuestas contrafactuales se convierten en un proceso contrafactual
f(Yx) : x 2 R�0g :
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 8
Estudiar como varía E[Yx] en función de x resulta ser la pregunta causal de interés. Esta pregunta
excede el alcance de este trabajo, pero no queríamos dejar de presentar el ejemplo, invitando al lector
interesado a profundizar sus conocimientos en el tema.
Ejemplo 4: Trasplante de corazón. Supongamos que queremos saber el efecto causal de trasplantar
el corazón en la población de pacientes con cierta disfunción cardíaca. Imaginemos que, una vez detec-
tada la enfermedad, los pacientes pueden ser transplantados o no, en cuyo caso se los medicará. Nos
referiremos al trasplante como exposición mientras que hablaremos de control en alusión al tratamiento
farmacológico. Nos interesa estudiar la sobrevida dentro de los primeros seis meses, a partir del momento
en que se determinó la acción a ser aplicada en el paciente. Vamos a considerar la variable dicotómica
A, siguiendo con la notación de los ejemplos anteriores, siendo
A =
�
t si el paciente es trasplantado (expuesto, tratado)
c si el paciente no es trasplantado
(2.3.5)
y una variable de respuesta Y también dicotómica, dada por
Y =
�
1 si el paciente muere dentro de los seis meses,
0 caso contrario.
(2.3.6)
Las variables contrafactuales Yt e Yc toman valores en el conjunto f0; 1g y satisfacen
Yt = 1 si el paciente muere dentro de los seis meses (2.3.7)
habiendo sido transplantado (presencia del "tratamiento")
Yc = 1 si el paciente muere dentro de los seis meses (2.3.8)
sin haber sido transplantado.
De�nimos P (Yt = 1) como la proporción de sujetos que mueren dentro de los seis meses, si todos
los individuos fueran trasplantados. Llamamos riesgo de Ya, para a = t; c, a P (Ya = 1). Para variables
Bernoulli, la exposición tiene un efecto causal en la población si
P (Yt = 1) 6= P (Yc = 1) ;
indicando diferencias en el riesgo para los diferentes tratamientos.
Observación 2.3.1. Si la respuesta es binaria, ATE = P (Yt = 1)� P (Yc = 1)
2.3.1. Falta de identi�cabilidad sin restricciones
Demostraremos, mediante un ejemplo, que si no se hacen supuestos sobre la distribución conjun-
ta del tratamiento y las variables contrafactuales no es posible identi�car E[Yt], E[Yc] y tampoco
ATE = E[Yt] � E[Yc], a partir de la distribución de las variables observadas (A; Y ). Considerando
variables discretas. Para demostrar este hecho, debemos encontrar funciones de probabilidad puntual
para (Y 1t ; Y
1
c ; A
1) y (Y 2t ; Y
2
c ; A
2) de forma tal que
(Y 1; A1) � (Y 2; A2)
pero
ATE1 := E[Y 1t ]� E[Y 1c ] 6= ATE2 := E[Y 2t ]� E[Y 2c ] :
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 9
Notación 2.3.1. recordando lo expuesto en (1.0.3) (Y 1; A1) � (Y 2; A2) signi�cará que ambos vectores
tiene la misma distribución.
Construiremos un ejemplo de este fenómeno donde Y será una variable dicotómica, tomando los
valores 0 y 1, de forma tal que E[Y ja ] = P (Y
j
a = 1), para j = 1; 2, a = t; c. Consideremos la siguiente
función de probabilidad puntual para el vector (Y 1c ; Y
1
t ; A
1):
(Y 1c ; Y
1
t )
(0; 0) (0; 1) (1; 0) (1; 1)
A1 = c 0 1=4 1=4 0
A1 = t 1=4 0 0 1=4
Haciendo uso de la hipótesis de consistencia, la función de probabilidad puntual asociada a las
variables observadas (Y 1; A1) está dada por
A1 n Y 1 0 1
c 1=4 1=4
t 1=4 1=4
donde, por ejemplo,
P (Y 1 = 1; A1 = c) = P (Y 1c = 1; Y
1
t = 0; A
1 = c) + P (Y 1c = 1; Y
1
t = 1; A
1 = c) = 1=4 + 0 = 1=4
y en particular
P (Y 1t = 1) = P (Y
1
t = 1; A
1 = t) + P (Y 1t = 1; A
1 = c)
= P (Y 1c = 0; Y
1
t = 1; A
1 = t) + P (Y 1c = 1; Y
1
t = 1; A
1 = t)
+ P (Y 1c = 0; Y
1
t = 1; A
1 = c) + P (Y 1c = 1; Y
1
t = 1; A
1 = c)
= 0 + 1=4 + 1=4 + 0
= 1=2:
Ahora consideremos la siguiente función de probabilidad puntual para el vector (Y 2c ; Y
2
t ; A
2)
(Y 2c ; Y
2
t )
(0; 0) (0; 1) (1; 0) (1; 1)
A2 = c 0 1=4 0 1=4
A2 = t 0 1=4 1=4 0
Tenemos entonces que
A2 n Y 2 0 1
c 1=4 1=4
t 1=4 1=4
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 10
de donde concluímos que (Y 2; A2) la misma distribución que (Y 1; A1): (Y 2; A2) � (Y 1; A1).
Sin embargo,
P (Y 2t = 1) = P (Y
2
t ; A
2 = t) + P (Y 2t = 1; A
2 = c)
= P (Y 2c = 0; Y
2
t = 1; A
2 = t) + P (Y 2c = 1; Y
2
t = 1; A
2 = t)
+ P (Y 2c = 0; Y
2
t = 1; A
2 = c) + P (Y 2c = 1; Y
2
t = 1; A
2 = c)
= 1=4 + 0 + 1=4 + 1=4
= 3=4
con lo cual
P (Y 2t = 1) 6= P (Y 1t = 1):
Como nuestro objetivo es calcular el ATE, faltan calcular P (Y 1c = 1) y P (Y
2
c = 1):
P (Y 1c = 1) = P (Y
1
c = 1; A
1 = t) + P (Y 1c = 1; A
1 = c)
= P (Y 1c = 1; Y
1
t = 1; A
1 = t) + P (Y 1c = 1; Y
1
t = 0; A
1 = t)
+ P (Y 1c = 1; Y
1
t = 0; A
1 = c) + P (Y 1c = 1; Y
1
t = 1; A
1 = c)
= 1=4 + 0 + 1=4 + 0
= 1=2
y
P (Y 2c = 1) = P (Y
2
c = 1; A
2 = t) + P (Y 2c = 1; A
2 = c)
= P (Y 2c = 1; Y
2
t = 1; A
2 = t) + P (Y 2c = 1; Y
2
t = 0; A
2 = t)
+ P (Y 2c = 1; Y
2
t = 0; A
2 = c) + P (Y 2c = 1; Y
2
t = 1; A
2 = c)
= 0 + 1=4 + 0 + 1=4
= 1=2
de esta forma
�
ATE1 = P (Y 1t = 1)� P (Y 1c = 1) = 1=2� 1=2 = 0
ATE2 = P (Y 2t = 1)� P (Y 2c = 1)) = 3=4� 1=2 = 1=4
con lo cual
ATE1 6= ATE2 ;
tal como queríamos demostrar.
Como vemos, dos diferentes distribuciones contrafactuales generan la misma distribución de los datos
observados. Los datos observados no nos permiten deducir (identi�car) cual de las dos distribuciones de
variables contrafactuales consideradas produjo los datos observados.
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 11
2.3.2. Asociación vs. Causalidad
El principal objetivo de esta sección es discutir la diferencia entre medidas de asociación E[Y j A =
t] � E[Y j A = c] y medidas de efecto causal, como la que presentamos en este trabajo: E[Yt] � E[Yc].
Queremos entender que representan
E[Y j A = t]� E[Y j A = c] y E[Yt]� E[Yc] : (2.3.9)
Volviendo al ejemplo de la educación católica o pública, en el lado izquierdo de (2.3.9) estaríamos rep-
resentando la diferencia de las medias de las puntuaciones observadas en las pruebas de rendimiento en
dos subconjuntos disjuntos de la población: los que fueron a escuela católica y los que asistieron a escuela
pública, mientras que el lado derecho representaría la diferencia media de las variables contrafactuales
Ya para a = c; t en la población entera de interés.
De�nición 2.3.5. Si E[Y j A = t] � E[Y j A = c] 6= 0 decimos que la respuesta está asociada al
tratamiento.
En particular, si hay asociación, tenemos que Y j A = t 6� Y j A = c. La distribución de las variables
observadas permite determinar si éstas están o no asociadas, sin necesidad de ningún tipo de supuesto.
Sin embargo, nosotros queremos determinar causalidad, es decir, comparar los valores medios de las
variables contrafactuales, como lo indica la De�nición 2.3.3. Es por elloque queremos enfatizar en la
diferencia existente entre asociación y causalidad. En la próxima Sección veremos bajo qué condiciones
estos conceptos coinciden.
2.4. Identi�cabilidad I: Intercambiabilidad - Aleatorización
Aleatorización es un mecanismo de asignación de los tratamientos que garantiza que tratados y no
tratados conforman grupos intercambiables. Para lograr esto, el mecanismo por el cual se conforman
dichos grupos debe ser independiente del pronóstico de los individuos (o de los potenciales resultados).
En tal caso, toda variable aleatoria W se distribuye de igual forma entre tratados y no tratados:
W jA = c � W jA = t :
Para lograr esto, el mecanismo por el cual se conforman dichos grupos debe ser ajeno a los resultados
de los experimentos a los que se someten los individuos. En particular, las respuestas contrafactuales
tienen igual distribución en los grupos de�nidos por A = c y A = t, y por consiguiente, resultan
independientes del mecanismo de asignación del tratamiento. Surge entonces la siguiente de�nición.
De�nición 2.4.1. Diremos que se veri�can las condiciones de aleatorización si Ya es independiente de
A, para a = t; c. Siguiendo la notación introducida en (1.0.1)
Ya
a
A ; a = t; c :
En tal caso, decimos que tratados y no tratados conforman grupos intercambiables.
Una posibilidad consiste en utilizar una urna con bolitas con los nombres de los individuos y me-
diante extracciones a ciegas elegimos quien recibe el tratamiento. Este tipo de mecanismos generan
poblaciónes (tratados y controles) homogéneas, que resultan intercambiables. En tales circunstancias,
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 12
el grupo control respondería con la misma distribución que se observa en los tratados, caso ellos mismos
lo fueran. Esto nos permite predecir el comportamiento que el grupo control tendría en caso de que
hubiera sido tratado a través de los resultados observados en el grupo de tratado.
A modo de ejemplo, supongamos que tenemos una respuesta binaria, indicando éxito o fracaso.
Sea Nt la cantidad de individuos bajo tratamiento y Nc la cantidad individuos en el grupo control.
Denotemos con nt la cantidad de individuos bajo tratamiento que tuvieron repuesta satisfactoria. La
intercambiabilidad entre el grupo de tratados y el grupo control nos permite decir que que la proporción
de individuos no tratados que hubieran obtenido respuesta satisfactoria en caso de que hubieran sido
tratados coincide con la observada en los tratados y está dada por nt=Nt. Podemos entonces concluir
que
P (Yt = 1) =
nt +
nt
Nt
Nc
Nt +Nc
=
nt
Nt
= P (Y = 1 j A = t) :
Análogamente, si nc denota la cantidad de individuos dentro del grupo control que tuvieron respuesta
satisfactoria, tenemos que
P (Yc = 1) =
nc +
nc
Nc
Nt
Nt +Nc
=
nc
Nc
= P (Y = 1 j A = c) :
Veremos ahora como podemos generalizar esta idea a partir de la de�nición de aleatorización. En
el ejemplo precedente, resulto fundamental garantizar la presencia de individuos bajo cada nivel de
tratamiento que se pretende estudiar. Esta condición resultará fundamental para poder identi�car la
distribución de la correspondiente variable contrafactual. Surgen así las llamadas condiciones de posi-
tividad. En el presente contexto necesitamos individuos en el grupo tratamiento y en el grupo control.
Para ello, se requiere que 0 < P (A = a) < 1; a = t; c
Lema 2.4.1. Si 0 < P (A = t) < 1, bajo aleatorización, tenemos que
E[Ya] = E[Y j A = a] ; a = t; c :
Demostración. Bajo las condiciones del Lema, tenemos que
E[Y j A = a] = E[Ya j A = a] = E�[Ya]
La primer igualdad vale por consistencia (ecuación (2.3.3)) y la segunda vale por aleatorizacion.
Corolario 2.4.1. Bajo aleatorización, asociación es causalidad:
E[Yt]� E[Yc] = E[Y jA = t]� E[Y jA = c] :
Ejemplos de experimentos en lo que se veri�ca la condicion de aleatorización son aquellos donde para
cada individuo se lanza una misma moneda (no necesariamente equilibrada) para determinar si recibe
el tratamiento (A = t) o no (A = c). En tal caso, la probabilidad de recibir tratamiento t es la misma
para todos los individuos.
Observación 2.4.1. En (Y 1t ; Y
1
c ; A
1) de la Sección 2.3.1 vale la aleatorizacion, pues
P (Y 1t = 1 j A = c) = P (Y 1t = 1 j A = t)
P (Y 1c = 1 j A = c) = P (Y 1c = 1 j A = t)
Observación 2.4.2. En (Y 2t ; Y
2
c ; A
2) de la Sección 2.3.1 NO vale la aleatorizacion, pues
P (Y 2c = 1 j A = c) 6= P (Y 2c = 1 j A = t)
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 13
2.5. Identi�cabilidad II: Aleatorización Condicional
Consideremos un diseño experimental en el que la asignación de los individuos a los grupos se realiza
considerando una covariable 2 L (puede ser un vector) que podemos medir en todos los individuos y
que, en cada nivel de la covariable L = `, tratados y no tratados resultan intercambiables. En tales
circunstancias, hablamos de aleatorización condicional.
Volviendo al ejemplo de los trasplantes de corazón introducido en la página (8), supongamos que
los investigadores tienen medida la variable pronóstico L, que establece si los pacientes se encuentran
o no en condición crítica, según L = 1 o L = 0, respectivamente (L = 1 : cr�{tica; L = 0 : no cr�{tica).
Una vez medida esta covariable, podemos diferenciar dos grupos: los que tienen condición crítica y los
que no, es decir los de mal pronóstico y los de mejor. La variable L ocurre antes de la asignación del
tratamiento. Supongamos ahora que para cada nivel L = `, se lanza una moneda para conformar los
grupos tratamiento-control, siendo que la probabilidad con la que la moneda asigna al grupo tratamiento
depende de `. La ayuda de la moneda permite asumir que, para cada nivel L = `, tratados y no tratados
conforman grupos intercambiables y, por consiguiente, toda variable aleatoria tiene la misma distribución
en estos dos grupos. En particular, Yt e Yc satisfacen esta propiedad y por consiguiente
YajA = t; L = ` � YajA = c; L = ` ; para a = t; c.
De�nición 2.5.1. Diremos que se veri�can las condiciones de aleatorizacion condicional si Ya es inde-
pendiente de A dada la variable L, para a = t; c.
Ya
a
A j L:
Resta garantizar la presencia de individuos bajo el nivel de tratamiento que se pretende estudiar, en
cada nivel de la covariable L: determinar las condiciones de positividad. En el presente contexto, para
poder identi�car E[Yc] necesitamos garantizar que en cada nivel de L = ` existan personas que fueron
asignadas al grupo control: P (A = cjL = `) >, siempre que P (L = `) > 0.
El supuesto de intercambiabilidad condicional garantiza identi�cabilidad.
Lema 2.5.1. Supongamos que la variable respuesta, A y L son discretas. Si P (A = ajL = `) > 0 cada
vez que P (L = `) > 0, bajo aleatorización condicional y consistencia, tenemos que
P [Ya = y] =
X
`
P [Y = y j A = a; L = `]:P [L = `] (2.5.1)
y por consiguiente
E[Ya] =
X
y;`
y P [Y = y j A = a; L = `]:P [L = `]
queda determinada a partir de la distribución de las variables observadas. En particular, cuando la
respuesta es binaria, tenemos que
E[Ya] = P [Ya = 1] =
X
`
P [Y = 1 j A = a; L = `]:P [L = `] : (2.5.2)
2Referiremos a una covariable L como una variable aleatoria medible que no es ni tratamiento A ni respuestaY:
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 14
Demostración: P [Ya = y] =
X
`
P [Ya = y; L = `]
=
X
`
P [Ya = y j L = `]:P [L = `]
=
X
`
P [Ya = y j A = a; L = `]:P [L = `] aleatorización condicional
=
X
`
P [Y = y j A = a; L = `]:P [L = `] consistencia
Observemos que
X
`
P [Ya = 1; L = `] =
X
P (L=`)>0
P [Ya = y; L = `] y que para que (2.5.2) valga, es
necesario que P [A = a; L = `] > 0 cada vez que P (L = `) > 0:
El resultado precedente admite la siguiente generalización:
Lema 2.5.2. (Estandarización) Si P (A = ajL = `) > 0 cada vez que P (L = `) > 0, bajo aleatorización
condicional y consistemcia, tenemos que
E[Ya] = E[E[Y jA = a; L]] :
Demostración: E[Ya] = E[E[YajL]] propiedad
= E[E[YajA = a; L]] aleatorización condicional
= E[E[Y jA = a; L]] consistencia
Para justi�car la segunda igualdad espertinente observar que bajo aleatorización condicional
Ya
a
A j L = `)Yaj L = ` s Yaj L = `; A = a :
Corolario 2.5.1. Bajo aleatorización condicional , si 0 < P (A = tjL = `) < 1 cada vez que P (L =
`) > 0, tenemos que E[Yt] � E[Yc] queda determinado por la distribución de las variables observadas
(L;A; Y ):
E[Yt]� E[Yc] = E[E[Y jA = t; L]] -E[E[Y jA = c; L]]
Corolario 2.5.2. En particular si la respuesta es binaria y L y A son discretas se tiene:
E[Yt]� E[Yc] =
X
l
P [Y = 1 j A = t; L = `]:P [L = `] �
X
l
P [Y = 1 j A = c; L = `]:P [L = `] :
Lema 2.5.3. ( Ponderación con probabilidad inversa) Bajo aleatorización condicional, consistencia y
P (A = a j L = `) > 0 tenemos que
E[Ya] = E
�
IA=aY
P (A = a j L)
�
:
Demostración:
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 15
E[Ya] = E
�
P (A = a j L)Ya
P (A = a j L)
�
= E
�
P (A = a j Ya; L)Ya
P (A = a j L)
�
independencia condicional
= E
�
E(IA=a j Ya; L)
Ya
P (A = a j L)
�
esperanza = probabilidad de variable binaria
= E
�
E
�
IA=a
Ya
P (A = a j L) j Ya; L
��
propiedades de esperanza condicional
= E
�
IA=aYa
P (A = a j L)
�
esperanza de la esperanza
= E
�
IA=aY
P (A = a j L)
�
consistencia
Volvamos a un caso de población �nita.
Supongamos nuevamente que tenemos una respuesta binaria, indicando éxito o fracaso. Consideremos
las siguientes cantidades:
N : cantidad de personas en la población
N` : cantidad de personas en el nivel L = `
N`a : cantidad de personas en el nivel L = ` a la que se le aplica el nivel de tratamiento a
n`a : cantidad de personas del nivel L = ` y tratamiento a y que tuvieron respuesta positiva (éxito).
La intercambiabilidad condicional entre el grupo de tratados y el grupo control a nivel L = ` nos
permite decir que la proporción de individuos no tratados que hubieran obtenido respuesta satisfactoria
en caso de que hubieran sido tratados coincide con la observada en los tratados, a cada nivel L = ` es
decir, y está dada por n`t=N`t. Esto nos permite determina qué pasaría en la población si todos los indi-
viduos fueran tratados. Para ello, combinaremos los resultados observados en aquellos que efectivamente
han sido tratados e, intercambiabilidad condicional de por medio, predeciremos el comportamiento que
se hubiera observado en los no tratados, en caso de que hubieran sido tratados. Más especí�camente,
entre los individuos con L = `, N`;t han sido tratados y en n`;t el resultados fue positivo. La intercam-
biabilidad condicional indica que (n`;t=N`;t)% de los N`c hubieran tenido respuesta positiva, en caso de
que hubieran sido tratados. Por lo tanto, entre los individuos con L = `, tenemos que la cantidad de
éxitos que se observarían en caso de que toda la población fuera tratada está dada por
n`;t +
n`;t
N`t
N`c :
Sumando a lo largo de todos los niveles de la variable L, concluímos que
P (Yt = 1) =
1
N
X
`
�
n`t +
n`t
N`t
N`c
�
=
1
N
X
`
n`t
N`t
N` =
1
N
X
`
n`t
N`t=N`
(2.5.3)
La cantidad N`a
Nl
= P (A = a j L = `), para a = c; t, se conoce como Propensity Score, y utilizaremos
�a(`) para denotar P (A = a j L = `). Por lo tanto,
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 16
P (Yt = 1) =
1
N
X
`
n`t
�t(`)
:
Es decir, a cada individuo de la población con respuesta favorable y L = ` que ha recibido el nivel
de tratamiento t, se le asigna un peso inversamente proporcional al Propensity Score correspondiente a
su nivel `.
Notemos también que
P (Yt = 1) =
X
`
n`t
N`t
N`
N
=
X
`
P (Y = 1jL = `; A = t)P (L = `)
Obteniéndose nuevamente la fórmula dada en el Lema 2.5.1
2.6. Estudios observacionales
A diferencia de lo que ocurre en los experimentos, donde tratados y no tratados han sido asignados
según un diseño de�nido por el investigador (aleatorización, aleatorización condicional), en los estu-
dios observacionales el investigador no controla el mecanismo de asignación del tratamiento. En tales
circunstancias, para poder identi�car el parámetro causal de interés, hipótesis adicionales acerca de
la distribución de las variables contrafactuales son requeridas. A modo de ejemplo hemos visto en la
sección 2.3.1 que la no identi�cabilidad de los efectos causales en estudios observacionales proviene del
hecho que la distribución de los datos observados es consistente con diferentes valores del parámetro de
interés.
Típicamente, en estudios observacionales se trata de encontrar un conjunto de variables L de forma tal
que resulte razonable suponer que tratados y no tratados son condicionalmente intercambiables en cada
nivel de L. En tales circunstancias, supondremos que vale la aleatorización condicional y procederemos
a analizar los datos como si hubieran sido obtenidos siguiendo tal diseño. Los resultados obtenidos están
sujetos a la validez de esta suposición.
Cabe enfatizar que las hipótesis requeridas para identi�car no son testeables a partir de la distribución
de los datos observados. A modo de ejemplo, hemos viso que la distribución presentada en el ejemplo de la
Sección 2.3.1 para las variables observadas podría provenir de (A1; Y 1t ; Y
1
c ), donde vale la aleatorización,
o bien de (A2; Y 2t ; Y
2
c ), donde la aleatorización no es veri�cada. Este mismo tipo de di�cultad sufre la
condición de aleatorización condicional. Es por ello que resulta fundamental decidir con los expertos cual
es el conjunto de variables L a ser considerado para que la hipótesis de independencia condicional resulte
razonable y valga la identi�cabilidad. En tales circunstancias, decimos que no hay variables confusoras
no medidas. No hay confusión. Hay identi�cabilidad.
Decimos que hay confusión cuando otras variables, además de las incluídas en L, deben ser medidas
y condicionadas para lograr intercambiabilidad condicional.
2.7. El ejemplo
Profundizaremos ahora el Ejemplo 4, introducido en la Sección 2.3 del presente Capítulo, para ilustrar
los conceptos desarrollados en las últimas Secciones. Seguiremos los trabajos de Hernán [9] Hernán y
Robins[11]
Calcularemos efectos causales bajo tres posibles escenarios. En los primeros dos asumiremos que los
datos han sido obtenidos siguiendo un diseño de aleatorización y aleatorización condicional, respecti-
vamente. Por último, asumiremos que los datos provienen de un estudio observacional, estudiaremos el
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 17
supuesto de aleatorización condicional para poder identi�car el parámetro causal de interés y discutire-
mos por qué los supuestos que hacemos pueden ser controversiales en tales circunstancias.
Recordemos que en el Ejemplo 4, interesaba estudiar el efecto causal del trasplante de corazón en
la sobrevida de los pacientes con cierta disfunción cardíaca. Las variables A e Y fueron de�nidas en
(2.3.5) y (2.3.6), y representan el tratamiento asignado al paciente (t =trasplantado) y el resultado
obtenido: Y = 1 cuando el paciente muere antes de los seis meses. Las variables Yt e Yc toman el valor
1 si el paciente muere dentro de los seis meses, en el caso en que fuera trasplantado (Yt) o no (Yc) (ver
ecuaciones (2.3.7) y (2.3.8), respectivamente). Recordemos que la hipótesis de consistencia vincula estas
variables mediante la fórmula Y = IA=tYt + IA=cYc.
De�niremos P (Ya = 1) como el Riesgo de morir cuando a = t; c, y lo llamaremos riesgo contrafactu-
al. También de�niremos P (Y = 1 j A = a) que será el riesgo de morir observado entre los que recibieron
el tratamiento a, para a = t; c.
En este contexto una posible medida del efecto causal de interés es la llamada "diferencia de riesgo
causal" que, en presencia de respuestas binarias, coincide con el Average Treatment E¤ect: P (Yt =
1)� P (Yc = 1) = E[Yt]� E[Yc].
Diseño 1: Aleatorización no condicional. Consideremos la tabla 2.7.1
Id A Y
a c 0
b c 1
c c 0
d c 0
e t 0
f t 0
g t 0
h t 1
i c 1
j c 1
k c 0
l t 1
m t 1
n t 1
o t 1
p t 1
q t 1
r t 0
s t 0
t t 0
Tabla 2.7.1: Incluye los datos observados:A,Y
.
Supongamos que estos valores han sido obtenidos bajo aleatorización, es decir, los individuos a
ser transplantados han sido seleccionadosal azar. Bajo este diseño los expuestos y no expuestos son
intercambiables y, por consiguiente, el riesgo de mortalidad contrafactual bajo cada valor de exposición
(t ó c) es el mismo en los expuestos que en los no expuestos:
P (Ya = 1 j A = t) = P (Ya = 1 j A = c) ;
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 18
y por consiguiente,
P (Ya = 1) = P (Y = 1 j A = a) para a = c; t :
Considerando que estamos asumiendo que los datos presentados en la tabla se obtuvieron siguiendo
un diseño de experimento aleatorizado, vale al intercambiabilidad y, como vimos en la Sección 2.4, el
riesgo contrafactual P (Ya = 1) a nivel de exposicion a, para a = t; c, es igual al riesgo observado entre
los que recibieron ese mismo nivel de exposición: P (Ya = 1) = P (Y = 1 j A = a), para a = t; c.
La diferencia de riesgo observado entre los que recibieron diferentes niveles de exposición P (Y =
1 j A = t) � P (Y = 1 j A = c) es calculada de los datos disponibles para el par (A; Y ). De hecho,
observando la Tabla 2.7.1 , tenemos que P (Y = 1 j A = t)� P (Y = 1 j A = c) = 7=13� 3=7.
En síntesis, en un experimento realizado bajo estas condiciones, Ya qA asegura que se puede medir
el efecto causal medio del tratamiento a partir de la distribución del par (A; Y ) y por consiguiente, ATE
resulta identi�cable a partir de la distribución de las variables observadas. No hay confusión .
Diseño 2: Aleatorización condicional. Imaginemos ahora que los datos presentados en la tabla
2.7.1 provienen de la tabla 2.7.2, donde se incluye el valor de la variable pronóstico L en cada individuo,
siendo que la variable L toma el valor 1 si el individuo se encuentra en condición crítica.
L = Pronóstico =
�
1 si el sujeto tiene condición crítica,
0 caso contrario.
(2.7.1)
Id L A Y
a 0 c 0
b 0 c 1
c 0 c 0
d 0 c 0
e 0 t 0
f 0 t 0
g 0 t 0
h 0 t 1
i 1 c 1
j 1 c 1
k 1 c 0
l 1 t 1
m 1 t 1
n 1 t 1
o 1 t 1
p 1 t 1
q 1 t 1
r 1 t 0
s 1 t 0
t 1 t 0
Tabla 2.7.2: Incluye la variable pronóstico L.
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 19
Notemos que la distribución de L di�ere entre tratados y no tratados. De hecho, P (L = 1jA =
c) = 3=7 mientras que P (L = 1jA = t) = 9=13. Este hecho indica que tratados y no tratados NO son
intercambiables. Por consiguiente, el supuesto de aleatorización no es correcto y entonces el Diseño 1
(aleatorización) no ha sido aplicado.
Sin embargo, imaginemos que el investigador nos informa que en realidad la asignación de pacientes
a los grupos se realizó aleatorizando en cada nivel de la variable L. Es decir, los médicos clasi�caron a
todas las personas en condición crítica, y no crítica, y seleccionaron al azar 75% (9 de 12 ) (P (A = tjL =
1) = 9=12) de las personas críticas y 50%(4 de 8) de las no críticas para ser trasplantadas. Estaríamos
entonces en presencia de datos generados bajo aleatorización condicional. (Diseño 2).
En este caso, usando las fórmula presentadas en el Lema 2.5.1, concluímos que P (Yt = 1)� P (Yc =
1) = 0.
Observemos que un estudio con aleatorización condicional puede ser considerado como una combi-
nación de dos experimentos aleatorizados por separados: uno proveniente del subconjunto de personas
en estado crítico (L = 1) y el otro del subconjunto de personas en estado no crítico (L = 0).
Paradigma de los experimentos aleatorizados para estudios observacionales
Consideremos ahora un estudio en el cual los investigadores no intervienen en la asignación de
trasplante. Podemos entonces pensar que la Tabla 2.7.2 contiene los datos que ellos recogieron, como
ocurre en los estudios observacionales. La Tabla indica que A no ha sido aleatorizado ya que la variable
L se distribuye de manera diferente estre tratados y no tratados. Por lo tanto
Ya 6 qA, a = t; c
puesto que la variable L se distribuye de manera diferente entre tratados y no tratados. Sin embargo,
los expertos que decidieron a quien trasplantar, consideran razonable suponer que vale la aleatorización
condicional, condicionando en la variable pronóstico L. Es decir, si bien el tratamiento no ha sido
asignado según un protocolo donde se garantiza la aleatorización condicional, consideran que la manera
en que el tratamiento fue asignado podría ser asumida como tal. A modo de ejemplo, si L fuese la
única variable observada por los médicos al momento de asignar el tratamiento y el 50% de médicos
trasplanta cuando L = 0, mientras que el 75% lo hace cuando L = 1, no habría objeción en asumir que
vale la aleatorización condicional, con P (A = tjL = 0) = 1=2 mientras que P (A = tjL = 1) = 9=12
En los estudios observacionales esta decisión puede ser considerada practicamente un acto de fe. La
aleatorización condicional es una suposición que no puede ser refutada ni avalada a partir de los datos
disponibles. Asumirla es una determinación que se toma en forma conjunta con los expertos del área,
entendiendo que es lo que ésta signi�ca. Tenemos entonces que un estudio observacional, como el que
estamos considerando, puede ser visto como un experimento realizado bajo aleatorización condicional
en el cual
la intercambiabilidad condicional no está garantizada pero es asumida con la ayuda del conocimiento
de los expertos en el área.
Si la hipótesis de los investigadores acerca de la intercambiabildad condicional es correcta entonces el
riesgo causal puede ser identi�cado usando el método de estandarización (lema 2.5.2) o el de ponderación
con probabilidad inversa (lema 2.5.3).
Como ya se enfatizó, los investigadores no pueden chequear la hipótesis de aleatorización condi-
cional porque la respuesta contrafactual Ya no es completamente observada. Como resultado de esta
imposibildad, resulta controversial la inferencia causal en estudios observacionales.
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 20
2.8. Perdemos la identi�cabilidad por condicionar de más
En ocasiones al analizar un estudio observacional el investigador condiciona en todas las variables
disponibles, como un modo de controlar potenciales variables de confusión. Sin embargo, es fundamental
elegir apropiadamente el vector L para que la suposición de independencia condicional resulte razonable.
Agregar variables dentro del vector L no tiene por qué ayudar a obtener la independencia condicional.
Daremos ahora un ejemplo numérico donde
1. Vale la aleatorización: las variables contrafactuales son independientes de la asignación del tratamien-
to: Ya
`
A, para a = t; c y por consiguiente tenemos que E[Ya] = P (Y = 1jA = a):
2. Disponemos de una variables extra L y decidimos utilizarla para estandarizar y calcular ATE
siguiendo las fórmulas presentadas en 2.5.1, llegando a un resultado equivocado.
Este ejemplo pretende ilustrar que condicionar en variables que no son confusoras puede conducir a
conclusiones erradas. De aquí la importancia del conocimiento brindado por los especialistas a la hora
de elegir las covariables que vamos a medir para resolver nuestro problema de identi�cación.
Construyamos un ejemplo de esta situación, especi�cando la distribución conjunta de covariables,
variables contrafactuales y tratamiento: (A; Yt; Yc; L). Cabe enfatizar que este tipo de información nunca
está a disposición del investigador, quien únicamente puede aspirar a conocer la distribución conjunta
de las variables observadas (L;A; Y ). Consideremos la siguiente Tabla de probabilidad conjunta de
(A; Yt; Yc; L)
(Yt; Yc; L)
(0; 0; 0) (0; 1; 0) (0; 0; 1) (1; 0; 0) (1; 0; 1) (1; 1; 0) (0; 1; 1) (1; 1; 1)
A = t 0 0 0 0 0 1=9 2=9 0
A = c 0 4=9 0 0 0 0 0 2=9
Tabla 2.8.1: Probabilidades Puntuales de (A,Yt,Yc,L).
A partir de la Tabla 2.8.1 podemos obtener la distribución de las variables contrafactuales Yc e Yt,
de donde deducimos que
ATE = P (Yt = 1)� P (Yc = 1) = 1=3� 1:
Tenemos además que la función de probabilidad puntual del vector (L;A; Y ) está dada por
(Y; L)
(0; 0) (0; 1) (1; 0) (1; 1)
A = t 0 2=9 1=9 0
A = c 0 0 4=9 2=9
Tabla 2.8.2: Probablidades conjuntas de las variables observadas.
Marginalizando obtenemos que la función de probabilidad conjunta de (A; Yt; Yc) está dadapor:
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 21
(Yt; Yc)
(0; 0) (0; 1) (1; 0) (1; 1)
A = t 0 2=9 0 1=9
A = c 0 4=9 0 2=9
Tabla 2.8.3: Probabilidades puntuales de Tratamiento y Contrafactuales.
Tenemos entonces que se veri�ca la condición de aleatorización: Ya
`
A para a = t; c. Utilizando la
tabla observada 2.8.2, constatamos que
ATE = P (Yt = 1)� P (Yc = 1) = P (Y = 1jA = t)� P (Y = 1jA = c) :
Por otra parte, tenemos que
(Yt; L)
(0; 0) (0; 1) (1; 0) (1; 1)
A = t 0 2=9 1=9 0
A = c 4=9 0 0 2=9
Notemos que P (Yt = 1jA = t; L = 0) 6= P (Yt = 1jA = c; L = 0) (el lado izquierdo es 1 y el derecho
es 0), y P (Yt = 1jA = t; L = 1) 6= P (Yt = 1jA = c; L = 1) (el lado izquierdo es 0 y el lado derecho es 1),
y por consiguiente, no se veri�ca la aleatorización condicional respecto de la variable L. Sin embargo,
si cometiéramos el error de asumir esta condición y utilizarámos la fórmula presentada en el Corolario
2.5.1 con la información disponible en la tabla observada, obtenemos queX
`
P (Y = 1jA = t; L = `)P (L = `)�
X
`
P (Y = 1jA = c; L = `)P (L = `) = 5=9� 1:
El valor obtenido no coincide con ATE, pues 1=3� 1 6= 5=9� 1.
Conclusión 2.8.1. En el ejemplo que consideramos, las respuestas contrafactuales son independientes
del nivel de tratamiento: Ya
`
A, para a = t; c y por consiguiente P (Yt = 1) � P (Yc = 1) = P (Y =
1jA = t)�P (Y = 1jA = c). Sin embargo, el hecho de condicionar (o ajustar ) en la variable L, NO nos
proporciona independencia condicional entre el tratamiento y las repuestas contrafactuales.Utilizar las
fórmulas propuestas para identi�car asumiendo independencia condicional puede conducir a conclusiones
erradas.
Para �nalizar la presente Sección, queremos mencionar que con la Tabla observada (2.8.2) podemos
veri�car las suposiciones relacionadas con la positividad: 0 < P (A = t) < 1 o bien 0 < P (A =
tjL = `) < 1, cuando P (L = `), según trabajemos bajo aleatorización o aleatorización condicional,
respectivamente. Sin embargo, no podemos veri�car el supuesto de aleatorización ni el de aleatorización
condicional. Es por ello que en estudios observacionales, donde se desconoce el mecanismo de asignación
del tratamiento pero se necesita asumir algún tipo de aleatorización para garantizar la identi�cabilidad,
la determinación del vector L debe realizarse con la ayuda del experto puesto que no son los datos quienes
permiten dilucidar este tipo de inquietudes. Estudiaremos en el próximo Capítulo una propuesta grá�ca
para saber en qué variables debemos condicionar (o ajustar).
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 22
2.9. Cotas
¿Qué sucede si no podemos identi�car el parámetro causal de interés a partir de la distribución
de las variables observadas? En tal caso procuraremos dar cotas para el mismo. Volviendo al ejemplo
que estamos considerando en este trabajo, si mayores valores de la variable respuesta indican mejor
condición, cuando la cota inferior que obtenemos para ATE es positiva, tendremos evidencias a favor
del tratamiento, por más que no podamos determinar el valor exacto de ATE. Mas aún, podemos
garantizar que hay un efecto medio del tratamiento, según la De�nición 2.3.3.
A continuación mostraremos como podemos acotar el efecto medio del tratamiento. Haremos un
abordaje algo so�sticado para el problema que queremos tratar con la intención de ilustrar cuáles son
las herramientas con las que se pueden trabajar en otras situaciones.
Teorema 2.9.1. Sea Y una variable con distribución Bernoulli. Sea q la distribución de las variables
observadas (A; Y ), de forma tal que
AnY 0 1
t q1 q2
c q3 q4
Tenemos entonces que
�q1 � q4 � E[Yt]� E[Yc] � q2 + q3 :
Demostración: Denotemos conMk al simplex de dimensión k:
Mk =
(
x = (x1; x2; : : : ; xk) : xi � 0;
kX
i=1
xi = 1
)
:
La variable A toma valores en el conjunto fc; tg mientras que las respuestas contrafactuales Yt; Yc toman
valores en f0; 1g. Cada posible función de probabilidad puntual para (A; Yt; Yc) puede identi�carse con
un elemento enM8. Para �jar notación, consideremos la Tabla 2.9.1
(Yt; Yc)
(0; 0) (0; 1) (1; 0) (1; 1)
A = t x1 x2 x3 x4
A = c x5 x6 x7 x8
Tabla 2.9.1: Tabla de probabilidad puntual de A y las variables contrafactuales
Sea Lmg la aplicación que a cada elemento x 2 M8 le asigna la función de probabilidad puntual del
par (A; Y ), siendo Y = YtIA=t + YcIA=c cuando (A; Yt; Yc) � x
Lmg :M8 �!M4
Lmg(x) � (A; Y ); si (A; Yt; Yc) � x
de forma que la distribución puntual de las variables observadas está dada por la Tabla 2.9.2
CAPÍTULO 2. EFECTO MEDIO DEL TRATAMIENTO 23
AnY 0 1
t x1 + x2 x3 + x4
c x5 + x7 x6 + x8
Tabla 2.9.2: Probabilidad puntual observada
Consideremos ahora la aplicación
Lcaus :M8 �! R
Lcaus(x) = E[Yt]� E[Yc]; si (A; Yt; Yc) � x
Con los datos de la Tabla 2.9.1 podemos calcular las probabilidades P (Yt = 1); P (Yc = 1). Por
ejemplo
P (Yt = 1) =
P (A = t; Yt = 1; Yc = 0) + P (A = t; Yt = 1; Yc = 1)
+ P (A = c; Yt = 1; Yc = 0) + P (A = c; Yt = 1; Yc = 1)
�
= x3 + x4 + x7 + x8
De la misma forma calculamos P (Yc = 1) = x6 + x8 + x2 + x4 y con esto ya tenemos una fórmula
para Lcaus(x) = x3 + x7 � x2 � x6. Consideremos q 2 M4, la función de probabilidad puntual para las
variables observadas
AnY 0 1
t q1 q2
c q3 q4
Calculemos
m(q) = m�{nx2M8:Lmg(x)=qLcaus(x)
M(q) = m�axx2M8:Lmg(x)=qLcaus(x)
Empecemos calculando el máximo, queremos hacer máximo la siguiente expresión x3 + x7� x2� x6
con las siguientes restricciones
8>><>>:
x1 + x2 = q1
x3 + x4 = q2
x5 + x7 = q3
x6 + x8 = q4
:
Podemos hacer x2 = x6 = 0 que es el valor menor que pueden tomar. Ahora si pensamos en hacer
max los valores de x3 y x7, de acuerdo con las restricciones necesitamos x7 = q3 y x3 = q2, con lo cual
M(q) = m�axx2M8:Lmg(x)=qLcaus(x) = q2 + q3:
Con la misma idea ahora buscamos obtener el mínimo de x3 + x7 � x2 � x6, sujeto a las condiciones ya
mencionadas, obteniendose x2 = q1 y x6 = q4, con lo cual
m(q) = m�{nx2M8:Lmg(x)=qLcaus(x) = �q1 � q4:
De esta forma podemos acotar como se deseaba:
m(q) � Lcaus(x) �M(q) ;8x : Lmg(x) = q
�q1�q4� Lcaus(x) � q2+q3 ;8x : Lmg(x) = q :
Capítulo 3
DAG�s
Las funciones de probabilidad pueden ser asociadas a grafos de forma tal que condiciones de in-
dependencia o independencia condicional, como las requeridas para garantizar la identi�cabilidad de
parámetros causales, pueden ser veri�cadas utilizando herramientas de esta teoría.
3.1. Grafos: Algunas de�niciones
Un grafo G = (V;E) se de�ne por medio de un conjunto V �nito de vértices o nodos y un conjunto
E � V � V de aristas que conectan los vértices. En nuestras aplicaciones los vértices representarán
variables aleatorias y las aristas indicarán relaciones entre estas. Dos vértices que se conectan por una
arista serán llamados adyacentes. Cuando (u; v) 2 E pero (v; u) =2 E escribimos u ! v ( ó v u) y
decimos que la arista es dirigida o que hay una �echa (dirigida) de u a v. En este caso diremos que u es
padre de v y v es hijo de u. El conjunto de padres de u se nota paG(v) . Además, si W � V se defne el
conjunto de padres de W siendo
paG(W ) = [v2WpaG(v): (3.1.1)
De�nición 3.1.1. Sea G = (V;E) un grafo. Si todas las aristas en E son dirigidas diremos que G es
un grafo dirigido.
Un camino es una sucesión de nodos adyacentes. Por ejemplo, un camino de v a w está dado
por (v1; v2); (v2; v3); (v3; v4):::(vn�1; vn), con v1 = v, v=w, siendo que (vi; vi+1) o (vi+1; vi) es una arista
en el grafo. Por lo general, indicamos el camino mediante el conjunto de vértices que este une y lo
denotaremos poniendo v $ w.
Un camino dirigido es una sucesión de �echas dirigidas, de forma tal que cada una empieza con
el vértice con el cual termina la �echa precedente. Por ejemplo, un camino dirigido de v a w está
dado por (v1; v2); (v2; v3); (v3; v4):::(vn�1; vn), con v1 = v, v=w, de forma tal que (vi; vi+1) es una �echa
dirigida en el grafo. Por lo general, indicamos el camino mediante el conjunto de vértices que este une:
v1; v2; v3; v4; : : : ; vn�1; vn. La existencia de un camino dirigido de v a w se denota conv 7! w y decimos
que v es un antecesor o ancestro de w, mientras que w se dice un descendiente de v. El conjunto
de antecesores de v lo escribimos anG(v), al de descendientes deG(v). Estas de�niciones también se
extienden a conjuntos de nodos, tomando uniones, como en (3.1.1) Por ejemplo,
anG(Z) = [z2ZanG(z): (3.1.2)
Notemos que
v 2 anG(W ) , deG(v) \W 6= ; :
24
CAPÍTULO 3. DAG�S 25
De�nición 3.1.2. Diremos que un grafo dirigido G = (V;E) es acíclico si para todo v 2 V no existe
camino dirigido de v a v. En tal caso, diremos que G en un grafo dirigido acíclico (DAG: directed acyclic
graph).
3.2. Distribuciones compatibles con un DAG G
- La factorización Markov
Sea N el cardinal de V . Etiquetemos el conjunto de nodos de manera compatible con el grafo G:
V = fv1; v2; : : : ; vNg donde
anG(vi) � fv1; : : : ; vi�1g :
De�nición 3.2.1. Sea (Xv1 ; : : : ; XvN ) un vector aleatorio, indexado mediante los nodos de G, con
función de probabilidad conjunta P . Diremos que la distribución P es compatible con el grafo G si la
distribución de la variable Xvj condicional a fXvi : i � jg coincide con la distribución que se obtiene al
condicionar en las variables correspondientes a los padres del nodo vj:
Xvj j fXvi ; i � j � 1g � Xvj j fXvi : vi 2 paG(vj)g : (3.2.1)
Cuando resulte conveniente, supondremos que las variables aleatorias son discretas, para poder
enfatizar los conceptos y dejar de lado los formalismos requeridos para generalizar estas ideas. De
hecho, cuando las variables son discretas, la condición 3.2.1 puede ser escrita como
P (Xvj = xjjXvi = xj; i � j � 1) = P
�
Xvj = xjjXvi = xi; i : vi 2 paG(vj)
�
(3.2.2)
siempre que las probabilidades condicionales estén bien de�nidas.
Ejemplo 3.2.1. Sea G el grafo
v1 ! v2 ! � � � ! vN�1 ! vN
Dada la de�nición precedente, tenemos que la distribución del vector (Xv1 ; : : : ; XvN ) es compatible con
G si para i � 2 se veri�ca que
P
�
Xvi = xijXvj = xj; j � i
�
= P
�
Xvi = xijXvi�1 = xi�1
�
: (3.2.3)
Es decir, las distribuciones compatibles con G son aquellas correspondientes a cadenas de Markov �nitas.
En adelante utilizaremos P (xi1 ; : : : ; xik) para denotar P (Xvi1 = xi1 ; : : : ; Xvik = xik). Mas general-
mente, utilizaremos P (xijxs; s 2 S) para P (Xvi = xijXvs = xs; s 2 S), siendo S � f1; : : : ; Ng.
La regla multiplicativa de la probabilidad nos permite descomponer a P como un producto de N
distribuciones condicionales, siempre que éstas estén bien de�nidas, según la siguiente fórmula
P (x1; x2; : : : ; xN) =
Y
j
P (xj j x1; x2; : : : ; xj�1):
Si la distribución P es compatible con el grafo G, cada uno de estos factores coincide con
P (xj j x1; x2; : : : ; xj�1) = P (xj j xi : vi 2 paG(vj))
Queda entonces probado el siguiente resultado.
CAPÍTULO 3. DAG�S 26
Lema 3.2.1. La distribución P del vector aleatorio (Xv1 ; : : : ; XvN ) es compatible con el grafo G si
admite la siguiente descomposición
P (x1; x2; : : : ; xN) =
NY
j=1
P (xj j xi : vi 2 paG(vj)) : (3.2.4)
Ejemplo 3.2.2. El siguiente DAG con nodos fv1; v2; v3; v4; v5g
Figura 3.2.1: Los nodos Vi estan asociados a las variables XVi
induce la descomposición P (x1; x2;; x3; x4; x5) = P (x1)P (x2 j x1)P (x3 j x1)P (x4 j x2; x3)P (x5 j x4)
De�nición 3.2.2. Compatibilidad Markov: Si una función de probabilidad P admite una descomposi-
ción como en 3.2.4 con respecto al DAG G, decimos que G representa a P , que G y P son compatibles
o que P es Markov relativo a G. En tal caso, diremos que (3.2.4) es la descomposición markoviana de
P .
Daremos a continuación una forma sistemática de construir distribuciones compatibles con un grafo
G. Para comenzar, notemos que en el libro Acoplamiento e processos Estocásticos, Ferrari y Galves [5]
de�nen a (X1; X2; : : : ) siendo una cadena de Markov con espacio de estados E si existe una función
F : E � [0; 1]! E tal que para todo n � 2
Xi = F (Xi�1; Ui) ;
con U1; U2; : : : ; variables aleatorias independientes con distribución Ui � U [0; 1]. En tal caso, tenemos
que
P (Xi = xijXj = xj; j � i� 1) = P (Xi = xijXi�1 = xi�1) = P (F (xi�1; Ui) = xi) : (3.2.5)
Tenemos entonces que (X1; X2; : : : ) es además una cadena de Markov homogénea. De hecho, si utilizamos
funciones Fi se preserva la propiedad Markoviana: sea Fi : E � [0; 1]! E y (X1; X2; : : : ) satisfaciendo
Xi = Fi(Xi�1; Ui) ;
CAPÍTULO 3. DAG�S 27
con U1; U2; : : : ; i.i.d., Ui � U [0; 1]. Luego (X1; X2; : : : ) satisface la propiedad (3.2.5) con Fi en lugar de
F . Acabamos de dar una manera de construir distribuciones compatibles con el DAG presentado en el
Ejemplo 3.2.1. El siguiente resultado prueba que toda distribución compatible con un DAG G puede ser
construída de esta manera.
Teorema 3.2.1. Sea (Xv1 ; : : : ; XvN ) � P , siendo P una distribución compatible con G. Entonces,
existen funciones Hi(u; xj : vj 2 paG(vi)), con 0 � u � 1, y variables Ui � U [0; 1], 1 � i � n,
independientes de forma tal que las variables X̂i de�nidas mediante la recurrencia
X̂vi := Hi(Ui; X̂vj : vj 2 paG(vi)) ; (3.2.6)
forman un vector con distribución P : (X̂1; : : : ; X̂N) � P . Mas aún, todo vector construido mediante
una recurrencia de la forma (3.2.6) y variables fUi : vi 2 V g independientes, tiene una distribución
compatible con G.
Demostración: Sea Ri � R el espacio donde toma valores la variable Xvi (en el ejemplo de cadenas
de Markov (3.2.1), Ri = E para todo i). Las funciones Hi pueden ser consideradas
Hi : [0; 1]�
O
vj2paG(vi)
Rj ! Ri :
Para construir las funciones Hi, consideremos la factorización de Markov dada en (3.2.4). Para
cada i, para cada fxj : vj 2 paG(vi)g con P (\vj2paG(vi)Xvj = xj) > 0, tenemos una distribución
Pi(� j xj : vj 2 paG(vi)) en el espacio Ri de�nida por
Pi (x j xj : vj 2 paG(vi)) = P
�
Xvi = x j Xvj = xj : vj 2 paG(vi)
�
:
Denotemos por Hi(u; xj : vj 2 paG(vi)) a la función inversa generalizada de esta distribución, de
forma tal que si U � U [0; 1],
Hi(U; xj : vj 2 paG(vi)) � Pi( � j xj : vj 2 paG(vi)) : (3.2.7)
Sean fUi : 1 � i � Ng i.i.d., Ui � U [0; 1]. Utilizando las funciones fHi : 1 � i � Ng construimos en
forma recursiva variables aleatorias ~Xi de la siguiente manera
X̂i = Hi(Ui; X̂j : vj 2 paG(vi)) :
Las independencia de las variables Ui y (3.2.7) garantizan que el vector (X̂1; : : : ; X̂N) tiene misma
distribución que (X1; : : : ; XN):
P
�
X̂i = xi j X̂j = xj : j � n� 1
�
= P
�
Hi(Ui; xj : vj 2 paG(vi)) = xi j X̂j = xj : j � n� 1
�
=
= P (Hi(Ui; xj : vj 2 paG(vi)) = xi) = Pi(xi j xj : vj 2 paG(vi)) =
= P
�
Xvi = xi j Xvj = xj : vj 2 paG(vi)
�
:
CAPÍTULO 3. DAG�S 28
3.3. Representacion DAG de una distribución
Sea (X1; X2; X3; :::; XN) un vector aleatorio con función de probabilidad P . Vamos a construir un
grafo GP de forma tal que la distribución P resulte compatible con GP . Por cada variable Xi pondremos
un nodo vi. Para construir el conjunto de �echas, estudiaremos la factorización de P . Notemos que
P (x1; x2; : : : ; xn) =
Y
j
P (xj j x1; x2; : : : ; xj�1):
Supongamos ahora que la distribución de la variableXj condicional a sus antecesores (X1; : : : ; Xj�1),
depende sólo de un subconjunto de ellos, que denotaremos con PAj � fX1; : : : ; Xj�1g y denominaremos
padres markovianos de Xj. Pondremos una arista dirigida en GP entre vi y vj si Xi 2 PAj. Tautológi-
camente, tenemos P es compatible con GP . El grafo resultante es un DAG y el par (Gp; P ) se llama red
bayesiana.
3.4. Métodos grá�cos
para estudiar independencias condicionales
De cierta forma, podemos pensar que un DAG es un modelo probabilístico indicando las condiciones
de independencia que las distribuciones deben satisfacer para pertenecer al modelo. Una forma posible
de caracterizar el conjunto de distribuciones compatibles con un DAG G es listar las independencias
(también condicionales) que cada distribución debe satisfacer. Estas independencias se pueden �leer�en
el DAG utilizando un criterio grá�co llamado d-separación [19] (d denota la dirección). Este criterio se
utiliza para conocer qué relaciones de independencia condicional son veri�cadaspor las distribuciones
compatibles con el grafo G, estudiando algunos de sus caminos. Para poder presentar los resultados
existentes en este sentido, necesitaremos introducir algunas de�niciones relativas a estructuras que
pueden estar presentes en los caminos (no necesariamente dirigidos) de un grafo.
Con�guraciones de los DAG�s
De�nición 3.4.1. Sea G = (V;E) un grafo acíclico dirigido. Consideremos un camino p, no necesaria-
mente dirigido.
Cadena: diremos que el camino p tiene una cadena si incluye la siguiente estructura:
vi �! vj �! vk
Tenedor: diremos que el camino p tiene un tenedor con centro en vs si incluya la siguiente estruc-
tura:
vr � vs �! vt
Colisionador: diremos que el camino p tiene una colisionador (o tenedor invertido) en vg si incluya
la siguiente estructura:
ve �! vg � vf
De�nición 3.4.2. (d-separación) Un camino p en un DAG G se dirá bloqueado por un conjunto de
nodos Z = fz1; : : : ; zkg � V si se veri�ca al menos una de las siguientes condiciones:
CAPÍTULO 3. DAG�S 29
p contiene una cadena o un tenedor con centro en Z:
cadena: vi �! zj �! vk, con zj 2 Z
tenedor: vi � zj �! vk, con zj 2 Z
p contiene un colisionador de forma tal que ni él ni sus descendientes pertenecen a Z:
ve �! vg � vf , con vg 62 Z y de(vg) \ Z = ;.
Cuando Z = ; decimos que p está bloqueado si tiene un colisionador.
De�nición 3.4.3. Dado un DAG G = (V;E), consideremos tres subconjuntos disjuntos de nodos W ,
T y Z. Diremos que Z d-separa a los conjuntos W y T si Z bloquea todos los caminos p que unen un
vértice de W con uno de T . Cuando Z = ;, decimos que W y T están d-separados si todo camino p que
une un nodo de W con un nodo de T tiene un colisionador.
Notación 3.4.1. (W
`
T j Z)G signi�ca que W y T están d-separados por Z en el grafo G. Dado
un vector aleatorio (Xv : v 2 V ) y un subconjunto W � V , denotamos con XW al subvector cuyas
coordenadas pertenecen a W : XW = (Xw : w 2 W ). Si X = (Xv : v 2 V ) tiene distribución P , la
independencia entre XW y XT será denotada por (XW
`
XT )P , mientras que la independencia entre
XW y XT condicional a XZ se denotará mediante (XW
`
XT j XZ)P .
El próximo resultado permite caracterizar cuando son independientes subvectores de un vector cuya
distribución P es compatible con un grafo G. La independencia de los subvectores está garantizada por
la d-separación de los respectivos nodos en el grafo.
Teorema 3.4.1. Sea G = (V;E) un DAG, W y T dos subconjuntos disjuntos de nodos en V . Sea
(Xv1 ; : : : ; Xvn) un vector aleatorio con distribución P compatible con G. Tenemos entonces que si
(W
`
T )G, entonces (XW
`
XT )P , para toda P compatible con G.
Demostración: Por el Teorema 3.2.1 sabemos que existen funciones fHi : 1 � i � Ng, y variables
independientes Ui de forma tal que las variables de�nidas por la recursion
X̂i = Hi(Ui; X̂j : vj 2 paG(vi))
conforman un vector con distribución P . Veamos entonces que X̂W es independiente de X̂T . Para ello,
notemos que X̂T es función de las variables UT y de fUi : vi 2 anG(T )g mientras que X̂W es función de
UW y de fUi : vi 2 anG(W )g, y por consiguiente, basta garantizar que fanG(T ) [ Tg y fanG(W ) [Wg
son conjuntos disjuntos para tener la independencia deseada. Este hecho se deduce de la d-separación
de los conjuntos T y W en el grafo G. A�rmamos que
fanG(T ) [ Tg \ fan(W )G [Wg = ; :
Siendo
fanG(T ) [ Tg \ fanG(W ) [Wg = fT \Wg [ fanG(T ) \Wg [ fanG(W ) \ Tg [ fanG(T ) \ anG(W )g
veamos que cada una de las intersecciones es vacía.
1. fT \Wg = ; pues T;W eran disjuntos, por hipótesis.
CAPÍTULO 3. DAG�S 30
2. fanG(W ) \ Tg = ; pues si suponemos que existe un elemento en la intersección, entonces 9j :
tj 2 anG(W ) ) 9 un camino dirigido entre tj y algún wi y esto es absurdo pues W y T están
d-separados, entonces ningún camino esta compuesto sólo por cadenas.
3. fanG(T ) \Wg = ; por simetría con fanG(W ) \ Tg = ;:
4. fanG(T )\ anG(W )g = ; porque si suponemos que existe un elemento en la intersección, entonces
9 z 2 anG(T ) y z 2 anG(W ), con lo cual hay un camino de un wi a un tj que tiene cadenas y un
tenedor en z, contradiciendo la d-separación entre T y W .
Esquemáticamente, tendríamos
Figura 3.4.1: Las aristas punteadas signi�can caminos entre los anG(W ) y anG(T )
En realidad se puede demostrar que vale la recíproca del resultado anterior. Es decir, la independencia
para toda distribución compatible con el DAG implica la d-separación. Mas aún, el siguiente teorema
establece que la d-separación codi�ca todos las independencias condicionales lógicamente implícitas en
la factorización de Markov de cualquier P compatible con un DAG G. Una demostración del siguiente
resultado puede verse en Verma & Pearl [25], o Geiger.[6].
Teorema 3.4.2. Sea G = (V;E) un DAG, W , T y Z tres subconjuntos disjuntos de nodos en V . Sea
(Xv1 ; : : : ; Xvn) un vector aleatorio con distribución P compatible con G. Tenemos entonces que
(W
a
T j Z)G , (XW
a
XT j XZ)P para toda P compatible con G :
Una de las ventajas de la utilización de redes bayesianas en el contexto causal, radica en la capacidad
para representar y responder a los cambios externos o intervenciones, mediante modi�caciones en la
topología de la red, como veremos en el próximo Capítulo. Además, utilizaremos resultados presentados
en el Teorema 3.4.1 y en el Teorema 3.4.2 para veri�car las condiciones de identi�cabilidad requeridas
en el Capítulo 2, en lo referente a independencia o independencia condicional.
Capítulo 4
Modelo de ecuaciones estructurales (SEM)
4.1. Ecuaciones estructurales
Consideremos un conjunto con n variables aleatorias X = fX1; X2; ::::; Xng, algunas de las cuales
quizás no tenemos capacidad de medir. Supongamos que cada variable Xj está determinada por:
un conjunto conocido de variables PAj � X � fXjg
otra variable Uj, llamadas error, perturbacion o factor omitido, que no está determinada por Xj,
de forma tal que (PAj; Uj) y Xj se relacionan determinísticamente por cierta función fj; de la siguiente
manera
Xj = fj(PAj; Uj) : (4.1.1)
La ecuación 4.1.1 se la denomina ecuación estructural.
4.1.1. Diagramas causales
Dado un vector X = (X1; X2; ::::; Xn), satisfaciendo un sistema de de ecuaciones estructurales,
podemos construir un grafo asociado al sistema de la siguiente manera.
De�nición 4.1.1. Sea X = (X1; X2; : : : ; Xn), satisfaciendo un sistema de ecuaciones estructurales,
como en (4.1.1). Un diagrama causal será un grafo con un nodo vj por cada variableXj y pondremos una
arista de vi a vj siempre que la variable Xi pertenezca al conjunto de variables PAj. Además pondremos
aristas punteadas bidirigidas entre todos los pares (Xj; Xk) si sus respectivos errores (Uj; Uk) no son
independientes.
Observación 4.1.1. Un diagrama causal es una representación grá�ca del sistema de ecuaciones. No
asume nada con respecto a las funciones fi ni a la distribución de las perturbaciones Ui.
De�nición 4.1.2. Un diagrama causal en el que (a) no hay aristas punteadas bidirigidas, (b) el grafo
resultante es acíclico y dirigido y (c) toda variable que es un determinante común de otras dos variables
está incluida en el conjunto X como variable del sistema se dice un DAG causal.
31
CAPÍTULO 4. MODELO DE ECUACIONES ESTRUCTURALES (SEM) 32
4.2. Modelo de ecuaciones estructurales no paramétricas
Un sistema de ecuaciones estructurales asociado a un Grafo Causal se llama modelo de ecuaciones
estructurales no paramétricas(NPSEM). El modelo está dado por el conjunto de funciones y la condi-
ción de independencia entre las coordenadas del vector U = (U1; : : : ; Un). Para ser más especí�cos,
consideremos la siguiente de�nición.
De�nición 4.2.1. Un modelo causal M de ecuaciones estructurales no paramétricas (NPSEM) para
las variables X = (X1; � � � ; Xn) asume que estas satisfacen un sistema de ecuaciones estructurales con
funciones ffi : 1 � i � ng, de forma tal que el diagrama causal asociado al sistema resulta un DAG
causal. Es decir, se asume la existencia de:
1. un vector aleatorio U = (U1; U2; :::; Un) con

Continuar navegando