C8 Control Sintético CUNINGHAM CAP 10

Sociología

•

SIN SIGLA

0

Marcos A.

21/12/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sociología

104.191 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Control Sintético CUNINGHAM CAP 10
Presentando el Estudio de Caso Comparativo
Estudios de caso comparativos cuantitativos → diseños más explícitamente causales. Por lo general, son experimentos
naturales y se aplican a una sola unidad. Estos tipos de estudios comparan la evolución de un resultado agregado ya
sea con algún otro resultado único o con un conjunto elegido de unidades similares que sirven como grupo de control.
Los modelos de control sintético eligen de manera óptima un conjunto de ponderaciones que, al aplicarse a un grupo
de unidades correspondientes, producen un contrafactual estimado de manera óptima para la unidad que recibió el
tratamiento. Este contrafactual, llamado "unidad sintética", sirve para describir lo que hubiera ocurrido con la unidad
tratada en su conjunto si el tratamiento nunca hubiera ocurrido. Es una generalización poderosa de la estrategia de
diferencias en diferencias.
¿Influyen las entradas de inmigrantes en la disminución de los salarios y el empleo de los nativos en los mercados
laborales locales?
En 1980, Fidel Castro anunció que cualquiera que quisiera abandonar Cuba podría hacerlo. Éxodo masivo conocido
como el "Mariel boatlift". La emigración se detuvo porque Cuba y Estados Unidos acordaron mutuamente ponerle fin.
• Card vio esto como un experimento natural ideal.
• Fue, en teoría, un cambio exógeno en la curva de oferta laboral, lo que le permitiría determinar si los salarios
disminuyeron y el empleo aumentó, de manera consistente con un modelo simple de mercado laboral
competitivo.
• Utilizó datos a nivel individual sobre el desempleo. La elección de estas cuatro ciudades se delega a una nota
al pie de página en la que Card argumenta que eran similares en función de la demografía y las condiciones
económicas.
• Card estimó un modelo simple de diferencias en diferencias y encontró, sorprendentemente, que no hubo
efecto en los salarios ni en el desempleo de los nativos.
• Argumentó que el mercado laboral de Miami fue capaz de absorber la oleada de oferta laboral debido a
oleadas similares dos décadas antes.
• El resultado desafiaba la sabiduría convencional. Cabe destacar que un estudio reciente replicó el trabajo de
Card utilizando el control sintético y encontró resultados similares [Peri y Yasenov, 2018].
Estudio de caso comparativo que tenía fortalezas y debilidades:
• La intervención política ocurrió a nivel agregado, para el cual había datos agregados disponibles. Pero los
problemas con el estudio fueron que la selección del grupo de control fue ad hoc y subjetiva.
• En segundo lugar, los errores estándar reflejan la varianza del muestreo en lugar de la incertidumbre sobre la
capacidad del grupo de control para reproducir el contrafactual de interés. Abadie y Gardeazabal [2003] y
Abadie et al. [2010] introdujeron el estimador de control sintético como una forma de abordar ambos
problemas simultáneamente.
El método de Abadie y Gardeazabal [2003] utiliza un promedio ponderado de unidades en el conjunto de donantes
para modelar el contrafactual. El método se basa en la observación de que, cuando las unidades de análisis son unas
pocas unidades agregadas, una combinación de unidades de comparación (el "control sintético") a menudo reproduce
mejor las características de una unidad tratada que el uso de una sola unidad de comparación.
La unidad de comparación, por lo tanto, en este método se selecciona como el promedio ponderado de todas las
unidades de comparación que mejor se asemejen a las características de la(s) unidad(es) tratada(s) en el período
previo al tratamiento. Abadie et al. [2010] argumentan que este método tiene muchas ventajas distintas sobre los
métodos basados en regresión.
• En primer lugar, el método excluye la extrapolación. En su lugar, utiliza interpolación, porque el efecto causal
estimado se basa siempre en una comparación entre algún resultado en un año dado y un contrafactual en el
mismo año.
• Una segunda ventaja se relaciona con el procesamiento de los datos. La construcción del contrafactual no
requiere acceso a los resultados posteriores al tratamiento durante la fase de diseño del estudio, a diferencia
de la regresión.
• Otra ventaja, que a menudo es una razón por la que la gente se opone a un estudio, es que las ponderaciones
elegidas explican de manera explícita lo que cada unidad está contribuyendo al contrafactual.
• la regresión también pondera los datos, pero lo hace a ciegas. La única razón por la que nadie se opone a lo
que la regresión produce como peso es que no pueden ver los pesos. Son implícitos en lugar de explícitos. As
el control sintético parece ser más transparente que los diseños basados en regresión.
• Una cuarta ventaja es que sirve para cerrar la brecha entre los enfoques cualitativos y cuantitativos. El control
sintético permite elegir contrafácticos.
Selección de controles sintéticos.
Abadie et al. [2010] argumentan que el control sintético elimina el sesgo subjetivo del investigador.
Cuando existen perturbaciones transitorias, lo cual es común en la práctica, el ajuste empeora, introduciendo así sesgo.
A través de iteraciones repetidas y cambios en la fórmula de emparejamiento, una persona puede potencialmente
reintroducir sesgo a través de la selección endógena de covariables utilizadas en una búsqueda de especificaciones.
Mediante simulaciones de Monte Carlo, descubren que los modelos que utilizan más rezagos de resultados previos al
tratamiento como predictores hacen un mejor trabajo controlando los factores de confusión no observados. Aquellos
que limitan el número de rezagos de resultados previos al tratamiento asignan incorrectamente más pesos y no
deberían considerarse en aplicaciones de control sintético.
Aunque sigue siendo cierto que los pesos son óptimos en el sentido de que minimizan de manera única la función de
distancia, el punto de Ferman et al. [2020] es señalar que la función de distancia sigue siendo, al final del día, elegida
de manera endógena por el investigador.
Formalización
El estimador de control sintético modela el efecto de la intervención en el momento T0 en el grupo de tratamiento
utilizando una combinación lineal de unidades elegidas de manera óptima como control sintético. Para el período
posterior a la intervención, el estimador de control sintético mide el efecto causal.
Las variables de emparejamiento, X1 y X0, se eligen como predictores de los resultados posteriores a la intervención y
deben estar afectadas por la intervención. Los pesos se eligen de manera que se minimice la norma, ||X1 - X0W||,
sujeto a restricciones de peso. En otras palabras, ninguna unidad recibe un peso negativo, pero puede recibir un peso
de cero.
¿Y qué hay de los factores no observados? Los estudios de caso comparativos se complican por los factores no medidos
que afectan el resultado de interés, así como por la heterogeneidad en el efecto de los factores observados y no
observados.
Abadie et al. [2010] señalan que si el número de períodos previos a la intervención en los datos es "grande", entonces
el emparejamiento en los resultados previos a la intervención puede permitirnos controlar las respuestas heterogéneas
a múltiples factores no observados. La intuición aquí es que solo las unidades que se parecen en factores observables
y no observables seguirían una trayectoria similar antes del tratamiento.
La Proposición 99 de California.
• Abadie y Gardeazabal [2003] desarrollaron el estimador de control sintético para evaluar el impacto del
terrorismo en la región vasca en España.
• Abadie et al. [2010] amplían el método utilizando un impuesto a los cigarrillos en California →Proposición 99.
• Su ejemplo utiliza un método basado en placebos para la inferencia
En 1988, California aprobó una legislación integral de control del tabaco llamada Proposición 99 que aumentó los
impuestos a los cigarrillosen $0.25 por paquete, promovió ordenanzas de aire limpio en todo el estado, financió
campañas mediáticas antitabaco, asignó los ingresos fiscales a presupuestos de salud y antitabaco, y generó más de
$100 millones al año en proyectos antitabaco.
Otros estados tenían programas de control similares, y se excluyeron de su análisis.
La Figura 80 muestra los cambios en las ventas de cigarrillos en California y el resto de los Estados Unidos anualmente
desde 1970 hasta 2000. Como se puede observar, las ventas de cigarrillos disminuyeron después de la Proposición 99,
pero como ya estaban disminuyendo, no está claro si hubo algún efecto, especialmente dado que estaban
disminuyendo en el resto del país al mismo tiempo.

Sin embargo, utilizando su método, seleccionan un conjunto óptimo de pesos que, cuando se aplican al resto del país,
producen la figura que se muestra en la Figura 81. Observa que antes del tratamiento, este conjunto de pesos produce
una trayectoria temporal casi idéntica para California como el California real en sí, pero después del tratamiento, las
dos series divergen. A primera vista, parece haber habido un efecto del programa en las ventas de cigarrillos.

Las variables que utilizaron para la minimización de la distancia se enumeran en la Tabla 82.

Al igual que RDD, el control sintético es un estimador intensivo en imágenes. Tu estimador es básicamente una imagen
de dos series que, si hay un efecto causal, se separan una de la otra después del tratamiento, pero se asemejan antes
del tratamiento.
¿Cómo determinamos si la diferencia observada entre las dos series es una diferencia estadísticamente significativa?
La inferencia de aleatorización asigna el tratamiento a cada unidad no tratada, recalcula los coeficientes clave del
modelo y los recopila en una distribución que luego se utiliza para la inferencia. Abadie et al. [2010] recomiendan
calcular un conjunto de valores de error de predicción cuadrático medio (RMSPE) para el período previo y posterior al
tratamiento como estadístico de prueba utilizado para la inferencia.2 Procedemos de la siguiente manera:
1. Aplicamos iterativamente el método de control sintético a cada país/estado en el conjunto de donantes y
obtenemos una distribución de efectos de placebo.
2. Calculamos el RMSPE para cada placebo para el período previo al tratamiento.
3. Calculamos el RMSPE para cada placebo para el período posterior al tratamiento (ecuación similar pero para
el período posterior al tratamiento).
4. Calculamos la relación entre el RMSPE posterior y el RMSPE previo al tratamiento.
5. Ordenamos esta relación en orden descendente, de mayor a menor.
6. Calculamos la relación de la unidad de tratamiento en la distribución como p = RANK/TOTAL
En otras palabras, lo que queremos saber es si el efecto del tratamiento en California es extremo, lo cual es un concepto
relativo en comparación con las propias relaciones de placebo del conjunto de donantes.
La Figura 83 muestra cómo se ve esto. Claramente, California está en las colas de alguna distribución de efectos de
tratamiento.

Abadie et al. [2010] recomiendan eliminar iterativamente los estados cuyo RMSPE previo al tratamiento es
considerablemente diferente al de California Realizan esto en varios pasos, pero simplemente pasaré al último paso
(Figura 84).

Han eliminado cualquier unidad estatal del gráfico cuyo RMSPE previo al tratamiento sea más de dos veces el de
California. Esto limita la imagen a solo las unidades cuyo ajuste del modelo, antes del tratamiento, fue bastante bueno,
al igual que en el caso de California.
Pero, en última instancia, la inferencia se basa en esos valores p exactos. Entonces, la forma en que lo hacemos es
simplemente crear un histograma de las relaciones y marcar más o menos el grupo de tratamiento en la distribución
para que el lector pueda ver el valor p exacto asociado con el modelo. Produzco eso aquí en la Figura 85. Como se
puede ver, California está clasificada en primer lugar entre treinta y ocho unidades estatales.3 Esto da un valor p exacto
de 0.026, que es menor que el 5% convencional.

Falsificaciones.
• En Abadie et al. [2015], los autores estudiaron el efecto de la reunificación de Alemania en el producto interno
bruto.
• Al igual que en el estudio sobre el tabaco, consideraron que los países eran demasiado diferentes entre sí como
para formar un grupo de comparación sólido, por lo que utilizaron el control sintético para crear un grupo de
comparación compuesto basado en países elegidos de manera óptima.
• Recomiendan retroceder en el tiempo desde la fecha del tratamiento en sí y estimar su modelo en una fecha
anterior (placebo).
• Dado que las fechas de placebo no deberían tener ningún efecto sobre el producto, esto proporciona ciertas
garantías de que cualquier desviación encontrada en 1990 podría deberse a cambios estructurales causados
por la propia reunificación.
• No encuentran ningún efecto al usar 1975 como fecha de placebo, lo que sugiere que su modelo tiene buenas
propiedades predictivas tanto dentro como fuera de la muestra.
• Los autores que utilizan el control sintético deben hacer más que simplemente ejecutar el comando synth al
realizar estudios de caso comparativos. Deben encontrar los valores p exactos a través de inferencia basada en
placebos, verificar la calidad del ajuste previo al tratamiento, investigar el equilibrio de las covariables utilizadas
para el emparejamiento y verificar la validez del modelo a través de la estimación de placebos.