Ashenfelter_Krueger (2)

Economía y Negocios

•

SIN SIGLA

Aiden Lopez

5/11/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Economía y Negocios

5909 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Sofía Montes de Oca, Inés gurmendi e Ignacio Berardi

Estimates of the economic return to schooling from a new sample of twins
By Orley Ashenfelter and Alan Kreuger

La idea de este artículo es utilizar una nueva muestra de gemelos idénticos para estudiar los
retornos económicos a la educación. Estiman estos retornos, comparando la tasa salarial entre
gemelos identicos con diferentes niveles de educación. El objetivo de ambos autores es
demostrar la correlación que tiene la educación y el salario controlando la habilidad y otras
variables como, por ejemplo, el entorno familiar. Les preguntan a cada gemelo su propia
educación y la de su hermano con el fin de obtener estimaciones independientes de los niveles
de educación.
Los resultados muestran que los retornos económicos a la educación podrían haber estado
sub-estimados en el pasado. Estimaron que un año adicional de colegio completado, aumenta
el salario en un 12-16%. Este resultado es mayor del que hubiesen obtenido si no hubiesen
controlado por la omision de habilidad y por el error de medición. Además no hay evidencia de
que la habilidad inobservada este positivamente correlacionada con el nivel de educación
completado. Y por último, los resultados indican que errores de medición llevan a una
considerable subestimación de los retornos a la educación en estudios basados en hermanos.

La colección de datos
El objetivo de obtener medidas independientes de los niveles de educación de cada hermano
por gemelos se llevó a cabo entrevistando a los dos hermanos en un mismo lugar pero
separadamente. Para esto se decidió utilizar el 16avo Festival Anual del día de gemelos en
Twinsburg, Ohio en Agosto de 1991. Es el lugar del mundo donde mayor cantidad de gemelos
se juntan. Se logró entrevistar 495 individuos separados con edad mayor que 18 años a lo largo
de los tres días del festival.
¿Cómo se coleccionó la data?
• El cuestionario que los autores utilizaron se basó en gran parte en el Current
Population Survey, la fuente de estadísticos laborales más grande de los EEUU.
• Para lograr identificar a los gemelos genéticamente idénticos se les hizo ciertas
preguntas específicas a cada uno, elegidas por los autores mismos.
• Eran cinco los investigadores que entrevistaron. Las entrevistas podían llevarse a cabo
en el pabellón de investigación de la entrada del festival o en el festival. La mayoría
aceptó a ser entrevistado y ninguno tuvo problema en compartir datos acerca de su
salario. En todos los casos, separaron a los gemelos para los propósitos de la
entrevista.

La representatividad de la muestra
Como se puede ver en la tabla 1, la muestra de gemelos utilizada para este artículo incluyó
hombres, mujeres, blancos, afro-americanos mientras que la del artículo de Behrman 1
utilizado como comparación, se basa en una muestra de hombres veteranos de la Segunda
guerra mundial.
La tabla 1 muestra la media y el desvío estándar de ciertas variables comunes al CPS y otras
variables estudiadas para ver cuanto compartían cada par de gemelos. En base a los resultados
de la tabla, se puede ver comparando la primera y tercerea columna que la muestra de
gemelos en el festival tiene mayor educación, más cantidad de jóvenes y mujeres que la
muestra del CPS.

1 Behrman, Jere; Hrubec, Zdenek; Taubman, Paul and Wales, Terence. Socioeconomic success: A study of
the effects of genetic endowments, family environment and schooling. Amsterdam: North-Holland, 1980.

Además si vemos la variable “twins report same education”, se puede ver que en promedio el
49% de los gémelos idénticos entrevistados muestran mismo niveles de educación y el 74% de
ellos reportan haber estudiado juntos durante el secundario.

Luego la Tabla 2 del artículo reporta la correlación entre el logaritmo del ingreso, los niveles de
educación de los gemelos idénticos y fraternos y los niveles de educación de los padres para la
muestra. Decidimos mostrar solamente las correlaciones de los gemelos idénticos en este
caso.
𝑆𝑛
𝑚; 𝑚, 𝑛 = 1,2
→ niveles de educación del gemelo n-ésimo reportado por el gemelo m-ésimo.

Analizando la Tabla 2 podemos sacar algunas conclusiones. Para empezar los reportes
cruzados están altamente correlacionados (los niveles de educación del gemelo i, reportados
por i y j): 0.92 para el gemelo 1, 0.877 para el gemelo 2. En segundo lugar, el ingreso y los
niveles de educación de los gemelos idénticos están altamente correlacionados (0.382 para el
gemelo 1 y 0.272 para el gemelo 2), más que los gemelos fraternales. Luego, comparando con
otros artículos, como el de Behrman, las correlaciones intra-par para el propio nivel de
educación reportado y para los ingresos son muy parecidos entre ambas muestras. Para
finalizar, la correlación entre los coeficientes entre Behrman difieren muy poco de las
correlaciones encontradas en esta muestra. Se podría concluir que la muestra es
suficientemente representativa.

El error de medición
De la tabla 2 se puede obtener un estimado de los errores de medición. El modelo clásico de
medición del error supone la siguiente fórmula:
donde Sn: es el nivel de educación real y vnm: son los errores de medición no correlacionados
con Sn, ni uno con otro.
𝑆𝑛
𝑚 = 𝑆𝑛 + 𝑣𝑛
𝑚

En el modelo utilizado por los Ashenfelter y Krueger, la correlación entre los dos niveles de
educación (Sn1, Sn2) se explica por la siguiente fórmula:

𝑉𝑎𝑟(𝑆𝑛)
[𝑉𝑎𝑟(𝑆𝑛
1)𝑉𝑎𝑟(𝑆𝑛
2)]1/2

Esta fórmula muestra el “Ratio de fiabilidad”: la fracción de la variabilidad en los niveles de
educación reportados, que se debe a una varianza en el nivel de educación real. Luego, 1-ratio
de fiabilidad = Error de medición. Las dos estimaciones del “ratio de fiabilidad” para los
gemelos reportados en la Tabla 2 son 0.92 y 0.88. Podemos interpretar entonces que entre el
8% y el 12% de la varianza medida en los niveles de educación es error.

Marco Conceptual:
Primero se denota:
• y1i,y2i como el logaritmo del ingreso para el primer y el segundo gemelo en el par i.
• Xi como el set de variables que varía por familia. EJ: edad, raza.
• Z1i Z2i como el set de variables que puede variar a través de los gemelos. Ej: niveles de
educación, horas trabajadas y status marital de cada gemelo.
El ingreso se explica por variables observados que varían entre familia y que varían entre
individuo, un componente inobservable que varía por familia (ui), y un componente individual
inobservable (e1i e2i).
(1) 𝑦1𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍1𝑖 + 𝑢𝑖 + 𝑒1𝑖

(2) 𝑦2𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍2𝑖 + 𝑢𝑖 + 𝑒2𝑖

Luego la representación general para la correlación entre el efecto de familia y los observables
se muestra en la ecuación (3):

(3) 𝑢𝑖 = 𝛾𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝛿𝑋𝑖 + 𝜔𝑖

Se puede apreciar un problema de endogeneidad al estimar las ecuaciones (1) y (2). Las
variables observables Zi y Xi son endógenas, dado que están correlacionadas con el error de
familia (ui). El coeficiente  representa el “efecto de selección”, que relaciona el ingreso y los
observables. Si, por ejemplo, familias que tendrían ingreso alto son más propensas a educar a
sus hijos, entonces el componente gamma debería ser positivo. El coeficiente  representa el
efecto estructural de las variables observables (individuales) en el ingreso.
• La forma reducida del modelo es obtenida sustituyendo (3) en (2) y (1):

(4) 𝑦1𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝑒′1𝑖

(5) 𝑦2𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍2𝑖 + 𝛾𝑍1𝑖 + 𝑒′2𝑖

Donde e1i´=wi+e1i. Se estiman estas ecuaciones por MCG por la presencia de
heteroscedasticidad y de covarianzas distintas de cero. Una vez obtenido el efecto de selección
se lo sustrae para obtener el efecto estructural. De tal manera que seestima el retorno de la
educación.
• La diferencia entre (1) y (2) (o (4) y (5):

(6) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑍1𝑖 − 𝑍2𝑖) + 𝑒1𝑖 − 𝑒2𝑖

El efecto individual ui se eliminó y el efecto de selección estimado explícitamente se elimina
por diferencia. El estimador de mínimos cuadrados para esta ecuación se llama el estimador
de “efectos fijos”.

¿Qué efecto tiene el error de medición?
El mayor descubrimiento de los autores se basa en que los errores de medición pueden
subestimar considerablemente los retornos a la educación en estudios basados en gemelos.

Mínimos cuadrados ordinarios
En el modelo clásico, los errores de medición de ambos gemelos sobre la educación de uno de
ellos NO están correlacionado. En una regresión simple regresando el nivel de educación
contra el ingreso, el estimador ols coeficiente estimado es menor que el coeficiente
poblacional. El ratio de fiabilidad sobre los niveles de educación estimado es cerca de 0.90,

indicando que el coeficiente estimado estará sesgado hacia abajo un 10% relativo a su valor en
ausencia de errores de medición.
plim 𝛽⋀𝑜𝑙𝑠 = 𝛽𝑜𝑙𝑠 (1 −
𝑉𝑎𝑟(𝜐)
𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)
)
Efectos Fijos
En la presencia de efectos de selección, por más de que no hubiesen errores de medición, al
estimar los retornos a la educación, el coeficiente estimado por MCO estaría sesgado hacia
abajo por la omisión de ciertas variables como el nivel de educación del hermano. Una vez que
se suma esta variable (Ecuación (4) y (5)) y se hace diferencias se obtiene la ecuación (6) de
diferencias intra-gemelos y se obtiene el estimador de efectos fijos. De todas maneras, por
más de eliminar el sesgo por selección, agrega mucho más sesgo por errores de medición.

𝛽⋀𝐹𝐸 = 𝛽𝐹𝐸 (1 −
𝑉𝑎𝑟(𝜐)
[𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠)
)

Promedio de niveles de educación reportados
Para reducir el efecto de errores de medición en el estimador de efectos fijos y el de MCO, los
autores promedian los múltiples reportes de educación [(S11 – S22)/2 + (S12-S21)/2] y usan aquel
promedio como variable independiente en la ecuación (6).
El nuevo coeficiente estimado avg > FE por el último término positivo de la siguiente ecuación.
Los errores de medición ahora causan un sesgo hacia abajo menor que en el estimador de
efectos fijos. Al promediar se reduce los errores de medición y se reduce el sesgo hacia abajo
del estimador de los retornos a la educación.

plim 𝛽⋀𝑎𝑣𝑔 = 𝛽 (1 −
𝑉𝑎𝑟(𝜐)
[𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠)
+
2𝑉𝑎𝑟(𝑆1 − 𝑆2)
2
)

En conclusión, en la práctica debería FE<OLS<avg. De todas maneras, luego se verá en los
resultados de este artículo que FE>OLS.

Variables instrumentales para corregir el error de medición
Los autores instrumentan el nivel de educación de uno con el reporte del otro hermano sobre
su nivel de educación. Los autores se basan en que los errores de medición de los reportes de
los gemelos sobre su propia educación y los reportes sobre la educación de sus hermanos
están correlacionados. En otras palabras, si uno de los dos reportó mal su educación, lo más
probable es que reporte mal la educación del otro. Entonces si utilizaran S12-S21 como
instrumento para la diferencia entre S11-S22 en la ecuación (6) de diferencias intra-pares NO se
cancelaría el error de medición.
Lo solucionan utilizando el reporte de un solo gemelo sobre su educación y la de su hermano
para cancelar el error de medición. Pero hacen lo mismo que con OLS, instrumentan con lo
que reporta el otro (S**= S12-S22 para S*).

(8) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑆1
1 − 𝑆2
1) + 𝑒1𝑖 − 𝑒2𝑖 = 𝛽Δ𝑆
∗ + Δ𝑒

Resultados

Las regresiones de la tabla 3 son simples estimaciones del retorno a la educación controlando
solamente por variables demográficas como la edad, raza y genero.
Los resultados de las primeas dos columnas ignoran el efecto que puede llegar a tener el
entorno familiar en la educación. Es decir, habría un sesgo de selección porque tendemos a
pensar que entornos familiares mas educados fomentan la selección de mayores niveles de
educación. Se utiliza mínimos cuadrados generalizados para corregir la presencia de
heterocedasticidad en las observaciones. Cuando la educación es igual, se observa mucha
variabilidad del ingreso mientras que cuando al educación es diferente disminuye esa
variabilidad.
En la tercer columna se agrega la educación del segundo gemelo como variable explicativa del
ingreso del primer gemelo. Vendría a representar el sesgo de selección que mencionábamos
previamente. Se ve que el coeficiente es muy chico y negativo. Es decir, un entorno familiar
más educado no asegura mayores ingresos; conclusión contra intuitiva y diferente a lo que se
hubiese esperado. Esto implica que si se ignora el efecto selección se estaría subestimando el
retorno a la educación en lugar de sobre estimarlo como veníamos diciendo en clase.
La columna 5 es una regresión en primeras diferencias de ingreso y educación intra-par (entre
gemelos). Es como un matching natural. El resultado: 0,092 es mayor al de la primera columna
0,084 confirmando que si se ignora el efecto de selección familiar se estaría subestimando el
coeficiente.
Las columnas 4 y 6 reportan las estimaciones con variables instrumentales que intentan
corregir el error de medición. Se usa como variable instrumental de la educación la respuesta
que dio el otro gemelo sobre la educación del primero. Las estimaciones son más grandes que
sin la instrumentación. Si se acepta el reporte del hermano como un instrumento válido

entonces los métodos convencionales están subestimando fuertemente los retornos a la
educación.
Con respecto a la validez externa de la muestra, usando datos de la CPS el estimador
convencional da 8,3% que es muy parecido al 8,7% obtenido con esta muestra. El estimador de
Behrman también es muy similar. Sin embargo, la regresión intra-par de este paper arroja un
resultado muy diferente y bastante más chico.

La tabla 4 son subsiguientes test del error de medición esta vez utilizando como solución el
promedio entre los dos reportes de la misma variable. Tal como se esperaba los coeficientes del
retorno a la educación son mayores que los correspondientes de la tabla 3 confirmando el
resultado de que el error de medición produce sesgo para abajo de los estimadores del retorno
a la educación.

La tabla 5 es muy parecida a la tabla 3 con la única diferencia que ahora se agregan algunas
variables para controlar el sesgo de selección familiar. Las estimaciones del retorno a la
educación son aún mas grandes en este caso que en la tabla 4.
Comentario aparte: Los resultados de las tablas 3, 4, y 5 arrojan los mismos resultados que la
mayoría de la literatura acerca de la determinación de los salarios. El salario es cóncavo en la
edad, hombres ganan mas que las mujeres, educación de los padres tiene muy poco efecto en
los ingresos. La única anomalía es el efecto de la raza en el ingreso; estos resultados muestran
que los blancos ganan menos que los no blancos. Es posible que este resultado sea porque la
muestra tiene muy pocos no-blancos. Eliminando los no blancos de la muestra los resultados
no cambian mucho.

Finalmente implementando variables instrumentales para solucionar el error de medición se
ve como en ambos casos tanto el error de medición como la omisión del entorno familiar son
dos factores que sesgan hacia abajo el retorno a la educación.

Conclusión
El artículo de Behrman reporta resultados de un estudio de gemelos idénticos en el cual los
retornos a la educación son solo de 3% por año adicional completado.
En cambio, los resultados de Ashenfelter y Krueger son muydiferentes. Encontraron un
retorno a la educación mucho más grande que la literatura previa. Por cada año completado la
el salario aumenta entre 12% y 16%. Además no hay evidencia de que las estimaciones de los
retornos a la educación están sobreestimadas por no controlar el entorno familiar u otros
factores inobservables que pueden afectar al ingreso. En todo caso, están subestimando el
retorno a la educación. Por ejemplo, el error de medición en el nivel educativo provoca un
sesgo decreciente y sustancial al estimador de los retornos a la educación.

Comparando con la teoría de clase, los autores utilizan una mezcla entre:
• una especie de matching, un match natural, ya que se comparan dos personas con las
mismas características pero distintos niveles de educación. Para cada uno se busca un
contrafactual, que es el hermano.
• Y el método de variables instrumentales que se utiliza para eliminar el error de
medición en el nivel educativo.

Este método es creíble ya que controla por entorno familiar y habilidad innata pero puede
seguir habiendo un sesgo en la estimación provocado por distintos motivos:
• En primer lugar, el contrafactual para cada uno es un hermano que tiene niveles de
educación que en general se asemejan mucho a su gemelo.
• Es posible que, si los niveles de educación de los gemelos no son aleatorios, los
estimadores del retorno a la educación están sesgados → problema de endogeneidad.
• En esta muestra el nivel de educación de los gemelos es mayor que el nivel de
educación de la muestra de CPS→ la muestra puede no ser representativa.