Logo Studenta

Ashenfelter_Krueger (2)

¡Estudia con miles de materiales!

Vista previa del material en texto

Sofía Montes de Oca, Inés gurmendi e Ignacio Berardi 
 
Estimates of the economic return to schooling from a new sample of twins 
By Orley Ashenfelter and Alan Kreuger 
 
La idea de este artículo es utilizar una nueva muestra de gemelos idénticos para estudiar los 
retornos económicos a la educación. Estiman estos retornos, comparando la tasa salarial entre 
gemelos identicos con diferentes niveles de educación. El objetivo de ambos autores es 
demostrar la correlación que tiene la educación y el salario controlando la habilidad y otras 
variables como, por ejemplo, el entorno familiar. Les preguntan a cada gemelo su propia 
educación y la de su hermano con el fin de obtener estimaciones independientes de los niveles 
de educación. 
Los resultados muestran que los retornos económicos a la educación podrían haber estado 
sub-estimados en el pasado. Estimaron que un año adicional de colegio completado, aumenta 
el salario en un 12-16%. Este resultado es mayor del que hubiesen obtenido si no hubiesen 
controlado por la omision de habilidad y por el error de medición. Además no hay evidencia de 
que la habilidad inobservada este positivamente correlacionada con el nivel de educación 
completado. Y por último, los resultados indican que errores de medición llevan a una 
considerable subestimación de los retornos a la educación en estudios basados en hermanos. 
 
La colección de datos 
El objetivo de obtener medidas independientes de los niveles de educación de cada hermano 
por gemelos se llevó a cabo entrevistando a los dos hermanos en un mismo lugar pero 
separadamente. Para esto se decidió utilizar el 16avo Festival Anual del día de gemelos en 
Twinsburg, Ohio en Agosto de 1991. Es el lugar del mundo donde mayor cantidad de gemelos 
se juntan. Se logró entrevistar 495 individuos separados con edad mayor que 18 años a lo largo 
de los tres días del festival. 
¿Cómo se coleccionó la data? 
• El cuestionario que los autores utilizaron se basó en gran parte en el Current 
Population Survey, la fuente de estadísticos laborales más grande de los EEUU. 
• Para lograr identificar a los gemelos genéticamente idénticos se les hizo ciertas 
preguntas específicas a cada uno, elegidas por los autores mismos. 
• Eran cinco los investigadores que entrevistaron. Las entrevistas podían llevarse a cabo 
en el pabellón de investigación de la entrada del festival o en el festival. La mayoría 
aceptó a ser entrevistado y ninguno tuvo problema en compartir datos acerca de su 
salario. En todos los casos, separaron a los gemelos para los propósitos de la 
entrevista. 
 
La representatividad de la muestra 
Como se puede ver en la tabla 1, la muestra de gemelos utilizada para este artículo incluyó 
hombres, mujeres, blancos, afro-americanos mientras que la del artículo de Behrman 1 
utilizado como comparación, se basa en una muestra de hombres veteranos de la Segunda 
guerra mundial. 
La tabla 1 muestra la media y el desvío estándar de ciertas variables comunes al CPS y otras 
variables estudiadas para ver cuanto compartían cada par de gemelos. En base a los resultados 
de la tabla, se puede ver comparando la primera y tercerea columna que la muestra de 
gemelos en el festival tiene mayor educación, más cantidad de jóvenes y mujeres que la 
muestra del CPS. 
 
1 Behrman, Jere; Hrubec, Zdenek; Taubman, Paul and Wales, Terence. Socioeconomic success: A study of 
the effects of genetic endowments, family environment and schooling. Amsterdam: North-Holland, 1980. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Además si vemos la variable “twins report same education”, se puede ver que en promedio el 
49% de los gémelos idénticos entrevistados muestran mismo niveles de educación y el 74% de 
ellos reportan haber estudiado juntos durante el secundario. 
 
Luego la Tabla 2 del artículo reporta la correlación entre el logaritmo del ingreso, los niveles de 
educación de los gemelos idénticos y fraternos y los niveles de educación de los padres para la 
muestra. Decidimos mostrar solamente las correlaciones de los gemelos idénticos en este 
caso. 
𝑆𝑛
𝑚; 𝑚, 𝑛 = 1,2 
→ niveles de educación del gemelo n-ésimo reportado por el gemelo m-ésimo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Analizando la Tabla 2 podemos sacar algunas conclusiones. Para empezar los reportes 
cruzados están altamente correlacionados (los niveles de educación del gemelo i, reportados 
por i y j): 0.92 para el gemelo 1, 0.877 para el gemelo 2. En segundo lugar, el ingreso y los 
niveles de educación de los gemelos idénticos están altamente correlacionados (0.382 para el 
gemelo 1 y 0.272 para el gemelo 2), más que los gemelos fraternales. Luego, comparando con 
otros artículos, como el de Behrman, las correlaciones intra-par para el propio nivel de 
educación reportado y para los ingresos son muy parecidos entre ambas muestras. Para 
finalizar, la correlación entre los coeficientes entre Behrman difieren muy poco de las 
correlaciones encontradas en esta muestra. Se podría concluir que la muestra es 
suficientemente representativa. 
 
El error de medición 
De la tabla 2 se puede obtener un estimado de los errores de medición. El modelo clásico de 
medición del error supone la siguiente fórmula: 
donde Sn: es el nivel de educación real y vnm: son los errores de medición no correlacionados 
con Sn, ni uno con otro. 
𝑆𝑛
𝑚 = 𝑆𝑛 + 𝑣𝑛
𝑚 
 
En el modelo utilizado por los Ashenfelter y Krueger, la correlación entre los dos niveles de 
educación (Sn1, Sn2) se explica por la siguiente fórmula: 
 
𝑉𝑎𝑟(𝑆𝑛)
[𝑉𝑎𝑟(𝑆𝑛
1)𝑉𝑎𝑟(𝑆𝑛
2)]1/2 
 
 
Esta fórmula muestra el “Ratio de fiabilidad”: la fracción de la variabilidad en los niveles de 
educación reportados, que se debe a una varianza en el nivel de educación real. Luego, 1-ratio 
de fiabilidad = Error de medición. Las dos estimaciones del “ratio de fiabilidad” para los 
gemelos reportados en la Tabla 2 son 0.92 y 0.88. Podemos interpretar entonces que entre el 
8% y el 12% de la varianza medida en los niveles de educación es error. 
 
 
 
 
 
Marco Conceptual: 
Primero se denota: 
• y1i,y2i como el logaritmo del ingreso para el primer y el segundo gemelo en el par i. 
• Xi como el set de variables que varía por familia. EJ: edad, raza. 
• Z1i Z2i como el set de variables que puede variar a través de los gemelos. Ej: niveles de 
educación, horas trabajadas y status marital de cada gemelo. 
El ingreso se explica por variables observados que varían entre familia y que varían entre 
individuo, un componente inobservable que varía por familia (ui), y un componente individual 
inobservable (e1i e2i). 
(1) 𝑦1𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍1𝑖 + 𝑢𝑖 + 𝑒1𝑖 
 
(2) 𝑦2𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍2𝑖 + 𝑢𝑖 + 𝑒2𝑖 
 
Luego la representación general para la correlación entre el efecto de familia y los observables 
se muestra en la ecuación (3): 
 
(3) 𝑢𝑖 = 𝛾𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝛿𝑋𝑖 + 𝜔𝑖 
 
Se puede apreciar un problema de endogeneidad al estimar las ecuaciones (1) y (2). Las 
variables observables Zi y Xi son endógenas, dado que están correlacionadas con el error de 
familia (ui). El coeficiente  representa el “efecto de selección”, que relaciona el ingreso y los 
observables. Si, por ejemplo, familias que tendrían ingreso alto son más propensas a educar a 
sus hijos, entonces el componente gamma debería ser positivo. El coeficiente  representa el 
efecto estructural de las variables observables (individuales) en el ingreso. 
• La forma reducida del modelo es obtenida sustituyendo (3) en (2) y (1): 
 
(4) 𝑦1𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝑒′1𝑖 
 
(5) 𝑦2𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍2𝑖 + 𝛾𝑍1𝑖 + 𝑒′2𝑖 
 
Donde e1i´=wi+e1i. Se estiman estas ecuaciones por MCG por la presencia de 
heteroscedasticidad y de covarianzas distintas de cero. Una vez obtenido el efecto de selección 
se lo sustrae para obtener el efecto estructural. De tal manera que seestima el retorno de la 
educación. 
• La diferencia entre (1) y (2) (o (4) y (5): 
 
(6) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑍1𝑖 − 𝑍2𝑖) + 𝑒1𝑖 − 𝑒2𝑖 
 
El efecto individual ui se eliminó y el efecto de selección estimado explícitamente se elimina 
por diferencia. El estimador de mínimos cuadrados para esta ecuación se llama el estimador 
de “efectos fijos”. 
 
¿Qué efecto tiene el error de medición? 
El mayor descubrimiento de los autores se basa en que los errores de medición pueden 
subestimar considerablemente los retornos a la educación en estudios basados en gemelos. 
 
Mínimos cuadrados ordinarios 
En el modelo clásico, los errores de medición de ambos gemelos sobre la educación de uno de 
ellos NO están correlacionado. En una regresión simple regresando el nivel de educación 
contra el ingreso, el estimador ols coeficiente estimado es menor que el coeficiente 
poblacional. El ratio de fiabilidad sobre los niveles de educación estimado es cerca de 0.90, 
 
 
indicando que el coeficiente estimado estará sesgado hacia abajo un 10% relativo a su valor en 
ausencia de errores de medición. 
plim 𝛽⋀𝑜𝑙𝑠 = 𝛽𝑜𝑙𝑠 (1 −
𝑉𝑎𝑟(𝜐)
𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)
) 
Efectos Fijos 
En la presencia de efectos de selección, por más de que no hubiesen errores de medición, al 
estimar los retornos a la educación, el coeficiente estimado por MCO estaría sesgado hacia 
abajo por la omisión de ciertas variables como el nivel de educación del hermano. Una vez que 
se suma esta variable (Ecuación (4) y (5)) y se hace diferencias se obtiene la ecuación (6) de 
diferencias intra-gemelos y se obtiene el estimador de efectos fijos. De todas maneras, por 
más de eliminar el sesgo por selección, agrega mucho más sesgo por errores de medición. 
 
𝛽⋀𝐹𝐸 = 𝛽𝐹𝐸 (1 −
𝑉𝑎𝑟(𝜐)
[𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠)
) 
 
Promedio de niveles de educación reportados 
Para reducir el efecto de errores de medición en el estimador de efectos fijos y el de MCO, los 
autores promedian los múltiples reportes de educación [(S11 – S22)/2 + (S12-S21)/2] y usan aquel 
promedio como variable independiente en la ecuación (6). 
El nuevo coeficiente estimado avg > FE por el último término positivo de la siguiente ecuación. 
Los errores de medición ahora causan un sesgo hacia abajo menor que en el estimador de 
efectos fijos. Al promediar se reduce los errores de medición y se reduce el sesgo hacia abajo 
del estimador de los retornos a la educación. 
 
plim 𝛽⋀𝑎𝑣𝑔 = 𝛽 (1 −
𝑉𝑎𝑟(𝜐)
[𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠)
+
2𝑉𝑎𝑟(𝑆1 − 𝑆2)
2
) 
 
En conclusión, en la práctica debería FE<OLS<avg. De todas maneras, luego se verá en los 
resultados de este artículo que FE>OLS. 
 
Variables instrumentales para corregir el error de medición 
Los autores instrumentan el nivel de educación de uno con el reporte del otro hermano sobre 
su nivel de educación. Los autores se basan en que los errores de medición de los reportes de 
los gemelos sobre su propia educación y los reportes sobre la educación de sus hermanos 
están correlacionados. En otras palabras, si uno de los dos reportó mal su educación, lo más 
probable es que reporte mal la educación del otro. Entonces si utilizaran S12-S21 como 
instrumento para la diferencia entre S11-S22 en la ecuación (6) de diferencias intra-pares NO se 
cancelaría el error de medición. 
Lo solucionan utilizando el reporte de un solo gemelo sobre su educación y la de su hermano 
para cancelar el error de medición. Pero hacen lo mismo que con OLS, instrumentan con lo 
que reporta el otro (S**= S12-S22 para S*). 
 
(8) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑆1
1 − 𝑆2
1) + 𝑒1𝑖 − 𝑒2𝑖 = 𝛽Δ𝑆
∗ + Δ𝑒 
 
 
 
 
 
 
 
 
 
 
Resultados 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Las regresiones de la tabla 3 son simples estimaciones del retorno a la educación controlando 
solamente por variables demográficas como la edad, raza y genero. 
Los resultados de las primeas dos columnas ignoran el efecto que puede llegar a tener el 
entorno familiar en la educación. Es decir, habría un sesgo de selección porque tendemos a 
pensar que entornos familiares mas educados fomentan la selección de mayores niveles de 
educación. Se utiliza mínimos cuadrados generalizados para corregir la presencia de 
heterocedasticidad en las observaciones. Cuando la educación es igual, se observa mucha 
variabilidad del ingreso mientras que cuando al educación es diferente disminuye esa 
variabilidad. 
En la tercer columna se agrega la educación del segundo gemelo como variable explicativa del 
ingreso del primer gemelo. Vendría a representar el sesgo de selección que mencionábamos 
previamente. Se ve que el coeficiente es muy chico y negativo. Es decir, un entorno familiar 
más educado no asegura mayores ingresos; conclusión contra intuitiva y diferente a lo que se 
hubiese esperado. Esto implica que si se ignora el efecto selección se estaría subestimando el 
retorno a la educación en lugar de sobre estimarlo como veníamos diciendo en clase. 
La columna 5 es una regresión en primeras diferencias de ingreso y educación intra-par (entre 
gemelos). Es como un matching natural. El resultado: 0,092 es mayor al de la primera columna 
0,084 confirmando que si se ignora el efecto de selección familiar se estaría subestimando el 
coeficiente. 
Las columnas 4 y 6 reportan las estimaciones con variables instrumentales que intentan 
corregir el error de medición. Se usa como variable instrumental de la educación la respuesta 
que dio el otro gemelo sobre la educación del primero. Las estimaciones son más grandes que 
sin la instrumentación. Si se acepta el reporte del hermano como un instrumento válido 
 
 
entonces los métodos convencionales están subestimando fuertemente los retornos a la 
educación. 
Con respecto a la validez externa de la muestra, usando datos de la CPS el estimador 
convencional da 8,3% que es muy parecido al 8,7% obtenido con esta muestra. El estimador de 
Behrman también es muy similar. Sin embargo, la regresión intra-par de este paper arroja un 
resultado muy diferente y bastante más chico. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
La tabla 4 son subsiguientes test del error de medición esta vez utilizando como solución el 
promedio entre los dos reportes de la misma variable. Tal como se esperaba los coeficientes del 
retorno a la educación son mayores que los correspondientes de la tabla 3 confirmando el 
resultado de que el error de medición produce sesgo para abajo de los estimadores del retorno 
a la educación. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
La tabla 5 es muy parecida a la tabla 3 con la única diferencia que ahora se agregan algunas 
variables para controlar el sesgo de selección familiar. Las estimaciones del retorno a la 
educación son aún mas grandes en este caso que en la tabla 4. 
Comentario aparte: Los resultados de las tablas 3, 4, y 5 arrojan los mismos resultados que la 
mayoría de la literatura acerca de la determinación de los salarios. El salario es cóncavo en la 
edad, hombres ganan mas que las mujeres, educación de los padres tiene muy poco efecto en 
los ingresos. La única anomalía es el efecto de la raza en el ingreso; estos resultados muestran 
que los blancos ganan menos que los no blancos. Es posible que este resultado sea porque la 
muestra tiene muy pocos no-blancos. Eliminando los no blancos de la muestra los resultados 
no cambian mucho. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Finalmente implementando variables instrumentales para solucionar el error de medición se 
ve como en ambos casos tanto el error de medición como la omisión del entorno familiar son 
dos factores que sesgan hacia abajo el retorno a la educación. 
 
Conclusión 
El artículo de Behrman reporta resultados de un estudio de gemelos idénticos en el cual los 
retornos a la educación son solo de 3% por año adicional completado. 
En cambio, los resultados de Ashenfelter y Krueger son muydiferentes. Encontraron un 
retorno a la educación mucho más grande que la literatura previa. Por cada año completado la 
el salario aumenta entre 12% y 16%. Además no hay evidencia de que las estimaciones de los 
retornos a la educación están sobreestimadas por no controlar el entorno familiar u otros 
factores inobservables que pueden afectar al ingreso. En todo caso, están subestimando el 
retorno a la educación. Por ejemplo, el error de medición en el nivel educativo provoca un 
sesgo decreciente y sustancial al estimador de los retornos a la educación. 
 
Comparando con la teoría de clase, los autores utilizan una mezcla entre: 
• una especie de matching, un match natural, ya que se comparan dos personas con las 
mismas características pero distintos niveles de educación. Para cada uno se busca un 
contrafactual, que es el hermano. 
• Y el método de variables instrumentales que se utiliza para eliminar el error de 
medición en el nivel educativo. 
 
Este método es creíble ya que controla por entorno familiar y habilidad innata pero puede 
seguir habiendo un sesgo en la estimación provocado por distintos motivos: 
• En primer lugar, el contrafactual para cada uno es un hermano que tiene niveles de 
educación que en general se asemejan mucho a su gemelo. 
• Es posible que, si los niveles de educación de los gemelos no son aleatorios, los 
estimadores del retorno a la educación están sesgados → problema de endogeneidad. 
• En esta muestra el nivel de educación de los gemelos es mayor que el nivel de 
educación de la muestra de CPS→ la muestra puede no ser representativa.

Continuar navegando