Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Sofía Montes de Oca, Inés gurmendi e Ignacio Berardi Estimates of the economic return to schooling from a new sample of twins By Orley Ashenfelter and Alan Kreuger La idea de este artículo es utilizar una nueva muestra de gemelos idénticos para estudiar los retornos económicos a la educación. Estiman estos retornos, comparando la tasa salarial entre gemelos identicos con diferentes niveles de educación. El objetivo de ambos autores es demostrar la correlación que tiene la educación y el salario controlando la habilidad y otras variables como, por ejemplo, el entorno familiar. Les preguntan a cada gemelo su propia educación y la de su hermano con el fin de obtener estimaciones independientes de los niveles de educación. Los resultados muestran que los retornos económicos a la educación podrían haber estado sub-estimados en el pasado. Estimaron que un año adicional de colegio completado, aumenta el salario en un 12-16%. Este resultado es mayor del que hubiesen obtenido si no hubiesen controlado por la omision de habilidad y por el error de medición. Además no hay evidencia de que la habilidad inobservada este positivamente correlacionada con el nivel de educación completado. Y por último, los resultados indican que errores de medición llevan a una considerable subestimación de los retornos a la educación en estudios basados en hermanos. La colección de datos El objetivo de obtener medidas independientes de los niveles de educación de cada hermano por gemelos se llevó a cabo entrevistando a los dos hermanos en un mismo lugar pero separadamente. Para esto se decidió utilizar el 16avo Festival Anual del día de gemelos en Twinsburg, Ohio en Agosto de 1991. Es el lugar del mundo donde mayor cantidad de gemelos se juntan. Se logró entrevistar 495 individuos separados con edad mayor que 18 años a lo largo de los tres días del festival. ¿Cómo se coleccionó la data? • El cuestionario que los autores utilizaron se basó en gran parte en el Current Population Survey, la fuente de estadísticos laborales más grande de los EEUU. • Para lograr identificar a los gemelos genéticamente idénticos se les hizo ciertas preguntas específicas a cada uno, elegidas por los autores mismos. • Eran cinco los investigadores que entrevistaron. Las entrevistas podían llevarse a cabo en el pabellón de investigación de la entrada del festival o en el festival. La mayoría aceptó a ser entrevistado y ninguno tuvo problema en compartir datos acerca de su salario. En todos los casos, separaron a los gemelos para los propósitos de la entrevista. La representatividad de la muestra Como se puede ver en la tabla 1, la muestra de gemelos utilizada para este artículo incluyó hombres, mujeres, blancos, afro-americanos mientras que la del artículo de Behrman 1 utilizado como comparación, se basa en una muestra de hombres veteranos de la Segunda guerra mundial. La tabla 1 muestra la media y el desvío estándar de ciertas variables comunes al CPS y otras variables estudiadas para ver cuanto compartían cada par de gemelos. En base a los resultados de la tabla, se puede ver comparando la primera y tercerea columna que la muestra de gemelos en el festival tiene mayor educación, más cantidad de jóvenes y mujeres que la muestra del CPS. 1 Behrman, Jere; Hrubec, Zdenek; Taubman, Paul and Wales, Terence. Socioeconomic success: A study of the effects of genetic endowments, family environment and schooling. Amsterdam: North-Holland, 1980. Además si vemos la variable “twins report same education”, se puede ver que en promedio el 49% de los gémelos idénticos entrevistados muestran mismo niveles de educación y el 74% de ellos reportan haber estudiado juntos durante el secundario. Luego la Tabla 2 del artículo reporta la correlación entre el logaritmo del ingreso, los niveles de educación de los gemelos idénticos y fraternos y los niveles de educación de los padres para la muestra. Decidimos mostrar solamente las correlaciones de los gemelos idénticos en este caso. 𝑆𝑛 𝑚; 𝑚, 𝑛 = 1,2 → niveles de educación del gemelo n-ésimo reportado por el gemelo m-ésimo. Analizando la Tabla 2 podemos sacar algunas conclusiones. Para empezar los reportes cruzados están altamente correlacionados (los niveles de educación del gemelo i, reportados por i y j): 0.92 para el gemelo 1, 0.877 para el gemelo 2. En segundo lugar, el ingreso y los niveles de educación de los gemelos idénticos están altamente correlacionados (0.382 para el gemelo 1 y 0.272 para el gemelo 2), más que los gemelos fraternales. Luego, comparando con otros artículos, como el de Behrman, las correlaciones intra-par para el propio nivel de educación reportado y para los ingresos son muy parecidos entre ambas muestras. Para finalizar, la correlación entre los coeficientes entre Behrman difieren muy poco de las correlaciones encontradas en esta muestra. Se podría concluir que la muestra es suficientemente representativa. El error de medición De la tabla 2 se puede obtener un estimado de los errores de medición. El modelo clásico de medición del error supone la siguiente fórmula: donde Sn: es el nivel de educación real y vnm: son los errores de medición no correlacionados con Sn, ni uno con otro. 𝑆𝑛 𝑚 = 𝑆𝑛 + 𝑣𝑛 𝑚 En el modelo utilizado por los Ashenfelter y Krueger, la correlación entre los dos niveles de educación (Sn1, Sn2) se explica por la siguiente fórmula: 𝑉𝑎𝑟(𝑆𝑛) [𝑉𝑎𝑟(𝑆𝑛 1)𝑉𝑎𝑟(𝑆𝑛 2)]1/2 Esta fórmula muestra el “Ratio de fiabilidad”: la fracción de la variabilidad en los niveles de educación reportados, que se debe a una varianza en el nivel de educación real. Luego, 1-ratio de fiabilidad = Error de medición. Las dos estimaciones del “ratio de fiabilidad” para los gemelos reportados en la Tabla 2 son 0.92 y 0.88. Podemos interpretar entonces que entre el 8% y el 12% de la varianza medida en los niveles de educación es error. Marco Conceptual: Primero se denota: • y1i,y2i como el logaritmo del ingreso para el primer y el segundo gemelo en el par i. • Xi como el set de variables que varía por familia. EJ: edad, raza. • Z1i Z2i como el set de variables que puede variar a través de los gemelos. Ej: niveles de educación, horas trabajadas y status marital de cada gemelo. El ingreso se explica por variables observados que varían entre familia y que varían entre individuo, un componente inobservable que varía por familia (ui), y un componente individual inobservable (e1i e2i). (1) 𝑦1𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍1𝑖 + 𝑢𝑖 + 𝑒1𝑖 (2) 𝑦2𝑖 = 𝛼𝑋𝑖 + 𝛽𝑍2𝑖 + 𝑢𝑖 + 𝑒2𝑖 Luego la representación general para la correlación entre el efecto de familia y los observables se muestra en la ecuación (3): (3) 𝑢𝑖 = 𝛾𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝛿𝑋𝑖 + 𝜔𝑖 Se puede apreciar un problema de endogeneidad al estimar las ecuaciones (1) y (2). Las variables observables Zi y Xi son endógenas, dado que están correlacionadas con el error de familia (ui). El coeficiente representa el “efecto de selección”, que relaciona el ingreso y los observables. Si, por ejemplo, familias que tendrían ingreso alto son más propensas a educar a sus hijos, entonces el componente gamma debería ser positivo. El coeficiente representa el efecto estructural de las variables observables (individuales) en el ingreso. • La forma reducida del modelo es obtenida sustituyendo (3) en (2) y (1): (4) 𝑦1𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍1𝑖 + 𝛾𝑍2𝑖 + 𝑒′1𝑖 (5) 𝑦2𝑖 = (𝛼 + 𝛿)𝑋𝑖 + (𝛽+𝛾)𝑍2𝑖 + 𝛾𝑍1𝑖 + 𝑒′2𝑖 Donde e1i´=wi+e1i. Se estiman estas ecuaciones por MCG por la presencia de heteroscedasticidad y de covarianzas distintas de cero. Una vez obtenido el efecto de selección se lo sustrae para obtener el efecto estructural. De tal manera que seestima el retorno de la educación. • La diferencia entre (1) y (2) (o (4) y (5): (6) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑍1𝑖 − 𝑍2𝑖) + 𝑒1𝑖 − 𝑒2𝑖 El efecto individual ui se eliminó y el efecto de selección estimado explícitamente se elimina por diferencia. El estimador de mínimos cuadrados para esta ecuación se llama el estimador de “efectos fijos”. ¿Qué efecto tiene el error de medición? El mayor descubrimiento de los autores se basa en que los errores de medición pueden subestimar considerablemente los retornos a la educación en estudios basados en gemelos. Mínimos cuadrados ordinarios En el modelo clásico, los errores de medición de ambos gemelos sobre la educación de uno de ellos NO están correlacionado. En una regresión simple regresando el nivel de educación contra el ingreso, el estimador ols coeficiente estimado es menor que el coeficiente poblacional. El ratio de fiabilidad sobre los niveles de educación estimado es cerca de 0.90, indicando que el coeficiente estimado estará sesgado hacia abajo un 10% relativo a su valor en ausencia de errores de medición. plim 𝛽⋀𝑜𝑙𝑠 = 𝛽𝑜𝑙𝑠 (1 − 𝑉𝑎𝑟(𝜐) 𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆) ) Efectos Fijos En la presencia de efectos de selección, por más de que no hubiesen errores de medición, al estimar los retornos a la educación, el coeficiente estimado por MCO estaría sesgado hacia abajo por la omisión de ciertas variables como el nivel de educación del hermano. Una vez que se suma esta variable (Ecuación (4) y (5)) y se hace diferencias se obtiene la ecuación (6) de diferencias intra-gemelos y se obtiene el estimador de efectos fijos. De todas maneras, por más de eliminar el sesgo por selección, agrega mucho más sesgo por errores de medición. 𝛽⋀𝐹𝐸 = 𝛽𝐹𝐸 (1 − 𝑉𝑎𝑟(𝜐) [𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠) ) Promedio de niveles de educación reportados Para reducir el efecto de errores de medición en el estimador de efectos fijos y el de MCO, los autores promedian los múltiples reportes de educación [(S11 – S22)/2 + (S12-S21)/2] y usan aquel promedio como variable independiente en la ecuación (6). El nuevo coeficiente estimado avg > FE por el último término positivo de la siguiente ecuación. Los errores de medición ahora causan un sesgo hacia abajo menor que en el estimador de efectos fijos. Al promediar se reduce los errores de medición y se reduce el sesgo hacia abajo del estimador de los retornos a la educación. plim 𝛽⋀𝑎𝑣𝑔 = 𝛽 (1 − 𝑉𝑎𝑟(𝜐) [𝑉𝑎𝑟(𝜐) + 𝑉𝑎𝑟(𝑆)](1 − 𝜌𝑠) + 2𝑉𝑎𝑟(𝑆1 − 𝑆2) 2 ) En conclusión, en la práctica debería FE<OLS<avg. De todas maneras, luego se verá en los resultados de este artículo que FE>OLS. Variables instrumentales para corregir el error de medición Los autores instrumentan el nivel de educación de uno con el reporte del otro hermano sobre su nivel de educación. Los autores se basan en que los errores de medición de los reportes de los gemelos sobre su propia educación y los reportes sobre la educación de sus hermanos están correlacionados. En otras palabras, si uno de los dos reportó mal su educación, lo más probable es que reporte mal la educación del otro. Entonces si utilizaran S12-S21 como instrumento para la diferencia entre S11-S22 en la ecuación (6) de diferencias intra-pares NO se cancelaría el error de medición. Lo solucionan utilizando el reporte de un solo gemelo sobre su educación y la de su hermano para cancelar el error de medición. Pero hacen lo mismo que con OLS, instrumentan con lo que reporta el otro (S**= S12-S22 para S*). (8) 𝑦1𝑖 − 𝑦2𝑖 = 𝛽(𝑆1 1 − 𝑆2 1) + 𝑒1𝑖 − 𝑒2𝑖 = 𝛽Δ𝑆 ∗ + Δ𝑒 Resultados Las regresiones de la tabla 3 son simples estimaciones del retorno a la educación controlando solamente por variables demográficas como la edad, raza y genero. Los resultados de las primeas dos columnas ignoran el efecto que puede llegar a tener el entorno familiar en la educación. Es decir, habría un sesgo de selección porque tendemos a pensar que entornos familiares mas educados fomentan la selección de mayores niveles de educación. Se utiliza mínimos cuadrados generalizados para corregir la presencia de heterocedasticidad en las observaciones. Cuando la educación es igual, se observa mucha variabilidad del ingreso mientras que cuando al educación es diferente disminuye esa variabilidad. En la tercer columna se agrega la educación del segundo gemelo como variable explicativa del ingreso del primer gemelo. Vendría a representar el sesgo de selección que mencionábamos previamente. Se ve que el coeficiente es muy chico y negativo. Es decir, un entorno familiar más educado no asegura mayores ingresos; conclusión contra intuitiva y diferente a lo que se hubiese esperado. Esto implica que si se ignora el efecto selección se estaría subestimando el retorno a la educación en lugar de sobre estimarlo como veníamos diciendo en clase. La columna 5 es una regresión en primeras diferencias de ingreso y educación intra-par (entre gemelos). Es como un matching natural. El resultado: 0,092 es mayor al de la primera columna 0,084 confirmando que si se ignora el efecto de selección familiar se estaría subestimando el coeficiente. Las columnas 4 y 6 reportan las estimaciones con variables instrumentales que intentan corregir el error de medición. Se usa como variable instrumental de la educación la respuesta que dio el otro gemelo sobre la educación del primero. Las estimaciones son más grandes que sin la instrumentación. Si se acepta el reporte del hermano como un instrumento válido entonces los métodos convencionales están subestimando fuertemente los retornos a la educación. Con respecto a la validez externa de la muestra, usando datos de la CPS el estimador convencional da 8,3% que es muy parecido al 8,7% obtenido con esta muestra. El estimador de Behrman también es muy similar. Sin embargo, la regresión intra-par de este paper arroja un resultado muy diferente y bastante más chico. La tabla 4 son subsiguientes test del error de medición esta vez utilizando como solución el promedio entre los dos reportes de la misma variable. Tal como se esperaba los coeficientes del retorno a la educación son mayores que los correspondientes de la tabla 3 confirmando el resultado de que el error de medición produce sesgo para abajo de los estimadores del retorno a la educación. La tabla 5 es muy parecida a la tabla 3 con la única diferencia que ahora se agregan algunas variables para controlar el sesgo de selección familiar. Las estimaciones del retorno a la educación son aún mas grandes en este caso que en la tabla 4. Comentario aparte: Los resultados de las tablas 3, 4, y 5 arrojan los mismos resultados que la mayoría de la literatura acerca de la determinación de los salarios. El salario es cóncavo en la edad, hombres ganan mas que las mujeres, educación de los padres tiene muy poco efecto en los ingresos. La única anomalía es el efecto de la raza en el ingreso; estos resultados muestran que los blancos ganan menos que los no blancos. Es posible que este resultado sea porque la muestra tiene muy pocos no-blancos. Eliminando los no blancos de la muestra los resultados no cambian mucho. Finalmente implementando variables instrumentales para solucionar el error de medición se ve como en ambos casos tanto el error de medición como la omisión del entorno familiar son dos factores que sesgan hacia abajo el retorno a la educación. Conclusión El artículo de Behrman reporta resultados de un estudio de gemelos idénticos en el cual los retornos a la educación son solo de 3% por año adicional completado. En cambio, los resultados de Ashenfelter y Krueger son muydiferentes. Encontraron un retorno a la educación mucho más grande que la literatura previa. Por cada año completado la el salario aumenta entre 12% y 16%. Además no hay evidencia de que las estimaciones de los retornos a la educación están sobreestimadas por no controlar el entorno familiar u otros factores inobservables que pueden afectar al ingreso. En todo caso, están subestimando el retorno a la educación. Por ejemplo, el error de medición en el nivel educativo provoca un sesgo decreciente y sustancial al estimador de los retornos a la educación. Comparando con la teoría de clase, los autores utilizan una mezcla entre: • una especie de matching, un match natural, ya que se comparan dos personas con las mismas características pero distintos niveles de educación. Para cada uno se busca un contrafactual, que es el hermano. • Y el método de variables instrumentales que se utiliza para eliminar el error de medición en el nivel educativo. Este método es creíble ya que controla por entorno familiar y habilidad innata pero puede seguir habiendo un sesgo en la estimación provocado por distintos motivos: • En primer lugar, el contrafactual para cada uno es un hermano que tiene niveles de educación que en general se asemejan mucho a su gemelo. • Es posible que, si los niveles de educación de los gemelos no son aleatorios, los estimadores del retorno a la educación están sesgados → problema de endogeneidad. • En esta muestra el nivel de educación de los gemelos es mayor que el nivel de educación de la muestra de CPS→ la muestra puede no ser representativa.
Compartir