Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Tema 6 INTRODUCCIÓN A LOS MODELOS CON DATOS DE PANEL ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 1 1. INTRODUCCIÓN Un conjunto de datos de panel es aquél en el que disponemos de varias observaciones para cada una de las unidades. Las unidades pueden ser individuos, hogares, empresas, países o cualquier otro tipo de entidades que permanezcan estables a lo largo del tiempo. Ejemplo: La Encuesta Continua de Presupuestos Familiares Un “balanced panel” (panel equilibrado) es aquél en el que tenemos observaciones de todos los individuos (o empresas, países, etc.) en cada periodo de tiempo. Un “unbalanced panel” es aquél en el que algunos individuos no han sido observadas (entrevistadas) en alguno de los periodos considerados. Las razones pueden ser el cambio de domicilio, negarse a responder a la entrevista, muerte… Los paneles tienen varias ventajas respecto a los datos de corte transversal (cross-section) Nos permiten superar los problemas causados por la heterogeneidad inobservable. Nos permiten investigar dinámicas en el comportamiento sin tener que recurrir a preguntas retrospectivas que siempre pueden estar sujetas a errores de medida. Nos permiten disponer de muchas observaciones. Si observamos n unidades durante T periodos de tiempo, disponemos de nT observaciones. Debido a que son encuestas muy caras, suelen diseñarse con bastante rigurosidad y tienen tasas de respuesta muy altas. 8 1. INTRODUCCIÓN 9 1. INTRODUCCIÓN NLSY 1988 data Dependent variable LGEARN MARRIED 0.129 0.163 – (0.024) (0.028) SOONMARR – 0.096 –0.066 (0.037) (0.034) SINGLE – – –0.163 (0.028) R2 0.271 0.274 0.274 n 1538 1538 1538 EJEMPLO: Vamos a comenzar con un ejemplo para ilustrar cómo se puede estudiar la dinámica del comportamiento a partir de datos de panel. Utilizamos datos del National Longitudinal Survey of Youth. Este es un panel con datos de 1977 a 1994. Estimamos un modelo de salarios con datos de 1538 hombres que trabajan a tiempo completo. • La variable dependiente es LGEARN (log salario). • Las variables explicativas son MARRIED, años de escolarización, ASVABC score, años en el puesto que ocupa, años de experiencia laboral, etc. … Pero sólo mostramos el coeficiente estimado de MARRIED. 11 NLSY 1988 data Dependent variable LGEARN MARRIED 0.129 0.163 – (0.024) (0.028) SOONMARR – 0.096 –0.066 (0.037) (0.034) SINGLE – – –0.163 (0.028) R2 0.271 0.274 0.274 n 1538 1538 1538 Los resultados muestran que los hombres casados ganan un 12,9 % más que los solteros…y el efecto es significativo! Este efecto se ha mostrado repetidamente en la literatura. Una posible explicación es que el matrimonio conlleva responsabilidades financieras, lo cual conduce a los hombres a esforzarse más para conseguir trabajos mejor remunerados. Otra explicación es que algunas cualidades inobservadas del trabajador que son valoradas por los empleadores, son también valoradas por potenciales “esposas” y, por tanto, favorecerían el matrimonio. De acuerdo con esta explicación, la variable MARRIED, actuaría como variable proxy de esas cualidades inobservables. 1. INTRODUCCIÓN 11 NLSY 1988 data Dependent variable LGEARN MARRIED 0.129 0.163 – (0.024) (0.028) SOONMARR – 0.096 –0.066 (0.037) (0.034) SINGLE – – –0.163 (0.028) R2 0.271 0.274 0.274 n 1538 1538 1538 Con datos de corte transversal, es muy difícil discriminar entre estas dos explicaciones. Sin embargo, si disponemos de datos de panel, podemos analizar si el salario aumenta en el momento de casarse o justo después. Esto nos permitiría corroborar la hipótesis basada en el aumento de la productividad al casarse. También podemos analizar si los hombres casados ganaban más que los solteros antes de casarse, esto nos permitiría corroborar la hipótesis basada en la heterogeneidad inobservable. 1. INTRODUCCIÓN 17 NLSY 1988 data Dependent variable LGEARN MARRIED 0.129 0.163 – (0.024) (0.028) SOONMARR – 0.096 –0.066 (0.037) (0.034) SINGLE – – –0.163 (0.028) R2 0.271 0.274 0.274 n 1538 1538 1538 1. INTRODUCCIÓN Definimos una segunda variable SOONMARR=1 si el encuestado estaba soltero en 1988 pero se casó en los 4 años siguientes, =0 si estaba soltero en 1988 y sigue soltero 4 años después. Si estar casado aumentase la productividad de los hombres, el coeficiente de SOONMARR debería ser, estadísticamente, igual a 0 porque los hombres en esta categoría estaban todavía solteros en 1988. Pero, el t-statistic=3.10, por tanto SOONMARR es significativa al 1% Pero si la hipótesis basada en heterogeneidad inobservable fuese cierta (es decir, si estar casado no aumentase la productividad) el coeficiente de SOONMARR debería ser igual al de MARRIED. 21 NLSY 1988 data Dependent variable LGEARN MARRIED 0.129 0.163 – (0.024) (0.028) SOONMARR – 0.096 –0.066 (0.037) (0.034) SINGLE – – –0.163 (0.028) R2 0.271 0.274 0.274 n 1538 1538 1538 1. INTRODUCCIÓN Para contrastar si el coeficiente de SOONMARR es significativamente distinto al de MARRIED, la forma más fácil es sacar MARRIED y meter SINGLE=1 si sigue soltero 4 años más tarde, =0 si no. De este modo, la categoría de referencia es estar casado en 1988. Si contrastamos la significatividad de SOONMARR, el t-statististic=-1.93, por tanto no rechazamos la hipótesis nula al 5%. Por tanto no encontramos diferencias significativas al 5% en el salario de los hombres que en 1988 están solteros y se casan en los siguientes 4 años, y los casados en 1988….Aunque las diferencias sí son significativas al 10% 24 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 1. INTRODUCCIÓN ¿Cómo podemos aprovechar la estructura de panel de los datos para plantear un análisis de regresión? Y= Variable dependiente X= Variables explicativas observables que, para cada i, pueden tomar distinto valor en cada momento del tiempo (tenemos K variables) Z= Variables explicativas inobservables que afectan a Y pero no cambian a lo largo del tiempo (tenemos S variables). ε = Término de error del modelo que recoge aquellos factores inobservables que, para cada i, pueden tomar distinto valor en cada periodo. Este término de error suponemos que cumple los supuestos habituales del modelo de regresión. En las aplicaciones se le suele denominar error idiosincrásico. t= variable que recoge el periodo del tiempo al que se refiere la observación 24 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 1. INTRODUCCIÓN Las variables X son, generalmente, las variables de interés, es decir, las variables cuyo impacto en Y estamos interesados en conocer. Las variables Z se interpretan como las responsables de la heterogeneidad inobservable. Como las Z’s no son observables y, por tanto, no hay forma de obtener información sobre ΣγpZp , lo habitual es definir un término αi conocido como el efecto no observado o efecto fijo, que representa el impacto conjunto de las Z’s sobre la Y. ¿Cómo podemos aprovechar la estructura de panel de los datos para plantear un análisis de regresión? 24 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 1. INTRODUCCIÓN El modelo quedaría entonces expresado: ∑ = = s p pipi Z 1 γα iti k j jitjit tXY εδαββ ++++= ∑ =2 1 ¿Cómo podemos aprovechar la estructura de panel de los datos para plantear un análisis de regresión? 24 1. INTRODUCCIÓN iti k j jitjit tXY εδαββ ++++= ∑ =2 1 IMPORTANTE: Si las X consiguiesen recoger todos los factores relevantes que explican la Y, entonces el término α desaparecería. En ese caso, podríamos estimar el modelo por MCO tomando la muestra formada por todas las observaciones de todos los periodos. Las estimaciones de MCO serían insesgadas y consistentes siempre que las X’s y el error idiosincrásico fuesen independientes. Pero si los α importan, como no los observamos, en realidad estaríamos estimando: itk j jitjit vtXY +++= ∑ = δββ 2 1 itiitv εα += En este caso, incluso si suponemos que el término idiosincrásico está incorrelacionado con las X’s. MCO puede ser sesgado e inconsistente si ai está correlacionado con las X’s. Este sesgo se denomina sesgo de heterogeneidad. 1. INTRODUCCIÓN EJEMPLO: Estudio sobre la delincuencia en las ciudades itiiitit yeardesemdelinc εδαββ ++++= 04.21 Queremos estudiar el efecto del desempleo en la delincuencia de las ciudades. Tenemos datos correspondientes a 50 ciudades para los años 2000 y del 2004. delinc= índice de delincuencia desem= tasa de desempleo year04=1 si la observación es de 2004, =0 si es de 2000 ¿Qué factores pueden estar en el término no observado αi ? Piensa en variables que, para una misma ciudad, no cambian entre el año 2000 y el 2004. ¿Podría ser que alguno de esos factores tuviese relación con la tasa de desempleo de la ciudad? 2. MODELO DE EFECTOS FIJOS En la mayoría de aplicaciones, la principal razón por la que utilizamos datos de panel es porque queremos permitir que los efectos fijos estén correlacionados con las variables explicativas. En el modelo de efectos fijos, la idea es manipular el modelo para que el efecto fijo (término no observado) desaparezca y podamos estimar los parámetros de interés. 2. MODELO DE EFECTOS FIJOS 2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS El método de “primeras diferencias” consiste en eliminar el efecto no observado restando, para cada individuo, la observación correspondiente a t menos la observación t-1 1 2 111 )1( − = −− +−+++= ∑ iti k j jitjit tXY εδαββ iti k j jitjit tXY εδαββ ++++= ∑ =2 1 1 2 11 )( − = −− −++−=− ∑ itit k j jitjitjitit XXYY εεδβ 1 2 − = −++∆=∆ ∑ itit k j jitjit XY εεδβ 2. MODELO DE EFECTOS FIJOS 2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS 1 2 11 )( − = −− −++−=− ∑ itit k j jitjitjitit XXYY εεδβ 1 2 111 )1( − = −− ++−++= ∑ iti k j jitjit tXY εαδββ 1 2 − = −++∆=∆ ∑ itit k j jitjit XY εεδβ 1 a próximo está si )1( 11 1 ρ ερεε ρεε it itititit ititit v v v ≅ −−=− += −− − iti k j jitjit tXY εδαββ ++++= ∑ =2 1 Nótese que ahora el término de error es (εit – εit–1). Su valor en el periodo anterior será (εit-1 – εit–2). De modo que las primeras diferencias dan lugar a una correlación de medias móviles si εit satisface los supuestos del modelo de regresión. Pero si εit muestra autocorrelación AR(1) y ρ está próximo a 1, tomar primeras diferencias resuelve este problema de autocorrelación. iti k j jitjit tXY εδαββ ++++= ∑ =2 1 2 2. MODELO DE EFECTOS FIJOS 2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS En primer lugar, se calcula la media muestral de cada una de las variables para cada individuo. El efecto no observado no se ve alterado porque es el mismo para todas las observaciones un mismo individuo. ii k j jiji tXY εδαββ ++++= ∑ =2 1 En segundo lugar, restamos la segunda ecuación de la primera. De esta manera, el efecto no observado desaparece. iit k j jijitjiit ttXXYY εεδβ −+−+−=− ∑ = )()( 2 Este método se conococe como estimador “within-groups” porque el modelo explica las variaciones de la variable dependiente alrededor de la media en función de variaciones en las variables explicativas en torno a sus medias. Este segundo método de estimación sigue un procedimiento diferente para eliminar los efectos fijos. Este método también se conoce como “transformación de efectos fijos”. 2 2. MODELO DE EFECTOS FIJOS iit k j jijitjiit ttXXYY εεδβ −+−+−=− ∑ = )()( 2 Aunque con este método resolvemos el problema de sesgo por heterogeneidad inobservable, pagamos un precio. En primer lugar, el término constante β1 y cualquiera de las X’s que permanezcan constantes para cada individuo a lo largo del tiempo, desaparecen. La eliminación del término constante puede no ser relevante, pero la imposibilidad de medir el efecto de variables que no cambian sí. Por ejemplo, si estamos estimando una ecuación de salarios con una muestra de individuos que ya han finalizado su escolarización, el efecto de la variable “schooling” desaparecería. Esto ocurre incluso si los individuos de la muestra tienen diferentes años de escolarización poque, para cada individuo, la desviación de “schooling” en el año respecto a la media de “schooling” para ese individuo sería 0. Por tanto, si el objetivo del estudio fuese medir el impacto de “schooling” una vez que hemos controlado por heterogeneidad inobservable, no podríamos. 2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS 2 2. MODELO DE EFECTOS FIJOS iit k j jijitjiit ttXXYY εεδβ −+−+−=− ∑ = )()( 2 Un segundo problema que surge con este método es que la variable dependiente en el modelo transformado puede tener varianzas mucho más pequeñas que en el original. Esto puede tener efectos adversos sobre la precisión de las estimaciones de los coeficientes. 2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS 2. MODELO DE EFECTOS FIJOS 2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES iti k j jitjit tXY εαδββ ++++= ∑ =2 1 it n i ii k j jitjit AtXY εαδβ +++= ∑∑ == 12 Este método estima explícitamente los efectos fijos del modelo. Para ello tenemos que definir un conjunto de variables ficticias Ai, donde Ai =1 si una observación corresponde al individuo i y es =0 en otro caso. El modelo queda expresado de la siguiente forma: Ahora, podríamos estimar los parámetros por MCO. 2. MODELO DE EFECTOS FIJOS 2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES it n i ii k j jitjit AtXY εαδβ +++= ∑∑ == 12 Recordad que no podemos incluir tantas variables artificiales como individuos hay en la muestra ya que, en ese caso, caeríamos en la “trampa de las variables artificiales”. Por ese motivo, borramos el término constante del modelo. Si tenemos muchos individuos en la muestra, este método no es muy práctico, ya que tendríamos que estimar muchos parámetros. Cuando T=2 se puede demostrar matemáticamente que este método es equivalente al estimador “within-groups”, es decir, nos permite obtener las mismas estimaciones. 3. MODELO DE EFECTOS ALEATORIOS Como hemos visto, cuando las variables observadas X se mantienen constantes a lo largo del tiempo para cada individuo, la regresión de efectos fijos no es una herramienta atractiva porque no nos permite medir el efecto de esas variables. En esta sección, consideraremos un enfoque alternativo denominado MODELO DE EFECTOS ALEATORIOS que, sujeto a un par de condiciones, nos permite resolver este problema. 3. MODELO DE EFECTOS ALEATORIOS itiitu εα +=it k j jitj iti k j jitjit utX tXY +++= ++++= ∑ ∑ = = δββ εδαββ 2 1 2 1 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 PRIMERA CONDICIÓN: Podemos tratar cada una de las variables Z como si hubiesen sido extraidas de una distribución aleatoria. Bajo este supuesto, ai puede ser considerada como un efecto aleatorio (de ahí el nombre de este enfoque). De modo que el modelo se puede reescribir con un nuevo término de error uit. 3. MODELO DE EFECTOS ALEATORIOS itiitu εα +=it k j jitj iti k j jitjit utX tXY +++= ++++= ∑ ∑ = = δββ εδαββ 2 1 2 1 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 SEGUNDA CONDICIÓN: Las variables Zp se distribuyen de forma independiente a las variables Xj. Si este supuesto no se cumple, la estimación del modelo sería sesgada e inconsistente (¿Por qué?). En ese caso, deberíamos utilizar el “modelo de efectos fijos”. Si las dos condiciones se cumplen, deberíamos utilizar el “modelo de efectos aleatorios”. Pero existe otro problema: el término uit puede mostrar cierta forma de autocorrelación, de modo que el método de estimación debe tenerlo en cuenta. 3. MODELO DE EFECTOS ALEATORIOS itiitu εα +=it k j jitj iti k j jitjit utX tXY +++= ++++= ∑ ∑ = = δββ εδαββ 2 1 2 1 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 Primero, vamos a comprobar si se cumplen los otros supuestos del modelo de regresión. 1.Suponemos sin pérdida de generalidad que E(αi) = 0, entonces E(u)=0 0)()()()( =+=+= itiitiit EEEuE εαεα 9 3. MODELO DE EFECTOS ALEATORIOS itiitu εα +=it k j jitj iti k j jitjit utX tXY +++= ++++= ∑ ∑ = = δββ εδαββ 2 1 2 1 it s p pip k j jitjit tZXY εδγββ ++++= ∑∑ == 12 1 0)()()()( =+=+= itiitiit EEEuE εαεα 2. La varianza de uit es constante. (La convarianza entre αi y εit es 0 bajo el supuesto de que αi es independiente de εit.) 22 , 2222 2 εαεαεαεα σσσσσσσ +=++== + itiitiitiitu 11 3. Además, uit también es independiente de los valores Xj, porque tanto αi como εit satisfacen esta condición. 3. MODELO DE EFECTOS ALEATORIOS Individual Time u 1 1 α1 + ε11 1 2 α1 + ε12 1 3 α1 + ε13 2 1 α2 + ε21 2 2 α2 + ε22 2 3 α2 + ε23 it k j jitjit utXY +++= ∑ = δββ 2 1 itiitu εα += 13 PERO…. Existe un problema de autocorrelación porque las observaciones para un mismo individuo tiene un componente común ai que recoge las características no observadas del individuo. No obstante, las observaciones de diferentes individuos sí son independientes entre sí. 3. MODELO DE EFECTOS ALEATORIOS Individual Time u 1 1 α1 + ε11 1 2 α1 + ε12 1 3 α1 + ε13 2 1 α2 + ε21 2 2 α2 + ε22 2 3 α2 + ε23 it k j jitjit utXY +++= ∑ = δββ 2 1 itiitu εα += 13 No vamos a analizar con detalle cómo se afronta este problema. El software econométrico estima estos modelos por MÍNIMOS CUADRADOS GENERALIZADOS FACTIBLES, cuyos detalles no vamos a abordar en este curso. 3. MODELO DE EFECTOS ALEATORIOS NLSY 1980–1996 Dependent variable logarithm of hourly earnings OLS Fixed effects Random effects Married 0.184 0.106 – 0.134 – (0.007) (0.012) (0.010) Soon-to-be- 0.096 0.045 –0.061 0.060 –0.075 married (0.009) (0.010) (0.008) (0.009) (0.007) Single – – –0.106 – –0.134 (0.012) (0.010) R2 0.358 0.268 0.268 0.346 0.346 n 20,343 20,343 20,343 20,343 20,343 EJEMPLO 3. ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? ¿Podemos describir las observaciones como procedentes de una muestra aleatoria de la población? Estima el modelo de efectos fijos Estima ambos modelos: efectos fijos y efectos aleatorios ¿El contraste Durbin-Wu- Hausman indica diferencias entre los coeficientes? Elige provisionalmente el modelo de efectos aleatorios. ¿Los tests indican presencia de efectos aleatorios? Utiliza el modelo de efectos fijos Utiliza el modelo de efectos aleatorios Utiliza MCO haciendo un pool con los datos Sí No Sí No Sí No
Compartir