Logo Studenta

INTRODUCCION A LOS MODELOS CON DATOS DE PANEL

¡Este material tiene más páginas!

Vista previa del material en texto

Tema 6
INTRODUCCIÓN A LOS MODELOS CON DATOS 
DE PANEL
ECONOMETRÍA II
Prof.: Begoña Álvarez
2007-2008
1
1. INTRODUCCIÓN
Un conjunto de datos de panel es aquél en el que disponemos de 
varias observaciones para cada una de las unidades.
Las unidades pueden ser individuos, hogares, empresas, países
o cualquier otro tipo de entidades que permanezcan estables a lo 
largo del tiempo. 
Ejemplo: La Encuesta Continua de Presupuestos Familiares
Un “balanced panel” (panel equilibrado) es aquél en el que
tenemos observaciones de todos los individuos (o empresas, países, 
etc.) en cada periodo de tiempo. 
Un “unbalanced panel” es aquél en el que algunos individuos no han
sido observadas (entrevistadas) en alguno de los periodos
considerados. Las razones pueden ser el cambio de domicilio, 
negarse a responder a la entrevista, muerte…
Los paneles tienen varias ventajas respecto a los datos de corte
transversal (cross-section)
Nos permiten superar los problemas causados por la 
heterogeneidad inobservable.
Nos permiten investigar dinámicas en el comportamiento sin tener
que recurrir a preguntas retrospectivas que siempre pueden estar
sujetas a errores de medida. 
Nos permiten disponer de muchas observaciones. Si observamos
n unidades durante T periodos de tiempo, disponemos de nT
observaciones.
Debido a que son encuestas muy caras, suelen diseñarse con 
bastante rigurosidad y tienen tasas de respuesta muy altas. 
8
1. INTRODUCCIÓN
9
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
MARRIED 0.129 0.163 –
(0.024) (0.028)
SOONMARR – 0.096 –0.066
(0.037) (0.034)
SINGLE – – –0.163
(0.028)
R2 0.271 0.274 0.274
n 1538 1538 1538
EJEMPLO:
Vamos a comenzar con un ejemplo 
para ilustrar cómo se puede estudiar 
la dinámica del comportamiento a 
partir de datos de panel. 
Utilizamos datos del National
Longitudinal Survey of Youth. Este 
es un panel con datos de 1977 a 1994. 
Estimamos un modelo de salarios con 
datos de 1538 hombres que trabajan a 
tiempo completo. 
• La variable dependiente es 
LGEARN (log salario).
• Las variables explicativas son 
MARRIED, años de 
escolarización, ASVABC score, 
años en el puesto que ocupa, 
años de experiencia laboral, etc. 
… Pero sólo mostramos el 
coeficiente estimado de 
MARRIED. 
11
NLSY 1988 data
Dependent variable LGEARN
MARRIED 0.129 0.163 –
(0.024) (0.028)
SOONMARR – 0.096 –0.066
(0.037) (0.034)
SINGLE – – –0.163
(0.028)
R2 0.271 0.274 0.274
n 1538 1538 1538
Los resultados muestran que los 
hombres casados ganan un 12,9 % 
más que los solteros…y el efecto 
es significativo!
Este efecto se ha mostrado 
repetidamente en la literatura. Una 
posible explicación es que el 
matrimonio conlleva 
responsabilidades financieras, lo cual 
conduce a los hombres a esforzarse 
más para conseguir trabajos mejor 
remunerados. 
Otra explicación es que algunas 
cualidades inobservadas del 
trabajador que son valoradas por los 
empleadores, son también valoradas 
por potenciales “esposas” y, por tanto, 
favorecerían el matrimonio. 
De acuerdo con esta explicación, la 
variable MARRIED, actuaría como 
variable proxy de esas cualidades 
inobservables. 
1. INTRODUCCIÓN
11
NLSY 1988 data
Dependent variable LGEARN
MARRIED 0.129 0.163 –
(0.024) (0.028)
SOONMARR – 0.096 –0.066
(0.037) (0.034)
SINGLE – – –0.163
(0.028)
R2 0.271 0.274 0.274
n 1538 1538 1538
Con datos de corte transversal, es 
muy difícil discriminar entre estas 
dos explicaciones. 
Sin embargo, si disponemos de 
datos de panel, podemos analizar 
si el salario aumenta en el 
momento de casarse o justo 
después. Esto nos permitiría 
corroborar la hipótesis basada en 
el aumento de la productividad al 
casarse. 
También podemos analizar si los 
hombres casados ganaban más que 
los solteros antes de casarse, esto 
nos permitiría corroborar la 
hipótesis basada en la 
heterogeneidad inobservable. 
1. INTRODUCCIÓN
17
NLSY 1988 data
Dependent variable LGEARN
MARRIED 0.129 0.163 –
(0.024) (0.028)
SOONMARR – 0.096 –0.066
(0.037) (0.034)
SINGLE – – –0.163
(0.028)
R2 0.271 0.274 0.274
n 1538 1538 1538
1. INTRODUCCIÓN
Definimos una segunda 
variable SOONMARR=1 si el 
encuestado estaba soltero en 
1988 pero se casó en los 4 
años siguientes, =0 si estaba 
soltero en 1988 y sigue soltero 
4 años después. 
Si estar casado aumentase la 
productividad de los 
hombres, el coeficiente de 
SOONMARR debería ser, 
estadísticamente, igual a 0 
porque los hombres en esta 
categoría estaban todavía 
solteros en 1988.
Pero, el t-statistic=3.10, por 
tanto SOONMARR es 
significativa al 1%
Pero si la hipótesis basada en heterogeneidad inobservable fuese cierta (es
decir, si estar casado no aumentase la productividad) el coeficiente de 
SOONMARR debería ser igual al de MARRIED.
21
NLSY 1988 data
Dependent variable LGEARN
MARRIED 0.129 0.163 –
(0.024) (0.028)
SOONMARR – 0.096 –0.066
(0.037) (0.034)
SINGLE – – –0.163
(0.028)
R2 0.271 0.274 0.274
n 1538 1538 1538
1. INTRODUCCIÓN
Para contrastar si el 
coeficiente de SOONMARR 
es significativamente distinto 
al de MARRIED, la forma 
más fácil es sacar MARRIED 
y meter SINGLE=1 si sigue 
soltero 4 años más tarde, =0 si 
no. 
De este modo, la categoría de 
referencia es estar casado en 
1988. 
Si contrastamos la 
significatividad de 
SOONMARR, el 
t-statististic=-1.93, por tanto 
no rechazamos la hipótesis 
nula al 5%. 
Por tanto no encontramos diferencias significativas al 5% en el salario de los
hombres que en 1988 están solteros y se casan en los siguientes 4 años, y los
casados en 1988….Aunque las diferencias sí son significativas al 10%
24
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
1. INTRODUCCIÓN
¿Cómo podemos aprovechar la estructura de panel de los datos para 
plantear un análisis de regresión?
Y= Variable dependiente
X= Variables explicativas observables que, para cada i, pueden tomar distinto 
valor en cada momento del tiempo (tenemos K variables)
Z= Variables explicativas inobservables que afectan a Y pero no cambian a lo 
largo del tiempo (tenemos S variables). 
ε = Término de error del modelo que recoge aquellos factores inobservables que, 
para cada i, pueden tomar distinto valor en cada periodo. Este término de error 
suponemos que cumple los supuestos habituales del modelo de regresión. En las 
aplicaciones se le suele denominar error idiosincrásico.
t= variable que recoge el periodo del tiempo al que se refiere la observación
24
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
1. INTRODUCCIÓN
Las variables X son, generalmente, las variables de interés, es decir, las 
variables cuyo impacto en Y estamos interesados en conocer. 
Las variables Z se interpretan como las responsables de la heterogeneidad 
inobservable.
Como las Z’s no son observables y, por tanto, no hay forma de obtener 
información sobre ΣγpZp , lo habitual es definir un término αi conocido como el 
efecto no observado o efecto fijo, que representa el impacto conjunto de las Z’s 
sobre la Y.
¿Cómo podemos aprovechar la estructura de panel de los datos para 
plantear un análisis de regresión?
24
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
1. INTRODUCCIÓN
El modelo quedaría entonces expresado:
∑
=
=
s
p
pipi Z
1
γα
iti
k
j
jitjit tXY εδαββ ++++= ∑
=2
1
¿Cómo podemos aprovechar la estructura de panel de los datos para 
plantear un análisis de regresión?
24
1. INTRODUCCIÓN
iti
k
j
jitjit tXY εδαββ ++++= ∑
=2
1
IMPORTANTE:
Si las X consiguiesen recoger todos los factores relevantes que explican la Y, 
entonces el término α desaparecería. En ese caso, podríamos estimar el modelo 
por MCO tomando la muestra formada por todas las observaciones de todos los 
periodos. Las estimaciones de MCO serían insesgadas y consistentes siempre que 
las X’s y el error idiosincrásico fuesen independientes. 
Pero si los α importan, como no los observamos, en realidad estaríamos 
estimando:
itk
j
jitjit vtXY +++= ∑
=
δββ
2
1 itiitv εα +=
En este caso, incluso si suponemos que el término idiosincrásico está 
incorrelacionado con las X’s. MCO puede ser sesgado e inconsistente si ai está 
correlacionado con las X’s. Este sesgo se denomina sesgo de heterogeneidad.
1. INTRODUCCIÓN
EJEMPLO: Estudio sobre la delincuencia en las ciudades
itiiitit yeardesemdelinc εδαββ ++++= 04.21
Queremos estudiar el efecto del desempleo en la delincuencia de las ciudades. 
Tenemos datos correspondientes a 50 ciudades para los años 2000 y del 2004.
delinc= índice de delincuencia
desem= tasa de desempleo
year04=1 si la observación es de 2004, =0 si es de 2000
¿Qué factores pueden estar en el término no observado αi ? Piensa en 
variables que, para una misma ciudad, no cambian entre el año 2000 y el 2004.
¿Podría ser que alguno de esos factores tuviese relación con la tasa de 
desempleo de la ciudad?
2. MODELO DE EFECTOS FIJOS
En la mayoría de aplicaciones, la principal razón por la que 
utilizamos datos de panel es porque queremos permitir que los 
efectos fijos estén correlacionados con las variables explicativas. 
En el modelo de efectos fijos, la idea es manipular el modelo para 
que el efecto fijo (término no observado) desaparezca y podamos 
estimar los parámetros de interés. 
2. MODELO DE EFECTOS FIJOS
2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS
El método de “primeras diferencias” consiste en eliminar el efecto no observado
restando, para cada individuo, la observación correspondiente a t menos la 
observación t-1
1
2
111 )1( −
=
−− +−+++= ∑ iti
k
j
jitjit tXY εδαββ
iti
k
j
jitjit tXY εδαββ ++++= ∑
=2
1
1
2
11 )( −
=
−− −++−=− ∑ itit
k
j
jitjitjitit XXYY εεδβ
1
2
−
=
−++∆=∆ ∑ itit
k
j
jitjit XY εεδβ
2. MODELO DE EFECTOS FIJOS
2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS
1
2
11 )( −
=
−− −++−=− ∑ itit
k
j
jitjitjitit XXYY εεδβ
1
2
111 )1( −
=
−− ++−++= ∑ iti
k
j
jitjit tXY εαδββ
1
2
−
=
−++∆=∆ ∑ itit
k
j
jitjit XY εεδβ
1 a próximo está si 
)1( 11
1
ρ
ερεε
ρεε
it
itititit
ititit
v
v
v
≅
−−=−
+=
−−
−
iti
k
j
jitjit tXY εδαββ ++++= ∑
=2
1
Nótese que ahora el término de error es (εit – εit–1). Su valor en el periodo anterior será (εit-1
– εit–2). De modo que las primeras diferencias dan lugar a una correlación de medias 
móviles si εit satisface los supuestos del modelo de regresión. 
Pero si εit muestra autocorrelación AR(1) y ρ está próximo a 1, tomar primeras diferencias
resuelve este problema de autocorrelación. 
iti
k
j
jitjit tXY εδαββ ++++= ∑
=2
1
2
2. MODELO DE EFECTOS FIJOS
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
En primer lugar, se calcula la media muestral de cada una de las variables para
cada individuo. El efecto no observado no se ve alterado porque es el mismo para
todas las observaciones un mismo individuo. 
ii
k
j
jiji tXY εδαββ ++++= ∑
=2
1
En segundo lugar, restamos la segunda ecuación de la primera. De esta manera, el 
efecto no observado desaparece. 
iit
k
j
jijitjiit ttXXYY εεδβ −+−+−=− ∑
=
)()(
2
Este método se conococe como estimador “within-groups” porque el modelo
explica las variaciones de la variable dependiente alrededor de la media en 
función de variaciones en las variables explicativas en torno a sus medias. 
Este segundo método de estimación sigue un procedimiento diferente para eliminar los 
efectos fijos. Este método también se conoce como “transformación de efectos fijos”.
2
2. MODELO DE EFECTOS FIJOS
iit
k
j
jijitjiit ttXXYY εεδβ −+−+−=− ∑
=
)()(
2
Aunque con este método resolvemos el problema de sesgo por
heterogeneidad inobservable, pagamos un precio. En primer lugar, el término
constante β1 y cualquiera de las X’s que permanezcan constantes para cada
individuo a lo largo del tiempo, desaparecen. 
La eliminación del término constante puede no ser relevante, pero la 
imposibilidad de medir el efecto de variables que no cambian sí. Por ejemplo, si
estamos estimando una ecuación de salarios con una muestra de individuos que
ya han finalizado su escolarización, el efecto de la variable “schooling” 
desaparecería.
Esto ocurre incluso si los individuos de la muestra tienen diferentes años de 
escolarización poque, para cada individuo, la desviación de “schooling” en el año
respecto a la media de “schooling” para ese individuo sería 0. Por tanto, si el 
objetivo del estudio fuese medir el impacto de “schooling” una vez que hemos
controlado por heterogeneidad inobservable, no podríamos.
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
2
2. MODELO DE EFECTOS FIJOS
iit
k
j
jijitjiit ttXXYY εεδβ −+−+−=− ∑
=
)()(
2
Un segundo problema que surge con este método es que la variable 
dependiente en el modelo transformado puede tener varianzas mucho más
pequeñas que en el original. Esto puede tener efectos adversos sobre la precisión
de las estimaciones de los coeficientes. 
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
2. MODELO DE EFECTOS FIJOS
2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES
iti
k
j
jitjit tXY εαδββ ++++= ∑
=2
1
it
n
i
ii
k
j
jitjit AtXY εαδβ +++= ∑∑
== 12
Este método estima explícitamente los efectos fijos del modelo. Para ello tenemos
que definir un conjunto de variables ficticias Ai, donde Ai =1 si una observación
corresponde al individuo i y es =0 en otro caso. El modelo queda expresado de la 
siguiente forma:
Ahora, podríamos estimar los parámetros por MCO. 
2. MODELO DE EFECTOS FIJOS
2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES
it
n
i
ii
k
j
jitjit AtXY εαδβ +++= ∑∑
== 12
Recordad que no podemos incluir tantas variables artificiales como 
individuos hay en la muestra ya que, en ese caso, caeríamos en la “trampa 
de las variables artificiales”.
Por ese motivo, borramos el término constante del modelo. 
Si tenemos muchos individuos en la muestra, este método no es muy 
práctico, ya que tendríamos que estimar muchos parámetros. 
Cuando T=2 se puede demostrar matemáticamente que este método es 
equivalente al estimador “within-groups”, es decir, nos permite obtener 
las mismas estimaciones. 
3. MODELO DE EFECTOS ALEATORIOS
Como hemos visto, cuando las variables observadas X se mantienen
constantes a lo largo del tiempo para cada individuo, la regresión de 
efectos fijos no es una herramienta atractiva porque no nos permite medir
el efecto de esas variables. 
En esta sección, consideraremos un enfoque alternativo denominado
MODELO DE EFECTOS ALEATORIOS que, sujeto a un par de 
condiciones, nos permite resolver este problema. 
3. MODELO DE EFECTOS ALEATORIOS
itiitu εα +=it
k
j
jitj
iti
k
j
jitjit
utX
tXY
+++=
++++=
∑
∑
=
=
δββ
εδαββ
2
1
2
1
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
PRIMERA CONDICIÓN: Podemos tratar cada una de las variables Z como si
hubiesen sido extraidas de una distribución aleatoria. 
Bajo este supuesto, ai puede ser considerada como un efecto aleatorio (de ahí el 
nombre de este enfoque). De modo que el modelo se puede reescribir con un 
nuevo término de error uit. 
3. MODELO DE EFECTOS ALEATORIOS
itiitu εα +=it
k
j
jitj
iti
k
j
jitjit
utX
tXY
+++=
++++=
∑
∑
=
=
δββ
εδαββ
2
1
2
1
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
SEGUNDA CONDICIÓN: Las variables Zp se distribuyen de forma 
independiente a las variables Xj.
Si este supuesto no se cumple, la estimación del modelo sería sesgada e 
inconsistente (¿Por qué?). En ese caso, deberíamos utilizar el “modelo de efectos
fijos”. 
Si las dos condiciones se cumplen, deberíamos utilizar el “modelo de efectos
aleatorios”. Pero existe otro problema: el término uit puede mostrar cierta forma 
de autocorrelación, de modo que el método de estimación debe tenerlo en cuenta. 
3. MODELO DE EFECTOS ALEATORIOS
itiitu εα +=it
k
j
jitj
iti
k
j
jitjit
utX
tXY
+++=
++++=
∑
∑
=
=
δββ
εδαββ
2
1
2
1
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
Primero, vamos a comprobar si se cumplen los otros supuestos del modelo de regresión. 
1.Suponemos sin pérdida de generalidad que E(αi) = 0, entonces E(u)=0 
0)()()()( =+=+= itiitiit EEEuE εαεα
9
3. MODELO DE EFECTOS ALEATORIOS
itiitu εα +=it
k
j
jitj
iti
k
j
jitjit
utX
tXY
+++=
++++=
∑
∑
=
=
δββ
εδαββ
2
1
2
1
it
s
p
pip
k
j
jitjit tZXY εδγββ ++++= ∑∑
== 12
1
0)()()()( =+=+= itiitiit EEEuE εαεα
2. La varianza de uit es constante. (La convarianza entre αi y εit es 0 bajo el supuesto
de que αi es independiente de εit.) 
22
,
2222 2 εαεαεαεα σσσσσσσ +=++== + itiitiitiitu
11
3. Además, uit también es independiente de los valores Xj, porque tanto αi como εit
satisfacen esta condición.
3. MODELO DE EFECTOS ALEATORIOS
Individual Time u
1 1 α1 + ε11
1 2 α1 + ε12
1 3 α1 + ε13
2 1 α2 + ε21
2 2 α2 + ε22
2 3 α2 + ε23
it
k
j
jitjit utXY +++= ∑
=
δββ
2
1 itiitu εα +=
13
PERO…. Existe un problema de autocorrelación porque las observaciones 
para un mismo individuo tiene un componente común ai que recoge las 
características no observadas del individuo. 
No obstante, las observaciones de diferentes individuos sí son independientes 
entre sí. 
3. MODELO DE EFECTOS ALEATORIOS
Individual Time u
1 1 α1 + ε11
1 2 α1 + ε12
1 3 α1 + ε13
2 1 α2 + ε21
2 2 α2 + ε22
2 3 α2 + ε23
it
k
j
jitjit utXY +++= ∑
=
δββ
2
1 itiitu εα +=
13
No vamos a analizar con detalle cómo se afronta este problema. 
El software econométrico estima estos modelos por MÍNIMOS CUADRADOS 
GENERALIZADOS FACTIBLES, cuyos detalles no vamos a abordar en este 
curso.
3. MODELO DE EFECTOS ALEATORIOS
NLSY 1980–1996
Dependent variable logarithm of hourly earnings
OLS Fixed effects Random effects
Married 0.184 0.106 – 0.134 –
(0.007) (0.012) (0.010)
Soon-to-be- 0.096 0.045 –0.061 0.060 –0.075
married (0.009) (0.010) (0.008) (0.009) (0.007)
Single – – –0.106 – –0.134
(0.012) (0.010)
R2 0.358 0.268 0.268 0.346 0.346
n 20,343 20,343 20,343 20,343 20,343
EJEMPLO 
3. ¿EFECTOS FIJOS O EFECTOS ALEATORIOS?
¿Podemos describir las observaciones como procedentes
de una muestra aleatoria de la población?
Estima el modelo de 
efectos fijos
Estima ambos 
modelos: efectos fijos y 
efectos aleatorios
¿El contraste Durbin-Wu-
Hausman indica diferencias
entre los coeficientes?
Elige provisionalmente el 
modelo de efectos aleatorios. 
¿Los tests indican presencia de 
efectos aleatorios?
Utiliza el modelo
de efectos fijos
Utiliza el 
modelo de 
efectos
aleatorios
Utiliza MCO 
haciendo
un pool con 
los datos
Sí No
Sí
No
Sí No

Continuar navegando