Logo Studenta

Wooldridge Issuu - Gustavo Perales Vivar

¡Este material tiene más páginas!

Vista previa del material en texto

Introducción a la
ECONOMETRÍA
Quinta edición
Jeffrey M. Wooldridge
Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur
Traducción
Ma. del Carmen Enriqueta Hano Roa
Érika M. Jasso Hernan D´Borneville
Jorge Hernández Lanto
Traductores profesionales
 
Revisión técnica
Dr. Jesús A. Valdés Díaz de Villegas
Departamento de Estudios Empresariales
Universidad Iberoamericana
Ciudad de México
Introducción
a la econometría
UN ENFOQUE MODERNO
Q U I N TA E D I C I Ó N
Jeffrey M. Wooldridge
Michigan State University
®
Impreso en México
1 2 3 4 5 6 7 18 17 16 15
© D.R. 2015 por Cengage Learning Editores, S.A. de
C.V., una Compañía de Cengage Learning, Inc.
Corporativo Santa Fe
Av. Santa Fe núm. 505, piso 12
Col. Cruz Manca, Santa Fe
C.P. 05349, México, D.F.
Cengage Learning® es una marca registrada
usada bajo permiso.
DERECHOS RESERVADOS. Ninguna parte de
este trabajo amparado por la Ley Federal del
Derecho de Autor, podrá ser reproducida,
transmitida, almacenada o utilizada en
cualquier forma o por cualquier medio, ya sea
gráfi co, electrónico o mecánico, incluyendo,
pero sin limitarse a lo siguiente: fotocopiado,
reproducción, escaneo, digitalización,
grabación en audio, distribución en Internet,
distribución en redes de información o
almacenamiento y recopilación en sistemas
de información a excepción de lo permitido
en el Capítulo III, Artículo 27 de la Ley Federal
del Derecho de Autor, sin el consentimiento
por escrito de la Editorial.
Traducido del libro:
Introductory Econometrics. A Modern Approach. 5th Edition
Jeff rey M. Wooldridge
Publicado en inglés por South Western, una compañía de 
Cengage Learning © 2013
ISBN: 978-1-111-53104-1
Datos para catalogación bibliográfi ca:
Wooldridge, Jeff rey M. 
Introducción a la econometría. Quinta edición 
ISBN: 978-607-519-677-0 
Visite nuestro sitio en:
http://latinoamerica.cengage.com
Introducción a la econometría.
Quinta edición 
Jeff rey M. Wooldridge
Presidente de Cengage Learning
Latinoamérica:
Fernando Valenzuela Migoya
Director Editorial, de Producción y de 
Plataformas Digitales para Latinoamérica:
Ricardo H. Rodríguez
Editora de Adquisiciones para 
Latinoamérica:
Claudia C. Garay Castro
Gerente de Manufactura para 
Latinoamérica:
Raúl D. Zendejas Espejel 
Gerente Editorial de Contenidos en 
Español:
Pilar Hernández Santamarina
Gerente de Proyectos Especiales:
Luciana Rabuff etti
Coordinador de Manufactura:
Rafael Pérez González
Editor: 
Sergio R. Cervantes González
Diseño de portada: 
Anneli Daniela Torres Arroyo
Imagen de portada:
© stock-photo-world-economics-fi nance/
Shutterstock
 
Composición tipográfi ca: 
Rogelio Raymundo Reyna Reynoso
®
Prefacio xv
Acerca del autor xxv
CAPÍTULO 1 La naturaleza de la 
econometría y los datos económicos 1
1.1 ¿Qué es la econometría? 1
1.2 Pasos en un análisis económico empírico 2
1.3 Estructura de los datos económicos 5
Datos de corte transversal 5
Datos de series de tiempo 8
Combinación de cortes transversales 9
Datos de panel o longitudinales 10
Comentario sobre las estructuras de datos 11
1.4 Causalidad y la noción de ceteris paribus 
en el análisis econométrico 12
Resumen 16
Términos clave 17
Problemas 17
Ejercicios en computadora 17
P A R T E 1
Análisis de regresión con datos 
de corte transversal 21
CAPÍTULO 2 El modelo de regresión 
simple 22
2.1 Definición del modelo de regresión simple 22
2.2 Obtención de las estimaciones de mínimos 
cuadrados ordinarios 27
Nota sobre la terminología 34
2.3 Propiedades de MCO en cualquier muestra 
de datos 35
Valores ajustados y residuales 35
Propiedades algebraicas de los estadísticos
de MCO 36
Bondad de ajuste 38
2.4 Unidades de medición y forma funcional 39
Efectos de los cambios de unidades de medición 
sobre los estadísticos obtenidos de MCO 40
Incorporación de no linealidades 
en la regresión simple 41
Significado de regresión “lineal” 44
2.5 Valores esperados y varianzas de los estimadores 
de MCO 45
Insesgamiento de los estimadores MCO 45
Varianza de los estimadores de mínimos 
cuadrados ordinarios 50
Estimación de la varianza del error 54
2.6 Regresión a través del origen y regresión sobre 
una constante 57
Resumen 58
Términos clave 59
Problemas 60
Ejercicios en computadora 63
Apéndice 2A 66
CAPÍTULO 3 Análisis de regresión 
múltiple: estimación 68
3.1 Motivación para la regresión múltiple 69
El modelo con dos variables independientes 69
Modelo con k variables independientes 71
3.2 Mecánica e interpretación de los mínimos 
cuadrados ordinarios 72
Obtención de las estimaciones de MCO 72
Interpretación de la ecuación de regresión 
de MCO 74
El significado de “mantener todos los demás factores 
constantes” en la regresión múltiple 76
vi
CONTENIDO
 Contenido vii
Cambiar de manera simultánea más de una variable 
independiente 77
Valores ajustados y residuales de MCO 77
Una interpretación de descuento de efectos 
parciales de la regresión múltiple 78
Comparación entre las estimaciones de la 
regresión simple y de la regresión múltiple 78
Bondad de ajuste 80
Regresión a través del origen 81
3.3 Valor esperado de los estimadores 
de MCO 83
Inclusión de variables irrelevantes 
en un modelo de regresión 88
Sesgo de la variable omitida: caso sencillo 88
Sesgo de la variable omitida: casos más 
generales 91
3.4 Varianza de los estimadores de MCO 93
Los componentes de las varianzas de los 
estimadores de MCO: multicolinealidad 94
Varianzas en modelos mal especificados 98
Estimación de �2: errores estándar 
de los estimadores de MCO 99
3.5 Eficiencia de MCO: el teorema 
de Gauss-Markov 101
3.6 Algunos comentarios acerca del lenguaje del 
análisis de regresión múltiple 103
Resumen 104
Términos clave 105
Problemas 106
Ejercicios en computadora 110
Apéndice 3A 113
CAPÍTULO 4 Análisis de regresión 
múltiple: inferencia 118
4.1 Distribución de muestreo de los estimadores 
de MCO 118
4.2 Prueba de hipótesis sobre un solo parámetro 
poblacional: la prueba t 121
Pruebas contra alternativas de una cola 123
Alternativas de dos colas 128
Otras pruebas de hipótesis acerca de �
j
 130
Cálculo del valor-p en las pruebas t 133
Repaso del lenguaje empleado en las 
pruebas de hipótesis clásicas 135
Significancia económica o práctica 
frente a significancia estadística 135
4.3 Intervalos de confianza 138
4.4 Pruebas de hipótesis de una sola 
combinación lineal de los parámetros 140
4.5 Pruebas para restricciones lineales múltiples: 
la prueba F 143
Prueba para las restricciones 
de exclusión 143
Relación entre los estadísticos F y t 149
Forma R-cuadrada del estadístico F 150
Cálculo de los valores-p para pruebas F 151
El estadístico F para la significancia 
general de una regresión 152
Prueba para las restricciones 
generales lineales 153
4.6 Informe de los resultados de la regresión 154
Resumen 157
Términos clave 159
Problemas 159
Ejercicios en computadora 164
CAPÍTULO 5 Análisis de regresión 
múltiple: MCO asintóticos 168
5.1 Consistencia 169
Obtención de la inconsistencia en MCO 172
5.2 Normalidad asintótica e inferencia 
con muestras grandes 173
Otras pruebas con muestras grandes: 
el estadístico del multiplicador de Lagrange 178
5.3 Eficiencia asintótica de MCO 181
Resumen 182
Términos clave 183
Problemas 183
Ejercicios en computadora 183
Apéndice 5A 185
CAPÍTULO 6 Análisis de regresión 
múltiple: temas adicionales 186
6.1 Efectos del escalamiento de datos 
sobre los estadísticos de MCO 186
Coeficientes beta 189
6.2 Más acerca dela forma funcional 191
Más acerca del empleo de las 
formas funcionales logarítmicas 191
Modelos con funciones cuadráticas 194
Modelos con términos de interacción 198
6.3 Más sobre bondad de ajuste y selección 
de los regresores 200
R-cuadrada ajustada 202
viii Contenido
Uso de la R-cuadrada ajustada para 
elegir entre modelos no anidados 203
Control de demasiados factores 
en un análisis de regresión 205
Adición de regresores para reducir 
la varianza del error 206
6.4 Predicción y análisis de residuales 207
Intervalos de confianza para predicciones 207
Análisis de residuales 211
Predicción de y cuando log(y) es la variable 
dependiente 212
Resumen 216
Términos clave 217
Problemas 218
Ejercicios en computadora 220
Apéndice 6A 225
CAPÍTULO 7 Análisis de regresión 
múltiple con información cualitativa: 
variables binarias (o dummy) 227
7.1 Descripción de la información cualitativa 227
7.2 Una sola variable binaria independiente 228
Interpretación de los coeficientes de variables 
explicativas binarias cuando la variable 
dependiente es log(y) 233
7.3 Uso de variables binarias en categorías 
múltiples 235
Incorporación de información ordinal mediante el 
uso de variables binarias 237
7.4 Interacciones en las que intervienen variables 
binarias 240
Interacciones entre variables binarias 240
Considerar pendientes diferentes 241
Prueba para diferencias en las funciones
de regresión a través de los grupos 245
7.5 Una variable dependiente binaria: 
el modelo de probabilidad lineal 248
7.6 Más acerca del análisis de políticas 
y evaluación de programas 253
7.7 Interpretación de los resultados de una regresión 
con variables dependientes discretas 256
Resumen 257
Términos clave 258
Problemas 258
Ejercicios en computadora 262
CAPÍTULO 8 Heterocedasticidad 268
8.1 Consecuencias de la heterocedasticidad 
para MCO 268
8.2 Inferencia robusta a la heterocedasticidad 
en la estimación por MCO 269
Cálculo de pruebas ML robustas 
a la heterocedasticidad 274
8.3 Pruebas para heterocedasticidad 275
Prueba de White para heterocedasticidad 279
8.4 Estimación por mínimos cuadrados 
ponderados 280
Heterocedasticidad conocida, 
salvo una constante multiplicativa 281
La función de heterocedasticidad 
debe ser estimada: MCG factibles 286
¿Qué pasa si la función de heterocedasticidad 
supuesta es incorrecta? 290
Predicción e intervalos de predicción 
con heterocedasticidad 292
8.5 Reconsideración del modelo de probabilidad 
lineal 294
Resumen 296
Términos clave 297
Problemas 297
Ejercicios en computadora 299
CAPÍTULO 9 Más sobre especifi cación y 
temas de datos 303
9.1 Especificación incorrecta de la forma 
funcional 304
RESET como una prueba general para 
especificación incorrecta de formas 
funcionales 306
Pruebas contra alternativas no anidadas 307
9.2 Uso de las variables proxy para las variables 
explicativas no observadas 308
Utilización de variables dependientes rezagadas 
como variables proxy 313
Un enfoque diferente de la regresión 
múltiple 314
9.3 Modelos con pendientes aleatorias 315
9.4 Propiedades de MCO bajo error 
de medición 317
Error de medición en la variable 
dependiente 318
Error de medición en las variables 
explicativas 320
9.5 Datos faltantes, muestras no aleatorias 
y observaciones aberrantes 324
 Contenido ix
Datos faltantes 324
Muestras no aleatorias 324
Observaciones influyentes y observaciones 
aberrantes 326
9.6 Estimación por mínimas desviaciones 
absolutas 331
Resumen 334
Términos clave 335
Problemas 335
Ejercicios en computadora 338
P A R T E 2
Análisis de regresión con datos 
de series de tiempo 343
CAPÍTULO 10 Análisis básico de 
regresión con datos de series 
de tiempo 344
10.1 Naturaleza de los datos de series 
de tiempo 344
10.2 Ejemplos de modelos de regresión con series 
de tiempo 345
Modelos estáticos 346
Modelos de rezagos distribuidos finitos 346
Una convención sobre el índice 
de tiempo 349
10.3 Propiedades en muestras finitas de MCO bajo 
los supuestos clásicos 349
Insesgamiento de MCO 349
Las varianzas de los estimadores de MCO y el 
teorema de Gauss-Markov 352
Inferencia bajo los supuestos del modelo 
lineal clásico 355
10.4 Forma funcional, variables binarias 
y números índice 356
10.5 Tendencias y estacionalidad 363
Caracterización de la tendencia en las 
series de tiempo 363
Uso de variables con tendencia en el 
análisis de regresión 366
Interpretación de las regresiones con tendencia en 
el tiempo mediante la eliminación de la tendencia 
368
Cálculo de la R-cuadrada cuando la variable 
dependiente tiene tendencia 370
Estacionalidad 371
Resumen 373
Términos clave 374
Problemas 375
Ejercicios en computadora 377
CAPÍTULO 11 Aspectos adicionales 
de MCO con datos de series de tiempo 
380
11.1 Series de tiempo estacionarias y débilmente 
dependientes 381
Series de tiempo estacionarias y no 
estacionarias 381
Series de tiempo débilmente 
dependientes 382
11.2 Propiedades asintóticas de MCO 384
11.3 Uso de series de tiempo altamente persistentes 
en el análisis de regresión 391
Series de tiempo altamente persistentes 391
Transformaciones de series de tiempo altamente 
persistentes 395
Decidir si una serie de tiempo es o no I(1) 396
11.4 Modelos dinámicamente completos y ausencia 
de correlación serial 399
11.5 El supuesto de homocedasticidad en los modelos 
de series de tiempo 402
Resumen 402
Términos clave 404
Problemas 404
Ejercicios en computadora 407
CAPÍTULO 12 Correlación serial y 
heterocedasticidad en regresiones 
de series de tiempo 412
12.1 Propiedades de MCO con errores 
correlacionados serialmente 412
Insesgamiento y consistencia 412
Eficiencia e inferencia 413
Bondad de ajuste 414
Correlación serial en presencia de variables 
dependientes rezagadas 415
12.2 Métodos de prueba de la correlación serial 
416
Prueba t de correlación serial AR(1) 
con regresores estrictamente exógenos 416
Prueba de Durbin-Watson bajo los supuestos 
clásicos 418
Prueba de correlación serial AR(1) 
sin regresores estrictamente exógenos 420
Prueba de correlación serial de orden 
superior 421
x Contenido
12.3 Corrección de correlación serial con regresores 
estrictamente exógenos 423
Obtención del mejor estimador lineal insesgado en 
el modelo AR(1) 423
Estimación por MCG factibles con errores 
AR(1) 425
Comparación de MCO y MCGF 427
Corrección de la correlación serial 
de orden superior 428
12.4 Diferenciación y correlación serial 429
12.5 Inferencia robusta a la correlación 
serial después de MCO 431
12.6 Heterocedasticidad en regresiones 
de series de tiempo 434
Estadísticos robustos a la 
heterocedasticidad 435
Pruebas de heterocedasticidad 435
Heterocedasticidad condicional 
autorregresiva 436
Heterocedasticidad y correlación serial 
en modelos de regresión 438
Resumen 439
Términos clave 440
Problemas 440
Ejercicios en computadora 441
P A R T E 3
Temas avanzados 447
CAPÍTULO 13 Combinación de cortes 
transversales en el tiempo: métodos 
simples para datos de panel 448
13.1 Combinación independiente de cortes 
transversales en el tiempo 449
Prueba de Chow para el cambio estructural 
en el tiempo 453
13.2 Análisis de políticas con combinación de cortes 
transversales 454
13.3 Análisis de datos de panel para un periodo 
de dos años 459
Organización de los datos de panel 465
13.4 Análisis de políticascon datos de panel 
de dos periodos 465
13.5 Diferenciación con más de dos periodos 468
Posibles dificultades con la primera 
diferenciación en los datos de panel 473
Resumen 474
Términos clave 474
Problemas 474
Ejercicios en computadora 476
Apéndice 13A 481
CAPÍTULO 14 Métodos avanzados 
para datos de panel 484
14.1 Estimación de efectos fijos 484
Regresión de variables binarias 488
¿Efectos fijos o primera diferencia? 489
Efectos fijos con paneles no balanceados 491
14.2 Modelos de efectos aleatorios 492
¿Efectos aleatorios o efectos fijos? 495
14.3 Método de efectos aleatorios 
correlacionados 497
14.4 Aplicación de métodos de datos 
de panel a otras estructuras de datos 499
Resumen 501
Términos clave 502
Problemas 502
Ejercicios en computadora 503
Apéndice 14A 509
CAPÍTULO 15 Estimación con variables 
instrumentales y mínimos cuadrados 
en dos etapas 512
15.1 Justificación: variables omitidas en un modelo 
de regresión simple 513
Inferencia estadística con el estimador 
de VI 517
Propiedades de VI con una variable instrumental 
deficiente 521
Cálculo de la R-cuadrada después de la 
estimación de VI 523
15.2 Estimación de VI del modelo de regresión 
múltiple 524
15.3 Mínimos cuadrados en dos etapas 528
Una sola variable explicativa endógena 528
Multicolinealidad y MC2E 530
Múltiples variables explicativas 
endógenas 531
Pruebas de hipótesis múltiples después 
de la estimación de MC2E 532
15.4 Soluciones de VI a los problemas de errores 
en las variables 532
15.5 Pruebas de endogeneidad y pruebas 
de restricciones de sobreidentificación 534
 Contenido xi
Prueba de endogeneidad 534
Prueba de restricciones de 
sobreidentificación 535
15.6 MC2E con heterocedasticidad 538
15.7 Aplicación de MC2E a las ecuaciones 
de series de tiempo 538
15.8 Aplicación de MC2E a cortes transversales 
combinados y a datos de panel 540
Resumen 542
Términos clave 543
Problemas 543
Ejercicios en computadora 546
Apéndice 15A 551
CAPÍTULO 16 Modelos de ecuaciones 
simultáneas 554
16.1 Naturaleza de los modelos de ecuaciones 
simultáneas 555
16.2 Sesgo de simultaneidad en MCO 558
16.3 Identificar y estimar una ecuación estructural 
560
Identificación en un sistema de dos ecuaciones 560
Estimación mediante MC2E 565
16.4 Sistemas con más de dos ecuaciones 567
Identificación en sistemas con tres o más 
ecuaciones 567
Estimación 568
16.5 Modelos de ecuaciones simultáneas con series 
de tiempo 568
16.6 Modelos de ecuaciones simultáneas con datos 
de panel 572
Resumen 574
Términos clave 575
Problemas 575
Ejercicios en computadora 578
CAPÍTULO 17 Modelos de variable 
dependiente limitada y correcciones a la 
selección muestral 583
17.1 Modelos logit y probit para respuesta 
binaria 584
Especificación de modelos logit y probit 584
Estimación de máxima verosimilitud de los modelos 
logit y probit 587
Prueba de hipótesis múltiples 588
Interpretación de las estimaciones 
logit y probit 589
17.2 Modelo Tobit para respuestas de solución 
de esquina 596
Interpretación de las estimaciones Tobit 598
Problemas de especificación en los 
modelos Tobit 603
17.3 El modelo de regresión de Poisson 604
17.4 Modelos de regresión censurada y truncada 
609
Modelos de regresión censurada 609
Modelos de regresión truncada 613
17.5 Correcciones de la selección muestral 615
¿Cuándo es consistente MCO sobre la 
muestra seleccionada? 615
Truncamiento incidental 617
Resumen 621
Términos clave 622
Problemas 622
Ejercicios en computadora 624
Apéndice 17A 630
Apéndice 17B 630
CAPÍTULO 18 Temas avanzados de 
series de tiempo 632
18.1 Modelos de rezagos distribuidos 
infinitos 633
Rezagos distribuidos geométricos 
(o de Koyck) 635
Modelos de rezagos distribuidos racionales 637
18.2 Prueba de raíces unitarias 639
18.3 Regresión espuria 644
18.4 Modelos de cointegración y de corrección 
del error 646
Cointegración 646
Modelos de corrección del error 651
18.5 Elaboración de pronósticos 652
Tipos de modelos de regresión empleados 
para pronósticos 654
Pronóstico de un paso hacia delante 655
Comparación de pronósticos de un paso 
hacia delante 658
Pronósticos de múltiples pasos hacia delante 660
Pronóstico de tendencia, estacionalidad 
y procesos integrados 662
Resumen 667
Términos clave 669
xii Contenido
Problemas 669
Ejercicios en computadora 671
CAPÍTULO 19 Realización de un 
proyecto empírico 676
19.1 Plantear una pregunta 676
19.2 Revisión bibliográfica 678
19.3 Recolección de datos 679
Decidir el conjunto apropiado de datos 679
Ingresar y almacenar los datos 680
Inspección, depuración y resumen 
de los datos 682
19.4 Análisis econométrico 683
19.5 La redacción de un trabajo empírico 686
Introducción 686
Marco conceptual (o teórico) 687
Métodos econométricos y métodos 
de estimación 687
Los datos 690
Resultados 690
Conclusiones 691
Sugerencias de estilo 692
Resumen 694
Términos clave 694
Muestra de proyectos empíricos 694
Lista de publicaciones 700
Fuentes de datos 701
APÉNDICE A Herramientas 
matemáticas básicas 703
A.1 El operador de suma y la estadística 
descriptiva 703
A.2 Propiedades de las funciones lineales 705
A.3 Proporciones y porcentajes 707
A.4 Algunas funciones especiales y sus 
propiedades 710
Funciones cuadráticas 710
Logaritmo natural 712
La función exponencial 716
A.5 Cálculo diferencial 717
Resumen 719
Términos clave 719
Problemas 719
APÉNDICE B Fundamentos de 
probabilidad 722
B.1 Variables aleatorias y sus distribuciones 
de probabilidad 722
Variables aleatorias discretas 723
Variables aleatorias continuas 725
B.2 Distribuciones conjuntas, distribuciones 
condicionales e independencia 727
Distribuciones conjuntas e 
independencia 727
Distribuciones condicionales 729
B.3 Características de las distribuciones de 
probabilidad 730
Una medida de tendencia central: 
el valor esperado 730
Propiedades de los valores esperados 731
Otra medida de tendencia central: 
la mediana 733
Medidas de variabilidad: varianza 
y desviación estándar 734
Varianza 734
Desviación estándar 736
Estandarización de una variable 
aleatoria 736
Sesgo y curtosis 737
B.4 Características de las distribuciones 
conjuntas y de las condicionales 737
Medidas de asociación: covarianza 
y correlación 737
Covarianza 737
Coeficiente de correlación 739
Varianza de sumas de variables 
aleatorias 740
Esperanza condicional 741
Propiedades de la esperanza 
condicional 742
Varianza condicional 744
B.5 La distribución normal y otras 
distribuciones semejantes 745
La distribución normal 745
La distribución normal estándar 746
Propiedades adicionales de la 
distribución normal 748
La distribución ji-cuadrada 749
La distribución t 749
La distribución F 750
 Contenido xiii
Resumen 752
Términos clave 752
Problemas 752
APÉNDICE C Fundamentos de 
estadística matemática 755
C.1 Poblaciones, parámetros y muestreo 
aleatorio 755
Muestreo 756
C.2 Propiedades de muestras finitas 
de los estimadores 756
Estimadores y estimaciones 757
Insesgadez 758
La varianza de muestreo de los 
estimadores 760
Eficiencia 762
C.3 Propiedades asintóticas o de muestra 
grande de los estimadores 763
Consistencia 763
Normalidadasintótica 766
C.4 Métodos generales para estimar 
parámetros 768
El método de momentos 768
Máxima verosimilitud 769
Mínimos cuadrados 770
C.5 Estimación de intervalos e intervalos 
de confianza 770
La naturaleza de la estimación 
de intervalos 770
Intervalos de confianza para la media de 
una población normalmente distribuida 772
Una sencilla regla general para un 
intervalo de confianza a 95% 775
Intervalos de confianza asintóticos 
para poblaciones no normales 776
C.6 Prueba de hipótesis 777
Fundamentos de la prueba de 
hipótesis 778
Pruebas de hipótesis para la media 
de una población normal 780
Pruebas asintóticas para poblaciones 
no normales 783
Cálculo y uso de los valores-p 784
La relación entre intervalos de confianza 
y pruebas de hipótesis 787
Significancia práctica frente a significancia 
estadística 788
C.7 Comentarios sobre la notación 789
Resumen 790
Términos clave 790
Problemas 791
APÉNDICE D Resumen de álgebra 
matricial 796
D.1 Definiciones básicas 796
D.2 Operaciones matriciales 797
Suma matricial 797
Multiplicación escalar 798
Multiplicación matricial 798
Transposición 799
Multiplicación parcial particionada 800
Traza 800
Inversa 801
D.3 Independencia lineal y rango 
de una matriz 801
D.4 Formas cuadráticas y matrices 
definidas positivas 802
D.5 Matrices idempotentes 802
D.6 Diferenciación de formas lineales 
y cuadráticas 803
D.7 Momentos y distribuciones 
de vectores aleatorios 803
Valor esperado 803
Matriz varianza-covarianza 803
Distribución normal multivariada 804
Distribución ji-cuadrada 804
Distribución t 805
Distribución F 805
Resumen 805
Términos clave 805
Problemas 806
APÉNDICE E El modelo de regresión 
lineal en forma matricial 807
E.1 El modelo de estimación de los mínimos 
cuadrados ordinarios 807
E.2 Propiedades muestrales finitas de MCO 809
E.3 Inferencia estadística 813
E.4 Algunos análisis asintóticos 815
Estadístico de Wald para probar hipótesis 
múltiples 818
xiv Contenido
Resumen 819
Términos clave 819
Problemas 819
APÉNDICE F Respuestas a las preguntas 
del capítulo 821
APÉNDICE G Tablas estadísticas 831
Referencias 838
Glosario 844
Índice 860
El capítulo 1 analiza el alcance de la econometría y plantea los problemas generales que emergen en la aplicación de los métodos econométricos. La sección 1.1 proporciona una explicación breve acerca del propósito y el alcance de la econometría, y cómo se ajusta 
al análisis de la economía. En la sección 1.2 se ilustra cómo se puede comenzar con una teoría 
económica y construir un modelo que puede estimarse utilizando la información. La sección 1.3 
examina los tipos de conjuntos de datos que se emplean en los negocios, la economía y otras 
ciencias sociales. La sección 1.4 desarrolla un análisis intuitivo de las dificultades asociadas con 
la inferencia de la casualidad en las ciencias sociales.
Imagine que el gobierno lo contrata para evaluar la efectividad de un programa de capacitación 
para el trabajo financiado con fondos públicos. Suponga que se trata de un programa para instruir 
a los trabajadores sobre diversas maneras de utilizar las computadoras en los procesos de fabri-
cación. Este programa, de veinte semanas, ofrece cursos en horarios fuera de la jornada laboral. 
Cualquier trabajador de la industria puede participar e inscribirse de manera voluntaria a todo el 
programa o a una parte de él. Usted tiene que determinar si este programa de capacitación laboral 
tiene algún efecto sobre los posteriores salarios por hora de los trabajadores.
Ahora, suponga que trabaja para la banca de inversión. Tiene que estudiar el rendimiento de 
varias estrategias de inversión a corto plazo en certificados o letras del tesoro de Estados Unidos 
para probar si se cumplen las teorías económicas implicadas.
A primera vista, la tarea de responder a estas preguntas puede parecer desalentadora. Por 
ahora, puede que de lo único que tenga una vaga idea sea del tipo de datos que debe recolectar. 
Al finalizar el curso de econometría usted sabrá emplear los métodos econométricos para eva-
luar, de manera formal, un programa de capacitación laboral o para probar una teoría económica 
sencilla.
La econometría se basa en el desarrollo de métodos estadísticos que se utilizan para estimar 
relaciones económicas, probar teorías económicas y evaluar e implementar políticas públicas 
y de negocios. La aplicación más común de la econometría es en el pronóstico de variables 
macroeconómicas tan importantes como las tasas de interés, de inflación y el producto interno 
bruto. Si bien el pronóstico de indicadores económicos es un tema muy conocido y al que se 
le suele dar mucha publicidad, los métodos econométricos también se emplean en áreas de la 
economía que no están relacionadas con la elaboración de pronósticos macroeconómicos. Por 
ejemplo, se estudiarán los efectos de los gastos de campaña política sobre los resultados de las 
1
1
CAPÍTULO
La naturaleza de la econometría
y los datos económicos
1.1 ¿Qué es la econometría?
2 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
votaciones. En el campo de la educación, se considerará el efecto que tiene el gasto público en 
escuelas sobre el desempeño de los estudiantes. Además, se aprenderá a emplear los métodos 
econométricos para pronosticar series de tiempo económicas.
La econometría se ha convertido en una disciplina independiente de la estadística matemá-
tica por ocuparse de la recolección y análisis de datos económicos no experimentales. Datos no 
experimentales son datos sobre individuos, empresas o segmentos de la economía que no son 
obtenidos por medio de experimentos controlados. (A los datos no experimentales en ocasiones 
también se les llama datos retrospectivos o datos observacionales, para subrayar el hecho 
de que el investigador es recolector pasivo de los datos.) En las ciencias naturales los datos 
experimentales suelen ser obtenidos en el laboratorio, pero en las ciencias sociales son mucho 
más difíciles de obtener. Aunque es posible idear experimentos sociales, suele ser imposible, 
prohibitivamente caro o moralmente indeseable realizar la clase de experimentos controlados 
que serían necesarios para abordar problemas económicos. En la sección 1.4 se dan ejemplos 
concretos de la diferencia entre datos experimentales y datos no experimentales.
Como es natural, los econometristas han tomado prestado de la estadística matemática todo 
lo que les ha sido posible. El método del análisis de regresión múltiple es un pilar fundamen-
tal en ambos campos, pero su enfoque e interpretación pueden ser notablemente diferentes. 
Además, los economistas han ideado nuevas técnicas para lidiar con la complejidad de los datos 
económicos y para probar las predicciones de las teorías económicas.
Los métodos econométricos tienen importancia en casi todas las ramas de la economía aplicada. 
Se emplean cuando se desea probar una teoría económica o cuando se piensa en una relación 
que tiene alguna importancia para decisiones de negocios o para el análisis de políticas. En un 
análisis empírico se utilizan datos para probar teorías o estimar relaciones.
¿Cómo se procede para estructurar un análisis económico empírico? Aunque parezca obvio, 
vale la pena subrayar que el primer paso en cualquier análisis empírico es la cuidadosa formu-
lación de la pregunta de interés, la cual puede estar relacionada con la prueba de un aspecto 
determinado de una teoría económica o puede ser adecuada para probar los efectos de una po-
lítica pública. En principio, los métodos econométricos se pueden emplear para responder a una 
gama muy amplia de interrogantes.
En algunos casos, en especial en aquellos relacionados con la pruebade teorías económi-
cas, se construye un modelo económico formal, el cual consiste en ecuaciones matemáticas 
que describen diversas relaciones. Los economistas son conocidos por construir modelos para 
la descripción de una gran variedad de comportamientos. Por ejemplo, en microeconomía inter-
media, las decisiones de consumo de un individuo, sujetas a una restricción de presupuesto, se 
describen mediante modelos matemáticos. La premisa básica que subyace a estos modelos es 
la maximización de la utilidad. El supuesto de que al hacer una elección los individuos, sujetos 
a restricciones de recursos, eligen aquello que maximice su bienestar, proporciona un sólido 
marco para la elaboración de modelos económicos manejables y de predicciones claras. En el 
contexto de las decisiones de consumo, la maximización de la utilidad conduce a un conjunto de 
ecuaciones de demanda. En una ecuación de demanda, la cantidad demandada de cada artículo 
depende de su precio, del precio de los bienes sustitutos y complementarios, del ingreso del 
consumidor y de características individuales que influyen en las preferencias. Estas ecuaciones 
pueden formar la base de un análisis econométrico de la demanda de consumidor.
1.2 Pasos en un análisis económico empírico
 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos 3
Los economistas también han empleado herramientas económicas básicas, como la maximi-
zación de la utilidad, para explicar comportamientos que a primera vista pueden no parecer de 
carácter económico. Un ejemplo clásico es el modelo económico del comportamiento delictivo 
de Becker (1968).
 EJEMPLO 1.1 [MODELO ECONÓMICO DEL COMPORTAMIENTO DELICTIVO]
En un artículo extraordinario el premio Nobel, Gary Becker, postuló un marco de maximización de 
la utilidad para describir la participación de una persona en un acto delictivo. Ciertos delitos tienen 
claras recompensas económicas, pero la mayoría de las conductas delictivas tienen costos. El costo de 
oportunidad del delito evita que el delincuente desarrolle otras actividades, por ejemplo, desempeñar 
un empleo legal. Además, hay costos como la posibilidad de ser atrapado y, en caso de ser declarado 
culpable, el costo del encarcelamiento. Desde la perspectiva de Becker, la decisión de emprender una 
actividad ilegal es una decisión de asignación de recursos tomando en cuenta los beneficios y los costos 
de actividades en competencia.
Bajo supuestos generales, es posible deducir una ecuación que describa el tiempo invertido en 
una actividad delictiva en función de diversos factores. Esta función se puede representar como
 y � f(x
1
, x
2
, x
3
, x
4
, x
5
, x
6
, x
7
), [1.1]
donde
 y � horas invertidas en actividades delictivas,
 x
1
 � “salario” por cada hora invertida en la actividad delictiva,
 x
2
 � salario por hora en un empleo legal,
 x
3
 � otro ingreso que no provenga ni de la delincuencia ni del empleo,
 x
4
 � probabilidad de ser atrapado,
 x
5
 � probabilidad de ser declarado culpable una vez que haya sido atrapado,
 x
6
 � pena prevista si es declarado culpable y
 x
7
 � edad.
En general, también influyen otros factores en la decisión de una persona para participar en una acti-
vidad delictiva, pero la lista anterior es representativa de los que pueden resultar de un análisis econó-
mico formal. Como es usual en la teoría económica, no se ha sido específico acerca de la función f (�) 
de (1.1). Ésta depende de una función subyacente de utilidad que rara vez se conoce. No obstante, la 
teoría económica —o introspección— puede emplearse para predecir el efecto que tendrá cada variable 
en la actividad delictiva. Esta es la base para un análisis econométrico de la actividad delictiva de un 
individuo.
Algunas veces, el modelado económico formal es el punto de partida del análisis empírico, 
pero es más común el empleo de teorías económicas menos formales o incluso apoyarse por 
completo en la intuición. El lector estará de acuerdo en que los determinantes del comporta-
miento delictivo que se muestran en la ecuación (1.1) están basados en el sentido común; podría 
haberse llegado de manera directa a esta ecuación, sin necesidad de partir de la maximización de 
la utilidad. Esta perspectiva también tiene su valor, aunque hay casos en los que una deducción 
formal hace más claro lo que para la intuición puede pasar inadvertido.
El siguiente es un ejemplo de una ecuación que puede deducirse mediante un razonamiento 
menos formal.
4 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
Una vez precisado el modelo económico, es necesario transformarlo en lo que se llama un 
modelo econométrico. Dado que a lo largo de este libro trataremos con modelos econométri-
cos, es importante saber cómo se relaciona un modelo econométrico con un modelo económico. 
Como ejemplo se tomará la ecuación (1.1). Antes de poder emprender un análisis econométrico 
debe especificarse la forma de la función f (•). Otro problema relacionado con (1.1) es qué hacer 
con las variables que no pueden ser observadas de manera razonable. Por ejemplo, considere el 
salario que puede ganar una persona mediante una actividad delictiva. En principio, esa es una 
cantidad bien definida, pero sería muy difícil, si no imposible, precisar cuál es esta cantidad para 
un determinado individuo. Incluso variables como la probabilidad de ser detenido no pueden ser 
evaluadas de manera realista para un individuo determinado, pero se puede tomar nota de las esta-
dísticas de detenciones y deducir una variable que aproxime la probabilidad de ser detenido. Hay, 
además, muchos otros factores que influyen en el comportamiento delictivo y que no es posible 
enumerar, y mucho menos precisar, pero que de alguna manera deben ser tomados en cuenta.
Las ambigüedades inherentes al modelo económico de la actividad delictiva se resuelven 
especificando un modelo econométrico:
 actdelic � �
0
 � �
1
salario
m
 � �
2
otringr � �
3 
 frecdet � �
4 
 frecculp
 � �
5 
promsent � �
6 
edad � u, [1.3]
donde
 actdelic � una medida de la frecuencia de la actividad delictiva,
 salario
m
 � salario que puede ganar en el empleo legal,
 otringr � ingresos provenientes de otras fuentes (activos, herencias, etcétera),
 frecdet � frecuencia de las detenciones por delitos anteriores (para aproximar 
la probabilidad de ser detenido),
 frecculp � frecuencia de ser declarado culpable y
 promsent � duración promedio de la sentencia.
La elección de estas variables es determinada tanto por la teoría económica como por consi-
deraciones acerca de los datos. El término u comprende factores no precisados, como el salario 
obtenido por la actividad delictiva, costumbres morales, antecedentes familiares y errores en las 
 EJEMPLO 1.2 [CAPACITACIÓN LABORAL Y PRODUCTIVIDAD DE 
LOS TRABAJADORES]
Considérese el problema planteado al comienzo de la sección 1.1. Un economista laboral desea 
examinar los efectos de la capacitación sobre la productividad de los trabajadores. En este caso 
no se necesita una teoría económica formal. Una comprensión básica de la economía es suficiente 
para advertir que factores tales como la educación, la experiencia y la capacitación laboral afectan 
la productividad de los trabajadores. Además, los economistas saben que a los trabajadores se les 
paga en razón de su productividad. Este sencillo razonamiento lleva a un modelo como el siguiente:
 salario � f (educ, exper, capacitación), [1.2]
donde
 salario � salario por hora,
 educ � años de escolaridad formal,
 exper � años de experiencia laboral y
 capacitación � semanas de capacitación laboral.
De nuevo hay otros factores que influyen sobre la tasa salarial, pero la ecuación (1.2) encierra la 
esencia del problema.
 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos 5
mediciones de factores como la actividad delictiva y la probabilidad de ser detenido. Aunque 
pueden agregarse al modelo variables de antecedentes familiares,tales como cantidad de herma-
nos, educación de los padres, etc., u no puede eliminarse por completo. En efecto, cómo tratar 
este término de error o de perturbación es quizás el componente más importante de todo análisis 
econométrico.
Las constantes �
0
, �
1
, …, �
6
 son los parámetros del modelo econométrico y describen direc-
ción y fuerza de la relación entre la actividad delictiva y cada uno de los factores empleados para 
determinar la actividad delictiva en el modelo.
Un modelo econométrico completo para el ejemplo 1.2, puede ser
 salario � �
0
 � �
1
educ � �
2
exper � �
3
capacitación � u, [1.4]
donde el término u comprende factores como “habilidades innatas”, calidad de la educación, 
antecedentes familiares y otros innumerables factores que influyen en el salario de una persona. 
Si lo que interesa en concreto es la capacitación laboral, entonces el parámetro de interés es �
3
.
La mayoría de las veces, un análisis econométrico inicia con la especificación de un modelo 
econométrico sin atender a los detalles de la creación del modelo. Aquí, en general, se seguirá 
este método debido, en gran parte, a que una deducción cuidadosa de un modelo, como el mode-
lo económico de la actividad delictiva, toma mucho tiempo y puede llevar a áreas especializadas, 
y a menudo complicadas, de la teoría económica. En los ejemplos presentados en este libro, el 
razonamiento económico será importante, y toda teoría económica subyacente se incorporará 
en las especificaciones del modelo econométrico. En el ejemplo del modelo económico para la 
actividad delictiva se empezará con un modelo econométrico como el (1.3) y se usarán el razo-
namiento económico y el sentido común como guías para la elección de las variables. A pesar 
de que con este método se pierde algo de la riqueza del análisis económico, suele ser un modelo 
empleado de manera frecuente y efectiva por investigadores meticulosos.
Una vez que se ha especificado un modelo econométrico como el (1.3) o el (1.4), pueden 
plantearse diversas hipótesis en relación con los parámetros desconocidos. Por ejemplo, en la 
ecuación (1.3), se puede plantear la hipótesis de que salario
m
, el salario que puede obtenerse en 
un empleo legal, no tenga efecto alguno sobre el comportamiento delictivo. En el contexto de 
este modelo econométrico particular, esta hipótesis es equivalente a �
1 
� 0.
Por definición, en un análisis empírico se necesitan datos. Una vez recolectados los datos 
sobre las variables relevantes, se emplean los métodos econométricos para estimar los pará-
metros del modelo econométrico y para probar, formalmente, las hipótesis de interés. En al-
gunos casos, el modelo econométrico se emplea para hacer predicciones, ya sea al probar una 
teoría o al estudiar el impacto de alguna política.
Dada la gran importancia de la recolección de datos en el trabajo empírico, en la sección 1.3 
se describe el tipo de datos que suelen encontrarse.
Las bases de datos económicos pueden ser de diversos tipos. Aunque algunos métodos econo-
métricos pueden ser empleados, con alguna o ninguna pequeña modificación, para distintos tipos 
de bases de datos, las características especiales de algunas bases de datos deben ser tomadas 
en cuenta y aprovecharse. A continuación se describen las estructuras de datos que suelen en-
contrarse.
Datos de corte transversal
Una base de datos de corte transversal consiste en una muestra de individuos, hogares, em-
presas, ciudades, estados, países u otras unidades, tomada en algún punto dado en el tiempo. 
1.3 Estructura de los datos económicos
6 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
Algunas veces no todos los datos de estas unidades corresponden exactamente a un mismo mo-
mento. Por ejemplo, puede ser que, un conjunto de familias sea entrevistado durante diferentes 
semanas de un año. En un análisis de corte transversal puro, diferencias menores de tiempo en 
la recolección de los datos son ignoradas. Aun cuando un conjunto de familias haya sido entre-
vistado en semanas distintas de un mismo año, se considerará como una base de datos de corte 
transversal.
Una característica importante de los datos de corte transversal es que a menudo puede supo-
nerse que han sido obtenidos de la población subyacente mediante un muestreo aleatorio. Por 
ejemplo, si se obtiene información sobre salarios, educación, experiencia y otras características 
tomando de manera aleatoria 500 personas de la población trabajadora, entonces se tiene una 
muestra aleatoria de la población de todos los trabajadores. El muestreo aleatorio es el esquema 
de muestreo que se estudia en los cursos introductorios de estadística y simplifica el análisis de 
datos de corte transversal. En el apéndice C se encuentra un repaso del muestreo aleatorio.
Algunas veces, el muestro aleatorio no es una premisa apropiada para analizar datos de corte 
transversal. Por ejemplo, suponga que se desea analizar los factores que intervienen en la acumu-
lación del patrimonio familiar. Se puede entrevistar a un conjunto de familias de una muestra alea-
toria, pero algunas de ellas se rehusarán a informar sobre su riqueza. Si, por ejemplo, las familias 
más acaudaladas están menos dispuestas a revelar su nivel de riqueza, entonces la muestra obtenida 
sobre el patrimonio no es una muestra aleatoria de la población de todas las familias. Esto ilustra 
un problema de selección de la muestra, tema avanzado que se verá en el capítulo 17.
Otra violación al muestreo aleatorio ocurre cuando se muestrea de unidades que son grandes 
con relación a la población, en especial de unidades geográficas. El problema potencial en es-
tos casos es que la población no es tan grande para suponer que las observaciones muestrea-
das sean independientes. Por ejemplo, si se desea explicar el surgimiento de nueva actividad 
comercial en los es tados, en función de las tasas salariales, los precios de los energéticos, las 
tasas de impuestos empresariales y prediales, los servicios disponibles, la calidad de la fuerza 
de trabajo y otras características del estado, es poco probable que las actividades comerciales de 
estados contiguos sean independientes entre sí. Sin embargo, los métodos econométricos que se 
estudiarán aquí sí funcionan en estas situaciones, aunque algunas veces deben ser afinados. En 
general, la complejidad que resulta al analizar tales situaciones será ignorada y estos problemas 
se tratarán en el marco de un muestreo aleatorio, aun cuando esto no sea técnicamente correcto.
Los datos de corte transversal son muy empleados en economía y en otras ciencias sociales. 
En economía, el análisis de datos de corte transversal está relacionado de manera estrecha con 
los campos de la microeconomía aplicada, por ejemplo, economía laboral, finanzas públicas lo-
cales y estatales, organización industrial, economía urbana, demografía y economía de la salud. 
Datos sobre individuos, hogares, empresas y ciudades en un punto dado del tiempo son impor-
tantes para probar hipótesis microeconómicas y para evaluar políticas económicas.
Los datos de corte transversal que se emplean en el análisis econométrico pueden represen-
tarse y almacenarse en una computadora. La tabla 1.1 contiene, en forma resumida, una base de 
datos de corte transversal de 526 trabajadores correspondientes a 1976. (Este es un subconjunto 
de los datos en el archivo WAGE1.RAW.) Las variables son wage (salario en dólares por hora), 
educ (años de escolaridad), exper (años de experiencia laboral), female (mujer, un indicador del 
género), y married (casado, estado marital). Estas dos últimas variables son de carácter binario 
(cero-uno) y se usan para indicar características cualitativas de la persona (es mujer o no; está 
casada o no). En el capítulo 7 y posteriores se verá más acerca de las variables binarias.
En la tabla 1.1, la variable obsno es el número de observación asignado a cada persona de 
la muestra. A diferencia de las otras variables, ésta no es una característicade la persona. Todos 
los paquetes de software para econometría o para estadística asignan un número de observación 
 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos 7
a cada dato. La intuición indica que en datos como los de la tabla 1.1 no importa qué persona 
sea catalogada como la observación 1, qué persona sea la observación 2, etc. El hecho de que el 
orden de los datos no importe es una característica clave del análisis econométrico de bases de 
datos de corte transversal.
Algunas veces, en datos de corte transversal las distintas variables corresponden a periodos 
diferentes. Por ejemplo, para determinar los efectos de las políticas públicas sobre el crecimiento 
económico de largo plazo, los economistas han estudiado la relación entre el crecimiento del 
producto interno bruto (PIB) real per cápita a lo largo de cierto periodo (por ejemplo, 1960 a 
1985) y variables determinadas, en parte, por las políticas públicas de 1960 (consumo del gobier-
no como porcentaje del PIB y tasa de educación secundaria en adultos). Esta base de datos puede 
representarse como en la tabla 1.2, que es una parte de la base de datos empleada en un estudio 
sobre tasa de crecimiento realizado por De Long y Summers (1991).
La variable cpibrpc representa el crecimiento promedio del PIB real per cápita a lo largo 
del periodo 1960 a 1985. El hecho de que govcons60 (consumo del gobierno como porcenta-
je del PIB) y second60 (porcentaje de población adulta con educación secundaria) correspondan 
al año 1960, mientras que cpibrpc sea el promedio del crecimiento a lo largo del periodo de 1960 
a 1985, no crea ningún problema para considerar esta información como una base de datos de 
corte transversal. Las observaciones se presentan por país en orden alfabético, el cual no afecta 
ningún análisis posterior.
TA B L A 1 . 2 Base de datos sobre tasas de crecimiento económico y características de 
un país
obsno país cpibrpc govcons60 second60
1 Argentina 0.89 9 32
2 Austria 3.32 16 50
3 Bélgica 2.56 13 69
4 Bolivia 1.24 18 12
. . . . .
. . . . .
. . . . .
61 Zimbabwe 2.30 17 6
TA B L A 1 . 1 Base de datos de corte transversal sobre salarios y otras características de 
los individuos
obsno
salario
(wage) educ exper
mujer
(female)
casado
(married)
1 3.10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 11 2 0 0
4 6.00 8 44 0 1
5 5.30 12 7 0 1
. . . . . .
. . . . . .
. . . . . .
525 11.56 16 5 0 1
526 3.50 14 5 1 0 © 
Ce
ng
ag
e 
Le
ar
ni
ng
, 2
01
3
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
8 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
Datos de series de tiempo
Una base de datos de series de tiempo consiste de las observaciones de una o varias variables a 
lo largo del tiempo. Ejemplos de datos de series de tiempo son los precios de acciones, la can-
tidad de dinero en circulación, el índice de precios al consumidor, el producto interno bruto, la 
tasa anual de homicidios y las cifras de venta de automóviles. Debido a que los eventos pasados 
pueden influir sobre los eventos futuros y los comportamientos rezagados son frecuentes en las 
ciencias sociales, el tiempo es una dimensión importante en las bases de datos de series de tiem-
po. A diferencia de los datos de corte transversal, en una serie de tiempo el orden cronológico 
de las observaciones proporciona información potencialmente importante.
Una característica fundamental de los datos de series de tiempo, que las hace más difíciles 
de analizar que los datos de corte transversal, es que rara vez, si acaso, puede suponerse que las 
observaciones económicas sean independientes en el tiempo. La mayor parte de las series de 
tiempo económicas y otras series de tiempo están relacionadas, a menudo fuertemente, con sus 
historias recientes. Por ejemplo, saber algo sobre el producto interno bruto del último trimestre 
dice mucho acerca del rango probable del PIB durante este trimestre, debido a que el PIB tiende 
a permanecer bastante estable de un trimestre a otro. Aunque la mayor parte de los procedimien-
tos econométricos pueden usarse tanto con datos de corte transversal como con datos de series 
de tiempo, la especificación de modelos econométricos para datos de series de tiempo requiere 
un poco más de trabajo para que se justifique el uso de los métodos econométricos estándar. 
Además, se han desarrollado modificaciones y embellecimientos de las técnicas econométricas 
estándar para tomar en cuenta y aprovechar el carácter dependiente de las series de tiempo eco-
nómicas y para considerar otras cuestiones, como el hecho de que algunas variables económicas 
tiendan a mostrar una clara tendencia en el tiempo.
Otra característica de las series de tiempo que puede requerir atención especial es la perio-
dicidad de los datos, la frecuencia con que éstos se recolectan. En economía, las frecuencias 
más comunes son diaria, semanal, mensual, trimestral y anual. Así, por ejemplo, los precios de 
las acciones se publican cada día (con excepción de sábados y domingos); la cantidad de dinero 
en circulación se publica de manera semanal; muchas series macroeconómicas se registran cada 
mes, incluidas las tasas de inflación y de desempleo. Otras series macroeconómicas se registran 
con menos frecuencia, por ejemplo, cada tres meses (o cada trimestre). El producto interno bruto 
es un ejemplo importante de una serie trimestral. Otras series de tiempo, como la tasa de morta-
lidad infantil en Estados Unidos, sólo están disponibles anualmente.
Muchas series de tiempo económicas semanales, mensuales o trimestrales muestran un fuer-
te patrón estacional, que puede ser un factor importante en el análisis de una serie de tiempo. 
Por ejemplo, los datos mensuales sobre la construcción de vivienda varían con los meses, debido 
simplemente a la variación de las condiciones climatológicas. En el capítulo 10 se verá cómo 
trabajar con series de tiempo estacionales.
TA B L A 1 . 3 Salario mínimo, desempleo y datos relacionados con Puerto Rico
obsno año prommin coverprom desempl PNB
1 1950 0.20 20.1 15.4 878.7
2 1951 0.21 20.7 16.0 925.0
3 1952 0.23 22.6 14.8 1015.9
. . . . . .
. . . . . .
. . . . . .
37 1986 3.35 58.1 18.9 4281.6
38 1987 3.35 58.2 16.8 4496.7
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos 9
La tabla 1.3 contiene una base de datos de series de tiempo tomada de un artículo de Castillo-
Freeman y Freeman (1992) sobre los efectos del salario mínimo en Puerto Rico. En esta base de 
datos el año más antiguo, corresponde a la primera observación y el año más disponible corres-
ponde a la última. Al emplear métodos econométricos para analizar datos de series de tiempo, 
los datos deben almacenarse en orden cronológico.
La variable prommin se refiere al salario mínimo promedio para el año, coverprom es la 
tasa de promedio de cobertura (el porcentaje de los trabajadores protegidos por la ley del sala-
rio mínimo), desmpl es la tasa de desempleo y PNB el producto nacional bruto, en millones de 
dólares de 1954. Estos datos se emplearán posteriormente en el análisis del efecto del salario 
mínimo sobre el empleo.
Combinación de cortes transversales
Algunas bases de datos tienen características tanto de corte transversal como de series de tiempo. 
Por ejemplo, suponga que en Estados Unidos se realizan dos encuestas de corte transversal a los 
hogares, una en 1985 y otra en 1990. En 1985 se encuesta a los hogares de una muestra aleatoria 
acerca de variables como ingreso, ahorro, tamaño de la familia, etc. En 1990 se toma otra mues-
tra aleatoria de hogares usando las preguntas de la encuesta anterior. Para tener un tamaño mayor 
de la muestra se pueden combinar los cortes transversales juntando los dos años.
Combinar (o juntar) los cortes transversales de años distintos suele ser una buena manera de 
analizar los efectos de las nuevas políticas públicas. La idea es recolectar datos de años ante-
riores y posteriores al cambio de lapolítica. Considere, por ejemplo, la siguiente base de datos 
sobre los precios de la vivienda tomados en 1993 y 1995, antes y después de una reducción en 
el impuesto sobre la propiedad inmobiliaria en 1994. Suponga que de 1993 se tienen datos de 
250 casas y de 1995 de 270 casas. Una manera de almacenar esta base de datos es como en la 
tabla 1.4.
Las observaciones 1 a 250 corresponden a casas vendidas en 1993 y de la 251 a 520 a las 
270 casas vendidas en 1995. Aunque el orden en que se almacenen los datos no resulta crucial, 
TA B L A 1 . 4 Combinación de cortes transversales: precios de la vivienda en dos años 
diferentes
obsno año preciov impprov piescuadr recs baños
1 1993 85500 42 1600 3 2.0
2 1993 67300 36 1440 3 2.5
3 1993 134000 38 2000 4 2.5
. . . . . . .
. . . . . . .
. . . . . . .
250 1993 243600 41 2600 4 3.0
251 1995 65000 16 1250 2 1.0
252 1995 182400 20 2200 4 2.0
253 1995 97500 15 1540 3 2.0
. . . . . . .
. . . . . . .
. . . . . . .
520 1995 57200 16 1100 2 1.5
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
10 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
conservar el registro del año de cada observación suele ser muy importante. A esto se debe que 
en esta tabla se ingrese año como una variable aparte.
Una combinación de corte transversal se analiza de manera muy parecida a como se analizan 
los datos de corte transversal, salvo que suelen tomarse en cuenta las diferencias que presentan 
las variables con el tiempo. En efecto, además de que se incrementa el tamaño de la muestra, lo 
importante en el análisis de combinaciones de cortes transversales es observar cómo ha cambia-
do con el tiempo una relación clave.
Datos de panel o longitudinales
Un conjunto de datos de panel (o datos longitudinales) consiste en una serie de tiempo por cada 
unidad de una base de datos de corte transversal. Por ejemplo, suponga que a lo largo de diez 
años se registran los datos de salario, educación y empleo de un conjunto de personas; o que 
durante cinco años se recolecte información sobre inversiones y datos financieros de un mismo 
conjunto de empresas. Datos de panel también pueden recolectarse sobre unidades geográficas. 
Por ejemplo, de un conjunto de condados de Estados Unidos pueden recolectarse los datos sobre 
el flujo de migrantes, tasas de impuestos, tasas salariales, gasto del gobierno, etc., de los años 
1980, 1985 y 1990.
La característica fundamental de los datos de panel, que los distingue de las combinacio-
nes de cortes transversales, es que durante un intervalo de tiempo se vigilan las mismas unidades 
(personas, empresas o condados, en los ejemplos precedentes) de un corte transversal. Los datos 
de la tabla 1.4 no se pueden considerar como una base de datos de panel debido a que es muy 
probable que las casas vendidas en 1993 sean diferentes de las vendidas en 1995, y aunque haya 
algunas que se encuentren en los dos años, esta cantidad puede ser demasiado pequeña para 
tener importancia. En cambio, la tabla 1.5 contiene una base de datos de panel sobre actividad 
delictiva y estadísticos relacionados de 150 ciudades de Estados Unidos en dos años diferentes.
En dicha tabla hay varios aspectos interesantes. Primero, a cada ciudad se le ha dado un 
número del 1 al 150. Es irrelevante a qué ciudad se le considera la número 1, la 2, etc. Como 
ocurre con los datos de corte transversal puro, el orden en el corte transversal de un conjunto de 
datos de panel no tiene importancia. También podrían haberse usado los nombres de las ciuda-
des, en lugar de los números, pero suele ser útil tener los dos.
TA B L A 1 . 5 Datos de panel, de dos años, sobre estadísticas de delincuencia urbana
obsno ciudad año homicidios población desempl policía
1 1 1986 5 350000 8.7 440
2 1 1990 8 359200 7.2 471
3 2 1986 2 64300 5.4 75
4 2 1990 1 65100 5.5 75
. . . . . . .
. . . . . . .
. . . . . . .
297 149 1986 10 260700 9.6 286
298 149 1990 6 245000 9.8 334
299 150 1986 25 543000 4.3 520
300 150 1990 32 546200 5.2 493
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos 11
Un segundo punto es que los datos de los dos años de la ciudad 1 son los dos primeros 
renglones u observaciones. Las observaciones 3 y 4 corresponden a la ciudad 2 y así sucesiva -
mente. Como para cada una de las 150 ciudades se tienen dos filas de datos, cualquier software 
considerará que se tienen 300 observaciones. Esta base de datos puede tratarse como una combi-
nación de cortes transversales, en la que da la casualidad de que las mismas ciudades aparecen en 
cada uno de los años. Pero, como se verá en los capítulos 13 y 14, la estructura de panel también 
puede usarse para analizar cuestiones a las que no se puede responder si este conjunto de datos 
se ve como una simple combinación de cortes transversales.
En la tabla 1.5, los datos de los dos años se colocan en filas contiguas, ubicando en todos 
los casos el primer año antes del segundo. Para casi cualquier fin práctico, esta es la manera que 
se prefiere para ordenar bases de datos de panel. Compárese la organización de estos datos con 
la manera en la que se han dispuesto los datos en la tabla 1.4. En pocas palabas, la razón para 
ordenar los datos como en la tabla 1.5 es que se necesitará realizar transformaciones para cada 
ciudad a lo largo de los dos años.
Dado que en los datos de panel se requiere que las unidades sean las mismas a lo largo del 
tiempo, las bases de datos de panel, en especial si son de personas, hogares o empresas, son 
más difíciles de obtener que las combinaciones de cortes transversales. Es comprensible que 
observar las mismas unidades a lo largo del tiempo tenga diversas ventajas sobre los datos de 
corte transversal o aun sobre combinaciones de cortes transversales. La ventaja de importancia 
en este libro es que tener varias observaciones de las mismas unidades permite controlar de-
terminadas características no observadas de las personas, empresas, etc. Como se verá, el uso 
de más de una observación suele facilitar la inferencia causal en situaciones en las que inferir 
causalidad sería muy difícil si se contara sólo con un corte transversal. La segunda ventaja de 
los datos de panel es que permiten estudiar la importancia de desfases de conducta o los resul-
tados de la toma de decisiones. Esta información puede ser significativa debido a que el impacto 
de muchas políticas económicas sólo puede esperarse después de pasado algún tiempo.
Muchos de los libros que no son para niveles de maestría o doctorado no contienen métodos 
econométricos para datos de panel. Sin embargo, en la actualidad muchos economistas recono-
cen que hay algunas cuestiones a las que es difícil, o imposible, responder de manera satisfacto-
ria sin el uso de datos de panel. Como se verá, con el análisis de datos de panel, un método que 
no es mucho más complicado que el empleo de datos de corte transversal estándar, es posible 
lograr progresos considerables.
Comentario sobre las estructuras de datos
La primera parte de este libro se ocupa del análisis de datos de corte transversal, debido a que 
esto presenta menos dificultades técnicas y conceptuales. Al mismo tiempo permite ilustrar la 
mayor parte de los temas fundamentales del análisis econométrico. Los métodos e ideas del 
análisis de cortes transversales serán empleados en el resto del libro.
Aunque en el análisis econométrico de las series de tiempo se usan muchas de las herra-
mientas propias del análisis de cortes transversales, el análisis de series de tiempo es más com-
plicado debido a las trayectorias, de carácter altamente persistente, que presentan muchas series 
económicas. En la actualidad es muy aceptado que los ejemplos tradicionalmente empleados 
para ilustrar la aplicación de los métodos econométricos a las series de tiempo son inadecua-
dos o erróneos. De manera que en un principio no tiene mucho sentido emplearlos ya que eso 
sólo reforzará una malapráctica econométrica. Por tanto, el estudio de las series de tiempo 
econométricas se pospondrá hasta la parte 2 del libro, en la que se introducen los temas que se 
refieren a tendencia, persistencia, dinámica y estacionalidad.
En la parte 3 se verán explícitamente combinaciones de cortes transversales y datos de panel. 
El análisis de cortes transversales combinados de manera independiente y el análisis de datos de 
12 CAPÍTULO 1 La naturaleza de la econometría y los datos económicos
panel sencillos son extensiones bastante sencillas del análisis de cortes transversales puro. Sin 
embargo, estos temas se tratarán hasta el capítulo 13.
En la mayoría de las pruebas de teorías económicas, así como en la evaluación de políticas 
públicas, el objetivo de los economistas es inferir que una variable (por ejemplo, la educación) 
tiene un efecto causal sobre otra variable (por ejemplo, la productividad de los trabajadores). 
Encontrar simplemente una relación entre dos o más variables puede ser sugestivo, pero no con-
cluyente, a menos que pueda establecerse causalidad.
El concepto ceteris paribus —“si todos los demás factores relevantes permanecen cons-
tantes”— tiene un papel importante en el análisis causal. Esta idea ha estado implícita en parte 
de lo hasta ahora dicho, en particular en los ejemplos 1.1 y 1.2, pero no se había mencionado de 
manera explícita.
Es probable que el lector recuerde de los cursos de introducción a la economía, que la mayor 
parte de las cuestiones económicas tienen un carácter ceteris paribus. Por ejemplo, cuando se 
analiza la demanda del consumidor interesa saber el efecto que tiene una modificación en el 
precio de un determinado bien sobre la cantidad demandada, mientras todos los demás factores 
—tales como ingreso, precios de los demás bienes y preferencias individuales— se mantienen 
constantes. Si no permanecen constantes los demás factores, entonces no se puede saber cuál es 
el efecto de una modificación en el precio sobre la cantidad demandada.
Mantener los demás factores constantes también es crítico en el análisis de las políticas. 
En el ejemplo de la capacitación laboral (ejemplo 1.2), interesa conocer, por ejemplo, el efecto 
de una semana más de capacitación sobre el salario, cuando todos los demás componentes (en 
particular, educación y experiencia) permanecen sin cambio. Si se logran mantener constantes 
todos los demás factores relevantes y se encuentra una relación entre capacitación laboral y 
salarios, puede concluirse que tal capacitación tiene un efecto causal sobre la productividad de 
los trabajadores. A pesar de que esto puede parecer bastante sencillo, aun ya en este nivel inicial 
debe ser claro que, salvo en casos muy especiales, no será posible mantener, literalmente, todo 
lo demás sin cambio. La pregunta fundamental en la mayor parte de los estudios empíricos es: 
¿se han mantenido constantes suficientes factores para que se justifique la causalidad? Raras 
veces un estudio econométrico es evaluado sin que surja esta pregunta.
En la mayoría de las aplicaciones serias, la cantidad de factores que pueden tener influencia 
sobre una variable —como la actividad delictiva o los salarios— es inmensa y aislar cualquier 
variable particular puede parecer una tarea imposible. Sin embargo, se verá que empleando cui-
dadosamente los métodos econométricos pueden simular experimentos ceteris paribus.
Por ahora, aún no es posible explicar cómo usar los métodos econométricos para estimar 
efectos ceteris paribus, de manera que se considerarán algunos de los problemas que suelen 
surgir en la econometría al tratar de inferir causalidad, pero no se empleará ninguna ecuación. 
En cada ejemplo, el problema de inferir causalidad desaparece si es posible realizar un expe-
rimento apropiado. Por tanto, es útil describir cómo se puede estructurar un problema de este 
tipo, y observar que, en la mayoría de los casos, no es práctico obtener datos experimentales. 
También es útil reflexionar sobre la razón por la cual los datos con los que se cuenta no tienen 
las importantes características de las bases de datos experimentales.
Por el momento se confiará en la comprensión intuitiva de términos como aleatorio, inde-
pendencia y correlación, los cuales ya le deben ser familiares al lector por cursos introductorios 
de probabilidad y estadística. (En el apéndice B se presenta un repaso de estos conceptos.) Se 
empezará por dar un ejemplo que ilustra algunos de estos importantes tópicos.
1.4 Causalidad y la noción de ceteris paribus 
en el análisis econométrico
En los capítulos anteriores, la variable dependiente y las variables independientes en los modelos de regresión múltiple han tenido un significado cuantitativo. Algunos ejemplos son salario por hora, años de educación, promedio general de calificaciones en la uni-
versidad, cantidad de contaminación atmosférica, nivel de ventas de una empresa y número de 
arrestos. En cada caso, la magnitud de la variable proporciona información útil. En el trabajo 
empírico es necesario incluir también factores cualitativos en los modelos de regresión. El gé-
nero o la raza de una persona, la industria de una empresa (manufactura, minorista, etc.) y la 
región de Estados Unidos (norte, sur, este, etc.) en la que se encuentra una ciudad son considera-
dos factores cualitativos.
La mayor parte de este capítulo se dedica a las variables independientes cualitativas. Después 
de analizar, en la sección 7.1, la manera adecuada de describir variables cualitativas, en las sec-
ciones 7.2, 7.3 y 7.4 se describe cómo incorporar variables explicativas cualitativas a los mode-
los de regresión múltiple. En estas secciones se ven también casi todas las maneras más usuales 
de manejar variables independientes cualitativas en el análisis de regresión de corte transversal.
En la sección 7.5 se analiza una variable dependiente binaria, que es un tipo especial de 
variable dependiente cualitativa. En este caso, el modelo de regresión múltiple tiene una inter-
pretación interesante y se le llama modelo de probabilidad lineal. Aunque ha sido muy difamado 
por muchos econometristas, la sencillez del modelo de probabilidad lineal lo hace útil en muchos 
contextos empíricos. Sus desventajas se describen en la sección 7.5, pero éstas suelen ser secun-
darias en el trabajo empírico.
Los factores cualitativos surgen casi siempre en forma de información bivariada: una persona es 
mujer u hombre; una persona tiene o no computadora; una empresa ofrece o no un determinado 
tipo de plan de pensión a sus empleados; en un estado existe o no la pena de muerte. En todos 
estos ejemplos, la información que interesa puede ser captada empleando una variable binaria 
o una variable cero-uno. En econometría a las variables binarias se les suele llamar variables 
binarias o dummy, aunque este nombre no es especialmente descriptivo.
227
Análisis de regresión múltiple
con información cualitativa:
variables binarias (o dummy)
7
CAPÍTULO
7.1 Descripción de la información cualitativa
228 PARTE 1 Análisis de regresión con datos de corte transversal
Al definir una variable binaria hay que decidir a qué evento se le asigna el valor uno y a 
cuál el valor cero. Por ejemplo, en un estudio para determinar el salario de los individuos, puede 
definirse female como una variable binaria que tome el valor uno para mujer y el valor cero 
para hombre. En este caso, el nombre de la variable indica el evento que tiene valor uno. Esta 
misma información se capta definiendo male (hombre) igual a uno si la persona es hombre y 
cero si la persona es mujer. Cualquiera de éstas es mejor que emplear gender (género) porque 
este nombre no indica cuándo la variable bina-
ria es uno: ¿gender � 1 corresponde a hombre 
o a mujer? Cómo se le llame a las variables no 
tiene importancia en la obtención de los resulta-
dos de la regresión, pero siempre ayuda elegir 
nombres que hagan más clara la ecuación y la 
exposición.
Suponga que en el ejemplo delsalario se 
ha empleado female para indicar el género. Se 
define además una variable binaria married 
(casado) igual a uno si la persona está casada y 
cero si no es así. En la tabla 7.1 se muestra una enumeración parcial de los datos sobre salario 
que pueden obtenerse. Se ve que la persona 1 es mujer y que no está casada. La persona 2 es 
mujer y está casada. La persona 3 es hombre y no está casado y así sucesivamente.
¿Por qué se usan los valores cero y uno para describir información cualitativa? En cierto 
sentido, estos valores son arbitrarios: otros dos valores cualesquiera podrían servir igual. La ver-
dadera ventaja de capturar la información cualitativa empleando variables cero-uno es que esto 
conduce a modelos de regresión en los que los parámetros tienen interpretaciones muy naturales, 
como se verá ahora.
¿Cómo se incorpora la información binaria a los modelos de regresión? En el caso más sencillo en 
el que sólo hay una variable binaria explicativa, ésta simplemente se agrega a la ecuación como 
una variable independiente. Por ejemplo, considere el sencillo modelo siguiente para determinar 
el salario por hora:
 wage � �
0
 � �
0 
female � �
1
educ � u. [7.1]
TA B L A 7 . 1 Enumeración parcial de los datos del archivo WAGE1.RAW
person wage educ exper female married
 1 3.10 11 2 1 0
 2 3.24 12 22 1 1
 3 3.00 11 2 0 0
 4 6.00 8 44 0 1
 5 5.30 12 7 0 1
� � � � � �
� � � � � �
� � � � � �
525 11.56 16 5 0 1
526 3.50 14 5 1 0
PREGUNTA 7.1
Suponga que, en un estudio para hacer 
una comparación entre los resultados de 
la elección para los demócratas y los repu-
blicanos, se desea indicar el partido de 
cada candidato. ¿Es un nombre como party 
(partido) una buena elección, en este caso, 
para una variable binaria? ¿Cuál sería un 
mejor nombre?
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
7.2 Una sola variable binaria independiente
 CAPÍTULO 7 Análisis de regresión múltiple con información cualitativa. . . 229
Se emplea �
0
 como parámetro de female para resaltar la interpretación de los parámetros que 
multiplican a las variables binarias; más adelante se usará la notación que resulte más conve-
niente.
En el modelo 7.1, sólo hay dos factores que afectan al salario: el género y la educación. Como 
female � 1 si la persona es mujer y female � 0 si la persona es hombre, el parámetro �
0
 tiene la 
interpretación siguiente: �
0
 es la diferencia del salario por hora entre hombres y mujeres, dada 
una misma cantidad de educación (y un mismo término del error, u). De esta manera, el coefi-
ciente �
0
 determina si hay discriminación en contra de las mujeres: si, para un mismo nivel de 
los demás factores, �
0
 
 0, las mujeres ganan, en promedio, menos que los hombres.
En términos de expectativas, considerando el supuesto de media condicional cero 
E(u� female,educ) � 0, entonces
�
0
 � E(wage� female � 1,educ) � E(wage� female � 0,educ).
Como female � 1 corresponde a mujer y female � 0 corresponde a hombre, esto puede escri-
birse de manera más sencilla como
 �
0
 � E(wage� female,educ) � E(wage�male,educ). [7.2]
Lo importante aquí es que el nivel de educación es el mismo para las dos expectativas; la dife-
rencia, �
0
, se debe sólo al género.
F I G U R A 7 . 1 Gráfica de wage � �0 � �0 female � �1 educ en la que �0 � 0.
educ
wage (salario)
0 1 0
 
0
0
pendiente = �1
hombres: wage = �0 � �1educ
mujeres:
wage = (�0 � �0) + �1 educ 
©
 C
en
ga
ge
 L
ea
rn
in
g,
 2
01
3
230 PARTE 1 Análisis de regresión con datos de corte transversal
Esta situación puede representarse gráficamente como un desplazamiento del intercepto 
entre hombres y mujeres. En la figura 7.1 se muestra el caso �
0
 
 0, de manera que, por hora, 
los hombres ganan más, en una cantidad fija, que las mujeres. Esta diferencia no depende de la 
cantidad de educación, y esto explica por qué las líneas de salario-educación de hombres y mu-
jeres son paralelas.
En este punto el lector se preguntará por qué no se incluye también en (7.1) una variable 
binaria, por ejemplo, male (hombres), que sea uno para hombres y cero para mujeres. Esto sería 
redundante. En (7.1) el intercepto para hombres es �
0
 y el intercepto para mujeres es �
0
 � �
0
. 
Dado que hay dos grupos, sólo se necesitan dos interceptos. Esto significa que además de �
0
 sólo 
se necesita usar una variable binaria; se eligió incluir una variable binaria para mujeres. Usar dos 
variables binarias introduciría colinealidad perfecta, ya que female � male � 1, lo que significa 
que male es una función lineal perfecta de female. Incluir variables binarias para los dos géneros 
es el ejemplo más sencillo de lo que se conoce como trampa de las variables binarias, que 
surge cuando demasiadas variables binarias describen una determinada cantidad de grupos. Este 
problema se analizará más adelante.
En (7.1) se eligió hombres como grupo base o grupo de referencia (benchmark), es decir, 
el grupo contra el que se hacen las comparaciones. A esto se debe que �
0
 sea el intercepto para 
hombres y �
0
 sea la diferencia entre los interceptos para hombres y para mujeres. También 
podría haberse elegido mujeres como grupo base, expresando el modelo como
wage � �
0
 � �
0
male � �
1
educ � u,
donde el intercepto para mujeres es �
0
 y el intercepto para hombres es �
0
 � �
0
; esto implica que 
�
0
 � �
0
 � �
0
 y �
0
 � �
0
 � �
0
. En cualquier aplicación no tiene importancia qué grupo se elija 
como grupo base, pero no se debe olvidar qué grupo es el grupo base.
Algunos investigadores prefieren eliminar el intercepto general y emplear variables binarias 
para cada grupo. La ecuación será entonces wage � �
0
male � �
0 
female � �
1
educ � u, donde el 
intercepto para los hombres es �
0
 y el intercepto para las mujeres es �
0
. En este caso no hay trampa 
de las variables binarias, porque no se tiene un intercepto general. Sin embargo, esta formulación 
tiene poco que ofrecer, ya que probar la diferencia entre los interceptos es más complicado y, 
además, para regresiones sin intercepto, no existe un acuerdo general sobre cómo calcular la 
R-cuadrada. Por tanto, aquí siempre se incluirá un intercepto general para el grupo base.
Nada cambia mucho cuando intervienen más variables explicativas. Tomando hombres como 
grupo base, un modelo en el que, además de la educación se controle la experiencia y la anti-
güedad es
 wage � �
0
 � �
0
 female � �
1
educ � �
2
exper � �
3
tenure � u. [7.3]
Si tanto educ como exper y tenure son características importantes para la productividad, la hipó-
tesis nula de que no hay diferencia entre hombres y mujeres es H
0
: �
0
 � 0. La alternativa de que 
existe discriminación contra las mujeres es H
1
: �
0
 
 0.
¿Cómo se puede probar que existe discriminación en los salarios? La respuesta es sencilla: 
simplemente se estima el modelo mediante MCO, exactamente como antes, y se usa el esta-
dístico t habitual. Cuando algunas de las variables independientes se definen como variables 
binarias no cambia nada de la mecánica de MCO ni de la teoría estadística. La única diferencia 
encontrada hasta ahora es la interpretación del coeficiente de la variable binaria.
 CAPÍTULO 7 Análisis de regresión múltiple con información cualitativa. . . 231
 EJEMPLO 7.1 [ECUACIÓN PARA EL SALARIO POR HORA]
Empleando los datos del archivo WAGE1.RAW, se estimará el modelo (7.3). Por ahora, como varia-
ble dependiente se usará wage y no log(wage):
 wage � �1.57 � 1.81 female � .572 educ
 (.72) (.26) (.049)
 � .025 exper � .141 tenure [7.4]
 (.012) (.021)
 n � 526, R2 � .364.
El intercepto negativo —el intercepto para hombres, en este caso— no tiene mucho significado, 
porque en la muestra ninguna de las variables educ, exper o tenure (antigüedad) tiene valor cero. El 
coeficiente de female (mujer) es interesante porque mide la diferencia promedio entre el salario por 
hora de una mujer y de un hombre, dados los mismos niveles de educ, exper

Otros materiales