Notas de Clases

•
Outros

Central de Apuntes
26/5/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Administración

591.386 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Versión impresa ISSN: 0716-7334 
Versión electrónica ISSN: 0717-7593 
 
 
PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE 
INSTITUTO DE ECONOMÍA 
 
Oficina de Publicaciones 
Casilla 76, Correo 17, Santiago 
www.economia.puc.cl 
 
 
 
 
 
 
NOTAS DE CLASES 
TEORÍA ECONOMÉTRICA 
 
 Raimundo Soto* 
 
 
 Trabajo Docente Nº 78 
 
 
 
 
 
 
 
 
 
 
Santiago, Mayo 2010 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
* rsoto@faceapuc.cl 
 
Indice
1. Introducción.....................................................................................................................................1.1
2. Teoría de Probabilidades................................................................................................................2.1
2.01 Noción de Probabilidad.................................................................................................2.2
2.02 Axiomatización de las Probabilidades.........................................................................2.3
2.03 Variables Aleatorias........................................................................................................2.8
2.04 Momentos de una Distribución.................................................................................2.14
2.05 Distribuciones Discretas de Uso Común.................................................................2.17
2.06 Distribuciones Continuas de Uso Común...............................................................2.19
2.07 Distribuciones Conjuntas............................................................................................2.22
2.08 Distribuciones Marginales...........................................................................................2.22
2.09 Distribuciones Condicionales.....................................................................................2.24
Apéndice A: Ejercicios..........................................................................................................2.26
3. Elementos de Inferencia Estadística...........................................................................................3.1
3.01 Modelo probabilístico, modelo muestral y modelo estadístico ...............................3.1
3.02 Estadísticos muestrales...................................................................................................3.5
3.03 Distribución de la media muestral................................................................................3.5
3.04 Características deseables de los estimadores en muestra finita................................3.6
3.05 Límite de Cramer-Rao.....................................................................................................3.8
3.06 Elementos de teoría asintótica: convergencia.............................................................3.9
3.07 Elementos de teoría asintótica: leyes débiles de grandes números.......................3.14
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números........................3.18
3.09 Propiedades de los distintos tipos de convergencia.................................................3.20
3.10 Teoremas del límite central..........................................................................................3.21
3.11 Distribución asintótica..................................................................................................3.26
3.12 Estimación asintóticamente eficiente (máximo verosímil).....................................3.27
3.13 Tests de hipótesis...........................................................................................................3.32
3.14 Tres tests de hipótesis asintóticamente equivalentes...............................................3.34
3.15 Test de hipótesis no anidadas......................................................................................3.35
3.16 Criterios informacionales..............................................................................................3.37
Apéndice A: Ejercicios..........................................................................................................3.41
4. Modelo Clásico de Regresión Lineal...........................................................................................4.1
4.01 Lógica del modelo de regresión.....................................................................................4.2
4.02 Análisis de los supuestos del modelo de regresión lineal..........................................4.2
4.03 Representación gráfica de la regresión lineal...............................................................4.7
4.04 Derivación del estimador de mínimos cuadrados......................................................4.8
4.05 Propiedades del estimador de mínimos cuadrados en muestra finita...................4.12
4.06 Tests de hipótesis en el modelo multivariado...........................................................4.16
4.07 Tests de hipótesis y modelo restringido.....................................................................4.21
4.08 Propiedades del estimador de mínimos cuadrados en muestra grande................4.23
4.09 Transformaciones de estimadores: el método Delta...............................................4.30
4.10 Predicción........................................................................................................................4.30
4.11 Método generalizado de momentos...........................................................................4.32
Apéndice A: Ejercicios.........................................................................................................4.40
Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal
5.01 Problemas de Especificación I: Regresores Inadecuados.........................................5.2
5.02 Problemas de Especificación II: Cambio de Régimen..............................................5.6
5.03 Problemas de Especificación III: Datos erróneos..................................................5.13
5.04 Problemas de Especificación IV: Colinealidad........................................................5.20
5.05 Modelos de Varianza No Constante..........................................................................5.27
5.06 Heterocedasticidad........................................................................................................5.28
5.07 Correlación de residuos................................................................................................5.39
5.08 Variables instrumentales..............................................................................................5.45
Apéndice A: Ejercicios.........................................................................................................5.54
Capítulo 6: Modelos no lineales
6.01 Elementos de cálculo numérico....................................................................................6.1
6.02 Optimización no lineal....................................................................................................6.5
6.03 Estimación de mínimos cuadrados no lineales...........................................................6.9
6.04 Estimación de variables instrumentales no lineales.................................................6.12
6.05 No linealidad de la variable dependiente...................................................................6.13
6.06 Interpretación de los parámetros de un modelo no lineal......................................6.14
6.07 Tests de hipótesis...........................................................................................................6.14
Capítulo 7: Modelos con Datos de Panel.......................................................................................7.1
7.1 Modelo canónico de datos de panel...............................................................................7.3
7.2 Modelación con datos de panel....................................................................................7.167.3 Modelos de panel dinámicos.........................................................................................7.18
7.4 Tests de raíces unitarias en panel..................................................................................7.22
Capítulo 1
Introducción
“Without data all you are is just another person with an opinion” (Anónimo)
“Facts are stupid things” (Ronald Reagan, 1978).
Con frecuencia en el estudio de la economía -y de la econometría en particular– 
se comete el error de empezar con el análisis de “modelos económicos” sin definir 
previamente lo que se entiende por modelo y sin explicar por qué es importante 
construir dichos modelos. Sims (1996)1 señala que los avances en ciencias naturales –y en 
gran medida en economía— se refieren usualmente a descubrimientos sobre nuevos 
modos de comprimir datos con respecto a algún fenómeno con una mínima pérdida de 
información. Considere el siguiente ejemplo de la astronomía: Tycho Brahe (1546-1601) 
acumuló durante muchos años datos confiables sobre los movimientos de los planetas. 
Su asistente, Johannes Kepler (1571-1630), sin embargo, observó que podían ser 
modelados como elipses con el sol en uno de sus focos, logrando una notable 
compresión de información.2
Los modelos en economía, y en econometría en particular, buscan el mismo 
objetivo: transmitir información sobre las regularidades que caracterizan a la economía 
de modo eficiente (máxima compresión) y seguro (menor pérdida). Dichas 
regularidades –al igual que en las ciencias naturales– tienen nombres más bien 
pintorescos (p.e., “ley de oferta y demanda”, “propensión marginal a consumir”) pero 
poseen el atributo de generalidad que les hace particularmente útiles: cuando se 
menciona que un fenómeno queda razonablemente descrito por una ecuación de recta 
(es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de 
dicho modelo y, a la vez, sabe que para cada situación específica en la que dicho 
fenómeno se verifique habrá una recta particular que le describe. Uno de los primeros y 
más famosos econometristas Francis Galton señaló que “The object of statistical science 
is to discover methods of condensing information concerning large groups of allied facts 
into brief and compendious expressions suitable for discussion” (Inquiries into Human 
Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol 
de un modelo o teoría es provisto por S. Hawking “A theory is a good theory if it 
satisfies two requirements: it must accurately describe a large class of observations on 
the basis of a model that contains only a few arbitrary elements, and it must make 
definite predictions about the results of future observations” (A Brief History of Time, 
New York, 1988). Debiera añadirse que los modelos deben cumplir una restricción 
adicional, derivada de la célebre sentencia de William de Occam (1285-1349) “Essentia 
1 C. Sims, “Macroeconomics and Methodology”, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.
2 Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los 
planetas, Copernico enunció su teoría heliocéntrica en 1543 pero sin proveer soporte empírico alguno. La 
contribución de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible 
a Kepler la modelación del fenómeno. La superioridad del modelo de Kepler produjo fuerte agitación 
social pues la Iglesia la consideró «contraria a las Sagradas Escrituras». El 26 de febrero de 1615, el 
cardenal jesuita Bellarmino inició el juicio contra Galileo e incluyó los libros de Copernico De 
revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos 
donde permanecieron hasta 1835.
1.2
non sunt multiplicanda praeter necessitatem”, es decir, que los elementos de un modelo 
no deben ser aumentados más allá de lo necesario. La simplicidad es un objetivo de la 
modelación.
Objetivamente, los economistas aún no somos capaces de desarrollar teorías que 
sean capaces de describir la enorme heterogeneidad de los fenómenos económicos. 
Recientemente, se ha desarrollado una línea de investigación sobre la pregunta de cuáles 
son las formas, causas, y consecuencias de las complejidad de los sistemas económicos. 
Rosser (2004)3 clasifica la complejidad que enfrenta un agente económico en tres áreas 
fundamentales. Primero, complejidad en la estructura dinámica –y posiblemente no 
lineal– de los fenómenos económicos, es decir, el hecho frecuente que una pequeña 
perturbación en un sistema económico tenga repercusiones y ramificaciones dinámicas 
en la economía de gran impacto (p.e., un cambio en un precio clave de la economía como 
la tasa de interés). Segundo, la complejidad lógica y computacional que enfrenta un 
agente económico al tomar una decisión cuando existe un gran número de mercados, 
oferentes y demandantes. En particular la noción de equilibrio de los modelos 
económicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente 
económico la computación de un número enorme de precios relativos, el equilibrio de 
Nash exige una gran capacidad de análisis lógico para anticipar las reacciones de los 
otros jugadores frente a diferentes alternativas de decisión. Tercero, la complejidad en la 
aprehensión del fenómeno económico, es decir, el problema adicional al que el proceso 
de aprehender la realidad económica es, en sí, también muy complejo y no puede ser 
llevado a cabo sin costos excesivamente altos.
Al problema de la complejidad se le suman las restricciones que enfrenta el 
análisis económico en términos de información sobre los fenómenos de interés y sus 
causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al análisis 
probabilístico de los fenómenos. Ello se debe a que muchos de dichos fenómenos pueden 
ser replicados en laboratorios bajo condiciones experimentales controladas. En la 
mayoría de los problemas económicos no resulta factible realizar un análisis 
experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible 
pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para 
estimar cómo habría sido su perfil de ingreso en estas nuevas circunstancias. En este 
sentido, los economistas usamos los datos disponibles para inferir probabilísticamente la 
capacidad de una teoría para comprimir información pertinente sobre un determinado 
más fenómeno o la congruencia con la que lo hace. Algunas de las ramas de la física o la 
química han adoptado recientemente el esquema metodológico de la economía: por 
ejemplo, la astronomía no cuenta –salvo honrosas excepciones– con “muestras” de 
fenómenos de gravitación universal, sino con un fenómeno único.4 La física subatómica 
3 J. Barkley Rosser, Jr. (2004) “Epistemological Implications Of Economic Complexity”, mimeo, 
Department of Economics, James Madison University.
4 S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronomía se dobla en 
aproximadamente cada año y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos 
adicionales (equivalente a la colección completa de la biblioteca PUC). Ello exige una modelación 
probabilística de los datos. “Virtual Astronomy, Information Technology, and the New Scientific 
1.3
no puede observar directamente un fenómeno sino sus efectos, de los cuales debe inferir 
la validez de una hipótesis teórica. En ambos casos el análisis es frecuentemente 
probabilístico.
Es por estas razones –complejidad del fenómeno y restricciones de información– 
que la economía se basa en el desarrolloy análisis de modelos de comportamiento 
validados empíricamente mediante métodos cuantitativos, en especial, los métodos 
econométricos que se discuten en lo siguientes capítulos.5 La modelación econométrica 
propiamente tal comienza de manera significativa a principios del siglo XX con los 
trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch, 
etc.) que desarrollaron la base estadística de gran parte de los tests básicos que se usan 
en la actualidad. Pero no fue si no hasta los años 1950 que se masificó el uso de modelos 
econométricos como base del análisis de políticas económicas y para la verificación de 
diversos postulados teóricos. El gran empuje de mediados del siglo XX proviene 
principalmente del desarrollo de un fundamento teórico sólido para la econometría en 
general y para los modelos econométricos de gran escala en particular. Estos últimos se 
beneficiaron de la aparición de bases de datos adecuadas (p.e., cuentas nacionales) y de 
una creciente capacidad de computación. El éxito de la econometría como base del 
análisis empírico es indudable. Ciertamente los modelos empíricos cometerán errores en 
la descripción de los fenómenos que nos interesa modelar; sin embargo, en este contexto 
se aplica la célebre frase del padre de la computación Charles Babbage (1791-1871) 
“Errors using inadequate data are much less than those using no data at all”.
El diseño de modelos analíticos y sus contrapartidas empíricas son, en realidad, 
dos caras de una más moneda: el modo como avanza nuestro conocimiento es mediante 
la continua contrastación de teoría y evidencia. En términos pedagógicos, sin embargo, 
en este libro nos ocuparemos principalmente de los modelos econométricos, los cuales 
serán desarrollados sobre la base de una serie de supuestos que nos permitirán derivar 
estimadores que cumplen con requisitos de calidad y los tests estadísticos asociados a 
dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para 
estudiar qué efectos tiene una violación de uno o más supuestos sobre las características 
de dichos estimadores.
El capítulo 2 realiza una revisión de distintos elementos de probabilidades y 
desarrolla con algún detalle el enfoque axiomático de Kolmogorov (1933)6 que es la base 
de la estadística moderna. Este enfoque ofrece una formalización axiomática de la noción 
de probabilidad, cuyas ventajas radican en proveer una teoría completa (todas las 
Methodology”, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press 
(2005).
5 The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant 
a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena. 
The justification of such a mathematical construct is solely and precisely that it is expected to work . John von 
Neumann.
6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
1.4
proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma 
puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una 
sólida base de análisis probabilístico y, más importante aún, que pueda conectar los 
distintos componentes de la teoría de probabilidades con los componentes básicos del 
análisis econométrico: entre ellos, el experimento aleatorio, las funciones de distribución 
conjunta, condicional y marginal, y la noción de la independencia entre variables 
aleatorias. En particular, esta sección busca que el estudiante entienda cómo los 
econometristas enfrentan el problema de la complejidad del fenómeno que se desea 
modelar.
El capítulo 3 usa la estructura anterior para enfrentar el segundo problema del 
análisis econométrico: la limitación de información. La principal adición al modelo de 
probabilidades desarrollado en el capítulo 2 es la restricción derivada del uso de 
muestras estadísticas y la inevitable necesidad de usar métodos de inferencia estadística 
para emitir juicios informados respecto de alguna hipótesis. El capítulo busca que el 
alumno entienda cómo se transforma la incertidumbre respecto de más los resultados de 
un experimento aleatorio en incertidumbre sobre los parámetros que caracterizan dicho 
experimento, y cuáles son las ventajas y limitaciones de dicha transformación. 
Adicionalmente, se presenta la maquinaria de teoría asintótica que será fundamental en 
el análisis del modelo de regresión lineal del siguiente capítulo.
El capítulo 4 desarrolla el modelo de regresión lineal, que ha sido una de las 
principales herramientas de análisis empírico de los economistas en los últimos 100 años. 
Este modelo, al que usualmente se le acopla el método de mínimos cuadrados como 
técnica de parametrización, permite enfrentar un número muy grande de preguntas en 
economía. A la vez, es suficientemente flexible como para permitir que, en caso que no se 
cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores 
alternativos simples y poderosos. Las propiedades de los estimadores de la familia de 
mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande 
(infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se 
debe estudiar las propiedades de los tests que se construyen a partir de dichos 
estimadores de mínimos cuadrados, para determinar más su aplicabilidad en 
circunstancias prácticas. Finalmente, la técnica de mínimos cuadrados no es la única 
forma de parametrizar un modelo. En el capítulo se estudian dos alternativas adicionales 
de gran aplicación práctica: el estimador de máxima verosimilitud y el método 
generalizado de momentos.
En el capítulo 5 se estudian los problemas derivados de la violación de los seis 
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo 
anterior. La lógica de operar es directa: en primer lugar se estudia el efecto de la 
violación sobre los estimadores de mínimos cuadrados y los diferentes tipos de tests. En 
segundo lugar, propondremos, si es posible, alguna solución, examinando el contexto en 
el que dicha solución es válida. En tercer lugar, se discuten los síntomas que delatan la 
violación de un supuesto y se desarrollan test formales de detección. Por razones 
1.5
pedagógicas, en este capítulo se estudian los problemas de manera aislada, es decir, 
afectando un supuesto a la vez. 
El capítulo 6 extiende la tecnología anterior al área de los modelos no lineales. 
Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con 
mayor interés en los últimos años como resultado del veloz desarrollo de la 
computación. La gran mayoría de los modelos no lineales se resuelven por medio de 
métodos de cálculo numérico debido a que no existen formas cerradas que permitan 
derivar expresiones matriciales simples para obtener los estimadores. En la primera 
parte de este capítulo se desarrolla el instrumental necesario para entender los métodos 
de optimización no lineal que se usan para la estimación de modelos no lineales. En la 
segunda parte se aplica dicho instrumental para derivar el estimador de mínimos 
cuadrados no lineales y los tests asociados.
El capítulo 7 presenta una introducción a los modelos de datos de panel. Estos 
métodos combinan observaciones de corte transversal con observaciones de series de 
tiempo. Así, nos permiten responder preguntas que no pueden ser respondidas por 
modelos de corte transversal o series de tiempo por separado, porque usan información 
sobre una cohorte donde hay N individuos heterogéneos a los que seles observa 
repetidamente durante un periodo de tiempo T. 
La literatura de la econometría se expande de manera vertiginosa. Por ello, no 
tiene sentido intentar incluir un gran número de modelos, tests, estimadores y 
algoritmos de solución. Inevitablemente aparecerán mejores modelos, tests más precisos 
y estimadores más atractivos. El objetivo del libro es proveer al estudiante de una base 
sólida para entender las nuevas contribuciones que la econometría nos ofrece.
Capítulo 2
Teoría de Probabilidades1
¿Por qué necesitamos estudiar teoría de probabilidades para analizar 
observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer 
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra 
de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas 
de los datos y derivar información útil.
Figura 2.1
Inflación mensual en Chile, 1960-2005
Aunque el gráfico anterior describe adecuadamente la distribución de una 
muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos 
descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la 
población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo 
econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya 
información es limitada.
La teoría de probabilidades provee un modelo matemático para la inferencia 
estadística que, al realizarse sobre una muestra de observaciones, permite estudiar 
fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades, 
en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica.
1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa 
“que puede ser probado”.
2.2
2.01 Noción de Probabilidad
El desarrollo de la noción de probabilidad procedió de manera intuitiva y 
asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que 
como veremos más adelante es insuficiente– fue utilizada primero por Abraham De 
Moivre en 1718
2
 y formalizada por Pierre-Simón de Laplace en 1812
3
:
Def. 2.1: Si un experimento puede resultar en N resultados mutuamente 
excluyentes y equiprobables y si NA es uno de dichos resultados, entonces 
la probabilidad de A es:
P A =
N A
N
(2.1)
Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el 
número de posibles resultados sea finito. Segundo, y más importante, al usarse el 
concepto de “equiprobable” la definición de Laplace adolece de circularidad.
Por ello se necesita una definición formal del concepto de probabilidad. Richard 
von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando 
que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede 
hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se 
requeriría:
limN → ∞
N A
N
=P  A (2.2)
Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½ 
porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetir el 
experimento un número grande de veces se observa que cara sucede un 50% de los 
casos.
Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué 
significa “límite cuando N tiende a infinito”? ¿Cómo generamos secuencias infinitas de 
eventos? ¿Qué hacemos cuando no es posible generar secuencias arbitrarias de datos de 
un experimento?
2 "The probability of an Event is greater or less, according to the number of chances by which it may 
happen, compared with the whole number of chances by which it may either happen or fail." The 
Doctrine of Chances. 
3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de 
probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números".
4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik, 
5:52-99.
2.3
Lo que se necesita es una teoría de probabilidades con una sólida base 
matemática. Ella no estuvo disponible sino hasta los años 1930.
2.02 Axiomatización de las Probabilidades
El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto 
de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de 
probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la 
teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de 
otros), y congruente.
5
 El trabajo fundacional para la econometría clásica en esta área es el 
de Andrei Kolmogorov (1933).
6
 Existen otros trabajos fundacionales para la econometría 
Bayesiana.
7
El punto de partida es definir el experimento aleatorio,8 que describe de manera 
idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso 
generador de los datos, PGD). En particular:
Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ
I. Todos los posibles eventos resultantes son conocidos a-priori.
II. En cada realización particular, el resultado no es conocido a-priori.
III. Se puede repetir en idénticas condiciones.
Un problema con la condición I es que es difícil de formalizar. Kolmogorov 
sugiere utilizar el conjunto S que contiene todos los posibles resultados de un 
experimento definidos antes de empezar el experimento. Así,
5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto 
es congruencia (del Latín, coincidir), aunque el uso popular es inexacto como pasa con otras palabras 
(p.e., sofisticado).
6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
7 R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).
8 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo 
Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera 
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano 
(Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de 
probabilidades. Huygens fue además un famoso astrónomo: descubrió la luna más grande de Saturno –
Titán– y sus anillos (en 1655) y la nebulosa de Orión (en 1656). 
2.4
Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles 
resultados del experimento . Los elementos de ℰ S se llaman “eventos 
elementales”.
Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces 
tiene como espacio muestral: {CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los 
eventos elementales.
Por otro lado, al examinar la condición II notamos que el evento de interés no 
tiene por qué ser únicamente referido a eventos elementales y podría ser una función de 
ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC } , 
que no es un evento elemental.
En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta 
natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en 
este contexto el evento imposible (denotado por ∅ ), en tanto que el mismo conjunto S es 
llamado el evento seguro.
Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ 
Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería 
problema usar dicha asociación. La existencia de eventos no elementales complica el 
problemaporque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1 
también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos 
eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces, 
habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el 
modelo matemático sea congruente. 
Una alternativa sería usar el conjunto de todos los posibles Ai y todas sus 
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de 
lanzar la moneda dos veces éste incluiría, aparte de los eventos elementales, eventos 
tales como “que salga al menos una cara”, “que no salgan dos sellos”, etc. Así, el 
conjunto potencia de este experimento es:
ℱ ={S ,∅ ,CS ,CC ,SC ,SS ,
 SC ,CS  , SC , CC  ,SC , SS  ,
 CS ,CC  ,CS ,SS  ,CC ,SS  ,
 CS , SC , CC  ,CS ,SC , SS ,CC ,SS , SC  , CC ,SS ,CS }
(2.3)
De esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ 
alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ 
obtenemos un elemento de .ℱ
2.5
No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma 
de probabilidades mayor que 1).
9
 Así, debemos definir independientemente de ℱ S o, lo 
que es lo mismo, debemos dotarlo de estructura matemática.
Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 10 si
• dado A∈ℱ entonces A∈ℱ (cerrado para el complemento)
• dado Ai i=1, 2, entonces Ui Ai ∈ ℱ (cerrado para uniones contables o 
enumerables)
Ambas propiedades juntas implican que: 
• S∈ℱ (porque A∪A=S )
• ∈ℱ (porque S=∈ℱ )
• Ai∈ℱ entonces Ui Ai∈ℱ 
Dicho de manera más simple, cualquier operación (unión o intersección) de 
elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un 
σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es 
que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un 
álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ-
álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para 
uniones finitas solamente.
Hasta aquí hemos resuelto el problema de incongruencias al postular la 
existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un 
espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el 
concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de 
Constantin Caratheodory y la noción de medida de Henri Lebesgue
11
. Empezamos 
primero con el caso más simple, en el cual S es finito.
9 Ejemplo, S={A1 , A2 ,} tal que A1∩ A2=∅ ∀ i ≠ j y P Ai=a0 , entonces 
P S =∑
i=1
∞
P  Ai =∑
i=1
∞
a1 .
10 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far 
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al-
Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión 
de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o 
balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una 
ecuación y resolverla.
11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.
2.6
Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ 
axiomas:
• Axioma 1: P A ≥ 0 para todo A∈ℱ .
• Axioma 2: P S =1 .
• Axioma 3: P U Ai = P Ai  si {Ai} es una secuencia de eventos 
mutuamente excluyentes en (excluyentes significa que ℱ Ai∩A j= ∀ i ≠ j ).
Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ 
intervalo [0, 1]: 
P · : ℱ [0, 1 ] (2.4)
La probabilidad es una medida en el sentido de Lebesgue. Medida es una función 
definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal 
que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la 
aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos 
disjuntos, la medida total es la suma de las medidas individuales.
Es conveniente notar que el axioma 2 opera simplemente como una 
normalización.
Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como 
con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad 
de la unión de eventos no relacionados es la suma de las probabilidades individuales. 
Debido a su importancia, el trío S ,ℱ , P ·  tiene un nombre particular:
Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ 
una función de probabilidades que satisface los axiomas 1 a 3 se llama 
espacio de probabilidades.
Algunas propiedades interesantes de esta teoría de probabilidades son:
• P  A=1−P A A∈ℱ
• P =0
• Si A1⊂A2 ⇒ P A1≤ P  A2 A1, A2∈ℱ
• P A1∪A2=P A1P  A2−P A1∩A2
2.7
• Si {An }n=1
∞
 es una secuencia de eventos monótona (ordenada) en , entoncesℱ 
P limn →∞ An= limn →∞ P An .12
Un problema evidente de la construcción de probabilidades hecha de esta 
manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por 
ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un 
número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como 
en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función 
que cumpla con las características que se le exige a la función de probabilidades cuando 
hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en 
cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel.
Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la 
recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es 
J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los 
intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ 
Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su 
complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello 
tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado  J  . Este 
es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] , 
todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta 
álgebra es llamada álgebra de Borel, B, y permite incluir cualquier tipo de eventos, sean 
o no elementales, en .ℝ 13
El teorema de extensión de Constantin Carathéodory prueba que para cualquier 
medida de probabilidad P(.) en el álgebra puede extenderse de manera única al σ-ℱ
álgebra generado por los reales. Note que esta medida extendida es única. La prueba de 
este teorema excede los objetivos del curso.
Si aplicamos el teorema de extensión de Carathéodory al álgebra de Borel, 
entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida 
es la medida de probabilidad definida más arriba, podemos dotar de estructura de 
probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras 
verdaderamente complejas. 
12 Usaremos esta propiedad frecuentemente más adelante.
13 Los conjuntos de Borel también se denominan conjuntos de Baire (1874-1932).
2.8
2.03 Variables Aleatorias
En la sección anterior hemos construido el enfoque axiomático de probabilidades 
sobre la base del trío S ,ℱ , P ·  . Ahorausaremos este enfoque para estudiar 
variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio 
de probabilidades fue sugerido como una formalización –un tanto rígida– de un 
experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ 
Figura 2.2.
Evidentemente, es difícil pensar en funciones de probabilidades a partir de la 
Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ 
congruente de P ·  .
Figura 2.2
Si los resultados del experimento fuesen descritos directamente por medio de 
atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que 
S ,ℱ , P ·  . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el 
papel que juegan las variables aleatorias.
La variable aleatoria es una función X que mapea el conjunto S directamente en 
los reales, , es decir:ℝ
X ·  : S ℝ + (2.5)
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
2.9
y asigna a cada elemento de S un valor en los reales positivos, xi . Gráficamente, el 
conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a:
Figura 2.3
La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz 
de mantener la congruencia del análisis de probabilidades al haber eliminado . Laℱ 
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a 
eventos en , en tanto que X asigna valores a elementos de S.ℱ
Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ 
preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ 
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un 
evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ 
el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra 
de Borel, B
Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que 
mapea de S a ℝ y que satisface la condición que para cada conjunto de 
Borel B∈ B en ℝ, el conjunto X
−1B={ s : X s ∈ B ,s ∈ S } es un evento 
en .ℱ
(CC)
(CS)
(SC)
(SS)
S
0 1 2
ℝX(· )
2.10
Algunas implicaciones importantes de la definición anterior son:
• Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ
• Al decidir si alguna función Y ·  : S →ℝ es una variable aleatoria procedemos 
siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ 
viceversa.
• Una variable aleatoria no es “variable” ni “aleatoria”.
Note que la pregunta “¿es Z ·  :S ℝ una variable aleatoria?” no tiene ningún 
sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z 
que es una variable aleatoria para algunos y no para otros.ℱ
14
 Para estos últimos 
siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y 
complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué 
calzar con , pero que frecuentemente son subconjuntos de éste.ℱ
Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de 
probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces 
los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos 
ordenados de :ℱ
X 1⊂ Z ⊂ℱ
En términos prácticos, este último argumento sugiere que al estudiar una 
variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del 
experimento completo .ℱ
Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de 
probabilidad no entra en su definición sino que se le asigna para completar el modelo 
del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor 
real. 
Como vemos, la definición “popular” de variable aleatoria (p.e., Greene
15
 usa 
Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-
post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el 
concepto de función incluido en la definición y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto 
de la línea de los reales. El espacio de Borel B en ℝ juega el papel que antes ocupaba .ℱ 
14 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable 
aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria.
15 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62.
2.11
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir 
una función: 
P x ·  :B[0,1]
tal que P x B =P X
−1B ≡ P s : X s ∈B , s∈S  para todo B en B.
Note que no es necesario definir todos los elementos de B, porque cada uno de 
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así, 
eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función 
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito 
en el Cuadro 2.1.
Cuadro 2.1
S X 1 X 2 X
{C,C} 1 1 2
{C,S} 1 0 1
{S,C} 0 1 1
{S,S} 0 0 0
las probabilidades son simplemente: 
Px({0})=¼ Px({1})=½ Px({2})=¼
Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪
Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0
Note que no es necesario asignarle a cada elemento de la recta real una 
probabilidad sino que definimos el problema por intervalos:
P x  (−∞ , x ]=[
0 x0
¼ 0 ≤ x1
¾ 1≤ x2
1 2≤ x
] (2.6)
2.12
Recapitulando, empezamos con un experimento
16
 definido en el espacio deℰ 
probabilidades S ,ℱ ,P ·  y luego hemos definido la variable aleatoria X definida en 
un espacio de probabilidades equivalente ( , ℝ B , P x ·  ). La ventaja de este último es 
que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos 
arbitrarios”. Gráficamente:
Figura 2.4
Lo último que falta es definir apropiadamente P x ·  . Hasta el momento esta 
función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es 
una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los 
elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que 
permite definir la función F :ℝ[0,1 ] de la siguiente manera:
P x (−∞ ,x ]=F x −F −∞=F x  (2.7)
16 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una 
contundente visión de la importancia del diseño del experimento “To call in the statistician after the 
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say 
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
0 1 2 0 1 2 0 1
P
x
(· )ℝ B
2.13
y como los intervalos son ordenados, debemos exigir que F ·  sea no decreciente, 
continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que 
llamamos función de distribución:
Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P ·  . La función punto 
F: →[0,1] definida por:ℝ
F x =P x ( − ∞ , x ]=Pr X ≤ x  ∀ x ∈ X
se llama Función de Distribución de x y cumple:
• F ·  es no-decreciente
• F −∞= lim x−∞ F x =0 F ∞=limx ∞ F x =1
• F ·  es continua por la derecha
¿Por qué preferimos F ·  a P ·  o a P x ·  ? La principal ventaja de F ·  
es que ésta es una función punto que se puede representar de manera algebraica, que es 
el manejo habitual que le damos a las funciones de distribución.
Habrádos tipos de variables aleatorias:
• Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por 
convención, algún subconjunto del conjunto de los enteros.
• Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su 
función de distribución F x  es continua para todo x y existe una función∈ ℝ 
no-negativa f ·  en la recta real tal que: 
F x =∫
−∞
x
f x dx
donde f ·  es llamada la Función de Densidad de x.
2.14
2.04 Momentos de una Distribución
El valor esperado de una variable aleatoria se define como el promedio de las 
realizaciones de X ponderado por su probabilidad de ocurrencia.
17
E[ x ]=∑ x f x =x para toda función X discreta (2.8)
E[ x ]=∫
x
x
x f x dx=x para toda función X continua 
Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria 
puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted 
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si 
sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor 
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del “valor central” de una distribución son la 
mediana que es el valor “del medio” del rango de valores de la distribución y se usa 
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve 
tan influida por éstos. Cuando se trata de variables discretas ocasionalmente se usa la 
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación 
interesante en variables continuas pues su definición es arbitraria.
Más allá del valor esperado, se utiliza frecuentemente:
• Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor 
esperado de la dispersión de la variable aleatoria.
• Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado 
de la asimetría de la variable aleatoria.
• Kurtosis18 de una distribución K x =E [x−E x ]4 es decir, es el valor 
esperado de las colas de la distribución de la variable aleatoria.
17 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar 
un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del 
contexto que se trate.
18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en 
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A 
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto 
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica 
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).
2.15
Para describir la distribución de una variable aleatoria resulta más efectivo usar 
los llamados momentos
19
 de la distribución (esperanza, mediana, moda, varianza, 
skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no 
centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un 
momento centrado es de la forma E[∣x−x∣
m
] . Resulta natural preguntarse si existe 
alguna forma de generar estos momentos de la distribución. La función generatriz de 
momentos provee una manera elegante de obtener los momentos de una distribución:
Def. 2.9: La función generatriz de momentos de una variable aleatoria –
posiblemente vectorial– X se define como:
m t =E [ e t ' x ]=∫ e t ' x dF x  (2.9)
donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de 
momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para 
−hth existe E[ e t ’ x ] .
La función generatriz de momentos provee, como su nombre indica, una manera 
simple de generar todos los momentos de una distribución. En el caso univariado, se 
puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el 
resultado es general):
m t =E [ e t ' x ]=E [1tx
tx
2
2 !

tx
3
3 !
... ]
 =1tE [x ]
t
2
2 !
E [x 2 ]
t
3
3 !
E [x 3 ]...
(2.10)
es decir, el término que acompaña a 
t
i
i !
 es un momento no-centrado de la distribución 
de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en 
t=0 tenemos:
19 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una 
variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su 
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje 
horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893). 
2.16
∂m t=0
∂ t
= E [x ]
∂2 m t =0
∂ t 2
=E [x 2 ] etc.
(2.11)
De esta manera podemos generar los momentos de la distribución de una 
variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son
• m x−=E[ e
x−]=e− t m x t  si μ es constante.
• m x y=E [ e
x y ]=m x t m y t  si x y y son variables aleatorias independientes.
Si las variables son acotadas la función generatriz de momentos siempre existe y 
es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se 
distribuye:
f x =
1
1x 2 
(2.12)
la función generatriz de momentos es:
m t =∫
−∞
∞
e
tx
f x  dx =[∞ si t ≠ 01 si t=0 ] (2.13)
Una solución a este problema consiste en modificar la función generatriz de 
momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por 
it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función 
generatriz de momentos. Así,
t =E [ e it ' x ] (2.14)
Se puede demostrar que dos variables aleatorias son idénticas si tienen igual 
t  . Para ilustrar el uso que se le da a este tipo de función, consideremos la 
distribución Normal:
2.17
f x =
1
2 2
e
−x−
2
22
(2.15)
Aplicando la transformación de la ecuación (2.14), tenemos
t =
1
 2 2
∫
−∞
∞
e
it ' x−
x−
2
22
dx =e it −1/2
2
t
2 1
2 2
∫
−∞
∞
e
−x−−i 
2
t 
22
dx (2.16)
Es posible, aunque tedioso
20
, demostrar que ∫
−∞
∞
e
−x−−i 2 t 
22 dx= 22 , por lo 
que se deduce que la función característica de la normal es simplemente:
t =e  it −1 /2
2
t
2

(2.17)
La función característica describe completamente la distribución que, en este 
caso, depende de la media  y la varianza 2 . La función es simétrica alrededor de  
y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular, 
si =0 , la función característica de la normal es t =e−1 /2
2
t
2
.
2.05 Distribuciones Discretas de Uso Común
Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito, 
fracaso} y que tienen probabilidades p y 1-p, respectivamente:
Exito x=1 P(x=1) = p
Fracaso x=0 P(x=0) = (1-p)
En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de 
Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre 
20 Para demostrar este resultado recuerde que e itx=costx i sin tx  .
2.18
las cuales se encuentra la distribución (o descripción) de los datos del experimento 
anterior:
f x = px 1− p 1−x  ∀ x=0,1
 =0 en cualquier otro caso
(2.18)
Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n 
veces se obtiene la distribución “binomial”
21
f  y = ny p y 1− p n− y (2.19)
donde ny=
n !
n− y  ! y !
.
Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta 
por Poisson en 1837 como el límite de la binomialcuando n → ∞ y p → 0 , tal que np es 
constante.
22
f x i ;=
e
−i
x
x i !
(2.20)
21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton 
provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por 
Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of 
Statistics (1911, p. 305).
22 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar 
matemáticas”.
2.19
2.06 Distribuciones Continuas de Uso Común
En muchos experimentos en economía no puede suponerse que las variables 
aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.
La distribución normal. Si n →∞ , la expresión de la binomial es poco práctica. De 
Moivre
23
 encuentra la función de densidad que resulta en este caso:
f z =
1
 2
1

e
−z−Ez 2
2
2
(2.21)
es decir, la distribución normal
24
. Esta distribución es la base de muchos tests y 
procedimientos de estimación que usaremos en este curso.
La distribución normal estándar. La distribución normal se estandariza fácilmente:
si z↝N  ,2  ⇒ x=
z−

↝ N 0,1 (2.22)
La distribución Chi cuadrado. Esta distribución deriva de la distribución normal. 
si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23)
Una propiedad de esta función es que sumas de variables que se distribuyen χ² 
también se distribuyen χ²:
si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24)
23 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755. 
Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el 
resultado se conoce como Teorema de De Moivre y Laplace.
24 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente 
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen 
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton 
fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence 
(1889).
2.20
La distribución F25
si y↝ χ² m  y w ↝ χ² n ⇒ x=
y /m
w /n
↝ F m , n (2.25)
La distribucion “t” de Student26
si z↝N 0,1 y w↝ χ² n ⇒ x=
z
w /n
↝ t n  (2.26)
La distribución de Cauchy estándar27
si X 1 y X 2↝ N 0,1 independientes , z=
X 1
X 2
↝ f z =
1

1
1z 2
(2.27)
La distribución logística28
F z =[1e
z−a
b ]
−1
(2.28)
La Figura 2.5 señala la relación que hay entre las distintas funciones de 
distribución. 
25 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of 
Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F 
que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z.
26 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The 
Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy 
of Student's Tables as you are the only man that's ever likely to use them!". 
27 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una 
notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que 
Poisson ya había estudiado la distribución en 1824.
28 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es 
posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La 
derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissement de la Population”, Nouveaux 
Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.
2.21
Figura 2.5
2.22
2.07 Distribuciones Conjuntas
Es posible que dos (o más) variables puedan ser descritas por una función de 
probabilidades conjunta
P a≤x≤b ; c≤ y≤d = ∑
a≤x≤b
∑
c≤ y≤d
f x , y 
=∫
a
b
∫
c
d
f x , y dxdy 
(2.29)
El objetivo principal de las ciencias sociales y la economía en particular es 
describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite 
asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es 
decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis 
económico. Es importante notar que de la existencia de una distribución conjunta no se 
deriva que exista una relación causal o de dependencia entre las variables. Simplemente 
verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no 
pueda existir alguna relación entre ellos.
2.08 Distribuciones Marginales
Suponiendo que existe la densidad conjunta de dos o más variables, resulta 
natural preguntarse: ¿qué probabilidad tiene x (o y) de ocurrir, independientemente de 
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles 
valores de “la o las otras variables”. En un caso de dos variables:
f x x =∑
y
f x , y  
 
=∫
y
f x , y dy
(2.30)
Asociadas a la distribución marginal habrá, naturalmente, una esperanza 
marginal, varianza marginal, etc.
2.23
De la existencia de las distribuciones marginales se deriva el concepto de 
independencia estadística: “Si la densidad conjunta es el producto de las marginales, las 
variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia 
estadística de un modo interesante.
Usando variables independientes resulta directo demostrar la utilidad de la 
función generatriz de momentos. Suponga que x e y son variables aleatorias 
independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad:
m x t =e
x t
x
2
t
2
2 m y t =e
 y t
 y
2
t
2
2
m x y t =e
x t
x
2
t
2
2 ⋅e
 y t
 y
2
t
2
2 =e
x y t
x
2
 y
2
 t
2
2
es decir, z se distribuye como una normal con media x y y varianza x
2 y
2  .
Paradoja del Chevalier de Mere
En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema 
propuesto por el Sr. de Méré, un noble francés que se apasionó por los juegos de azar. 
Empíricamente, de Méré observó que la probabilidad de sacar al menos un 6 en 4 
lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en 
24 lanzamientos es menor que ½. En su razonamiento, de Méré concluyó que ambas 
debian ser iguales: 6 es a 4 como 36 es a 24. 
Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es 
1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n 
lanzamientos es (1/6)
n
. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es 
(5/6)
n
, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1-
(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de 
obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por 
independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de 
dos dados es (1/36)
n
, por lo que la probabilidad de no obtener 1 doble seis en n 
lanzamientos es (35/36)
n
. Finalmente, la probabilidad de obtener al menos 1 doble seis 
en 24 lanzamientos es 1-(35/36)
24
=0.4914. De Méré estaba en lo correcto desde el punto 
de vista empírico pero su razonamiento era erróneo.
2.24
2.09 Distribuciones Condicionales
Para ciencias sociales, la distribución más interesante es la condicional, es decir 
aquella que describe cuál es la probabilidad que ocurra y condicionalen que x tome 
algún cierto valor y que denotamos por f  y | x  .
Se puede demostrar que f  y | x =
f x , y 
f x x , y 
. Para ello, definiremos primero la 
noción de probabilidad condicional. Supongamos que en el experimento de tirar dos 
monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de 
probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC}, 
{CS}}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A={∅ ,{S },{CC },{SS }} . 
Entonces, tienen que cambiar las probabilidades P ·  , siendo ahora:
PA({ ∅ })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½
El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de 
probabilidad S ,ℱ , P ·  al espacio de probabilidad condicional S A ,ℱ A ,P A ·  . 
Definiremos la probabilidad condicional como:
P A  A1=P  A1| A=
P A1∩A
P  A
(2.31)
si y sólo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1 –de forma análoga a como 
definimos la función de densidad– obtenemos la Función de Densidad Condicional que 
describimos más arriba.
Resulta clave entender que la media condicional de y en x, E[ y |x ] , es 
exactamente el concepto de una regresión lineal en econometría. Suponga que el 
experimento puede ser descrito por la siguiente relación: y i=x ii con i una 
variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y 
cov [i ,  j ]=
2
 para i=j y 0 en todo otro caso. Entonces E[ y | x ]=x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza 
condicional al modelo anterior. Un poco de álgebra permite obtener:
V [ y |x ]=E [ y 2 | x ]−E [ y |x ]
2
(2.32)
Esta es la función cedástica.
2.25
De la ecuación (2.32) y usando la ley de las esperanzas iteradas 
E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada 
descomposición de varianza) V [ y ]=V x [E  y | x  ]Ex [V  y |x  ] . Esta expresión 
indica que la variación total de los datos puede ser entendida –o descompuesta— como 
la variación de la media condicional más la variación de las realizaciones alrededor de la 
media condicional. De esta descomposición se desprende que:
Ex [V  y |x  ]=V [ y ]−V x [E  y |x  ] (2.33)
es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión 
es menor que aquella de los datos.
29
También se define la bondad de ajuste de una regresión como la relación entre la 
varianza de la media condicional (es decir, modelada) respecto de la varianza total del 
fenómeno:
R
2=
V x [E  y |x ]
V [ y ]
 (2.34)
Note que la bondad de ajuste depende de la media condicional, es decir, 
depende como se modele la media condicional. Ello pone límites al uso de la bondad de 
ajuste como instrumento de selección de modelos econométricos.
Más adelante volveremos a revisar conceptos tales como función cedástica, 
bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal. 
Es importante, a estas alturas, comprender que dichos conceptos no se restringen al 
método de mínimos cuadrados, sino que son de aplicación general.
29 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage).
2.26
Apéndice A: Ejercicios
1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una 
distribución normal, para las cuales usted estimó su media y varianza. Justifique 
cuidadosamente cada uno de sus pasos.
2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y 
el evento imposible pertenecen al σ-álgebra asociado.
3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la 
siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido 
ex-ante pero el valor que toma es sólo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clásica 
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque 
axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas 
limitaciones.
5. En el ejemplo 2.3 del texto, ¿es A={SC ,CS } un σ-álgebra?
6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la 
correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓
7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un 
índice de precios. La distribución marginal del dinero es normal con media x y 
varianza unitaria, en tanto que la distribución marginal del índice de precios es 
también normal con media y y varianza igual a  . Use la función característica 
para encontrar la distribución de Z, suponiendo que ambas variables son 
independientes.
8. Sea una muestra de n observaciones con distribución f  y =[1 y 2]
−1
. 
Demuestre que el valor esperado no existe. ¿Existe su varianza?
9. Demuestre que el coeficiente de correlación es invariante ante transformaciones 
lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de 
correlación de los datos { yn , x n} para las transformaciones abx i ; cdyi  , 
i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que 
r 1=r 2 .
10. Considere una variable aleatoria {x} con distribución normal de media μ y 
desviación estándar σ. Encuentre c –en función de la esperanza y la varianza– tal 
que P xc =2P x ≥c 
2.27
11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal 
con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos 
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión 
para estimar μ y σ².
12. Si la función de densidad de y es  y21− y 3 para y definido entre 0 y 1: ¿qué 
número es α y cuál es la probabilidad de que y esté entre 0 y ½?
13. Considere el sorteo Kino
30
 (que excluye el super número) como un experimento 
aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7ℰ 
números, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 números, 
ya ganó el pozo Kino. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin 
reemplazo.)
• Describa el espacio muestral, S.
• Describa el σ-álgebra asociado a S.
• Compute la probabilidad de ganar si el experimento es sin reemplazo.
• ¿Es la probabilidad que Usted computó congruente con la información que 
entrega la Lotería en la misma página web? Información adicional: Sorteos 
realizados a la fecha: 922, Ganadores con 7 aciertos: 40.
14. Suponga que usted debe reorganizar el poder judicial creando un sistema de 
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces 
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo 
tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser 
removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos 
jueces cada día, los que permanecen incógnitos (muestra con reemplazo).
• Construya el modelo probabilístico que describe el fenómeno. Defina 
claramente el experimento aleatorio y el espacio de probabilidades.
• Construya el modelo muestral asociado.
• Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos 
jueces hay que remover?
15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas 
preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales. 
En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la 
proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción 
puede ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el 
mayor número de días enlos que dicha proporción es más que 60%? (a) el hospital 
grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted 
decir por qué la gente se equivoca tanto al responder?
30 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought 
that's what the lottery was!” Gallagher
Capítulo 3
Elementos de Inferencia Estadística
Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es más probable.
R. Descartes, Discurso del Método, 1637
En el capítulo anterior hemos discutido la estructura axiomática de las 
probabilidades que será la base del análisis de inferencia estadística. Resulta natural 
preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de 
observaciones podemos describirlas usando alguna función de probabilidad o, en el 
peor de los casos, usando un histograma.
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque 
axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ 
definido en el espacio de probabilidades S ,ℱ , P ·  . La incertidumbre respecto del 
resultado particular del experimento se resume en P ·  . Para evitar la rigidez de esta 
formalización utilizamos un espacio equivalente ( , ℝ B , P x ·  ), en el que definimos 
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma 
(−∞ , x ] podemos construir una función punto que describa congruentemente la 
probabilidad de ocurrencia de los eventos en x y que llamamos la función de 
distribución, F ⋅  :
P  s : X  s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1)
Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la 
función de densidad, la que cumple F x =∫
−∞
x
f u du . La ventaja de usar f u es que 
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre 
asociada al experimento por incertidumbre respecto de los parámetros ℰ  que, dentro 
de una familia de formas funcionales, identifican una función de densidad específica a la 
que denominamos f x , . 
1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una 
conclusión” es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilístico ={ f  x; ,∈} a la familia de 
funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para 
describir las observaciones, x. Se presume que el vector de parámetros  pertenece al 
espacio de los parámetros  (típicamente un múltiplo de la recta real).
La intuición es directa: dado un conjunto de observaciones, x, cuando se postula 
un modelo probabilístico que las describa basado en una distribución f x , , se ha 
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos 
(PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de 
la función f x , .
El objetivo de la inferencia estadística es precisamente identificar y hacer tests de 
hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa 
adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de 
series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de 
panel.
Note la importante diferencia entre la descripción de datos y la inferencia 
estadística. La descripción de las observaciones puede ser hecha por medio de funciones 
de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por 
su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que 
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un 
modelo general.
La inferencia estadística parte de la base que existe un modelo probabilístico 
={ f  x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral, 
que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para 
ello definiremos primero algunos conceptos necesarios:
Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas 
funciones de densidad coinciden con la función de densidad f x , 
postulada por el modelo probabilístico.
Note que este significado está lejos del uso cotidiano de la palabra muestra, en 
particular porque no se refiere a datos observados. De la definición se deduce que una 
muestra en el sentido coloquial –una colección de números– en realidad corresponde a 
una de las muchas posibles realizaciones del conjunto de variables aleatorias que 
componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para 
complementar el experimento descrito por el modelo probabilístico.
Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener 
una distribución:
3.3
Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la 
distribución conjunta de la variables aleatorias {x1 , x2 , , xn} 
denominada por: 
f {x1 , x2 , , xn};≡ f x ; (3.2)
Note que la distribución muestral incluye dos elementos: la información respecto 
de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de 
incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La 
manera más intuititiva de pensar en el muestreo se deriva del mismo experimento 
aleatorio, .ℰ
Resulta conveniente discutir la naturaleza de las muestras para identificar 
algunas de sus características y, más importante aún, para saber el tipo de información 
contenida en ellas.
Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una 
muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias 
provienen de una misma distribución (población) y son independientes, 
i.i.d. En este caso, la muestra queda descrita por:
f x1 , x2 , , xn ;=∏
i=1
n
f  xi ;=[ f xi ;]
n
(3.3)
La primera igualdad proviene de la noción de independencia estadística 
que ya vimos y la segunda de la condición que las variables están 
distribuidas idénticamente.
Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es 
llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏
i=1
n
f x i ; . Si las 
variables aleatorias tampoco son independientes, la muestra es llamada muestra no 
aleatoria y la única descripción posible de la función de probabilidad que dió origen a las 
observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏
i=1
n
f x i | x 1 , x 2 , ... ;  .
La combinación de los modelos probabilístico y muestral permite definir el 
modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla 
posteriormente:
3.4
Def. 3.4 Un modelo estadístico se define como aquel que incluye:
● un modelo probabilístico, ={ f  x ; ,∈}
● un modelo muestral, x=x1 , x2 , , xn
Obviamente, los dos modelos están interrelacionados, pues no resulta razonable 
suponer un modelo del tipo ={ f  x; ,∈} si la muestra no es aleatoria. En tal 
caso, habría que proponer un modelo para la distribución conjunta 
={ f  x1 , x2 , , x n ; ,∈} .
El modelo estadístico y los datos observados nos permiten responder varios tipos 
de preguntas:
 1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de 
pregunta es también conocido como análisis de especificación del modelo2.
 2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué 
podemos inferir de los parámetros?
 a) ¿Podemos reducir la incertidumbre