Logo Studenta

Capitulo3Final

¡Este material tiene más páginas!

Vista previa del material en texto

Capítulo 3
Elementos de Inferencia Estadística
Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es más probable.
R. Descartes, Discurso del Método, 1637
En el capítulo anterior hemos discutido la estructura axiomática de las 
probabilidades que será la base del análisis de inferencia estadística. Resulta natural 
preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de 
observaciones podemos describirlas usando alguna función de probabilidad o, en el 
peor de los casos, usando un histograma.
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque 
axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ 
definido en el espacio de probabilidades S ,ℱ , P ·   . La incertidumbre respecto del 
resultado particular del experimento se resume en P ·  . Para evitar la rigidez de esta 
formalización utilizamos un espacio equivalente ( , ℝ B , P x ·  ), en el que definimos 
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma 
(−∞ , x ] podemos construir una función punto que describa congruentemente la 
probabilidad de ocurrencia de los eventos en x y que llamamos la función de 
distribución, F ⋅  :
P  s : X  s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1)
Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la 
función de densidad, la que cumple F x =∫
−∞
x
f u du . La ventaja de usar f u es que 
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre 
asociada al experimento por incertidumbre respecto de los parámetros ℰ  que, dentro 
de una familia de formas funcionales, identifican una función de densidad específica a la 
que denominamos f x , . 
1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una 
conclusión” es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilístico ={ f  x; ,∈} a la familia de 
funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para 
describir las observaciones, x. Se presume que el vector de parámetros  pertenece al 
espacio de los parámetros  (típicamente un múltiplo de la recta real).
La intuición es directa: dado un conjunto de observaciones, x, cuando se postula 
un modelo probabilístico que las describa basado en una distribución f x , , se ha 
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos 
(PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de 
la función f x , .
El objetivo de la inferencia estadística es precisamente identificar y hacer tests de 
hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa 
adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de 
series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de 
panel.
Note la importante diferencia entre la descripción de datos y la inferencia 
estadística. La descripción de las observaciones puede ser hecha por medio de funciones 
de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por 
su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que 
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un 
modelo general.
La inferencia estadística parte de la base que existe un modelo probabilístico 
={ f  x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral, 
que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para 
ello definiremos primero algunos conceptos necesarios:
Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas 
funciones de densidad coinciden con la función de densidad f x , 
postulada por el modelo probabilístico.
Note que este significado está lejos del uso cotidiano de la palabra muestra, en 
particular porque no se refiere a datos observados. De la definición se deduce que una 
muestra en el sentido coloquial –una colección de números– en realidad corresponde a 
una de las muchas posibles realizaciones del conjunto de variables aleatorias que 
componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para 
complementar el experimento descrito por el modelo probabilístico.
Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener 
una distribución:
3.3
Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la 
distribución conjunta de la variables aleatorias {x1 , x2 , , xn} 
denominada por: 
f {x1 , x2 , , xn};≡ f x ; (3.2)
Note que la distribución muestral incluye dos elementos: la información respecto 
de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de 
incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La 
manera más intuititiva de pensar en el muestreo se deriva del mismo experimento 
aleatorio, .ℰ
Resulta conveniente discutir la naturaleza de las muestras para identificar 
algunas de sus características y, más importante aún, para saber el tipo de información 
contenida en ellas.
Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una 
muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias 
provienen de una misma distribución (población) y son independientes, 
i.i.d. En este caso, la muestra queda descrita por:
f x1 , x2 , , xn ;=∏
i=1
n
f  xi ;=[ f xi ;]
n (3.3)
La primera igualdad proviene de la noción de independencia estadística 
que ya vimos y la segunda de la condición que las variables están 
distribuidas idénticamente.
Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es 
llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏
i=1
n
f x i ;  . Si las 
variables aleatorias tampoco son independientes, la muestra es llamada muestra no 
aleatoria y la única descripción posible de la función de probabilidad que dió origen a las 
observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏
i=1
n
f x i | x 1 , x 2 , ... ;  .
La combinación de los modelos probabilístico y muestral permite definir el 
modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla 
posteriormente:
3.4
Def. 3.4 Un modelo estadístico se define como aquel que incluye:
● un modelo probabilístico, ={ f  x ; ,∈}
● un modelo muestral, x=x1 , x2 , , xn
Obviamente, los dos modelos están interrelacionados, pues no resulta razonable 
suponer un modelo del tipo ={ f  x; ,∈} si la muestra no es aleatoria. En tal 
caso, habría que proponer un modelo para la distribución conjunta 
={ f  x1 , x2 , , x n ; ,∈} .
El modelo estadístico y los datos observados nos permiten responder varios tipos 
de preguntas:
 1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de 
pregunta es también conocido como análisis de especificación del modelo2.
 2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué 
podemos inferir de los parámetros?
 a) ¿Podemos reducir la incertidumbre sobre  reduciendo el espacio de 
parámetros  a 0 donde 0 es un subconjunto de  ? Llamada región de 
confianza de la estimación. 
 b) ¿Podemos reducir la incertidumbre sobre  escogiendo un valor particular 
en  –llamado  – que sea el más representativo de  ? Estimación punto.
 c) ¿Podemos responder la pregunta si  pertenecea algún subconjunto de  ? 
Esta es una amplia área de análisis colectivamente denominada prueba de 
hipótesis.
 3. Suponiendo que hemos escogido  , ¿qué podemos inferir de las siguientes 
observaciones del mecanismo generador de datos? Esta área –predicción— es una 
de los principales objetivos del análisis econométrico.
2 “El hombre mejor dotado plantea mal el problema que no comprende”, Fulcanelli, Las Moradas 
Filosofales, 1929.
3.5
3.02 Estadísticos muestrales
Sobre la base del modelo estadístico y de los datos observados podemos 
construir estadísticos, definidos como:
Def. 3.5 Un estadístico es una función de Borel tal que q ⋅ : X →ℝ , donde X es 
el espacio de las observaciones. Note que q ⋅  no depende de 
parámetros desconocidos. 
Existen bastantes estadísticos de uso común, entre ellos la media muestral 
definida por x=
1
n∑i x i y la varianza muestral, Var [ x ]=
1
n−1∑i [
x i−x ]
2
. En términos 
generales, una parte sustancial del análisis econométrico se realiza sobre la base de 
estadísticos. Debido a que éstos son funciones de variables aleatorias, deberemos derivar 
sus distribuciones, cosa que usualmente no es fácil.
Podemos generalizar la definición de estadístico para el caso multivariado 
haciendo:
Def. 3.5' qm⋅  : X →ℝ m m≥1 donde qm⋅  es una función vector.
3.03 Distribución de la media muestral
Si {x1 , x2 , , xn} es una muestra aleatoria extraída de una población con media 
 y varianza 2 , entonces x es una variable aleatoria con media  y varianza 2 /n . 
La demostración es directa, la intuición también:
x=
1
n∑i x i (3.4)
entonces 
E [x ]=
1
n∑i =
Var [x ]=
1
n2
Var [∑
i
x i]=
1
n2
∑
i
2=
2
n
(3.5)
3.6
Note que la varianza de la suma converge a cero cuando n→∞ . Este resultado 
es intuitivo pues la media muestral tiene que converger a la media de la población 
cuando la información muestral se aproxima a la población. Nóte, además, que estos 
resultados no dependen de ningún supuesto de distribución de las variables aleatorias x.
3.04 Características deseables de los estimadores en muestra finita
Debido tanto a nuestro interés por aproximarnos al proceso generador de datos 
con precisión y eficiencia, como al objetivo de responder al tipo de pregunta planteado 
más arriba, tendremos que estudiar para cada estadístico algunas características 
deseables. Aunque no son las únicas características, las dos más importantes son:
Estimador insesgado E [ ]=∫
−∞
∞
 f  d =
Estimador eficiente Menor V [ ] posible
Naturalmente, no puede esperarse que todos los estimadores sean insesgados y 
de varianza mínima. Por ello es usual preguntarse si para un determinado problema es 
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un 
criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrático 
medio ECM, que se define como:
ECM=E [−2]=Var []sesgo [ ]2 (3.6)
La existencia de un trade-off nos hace usualmente preguntarnos si existe algún 
estimador que sea “óptimo” (es decir, insesgado y de varianza mínima). Bajo ciertas 
condiciones, el estimador de máxima verosimilitud resulta ser óptimo. 
Consideremos que tenemos una muestra de n observaciones de la variable 
aleatoria x tal que sus componentes son independientes e idénticamente distribuidos. 
Como señalamos, si cada dato viene de f x i , , la distribución conjunta de la muestra 
es: 
ℒ = f x1 , x2 , , xn ;=∏
i=1
n
f  xi ;=[ f x ;]
n (3.7)
donde es llamada la función de verosimilitud. Esta función mide la probabilidad queℒ 
los datos que disponemos vengan de un mismo modelo probabilístico.
3.7
El estimador de máxima verosimilitud será aquel * que hace máxima la 
probabilidad que los datos provengan de f x , . Este estimador es formidable, en el 
sentido que posee cuatro características importantes: es insesgado, es de varianza 
mínima, es asintóticamente normal y es invariante para transformaciones afines. Más 
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las 
condiciones necesarias para su existencia.
Ejemplo: 
Supongamos que los datos son tomados independientemente y 
corresponden a “robos de billeteras por mes en el campus San Joaquín”. La 
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribución de 
probabilidades que mejor representa los datos es alguna de la familia de la 
Poisson. Entonces:
f x i ;=
e−i
x
xi !
En este caso particular, la función de verosimilitud es:
f x1 , x2 , , x12 ;=∏
i=1
12 e−i
x
x i!
=
e−12
∑
i=1
10
x i
∏
i=1
12
xi !
=
e−1230
358,318,080
Podemos optimizar la ecuación anterior pero resulta más fácil 
optimizar el logaritmo de la función de verosimilitud, ya que éste es una 
transformación monótona. Entonces,
log f x1 , x2 , , x12; =−1230 log−log 358,318,080
Buscamos aquel  que hace más probable que los datos vengan de 
una Poisson. Lo que se resuelve de manera elemental mediante cálculo para 
obtener =2,5 . Se debe comprobar que la segunda derivada sea negativa, 
para asegurar que  es un máximo.
3.8
3.05 Límite de Cramer-Rao3
Suponiendo que la función de densidad satisface ciertas restricciones –que 
estudiamos más adelante–, la varianza de un estimador lineal insesgado de un 
parámetro  es mayor o igual a:4
[ I n]
−1=−E [ ∂2 ln L∂ 2 ]
−1
=−E [∂ ln L∂  2]
−1
(3.8)
Un estimador que alcanza este límite inferior es llamado completamente 
eficiente. El inverso de la cota de Cramer-Rao es llamado número informacional de 
Fisher y se le designa por I n . La ecuación anterior requiere que se cumpla el 
teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras 
sencillas, las condiciones requeridas para que sea válido son:
● El conjunto de eventos que cubre la función de probabilidad no depende de  .
● Para cualquier parámetro  , las derivadas de la función de verosimilitud existen 
y, en particular, las segundas derivadas son finitas.
Por ejemplo, el límite Crámer-Rao en el ejemplo de la Poisson sería:
∂2log L 
∂2
=
−∑
i
x i
2
=
−n
2
(3.9)
La utilidad del límite de Crámer-Rao es que si algún estimador insesgado alcanza 
dicho límite, entonces éste será óptimo y no será necesario buscar otro. Note que en el 
caso multivariado, I  es una matriz, con valores fuera de la diagonal, posiblemente 
distintos de cero.
Un segundo concepto relacionado de gran utilidad es el de estadístico suficiente. 
Intuitivamente, un estadístico suficiente condensa la información de n variables 
3 Esta desigualdad fue obtenida independientemente por H. Cramér (1946 Mathematical Methods of 
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954) 
señala, no obstante, que M. Fréchet (1943) y G. Darmois (1945) habían propuesto tentativamente el 
nombre "desigualdad informacional” para la misma ecuación. Predeciblemente, sólo los franceses usan 
“desigualdad de Fréchet-Darmois-Cramér-Rao”.
4 Note las diferencias entre ambas expresiones. Más adelante mostramos por qué ambos paréntesis son 
iguales.
3.9
aleatorias en una sola variable aleatoria. Si no hay pérdida de información en esa 
reducción, el estadístico efectivamente describe los datos de la muestra. Un estadístico 
. es suficiente si al hacer inferencias sobre  estamos indiferentes entre usar la 
colección de variables aleatorias X o  x . Obviamente preferimos  x por ser de 
menor dimensión que X. Más formalmente, el teorema de factorización de Neyman-
Fisher es:
Def. 3.6 Un estadístico τ ⋅ : X →ℝ es llamado suficiente para  si la 
distribución condicionalde f x | τ x =τ es independiente de  , es 
decir  no aparece en f x | τ x =τ y el dominio de f(.) no envuelve a 
 .
3.06 Elementos de teoría asintótica: convergencia
Usualmente la distribución de un estimador  es desconocida. Para poder hacer 
inferencias utilizamos elementos de la teoría asintótica, que nos permiten estudiar las 
propiedades de los estimadores cuando la muestra es de tamaño infinito.
A lo largo de este capítulo vamos a usar dos herramientas: Leyes de los Grandes 
Números (en términos generales describen qué tan lejos está  de  ) y Teoremas del 
Límite Central (que permiten hacer inferencias sobre  usando  ).5 Un primer paso 
será estudiar el concepto de convergencia, que en nuestro caso es análogo pero no 
equivalente al concepto de convergencia usado en series y progresiones.
Def. 3.7: Una secuencia es una colección infinita de objetos ordenados y contables. 
Podemos tener secuencias de números, vectores, matrices, etc.
La secuencia {a t} converge a a si ε>0 existe N tal que T>N, ∀ ∀ ∥aT - a < ε donde∥ 
. es la distancia Euclideana. Escribimos∥ ∥
limT →∞ aT=a ó aT→a (3.10)
5 El nombre de esta familia de teoremas fue acuñado por George Polya (1887-1985) en "Über den zentralen 
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift, 
8 (1920), 171-181). Posiblemente, Polya usó el término "Zentral" para indicar que su importancia es 
central en el análisis. No obstante, el trabajo de Polya es de tercera generación. La primera generación la 
encabeza De Moivre en los años 1730 cuando deriva la distribución normal. La segunda generación 
corresponde a los trabajos sobre la distribución normal del siglo 19 de Laplace, Poisson, Cauchy y otros. 
La tercera generación es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.
3.10
Este tipo de convergencia no es el que nos interesa en estadística; no es la 
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de 
las probabilidades asociadas a la variable aleatoria. Así, hay varios modos de 
convergencia de interés para la modelación econométrica. Ya nos hemos referido a dos 
de ellos al revisar las distribuciones Bernoulli y Normal, que en sí son dos límites que 
reflejan distintos modos de convergencia.
Bernouilli demostró que si Sn es el número de ocurrencias de un evento A en n 
intentos de un experimento aleatorio y ℰ p=P  A es la probabilidad de ocurrencia de 
A en cada intento, entonces para 0 :
limn∞ Pr∣S nn − p∣=1 (3.11)
es decir, el límite de la probabilidad del evento ∣S n/n− p∣ se acerca a 1 cuando 
n→∞ . 
Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:
P Sn=r =nr pr 1− pn−r
entonces se cumple:
P ∣S n−np∣≥ n= ∑
∣r−np∣≥ n nr pr 1− pn−r≤
1
n22
∑
∣r−np∣≥ n
r−np 2nr pr1− pn−r
= 1
n22
E Sn−np
2= 1
n22
V S n 
= 1
n22
np1− p= p 1−p 
n2
 
▄
Por otro lado, De Moivre y Laplace encontraron que cuando ∣S n/n− p∣ es 
multiplicado por el inverso de la desviación estándar y n→∞ , el resultado se aproxima 
a una distribución normal.
lim n→∞ Pr ∣Snn − p∣[ p1−pn ]½≤z=∫−∞z 12 e−½ u2du (3.12)
3.11
Estos dos teoremas proponen –como veremos más adelante– distintos modos de 
convergencia. Además, tienen algunos supuestos que deben cumplirse y vale la pena 
revisar antes de seguir avanzando:
1. Sn=∑ x i , es decir, Sn corresponde a una suma de variables aleatorias.
2. x i=1 si el evento A ocurre y x i=0 si no ocurre, es decir, x i es una variable 
aleatoria que se distribuyen Bernoulli y, por lo tanto, Sn es una variable 
aleatoria que se distribuye Binomial.
3. Las variables aleatorias x i son independientes. 
4. f x1= f x2=⋯= f  xn , es decir, las variables aleatorias x i están 
idénticamente distribuidas con Pr  xi=1=p y Pr  xi=0=1− p para todo x i .
5. Debido a que E Sn /n=p , entonces el análisis se hace considerando las 
diferencias entre una variable aleatoria Sn y su valor esperado. Es decir, se 
refiere a la dispersión de x.
La diferencia más importante entre ambos teoremas, sin embargo, tiene que ver 
con el tipo de convergencia implícita en cada una: mientras Bernoulli se concentra en 
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en 
distribución. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en probabilidad si:
lim n→∞ Pr ∣xn−x∣=1 ∀  (3.13)
lo que escribimos plim xn= x . A veces se escribe xn
p x .
Def. 3.9 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en distribución a x si la función de distribución F nx  
converge a la distribución de F x  para todo punto de F (ver Figura 
3.2). 
limn →∞ Fn x=F x  (3.14)
Escribimos xn
d x y llamamos a F la distribución límite de xn .
3.12
Figura 3.2
Convergencia en distribución
Def. 3.10 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en media cuadrática a x si:
limn →∞ E xn− x
2=0 (3.15)
lo que escribimos xn
m x .
Def. 3.11 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge casi seguramente a x si:
Pr lim n→∞ xn= x=1 (3.16)
lo que escribimos xn
a.s. x .6
6 Suponga que el espacio muestral S está definido en el intervalo [0,1] con distribución uniforme. Suponga 
la siguiente variable aleatoria X n s =s s
n y X s = s . Entonces, para todo S ∈ [ 0,1 ) , s n →0 cuando 
n→∞ y Xn(s)→X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia 
ocurre en [0,1) y P([0,1))=1, entonces Xn→X almost surely.
N=100
N=250
N=500
N=50
P
3.13
La relación entre las distintas formas de convegencia puede sintetizarse en el 
siguiente diagrama. 
La demostración de estas relaciones es directa aunque algo tediosa.
Teorema 1: E xn
2→0⇒ x n
p 0
Demostración
E xn
2=∫
−∞
∞
x2dF nx 
 = ∫
x | x2≥ 2
x2dF nx  ∫
x | x22
x2dF nx ≥ 
2∫
S
x2dF nx  donde S= x | x
2≥ 2
Tomando la ultima integral
∫
S
x2dF nx =∫
−∞

dF nx ∫

∞
dF nx =F n−[1F n]
=P xn−P xn≥ ≥ P  xn
2
Entonces:
P xn
2≤
E xn
2
2
Así, si E xn
2→0 , entonces xn converge en probabilidad a cero.
Teorema 2: xn
m x⇒ xn
p x
Demostración: reemplace xn por xn−x en el Teorema 1.
3.14
3.07 Elementos de teoría asintótica: leyes débiles de grandes números
A principios de 1800, S. Poisson7 se dió cuenta que el supuesto 4 de Bernoulli –
distribución idéntica– no resultaba fundamental para obtener los resultados de 
convergencia. 
Teorema de Poisson: Sea {xn} una secuencia de variables aleatorias independientes tipo 
Bernoulli con Pr x i=1= p y Pr x i=0=1− p , para todo x i , 
entonces para cualquier ε>0
lim n→∞ Pr∣S nn −1n∑i=1
n
pi∣=1 (3.17)
Prueba: La manera más corta de probar este teorema es usar la función característica. 
Sea X i t =E [ e
itx ] la función característica de xi, una variable aleatoria que 
se distribuye con media μ y varianza finita. La expansión de la función 
característica alrededor de t=0 es x i t =1 it 1
it 2
2 !
2
it 3
3 !
3⋯ , 
por lo que la función característica de 
x i
n
 es 
x i/ n t =1
it 
n
1−
t 2
2 ! n2
2o1 /n
2 . Entonces, la función característica de 
la suma 1/n∑
i=1
n
xi es ∑ x i/ n t =1 it n 1− t 
2
2 ! n2
2o 1 /n
2
n
. Aplicando 
logaritmo se obtiene log∑x i /n t =n log 1 it n 1− t 
2
2 ! n2
2o 1 /n
2  . Pero 
si n∞ , se puede aproximar log 1z ≈z por lo tanto 
log∑ x i/ n t = it 1−t 22 ! n 2o 1 /n  . Finalmente, tomandolímite tenemos 
limn∞ log∑x i /n t =it 1 . Esta es la función característica de una 
distribución cuya densidad está concentrada en 1= . Es decir x i
p
 .▄
7 “Recherches sur la Probabilité de Jugements, Principalment en Matiere Criminelle”, Comptes Rendus 
Hebdomadaires des Sèances de lÁcadémie de Sciences, 1, 473-494, 1835.
3.15
P. Chebyshev (1887)8 se dió cuenta que, en realidad, no sólo el supuesto 4 era 
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo 
importante es que se está comparando una suma de variables aleatorias con su media 
(valor esperado). 
Teo. de Chebyshev: Sea {xn} una secuencia de variables aleatorias con media  y varianza 
σ²c∞ y sean c y ε constantes, entonces para todo ε>0 
lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣=1 (3.18)
Para probar este teorema usamos la propiedad que las variables aleatorias x son 
independientes. Por ello:
Var1n∑i=1
n
x i = 1n2∑i=1
n
i
2 ≤ c
n
(3.19)
Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:
Prob[∣xn−cn∣]≤ E [ xn−cn2]/2 , pero se le aplicará a 1/n∑x i . 
Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la 
desigualdad de su discípulo A. Markov. Sea xn una variable aleatoria que toma valores 
no negativos y δ una constante, entonces:
Prob[ xn≥ ]≤
E [ xn]

(3.20)
La prueba es directa. Recordemos que podemos separar la esperanza de x como:
E [ xn]=Prob[ xn]E [ xn | xn]Prob [ xn≥ ]E [ xn | xn≥] (3.21)
debido a que xn no es negativo, entonces ambos términos son no negativos. Por ello:
E [ xn]≥ Prob[ xn≥]E [ xn | xn≥] (3.22)
8 Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff 
en vez de v.
3.16
pero la esperanza condicional debe ser mayor o igual que  por definición, luego se 
obtiene que E [ xn]≥ Pr [ xn≥ ] . Ello prueba la desigualdad de Markov. Para probar la 
desigualdad de Chebyshev simplemente usamos en xn−cn en vez de xn y  en vez de 
 .
Volviendo al teorema de Chebyshev, 
Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣≥  ≤ 12
∑
i=1
n
i
2
n2
≤ c
n2
(3.23)
pero tomando el límite cuando n→∞ de esta ecuación notamos que es cero.
lim n→∞
c
n2
=0 , entonces lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣≥ =0 (3.24)
debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de 
Chebyshev.
Markov9 se dió cuenta que en la prueba anterior, el supuesto que las variables 
x1 , x2 , , xn fueran independientes cumple un rol menor. De hecho, sólo se usa para 
computar la varianza de la suma Sn :Var S n =
1
n²∑i=1
n
 i
2 . La prueba anterior sólo 
requiere que Var Sn→0 cuando n→∞ . Pero la varianza de una suma es la suma de 
las varianzas más las covarianzas:
Var∑i=1
n
x i=∑i=1
n
Var x i∑∑
i ≠ j
Cov x i , x j (3.25)
note que la doble suma de covarianzas es a lo más del mismo orden que la varianza. Por 
ello la condición que se necesita cumplir es que Var ∑ x converja más lento que 1/n2 
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.
Teo. de Markov: Sea {xn} una secuencia de variables aleatorias tales que 1/nVar S n→0
,cuando n→∞, entonces 
lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
E x i∣=1 (3.26)
9 “Über die freie Äquivalentz der geschlossenen Zöpfe.” Recueil Math. Moscu, 1935.
3.17
No obstante, un estudiante de Markov llamado A. Kinchine10 notó que en el caso 
de variables aleatorias independientes e identicamente distribuidas, la condición de 
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner 
restricción alguna sobre las varianzas. 
Teo. de Kinchine: Sea {xn} una secuencia de variables aleatorias i.i.d., entonces la existencia 
de E x i= es suficiente para garantizar que
Pr ∣1n∑i=1
n
x i−∣=1 (3.27)
Pero ambos teoremas tienen distintas condiciones y no son generales. 
Finalmente, el teorema de Kolmogorov11 proveyó las condiciones necesarias y suficientes 
para que se cumpla la Ley Débil de Grandes Números (LDGN). 
Teo. de Kolmogorov 1: La secuencia de variables aleatorias {xn} obedece LDGN si y sólo si:
E  [S n−∑i
n
E  xi]
2
n2[ Sn−∑i
n
E x i]
2 →0 , cuando n→∞ (3.28)
El teorema anterior requiere que [S n−∑ E  x i]
2 crezca más lento que n2 , de 
otro modo el limite (3.28) no se desvanece cuando n crece.
10 “Recherches sur la structure des fonctions mesurables” en Fundamanta mathematica, 1927.
11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
3.18
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números
A diferencia del caso anterior, ahora estamos interesados en convergencia casi 
segura. El primero en probar una ley fuerte de grandes números (LFGN) fue E. Borel en 
190912. 
Teo. de Borel: Si {xn} es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli, 
entonces:
Prlimn→∞ S nn = p=1 (3.29)
es decir, el evento {s : limn→∞ S n s/n=p s∈S } tiene probabilidad 1 cuando n→∞ . 
Esta expresión puede ser re-escrita como:
limn →∞ Prmaxm≥ n[∣Smm − p∣≥ ]=0 (3.30)
de donde se puede ver la relación entre la LDGN y la LFGN. La primera se refería a 
limn→∞ Pr∣S nn −p∣=1 , pero:
∣S nn − p∣≤ maxm≥ n∣S mm −p∣ (3.31)
por lo tanto si alguna función cumple (3.34) cumplira con LDGN, es decir, 
xn
a.s. x⇒ xn
p x .
A. Kolmogorov reemplaza la condición de Markov sobre las varianzas 
V S n =
1
n2
∑
i=1
n
i
2→0 cuando n→∞ con una condición más fuerte:
∑
k=1
∞ 1
k 2
V x k ∞ (3.32)
12 “Les probabilités dénombrables et leurs applications arithmétiques”, reprinted as Note V in E. Borel, 
Leçons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine popularizó el 
término Ley Fuerte de los Grandes Números para distinguirlos de los teoremas a la Bernouilli basados 
en convergencia en probabilidad (“Sur la loi forte de grand nombres”, Comptes Rendus de lÁcadémie de 
Sciences, 186, p286, 1929). 
3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente 
aleatorias. 
Teo. de Kolmogorov 2. Sea {xn} una secuencia de variables aleatorias independientes tales 
que existe E x i y V  xi y se satisface la condición anterior, 
entonces:
Prlimn→∞ 1n∑i=1
n
[ x i−E x i]=0=1 (3.33)
Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la 
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x1 , x2 , , xn 
variables aleatorias independientes tales que V x i = i
2∞ ∀ i , entonces para 
cualquier 0 : 
Pr max l ≤ k≤ n∣Sk−E S k∣≥ =
1
2
∑
i=1
n
 i
2 (3.34)
Más aún, si la secuencia x es i.i.d. tales que Ex i ∞ , entonces:
∑
k=1
∞ Var X k
k2
=∑
k=1
∞ 1
k 2
∫
−∞
∞
x 2 f x dx (3.35)
lo que señala que, para tal caso, la existencia de la esperanza es una condición necesaria 
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. ¿Qué 
es lo que realmente se necesita? Para la LDGN se necesita la condición de Markov y para 
la LFGN se necesita la condición de Kolmogorov y ambas se refieren a que se debe 
restringir la V Sn para que no crezca más rápido que n2.13 
La nomenclatura típica es V Sn=O n  , donde O(.) significa orden de 
probabilidad. Orden de probabilidad es un concepto útil que viene en dos sabores: O(n) 
y o(n). Suponga que existen dos secuencias de números reales, a y b. La notación 
a n=O b n corresponde a “a es al menos del orden de bn”, en tanto que a n=o b n 
corresponde a “a es de un orden menor a bn”. Formalmente,
13 Las series de tiempo integradas, que son la mayoría en macroeconomía, no cumplen esta restricción.
3.20
a n=O bn cuando n→∞ si lima →∞
∣a n∣
b n
K y K0
a n=o b n cuando n→∞ si lima →∞∣a n∣bn =0
(3.36)
por ejemplo, 12n²−4=O 1n²  y 2n 2−4=On2 =on3  .
3.09 Propiedades de los distintos tipos de convergencia
Algunas propiedades interesantes y útiles de los distintos tipos de convergencias 
son:
1. Teorema de Slutsky: plim g xn=g  plim x n .
2. Teorema de mapeo continuo: Sea x i un vector de variables aleatorias y sea 
g ⋅ una función real continua en el vector fijo  . Entonces, 
x i
p
⇒g x i
p g  .
3. Si g  xn es cóncava, se cumple la desigualdad de Jensen: g E [ xn]≥E [ g xn] . 
Esta desigualdad es crucial cuando se desea hacer predicciones.
4. Si xn e yn son variables aleatorias con plim xn=a y plim yn=b entonces:
plim xn yn=ab
plim xn yn=ab
plim xn / yn=a/b si b≠0
5. Si xn
d x y plim yn=c , entonces xn yn
d cx
6. Si xn
d x y g  xn es continua, entonces g  xn
d g x 
7. Si la distribución límite de xn existe y plim xn− yn=0 , entonces yn tiene la 
misma distribución límite de xn .
3.21
3.10 Teoremas de límite central
Queremos describir las propiedades de un estimador de  cuando la 
distribución de  es desconocida. Saber que  es insesgado, consistente, o que 
converge en probabilidad a  es poco útil. Si plim = , entonces toda la densidad 
colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qué pasa antes 
que n→∞ .
Sin embargo, si plim = , entonces podría existir una función tal que:
Y n=n  −
d
f  y  (3.37)
donde f  y  es una distribución con media y varianza finitas. Ello nos permitiría hacer 
inferencias estadísticas sobre el estimador de  . Esa es la lógica de los teoremas de 
límite central.
Antes de llegar ahí, consideremos que, al igual que en el caso de las leyes de 
grandes números, no resulta difícil demostrar que el supuesto 2 (distribución binomial) 
no es necesario para el teorema de de Moivre y Laplace. Note que la contribución de 
estos matemáticos fue descubrir la distribución límite para la distancia entre Sn y 
ESn ajustando por la desviación estándar. Para ello usaron la distribución binomial, 
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer 
adecuadamente restricciones en algunos de los momentos de la distribución de 
probabilidades. 
Sea {x n : n ≥1} una secuencia de variables aleatorias con Sn=∑x i. Los teoremas 
de límite central estudian la expresión en el límite de:
Y n=
Sn−ESn
V S n
(3.38)
es decir, una versión normalizada de Sn−E Sn  que fue lo que estudiamos en LDGN y 
LFGN.
3.22
Teorema de Límite Central de Lindeberg-Levy14
Sea {x n : n ≥1} una secuencia de variables aleatorias extraída de cualquier f.d.p. 
con media finita  y varianza finita 2 , y si x n=
1
n∑ x i , entonces
n  x n−
d
N [0,2 ] (3.39)
alternativamente podemos escribir:
limn →∞ F n x =lim n→∞ P xn ≤x =∫
−∞
x 1
2
e
−1
2 u
2
du (3.41)
Es importante notar que el teorema se aplica a variables aleatorias de cualquier 
función de distribución y que sólo se aplica a Sn cuando la media existe y si la varianza 
es finita.
Prueba: Usamos la función característica. Sea x i t =E [e
itx ] la función característica 
de xi, una variable aleatoria que se distribuye con media cero y varianza finita. 
Entonces queremos encontrar la función característica de Sn /n que es 
t =[ t n ]
n
. Use la expansión x i/n t =1
it 
n
−
t 2
2 ! n
 2o1 /n y 
recuerde que =0 , para obtener [ t n ]=1−
2 t 2
2n o
1
n  . Aplicando 
logaritmo se obtiene log∑X i /n t =n log1− t 22 ! n  2o1 /n . Pero si 
n∞ , se puede aproximar log 1z ≈z por lo tanto se deduce que 
log∑X i /n t =−t 22 !  2o 1 /n . Finalmente, tomando límite cuando 
n∞ obtenemos limn∞ log∑X i /n t =
−t 2 2
2
. Por ello, 
limn∞ n t =e
−2t 2
2 es decir, la distribución de la suma normalizada es 
asintóticamente normal. Es decir x i
d
N 0,2  .▄
14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung." 
Mathematische Zametki, 15:211-225 (1922) y W. Feller "Über den zentralen Genzwertsatz der 
Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)
3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en 
probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en 
distribución. La razón es que la varianza de Sn crece a n , por lo que si normalizamos 
por n ésta se va a cero cuando n∞ .
Teorema de Límite Central de Lindeberg-Feller con distintas varianzas15
Este teorema, menos restrictivo que el anterior y señala: Sea {x n : n ≥1} una 
secuencia de variables aleatorias extraída de un conjunto de funciones de distribución 
{F n , n≥ 1} cada una de ellas con media finita i y varianza finita i
2 . Las siguientes 
relaciones son ciertas:
A. lim n→∞ max1≤ i≤ n i n =0 donde =∑i=1
n
i
2
B. limn→∞ Fn  y=lim n→∞ P Y n≤ y=∫
−∞
y 1
2
e
−1
2 u
2
du
si y solo si:
lim n→∞  1n2∑i=1
n
∫
∣x−i∣≥  i
 x−i
2dF ix =0 (3.42)
Aunque parece difícil, la interpretación del teorema es intuitiva. La relación (B) 
señala que la distribución límite es una normal. La relación (A) señala simplemente que 
ningún i
2 domina a n
2 y se deriva de la ecuación (3.41).
Podemos escribir el paréntesis del límite en (3.42) como:
1
 n
2∑
i=1
n
∫
∣x−i∣≥  i
x−i
2dF i x ≥
2∑
i=1
n
Pr ∣x−i∣≥ ci 
≥2max1≤ i≤ nPr ∣x−i∣≥  i
(3.43)
15 A. Lyapounov (1901) sugirió el siguiente teorema que, por ser más restrictivo, fue superado por el 
teorema de Lindeberg-Feller. Sea {X n : n ≥1} una secuencia de variables aleatorias independientes con 
E X i = y V X i = i∞ ∀ i y E ∣X i2∣∞ , 0 . Se define c n = ∑i i
2
, entonces si 
limn→∞
1
c n
2∑
i=1
n
E∣X i − ∣
2= 0 , se cumple que limn→∞ F n  y =∫
−∞
∞ 1
2
e
−1
2 u
2
du . Note que se 
requiere que los momentos de orden superior sean finitos.
3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea, 
que cada 
 x i−i
i
 es suficientemente pequeño en relación con la suma [S n−E S n]/  n 
cuando n→∞ . Así, el TCL se refiere a los efectos sobre la distribución de una suma de 
variables aleatorias que individualmente no tienen efecto alguno sobre el 
comportamiento de la suma.
Una manera más simple de escribir el resultado anterior es:
n  xn−n
d N [0, 2] (3.44)
Es decir, sumas de variables aleatorias tienden a distribuirse como normales, 
independientemente de las funciones de probabilidades que las generaron. Casi todos 
los estimadores están basados de una u otra forma en sumas de variables aleatorias.
Teorema de Límite Central de Lindeberg-Levy Multivariado
Si x1 , x2 , , xn es una muestra de vectores aleatorios extraída de una función de 
distribución multivariada con medias finitas  y matriz de varianzas y covarianzas 
finita y positiva definida Q , entonces
n  xn−
d N [0,Q ] (3.45)
Teorema de Límite Central de Lindeberg-Feller multivariado
Sea x1 , x2 , , xn una muestra aleatoria extraída de un conjunto de vectores 
aleatorios, tales que E [ x i ]=i , V [ x i]=Q y los terceros momentos son finitos. Sea 
n=1/ n∑ i y Qn=1/n∑Qi . Si limn →∞ Qn=Q y limn →∞ nQ n−1Qi=0 , entonces:
n xn−n
d N [0, Q ] (3.46)
Los teoremas anteriores –que se pueden extender para conjuntos de funciones 
usando Jacobianos– pueden ser sintetizados como:
● La ley débil de grandes números LDGN se refiere a S n/n
p p .
● La ley fuerte de grandes números LFGN se refiere a S n/n
a.s. p .
● El teorema del límite central se refiere a S n/n
d N  p ,Var Sn/n .
3.25
Resulta difícil intuir lo que señalan estos teoremas de convergenciaa una 
distribución normal. En particular, por cuanto en el análisis se mezclan dos conceptos. 
Por un lado, el tamaño de muestra. Por otro lado, el número de veces que se repite el 
experimento. Una manera fácil de ver el rol de cada elemento se presenta en la Figura 
3.3. El experimento consiste en generar una muestra de T datos de una distribución 
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El 
experimento se repite en condiciones idénticas llamadas réplicas.
En los paneles superiores se presentan los resultados del experimento para 50 
réplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000 
réplicas. En los paneles de la izquierda se hace el experimento con un tamaño de 
muestra 100, en tanto que en los de la derecha el tamaño de muestra es 1,000. Como 
resulta evidente, la distribución de la media muestral se aproxima a una normal cuando 
el experimento se replica un número grande de veces, independiente del tamaño de muestra. 
Figura 3.3
Tamaño de Muestra 100, Réplicas = 50 Tamaño de Muestra 1000, Réplica = 50
Tamaño de Muestra 100, Réplicas = 1000 Tamaño de Muestra 1000, Réplicas = 1000
3.26
3.11 Distribución asintótica
Frecuentemente vamos a usar el concepto de distribución asintótica, es decir, 
aquella distribución que se usa para aproximar la verdadera distribución muestral de 
alguna variable aleatoria. Tomemos un estimador  de  , la distribución asintótica de 
 se obtiene de:
n  −d N [0,V ] (3.47)
implica

d N [ ,V /n ] (3.51)
es decir,  se distribuye asintóticamente normal, con media  y matriz de covarianza 
asintótica 1/nV (ver Figura 3.4).
Figura 3.4
Distribución asintótica
Distribución exacta
3.27
3.12 Estimación asintóticamente eficiente (máximo verosímil)16
Ya hemos visto el concepto de la función de verosimilitud. Ahora, la usaremos 
para derivar un estimador crucial en econometría y, además, para entender lo que hace 
cada tipo de test. En términos genéricos, la función de verosimilitud de una muestra x de 
variables aleatorias i.i.d. se puede escribir como:
ℒ  | x i=∏
i=1
n
f x i , (3.48)
Note que escribimos ℒ  ∣ x para designar que la función se construye a partir 
de las realizaciones de una muestra x y que es condicional a ésta.
Lo que hace el estimador es buscar aquel  que hace máxima la función de 
verosimilitud, es decir, la probabilidad que los datos vengan de la distribución f(.). 
Existen varias formas de maximizar ℒ  ∣ x , pero casi siempre se utiliza una 
transformación que maximiza logℒ  ∣ x ,
logℒ  | x=∑
i=1
n
log f x i , (3.49)
ya que es más simple. El procedimiento es legítimo porque la función logaritmo es una 
transformación monótona.
Analíticamente el estimador de máxima verosimilitud será aquel  que cumpla:
∂L  | x
∂
=0 (3.50)
Cuando la función de verosimilitud es analíticamente diferenciable, se puede 
obtener una expresión cerrada para (3.50), pero ello no es siempre posible. Por ejemplo, 
considere f  ∣ x=1 / con 0≤ x≤  . Cuando la ecuación (3.50) no tiene forma 
cerrada, es necesario resolver el problema usando cálculo numérico, como se describe en 
el capítulo 6. 
16 Aunque la noción de función de verosimilitud es muy antigua, el método de estimar parámetros 
maximizando la función de verosimilitud fue desarrollada y popularizada en el artículo de J. Neyman y 
E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. 
Part I" (Biometrika, 20 A, 175-240, 1928). 
3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el 
estimador sea válido:
● El conjunto A={x : f x ,≥ 0} no depende de  .
● Para todo ∈ , las derivadas 
∂i f x i ,
∂i
 existen (i=1,2,3).
● 0≤ E[ ∂ logL x i ;∂  ]
2
≤∞ .
● ∣∂i log Lx i ;∂i ∣≤ hi x ∀  , donde ∫−∞
∞
hi xdx∞ i=1,2 y 
∫
−∞
∞
hi x dxK i2 y K no es función de  .
De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note 
que la función de verosimilitud es una densidad, por lo que se cumple:
∫
−∞
∞
∫
−∞
∞
∫
−∞
∞
L x1 , , xn ;dx1dx2=1 (3.51)
simplificando la notación pero sin pérdida de generalidad, denotamos la ecuación (3.47) 
por ∫
−∞
∞
L xi ;dxi=1 . Derivando esta ecuación con respecto a  , obtenemos:
∂
∂∫−∞
∞
L x i ;dx i=0 (3.52)
Las condiciones de regularidad aseguran que se cumple la condición de 
diferenciación bajo el signo de la integral,17 es decir,
∫
−∞
∞ ∂L x i ;
∂
dx i=0 (3.53)
17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los límites de integración 
no dependen de  y, por lo tanto, los segundos dos términos son cero:
∂ ∫
L 
U 
F x ; dx
∂
=
∫
L 
U 
∂ F x ; 
∂
F U 
∂U 
∂ 
−F L 
∂ L 
∂
3.29
multiplicando y dividiendo por L x i ; tenemos:
∫
−∞
∞ ∂L x i ;
∂
Lxi ;
Lxi ;
dx i=0 (3.54)
pero 
∂ f x 
∂ x
1
f  x
=
∂ log f x 
∂ x . Entonces:
∫
−∞
∞ ∂ log L x i ;
∂ 
L x i ;dx i=0 (3.55)
lo que implica E [ ∂ log L x1 , , xn ;∂  ]=0 .
Un segundo resultado útil se obtiene al derivar (3.55) con respecto a  : 
∂
∂∫−∞
∞ ∂ log Lx i ;
∂
L xi ;dxi=0 (3.56)
usando el teorema de Leibniz
∫
−∞
∞ ∂2log L x i ;
∂  ' ∂
L x i ;dx i∫
−∞
∞ ∂log L x i ;
∂ 
∂ Lx i ;
∂ 
dx i=0 (3.57)
es decir
∫
−∞
∞ ∂2log L x i ;
∂  ' ∂
L x i ;dx i∫
−∞
∞ ∂ log L xi ;
∂
∂ logL x i ;
∂
Lx i ;dx i=0 (3.58)
por lo que obtenemos:
E [ ∂2log L x t ;∂  ' ∂ ]Var [ ∂ log Lx i ;∂ ]=0 (3.59)
de donde se desprende
V [ ∂ logL x i ;∂ ]=−E [ ∂
2log L x t ;
∂ ' ∂ ] (3.60)
El término de la derecha de la ecuación (3.60) es llamado número informacional 
de Fisher. 
3.30
Un tercer resultado importante se deriva de suponer la existencia de un 
estadístico x  y ocupar la ecuación (3.51) tal que
∫
−∞
∞
 x Lx t ;dx=E x  (3.61)
Diferenciando la ecuación (3.61) con respecto a  tenemos:
∫
−∞
∞
 x
∂ L xt ;
∂
dx=∂E x
∂
(3.62)
multiplicando y dividiendo por L x , y recordando la derivada del logaritmo se 
tiene
∫
−∞
∞
x  ∂ log Lx ;
∂ 
Lx ;dx=E[x  ∂ logL x ,∂ ]=∂ E x ∂ (3.63)
Note que por definición Cov x1, x2=E x1 x2−E  x1E  x2 . Considere, 
además, que 
∂L x i ;
∂
=0 . Entonces:
Cov∂ log L x ;∂ ,x =∂ E x ∂ (3.64)
Aplicamos ahora la desigualdad Cauchy-Schwartz: 
∣Cov x1 , x2∣[V x1V x2 ]
½ y obtenemos:
∣∂E x ∂  ∣≤[V  xV ∂ log L x ,∂  ]
½
(3.65)
pero V  ∂ log L x ,∂   es el número informacional. Luego:
[ ∂E  x ∂  ]
2
≤ V x  I  (3.66)
3.31
finalmente:
V x ≥ [∂ E x /∂ ]
2
I n
(3.67)
Es decir, cualquier estadístico de la muestra tendrá una varianza mayor o igual a 
la expresión del lado derecho que es conocida como el límite de Cramer-Rao.
Corolario: Var x ≥
1
I n 
.
En conclusión, asintóticamente este estimador tiene cuatro propiedades que lo 
hacen formidable:
1. Consistencia:18 plim MV=
2. Normalidad asintótica: MV
d N [ ,[ I ]−1 ] donde I =−E [∂2 log L∂ ' ∂ ] .
3. Eficiencia Asintótica: MV es asintóticamente eficiente y alcanza Cramer-
Rao.
4. Invarianza: si =g  entonces g  MV  es el estimador 
máximo verosímil de γ.
Este estimador se puede extender al caso que las variables aleatorias no son 
idénticamente distribuidas de manera directa, excepto que n I ≠ I n .
18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of 
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).
3.32
3.13 Test de hipótesis19
Supongamos que existe una variable aleatoria definida en el espacio de 
probabilidades (S, , P(.) ) y consideremosel modelo estadístico asociado:ℱ
• ={ f  x; ,∈}
• x={x1 , x 2 , , xn}
El test de hipótesis consiste en decidir si una conjetura sobre  del tipo 
∈0⊆  es congruente con la(s) realización(es) de la muestra x. Dicha conjetura –que 
envuelve un pre/juicio– es llamada hipótesis nula20 y se denota usualmente por 
H 0:∈0 .
Para refutar o no refutar la conjetura a partir de una realización de la muestra, 
necesitamos un criterio C, tal que si x∈C , entonces no se rechaza la hipótesis nula y si 
x∉C se rechaza. El test de hipótesis es de manera más precisa un estadístico τ(x): X 
→ . Con algún grado de incertidumbre podremos rechazar o no la presunción queℝ 
nuestro prejuicio sea correcto.
El procedimiento nos pide tener una hipótesis nula H 0 y una hipótesis 
alternativa21 H 1  , las que en general deben ser mutuamente excluyentes. Como se 
discute más adelante, es posible construir tests en que H 0 y H 1 no están “anidadas”, 
es decir, no agotan el conjunto 0 . La hipótesis nula puede ser simple, si es 
unidimensional, o compuesta, si no lo es. 
19 El testeo de hipótesis es tan viejo como el estudio de probabilidades. Sin embargo el término “test de 
hipótesis” es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for 
Research Workers de 1925 parece ser el primero en usar un test de hipótesis, aunque bajo el nombre de 
“test de significancia”. El término test de hipótesis fue acuñado por J. Neyman y E. S. Pearson en su 
artículo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part 
I" (Biometrika, 20 A, 175-240, 1928).
20 Hipótesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde señala: "[W]e may 
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or 
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y 
Pearson, la hipótesis nula corresponde a la “hipótesis probada”, que ellos denotaban por H 0 . Neyman 
reclamó, con justicia, que el término hipótesis nula es vago y que "the original term 'hypothesis tested' 
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El término hipótesis alternativa se popularizó a raíz del trabajo de Neyman y Pearson’s "On the Problem 
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of 
London. Series A, 231 (1933), pp. 289-337). En ese artículo también se definen términos tales como 
hipótesis simple y compuesta, región crítica, error tipo I y tamaño del test.
3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite 
“aceptar” la validez de una conjetura.22 Además, se rechaza o no se rechaza dado un 
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser 
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o, 
equivalentemente, haciendo C0 arbitrariamente pequeño.
Como la base del testeo es la realización particular de la muestra de variables 
aleatorias, es posible cometer errores:
Tipo I: Pr  x∉C0 ;∈= Rechazar H 0 cuando es verdadera
Tipo II: Pr  x∈C0 ;∉= No rechazar H 0 cuando es falsa
En principio, nos gustaría hacer que =→0 , lo que no es posible con n finito. 
Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos 
útiles:
Tamaño del Test: es la probabilidad de cometer error tipo I, que usualmente 
llamamos α. Tamaño es equivalente a nivel de significancia.
Poder del Test: es la probabilidad de que el test correctamente rechace H 0 
cuando es falsa, es decir 1-β.
Algunas definiciones útiles asociadas a los tests son:
• Un test será más potente que otro si tiene más poder que otro para todo tamaño.
• Un test será insesgado si su poder es mayor o igual que su tamaño para todo  .
• Un test será consistente si su poder tiende a 1 cuando n→∞ .
22 Neyman y Pearson (1928) hablan de aceptar y rechazar hipótesis. Fisher nunca usó el término “rechazo” 
pero no tenía objeción a su uso, sin embargo se oponía vehementemente a “aceptar” una hipótesis.
3.34
3.14 Tres tests de hipótesis asintóticamente equivalentes
Hasta el momento hemos estudiado la función de verosimilitud y el estimador de 
máxima verosimilitud. También hemos discutido la estructura de los tests de hipótesis. 
A continuación describimos tres tests que son asintóticamente equivalentes –aunque 
numéricamente pueden diferir– que son ampliamente usados en aplicaciones prácticas.
Test de Razones de Verosimilitud
Al maximizar la función de verosimilitud obtenemos MV y Lmax . Si el R 
hipotético es estadísticamente igual a MV , entonces recalcular la función de 
verosimilitud con R debiera producir un valor similar al computado usando MV . Por 
ello el test estudia la distancia entre logℒ R | x  y logℒ  MV | x , para la cual se 
conoce su distribución asintótica:
−2[ logℒ R | x−logℒ  MV | x ]
d
2m (3.68)
donde m es el número de parámetros restringidos al imponer la hipótesis nula. Un 
inconveniente de este test es que exige computar dos veces la función de verosimilitud, 
cosa que es paulatinamente menos grave dada la creciente capacidad computacional.
Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la 
distancia entre el parámetro estimado  y el prejuicio R , bajo la premisa que dicha 
distancia no debiese ser estadísticamente significativa si el prejuicio es correcto. Note 
que este es el test t al cuadrado. Entonces:
 −R '∑
−1
 −R↝
2m (3.69)
Multiplicador de Lagrange
Este test –llamado a veces efficient scores– parte de la base que cuando se obtiene 
el estimador máximo verosímil de  , la primera derivada es cero. Si la primera 
23 “Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is 
Large” Transactions of the American Mathematical Society, 54 (1943), 426-482.
3.35
derivada evaluada en R no difiere estadísticamente de cero, entonces la hipótesis nula 
no es falsa.
LM=∣∂ LnL∂ ∣=R ' [ I R]−1∣∂ LnL∂  ∣ =R↝2m (3.70)
Un descripción gráfica de estos tres tipos de tests se presenta en la Figura 3.5
Figura 3.5
3.15 Tests de hipótesis no anidadas
En ocasiones sucede que el problema de interés no produce hipótesis anidadas. 
Considere que existen dos modelos compitiendo por explicar el mismo conjunto de 
observaciones del fenómeno (y):
 Modelo 1: y=x Modelo 2: y=z  (3.71)
Ln L

Ln LR
MVR
Ln L()
C()
Ln L()/


WaldLagrange
Razones
Verosimilitud
3.36
En este caso se requiere hacer un test de la forma:
H 0:Modelo 1 bien especificado
H 1:Modelo 2 bien especificado
(3.72)
Resulta evidente que las hipótesis nula y alternativa no están bien especificadas 
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el 
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de β, el 
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso 
límite. Análogamente, para cualquier γ, el modelo 2 no puede ser aproximado 
arbitrariamente por el modelo 1. La verificación de las hipótesis anteriores, por lo tanto, 
no puede ser llevada a cabo mediante la teoría de Neyman-Pearson, debido a que ésta 
requiere que los espacios paramétricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:
y=x 1−z  
=x 1−z  donde =1− (3.73)
La idea del test es que si el Modelo 2 está bien especificado, =1 . En caso contrario, elModelo 1 está bien especificado y =0 . Davidson y McKinnon probaron que el 
estadístico que permite verificar la restricción anterior se distribuye asintóticamente 
normal si H 0 es cierta. El test puede ser extendido de manera análoga para modelos no 
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el 
modelo propuesto en la ecuaciones (3.73) no está identificado, es decir, el parámetro  
no puede ser obtenido de manera independiente de los otros parámetros y, por lo tanto, 
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresión auxiliar 
para obtener un estimador  -por ejemplo, el de máxima verosimilitud o el de mínimos 
cuadrados- y rehacer el test propuesto como:
y=x 1−z 
=x  y (3.74)
donde y=z z ' z −1z ' y . 
24 El origen de la idea de hipótesis no anidadas se remonta al año 1962, con el trabajo desarrollado por D. 
R. Cox “Further Results on the Test of Separate of Families of Hypotheses”, Journal of the Royal Statistical 
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, “Several Test of 
Model Specification in the Presence of Alternative Hypotheses”, Econometrica, 49:781-793 (1981).
3.37
Como se ve, el modelo de la ecuación (3.74) anida ambas hipótesis de una manera 
un tanto artificial. El test es llamado J-test. En muestras pequeñas la estimación por 
mínimos cuadrados ordinarios no es adecuada ya que E   ≠0 , de forma que 
obtendríamos estimaciones inconsistentes del estimador de  . No obstante, en muestra 
grandes, plim   =0 .
Note que si el primer modelo es el correcto,  tiende a cero y el test de la 
hipótesis nula H 0:=0 se distribuye asintóticamente normal estándar. Por el 
contrario, si el segundo modelo es el correcto, el estimador  converge en probabilidad 
a 1 y su desviación estándar tiende a cero, por lo que el test t tiende a infinito. Así, el test 
siempre rechaza la hipótesis nula cuando ésta es falsa, porque el estadístico 
eventualmente excederá cualquier crítico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso 
haciendo:
y=x z 1−
= x z  (3.75)
Típicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados 
posible.
● Se rechaza H 0 en (3.74)
● Se rechaza H 0 en (3.75)
● Se rechaza H 0 en (3.74) y en (3.75)
● No se rechaza H 0 en (3.74) y en (3.75)
El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales, 
entonces se usa un test similar llamado P-test. Además, se ha supuesto que la variable 
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon, 
White y Davidson (1983) extienden el test para el caso en que las transformaciones 
difieren entre modelos. La evidencia de Monte-Carlo señala que estos tests tienden a 
sobre-rechazar un modelo correctamente especificado. 
3.16 Criterios informacionales
Note que podemos re-interpretar el test de Davidson y McKinnon como un 
problema de “selección de modelos”. Es decir, como un criterio que guíe la selección de 
modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor 
popularidad es el R2 ajustado, es decir, una función del coeficiente de correlación 
múltiple. El criterio es elegir aquel model con mayor R2 ajustado o, equivalentemente, 
con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la 
3.38
selección correcta, siempre que (1) alguno de los modelos contendientes sea el 
“verdadero modelo” y (2) las variables explicativas sean no estocásticas (i.e. fijas en 
muestras repetidas). Ambas condiciones son difíciles de cumplir.25
Usualmente utilizamos criterios de información para seleccionar modelos, 
escogiendo aquel modelo M 1 ,M 2 ,⋯, M k  que tenga un menor valor numérico. Los 
criterios de información tienen la forma
cnk =−2 ln Lnk /n k n/ n (3.76)
donde Lnk  es la función de verosimilitud estimada usando k parámetros para una 
muestra de tamaño n . Los diferentes criterios ocupan una distinta función de 
penalización por el hecho que se use un mayor número de parámetros: 
• El criterio de Akaike es n=2 26
• El criterio de Schwartz n=2 log n
• El criterio de Hannan-Quinn es n=2 log log n 
Note que la penalización se vuelve progresivamente más estricta.
Una pregunta pertinente es cuáles son las propiedades de estos criterios cuando 
los modelos están mal especificados. Obviamente, si se está comparando modelos, habrá 
algunos de ellos que esten mal especificados. En tal caso, k≠k 0 donde k 0 es el número 
correcto de parámetros. Hay, entonces, dos casos: modelos subparametrizados (es decir, 
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso 
de regresores).
Caso en que el modelo está subparametrizado kk 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento 
cuando la muestra se vuelve infinita, es decir plimn∞ cnk /n−cnk0/n . Resulta 
evidente que si el modelo está subparametrizado:
plimn∞
1
n
log Lnk plimn∞
1
n
log Lnk 0 (3.77)
25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International 
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en información Kullback-Leibler 
K M =E log f  y | x−log f  y | x ,M  entre la verdadera densidad y el modelo. Akaike, H. (1973): 
“Information theory and an extension of the maximum likelihood principle.” In B. Petroc and F. Csake, 
eds., Second International Symposium on Information Theory.
3.39
Además, es directo demostrar que limn∞ n/n=0 en cualquiera de los 
criterios.27 Entonces:
limn∞ P[ cnk 0n ≥ cn k n ]=limn∞ P[−2 log  Ln k 0k 0n n ≥−2 log Ln k  knn ]
 =limn∞ P [ log Ln k0 −log  Lnk n 0.5 k 0−k nn ]
=0 
(3.78)
lo que indica que los tres criterios son consistentes.
Caso en que que el modelo está sobreparametrizado kk 0
En este caso, la prueba anterior de consistencia no es válida porque ambos 
modelos están bien especificados (las funciones de verosimilitud tienen el mismo 
máximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:
2 [ log Lnk − log Ln k 0]
d X k− k0k−k0
2 (3.79)
reemplazamos la definición del criterio de Akaike para obtener:
n [cnk0−cn k ]=2 [ log Lnk −log Lnk 0]−2 k−k0
d
k− k0
2 −2k−k 0
(3.80)
por lo tanto, 
limn∞ P [cnk 0cnk ]=P [ X k−k02k−k 0]0 (3.81)
Así, el criterio de Akaike va a sobre-estimar asintóticamente el número correcto 
de parámetros.
En los casos de Hannan-Quinn y Schwarz, limn∞ n=∞ , lo que indica que 
para ambos
plimn∞
−2[ log Lnk 0−log  Lnk ]
n
=0 (3.82)
27 De hecho cualquier funcion n que crezca mas lento que n sirve.
3.40
por lo que
plimn∞
n cnk 0−cnk 
n
= plimn∞
−2 [log Lnk 0−log cn k ]
n
k 0−k≤−1
(3.83)
así,
lim n∞ P [cnk0≥cnk ]=0 (3.84)
esto, a su vez, implica que limn∞ P [kk 0]=0 o limn∞ P [k=k 0]=1 , por lo que 
ambos criterios son consistentes.
3.41
Apéndice A: Ejercicios
1. Suponga que n − converge en distribución a una normal estándar. ¿A qué 
distribución converge  ? ¿ plim = ? Si la muestra crece hasta tener el tamaño de la 
población ¿cual es la distribución de  ?
2. Suponga que  es multivariado y que n − converge en distribución a 
N 0, Z  . Suponga que Ud. está en realidad interesado en una transformación continua 
del estimador f =log  . ¿A qué distribuciónconverge f  ?
3. Suponga que tiene dos parámetros estimados independientemente que son 
insesgados 1 y2 con sus respectivas varianzas 1 y2 . ¿Qué combinación lineal 
de ambos parámetros =F 1 ,2 es el estimador insesgado de varianza mínima de 
 ?
4. Explique en qué consisten y cuáles son las diferencias entre el teorema de 
Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refiérase a los 
supuestos y las restricciones impuestas sobre los momentos de la distribución.
5. Cuando un estimador “convergencia en probabilidad” necesariamente debe 
“converger en distribución”. Comente.
6. Demuestre que si xn
m x⇒ xn
p x y que si xn
p x⇒ xn
d x .
7. Para el Teorema Central del Límite, una condición indispensable es que ninguna 
variable aleatoria de la secuencia que se está considerando domine a toda la secuencia 
de variables aleatorias. Comente. 
8. ¿Qué es el poder de un test? ¿Qué es el tamaño de un test? ¿Cuándo un test es 
más poderoso que otro? y ¿cuándo es consistente?
9. Explique porqué se habla que la función de verosimilitud es una densidad y 
describa a qué corresponde el estimador de máxima verosimilitud. ¿Es el estimador de 
máxima verosimilitud es mucho más preciso que cualquier otro estimador lineal?
10. Sea una muestra de n observaciones de yn ¿Para cuales de las siguientes 
distribuciones es posible derivar analíticamente el estimador de máxima verosimilitud? 
Encuentre el estimador de máxima verosimilitud, demuestre que éste es un máximo y 
obtenga la varianza asintótica.
f  y = e
−y
 !
f  y = y−1 e− y

y0  ,0
3.42
12. Usted tiene dos secuencias: {xn} e {yn} definidas en el soporte [−∞ ,∞ ] . 
Considere las siguientes afirmaciones:
A Cuando n→∞ , xn converge en probabilidad a la variable aleatoria Z 
que se distribuye F z . .
B Cuando n→∞ , xn− yn converge en probabilidad a cero.
C xn converge en distribución a F z . .
D yn converge en distribución a F z . .
Comente si las siguientes afirmaciones son verdaderas o falsas. Si son 
verdaderas, demuestre. Si son falsas, de un contraejemplo.
1. (A) (B)⇒
2. (C) (A)⇒
3. (C) + (D) (B)⇒
4. (A) + (B) (D)⇒
13. Cuando se hace un muestreo usando una distribución normal N 0,2 
frecuentemente se usa el siguiente estimador insesgado de la varianza 
2=
∑
i=1
n
xi−E  x 
2
n−1
.
(a) Demuestre que la varianza de este estimador es Var [ 2]= 2
4
n−1
.
(b) Considere el siguiente estimador alternativo: 2=1
n∑i=1
n
x i
2 .
(c) Demuestre que el estimador 2 es sesgado pero tiene menor varianza que 2 . 
(Ayuda: exprese 2 en función de 2 .
15. El estimador de máxima verosimilitud es usualmente derivado a partir de una 
muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee 
cuatro características:
(a) Identifique esas cuatro características y explique su importancia.
(b) Suponga que las variables aleatorias de la muestra no se distribuyen 
idénticamente pero sí independientemente. Plantee la función de verosimilitud y 
3.43
obtenga un estimador máximo verosímil en este caso. ¿Cuáles de las cuatro 
características se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni 
idénticamente. ¿Cuáles de las cuatro características se mantienen?
16. Se desea estudiar el poder del test t 
−
Var   para el siguiente caso. Suponga 
que el proceso generador de los datos es y i=i donde iN 0, i  .
(a) Obtenga un estimador insesgado de θ.
(b) Identifique el problema analítico del test t en este caso.
(c) Construya un programa de Gauss que le permita determinar el poder del test. El 
programa debe ser flexible en (i) número de replicaciones, (ii) tamaño de 
muestra, (iii) tamaño del test (nivel de significancia)
	Capítulo 3
	Elementos de Inferencia Estadística
	3.01 Modelo probabilístico, modelo muestral y modelo estadístico
	3.02	Estadísticos muestrales
	3.03	Distribución de la media muestral
	3.04	Características deseables de los estimadores en muestra finita
	3.05	Límite de Cramer-Rao3
	3.06	Elementos de teoría asintótica: convergencia
	3.07	Elementos de teoría asintótica: leyes débiles de grandes números
	3.08	Elementos de teoría asintótica: leyes fuertes de grandes números
	3.09	Propiedades de los distintos tipos de convergencia
	3.10	Teoremas de límite central
	3.11	Distribución asintótica
	3.12	Estimación asintóticamente eficiente (máximo verosímil)16
	3.13	Test de hipótesis19
	3.14	Tres tests de hipótesis asintóticamente equivalentes
	3.15	Tests de hipótesis no anidadas
	3.16	Criterios informacionales
	Apéndice A:	Ejercicios

Continuar navegando

Materiales relacionados

24 pag.
Apuntes Econometría

User badge image

Central de Apuntes

222 pag.
Notas de Clases

User badge image

Central de Apuntes

80 pag.
59 pag.
Capitulo5Final

User badge image

Apuntes Generales