Logo Studenta

IyDapuntes

¡Este material tiene más páginas!

Vista previa del material en texto

Curso de Inferencia y Decisión
Guadalupe Gómez y Pedro Delicado
Departament d’Estad́ıstica i Investigació Operativa
Universitat Politècnica de Catalunya
Enero de 2006
Índice abreviado
Caṕıtulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Caṕıtulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Caṕıtulo 3. Estimación puntual 1: Construcción de estimadores . 43
Caṕıtulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 85
Caṕıtulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Caṕıtulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Caṕıtulo 7. Introducción a la Teoŕıa de la Decisión . . . . . . . . . . . . . 213
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
i
Índice general
Índice abreviado I
Índice general II
Prólogo VII
1. Introducción 1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3
1.2.2. Distribución de una variable aleatoria. Funciones de dis-
tribución, de probabilidad y de densidad . . . . . . . . . . 4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 11
1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 11
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 12
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16
1.5. Leyes de los Grandes Números y Teorema Central del Ĺımite . . 18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18
1.5.2. Teorema central del ĺımite . . . . . . . . . . . . . . . . . . 19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
iv ÍNDICE GENERAL
2. Principios para reducir los datos 25
2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1. Estad́ısticos suficientes r-dimensionales . . . . . . . . . . 31
2.1.2. Estad́ısticos suficientes minimales . . . . . . . . . . . . . . 32
2.1.3. Estad́ısticos ancilares . . . . . . . . . . . . . . . . . . . . . 34
2.1.4. Estad́ısticos completos . . . . . . . . . . . . . . . . . . . . 35
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 37
2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. Estimación puntual 1: Construcción de estimadores 43
3.1. La función de distribución emṕırica y el método de los momentos 43
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 45
3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . . 49
3.1.3. El método de los momentos . . . . . . . . . . . . . . . . . 50
3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 52
3.2.1. Cálculo del estimador máximo verośımil . . . . . . . . . . 54
3.2.2. Cálculo numérico de los estimadores de máxima verosimi-
litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2.3. Principio de invariancia del estimador máximo verośımil . 68
3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 69
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 73
3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . 76
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 78
3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4. Estimación puntual 2: Evaluación de estimadores 85
4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 89
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 92
4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . . 94
4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 103
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 105
ÍNDICE GENERAL v
4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 112
4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 114
4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 122
4.4. Teoŕıa asintótica para el estimador máximo verośımil . . . . . . . 123
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5. Contrastes de hipótesis 139
5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 139
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 142
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 146
5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 147
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 148
5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin150
5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 153
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 155
5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 155
5.5.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . 157
5.5.2. Propiedades de los contrastes de razón de verosimilitudes 157
5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 161
5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 161
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 164
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 167
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 169
5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 170
5.7.3. Contraste de dos hipótesis compuestas. . . . . . . . . . . 170
5.7.4. Contraste de hipótesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 175
vi ÍNDICE GENERAL
6. Estimación por intervalos 181
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 181
6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 183
6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 183
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 187
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 191
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 193
6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 195
6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 195
6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 198
6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 200
6.4.1. Intervalos basados en el estimador de máxima verosimilitud201
6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 202
6.5. Lista de problemas . . . . . . .. . . . . . . . . . . . . . . . . . . 208
7. Introducción a la Teoŕıa de la Decisión 213
7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 213
7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 214
7.2. Teoŕıa de la decisión e inferencia estad́ıstica . . . . . . . . . . . . 216
7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 216
7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 219
7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 222
7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 224
7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 227
7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 227
7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 228
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 230
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Referencias 241
Prólogo
Este documento es el fruto de nuestra experiencia como docentes de la asig-
natura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estad́ısticas,
Universitat Politècnica de Catalunya) durante los cursos 99-03.
Cuando se preparó por primera vez la docencia de Inferencia y Decisión se
pensó en seguir lo más fielmente posible algún libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis-
tencia de libros en castellano o catalán dirigidos espećıficamente para alumnos
de Inferencia y Decisión, se optó por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio-
nes la necesidad de completarlo con otros libros. Ante esta situación (ausencia
de textos en castellano y cierta insatisfacción con el libro elegido) consideramos
conveniente escribir este documento. En él se recogen y ampĺıan los apuntes pre-
parados para las clases teóricas y las listas de problemas resueltas en las clases
prácticas.
El objetivo principal de la asignatura Inferencia y Decisión es proporcionar
una sólida base teórica de los fundamentos de la Inferencia Estad́ıstica y de la
Teoŕıa de la Decisión. Confiamos en que este Curso de Inferencia y Decisión
contribuya a lograrlo.
vii
Caṕıtulo 1
Introducción
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, caṕıtulo 3, 5.1, 5.2,
5.4.
En este curso de Inferencia y Decisión se desarrollan ideas y herramientas
matemáticas que la estad́ıstica utiliza para analizar datos. Se estudiarán técnicas
para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante
no perder de vista que en la aplicación de la estad́ıstica se necesita mucho más
que el conocimiento matemático. La recogida y la interpretación de los datos es
un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas.
Ejemplo 1.
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos d́ıas o más. Supongamos que podemos entrevistar a 20 estudian-
tes.
¿Qué se entiende por estudiante?
¿Cómo se puede asegurar que la muestra sea aleatoria?
¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing
data).
¿Dirán la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p?
En este caso el problema se plantea en términos de la variable aleatoria
X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p)
1
2 CAPÍTULO 1. INTRODUCCIÓN
y es un ejemplo de estimación en un contexto de inferencia paramétrica.
. .
Ejemplo 2.
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
card́ıacos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:
Sufren ataques No sufren Ataques por
card́ıacos ataques card́ıacos cada 1000 personas
Aspirina 104 10933 9.42
Placebo 189 10845 17.13
¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aqúı un problema de decisión o el contraste de
una hipótesis.
. .
1.1. Datos y modelos
Los datos que aparecen en los problemas estad́ısticos pueden suponerse pro-
venientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Término de acepción muy amplia que incluye cualquier proce-
dimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experi-
mento.
Ejemplo 3.
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podŕıa pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tra-
tados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser dif́ıcil obtener resultados extrapolables a toda la po-
blación. Seŕıa más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA 3
nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no respon-
de. En el primer caso el número de pacientes es variable y el espacio muestral
debeŕıa incluir las secuencias de todas las posibles longitudes (tantas como posi-
bles números de pacientes), mientras que en el segundo caso el espacio muestral
consistirá en las secuencias de longitud n.
. .
Definimos un modelo para un experimento como una colección de distribu-
ciones de probabilidad sobre el espacio muestral.
Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tamaño de la población
de referencia es mucho más grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {Pr(X1 = x1, . . . , Xn = xn) =
n∏
i=1
pxi(1− p)1−xi , 0 < p < 1}.
Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico
es {p : 0 < p < 1} ⊂ R.
Los problemas de inferencia en este modelo consistirán en hacer afirmacio-
nes (en forma de estimación puntual, estimación por intervalos o contrastes de
hipótesis) sobre cuán verośımiles son los posibles valores del parámetro p.
. .
1.2. Variable aleatoria
1.2.1. Variables y vectores aleatorios
Consideramos un experimento aleatorio cuyos resultados pertenecen al es-
pacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna
(Ω,A,Pr), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,
A ⊆ P(Ω) es una σ-álgebra, y Pr : A −→ [0, 1] es una medida de probabilidad
que refleja las caracteŕısticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representación numérica que facilita su tratamiento. Esto se
4 CAPÍTULO 1. INTRODUCCIÓN
hace mediante la definición de variables aleatorias. Dado un espacio de
probabilidad (Ω,A,Pr) y el espacio medible (R,B), donde B es la σ-álgebra de
Borel definida sobre la recta real R, una variable aleatoria es una función
X : Ω −→ R
medible, es decir, X−1(B) ∈ A para todo B ∈ B.
Si el espacio muestral Ω es finito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadasal experimento normalmente es-
tarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que
es un espacio continuo y X : Ω −→ R.
A partir de un mismo experimento se pueden definir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio
muestral asociado a este experimento es Ω = {CC,C+,+C,++}. Se pueden
definir diversas variables aleatorias:
X1 = número de caras, X2 = número de cruces,
X3 = cuadrado del número de caras = X
2
1 , etc.
Usualmente los datos están modelizados por un vector de variables aleatorias
X = (X1, . . . , Xn), donde las Xi toman valores en Z o en R. A X le llamaremos
vector aleatorio o también variable aleatoria multidimensional.
1.2.2. Distribución de una variable aleatoria. Funciones de
distribución, de probabilidad y de densidad
La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω
que es aleatorio. Por lo tanto X(ω) es un valor de R también aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en R. A esa medida
de probabilidad se le llama distribución de X o ley de X. Una de las formas
de caracterizar la distribución de una variable aleatoria es dar su función de
distribución FX , que está definida aśı:
FX(x) = Pr(X ≤ x) = Pr({ω ∈ Ω : X(ω) ≤ x}) = Pr(X−1(−∞, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X sólo tome una cantidad finita o numerable de valores de R, su
distribución también puede caracterizarse por su función de probabilidad
(o función de masa de probabilidad) fX , definida como
fX : R −→ [0, 1], fX(x) = Pr(X = x).
Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en
adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A
1.2. VARIABLE ALEATORIA 5
partir de la función de masa de probabilidad se puede calcular la probabilidad
de que la variable aleatoria X tome valores en cualquier elemento A de B:
Pr(X ∈ A) =
∑
x∈A
fX(x).
La función de distribución y la función de masa de probabilidad se relacionan
de la siguiente forma:
FX(x) =
∑
u≤x
fX(u), fX(x) = FX(x)− FX(x−),
donde FX(x
−) = ĺımh−→0+ F (x− h).
Una clase relevante de variables aleatorias no discretas son las que poseen
función de densidad, es decir, aquellas cuya distribución de probabilidad
puede caracterizarse por una función fX(x) ≥ 0 que cumple que
Pr(X ∈ A) =
∫
x∈A
fX(x)dx, para todo A ∈ B.
La relación entre FX y fX es la siguiente:
FX(x) =
∫ x
−∞
fX(u)du, fX(x) =
d
dx
FX(x)
salvo quizás en un número finito de puntos x ∈ R. Las variables aleatorias que
poseen función de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aqúı nos referiremos a ellas como variables
aleatorias continuas.
1.2.3. Esperanza y varianza
Si se desea describir totalmente la distribución de probabilidad de una varia-
ble aleatoria X acabamos de ver que podemos dar su función de distribución o
su función de masa o de densidad, según el caso. Una descripción parcial puede
efectuarse calculando algunas caracteŕısticas de la variable aleatoria X, como
por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
E(X) =
∫
Ω
X(w)dPr(w).
En el caso de variables aleatorias discretas la esperanza puede calcularse como
E(X) =
∑
w∈Ω
X(ω) Pr(ω) =
∑
k∈Z
kP (X = k) =
∑
k∈Z
kfX(k).
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
aśı:
E(X) =
∫
R
xfX(x)dx.
6 CAPÍTULO 1. INTRODUCCIÓN
La esperanza de una variable aleatoria X es una medida de posición de X: es
el centro de gravedad de la distribución de probabilidad de X.
Si h es una función medible h : R −→ R, entonces Y = h(X) es también
variable aleatoria y su esperanza se puede calcular a partir de la distribución de
X:
E(h(X)) =
∫
Ω
h(X(ω))dPr(ω)
que en el caso de que X sea discreta puede reescribirse como
E(h(X)) =
∑
k∈Z
h(k)fX(k).
Si X es una variable aleatoria continua entonces
E(h(X)) =
∫
R
h(x)fX(x)dx.
Si existe µ = E(X) y es finita puede definirse una medida de dispersión de
la variable aleatoria X a partir de una transformación h de X. Es lo que se
denomina varianza de X y se define aśı:
V (X) = E((X − µ)2) = E(X2)− µ2 = E(X2)− (E(X)2).
1.2.4. Muestra aleatoria simple
Sea X = (X1, . . . , Xn) un vector aleatorio. Se dice que sus componentes
(X1, . . . , Xn) son independientes si
P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X1 ≤ x1) · · ·P (Xn ≤ xn)
para cualesquiera valores x1, . . . , xn. Si además la distribución de las n variables
aleatorias Xi es la misma, se dice que X1, . . . , Xn son variables aleatorias
independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X = (X1, . . . , Xn) y X1, . . . , Xn son i.i.d. con función de densidad (en su
caso, de masa) fX , la distribución conjunta de X viene dada por la función de
densidad (en su caso, de masa) conjunta
fX(x) = f(X1,...,Xn)(x1, . . . , xn) = fX1(x1) · · · fXn(xn) =
n∏
i=1
fX(xi).
A un vector X = (X1, . . . , Xn) de v.a.i.i.d. con distribución igual a la de
la variable aleatoria X se le denomina también muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de-
sea estudiar la caracteŕıstica X de los individuos de una población de tamaño
infinito. Definimos el experimento consistente en elegir aleatoriamente un indi-
viduo de la población y llamamos X al valor de la caracteŕıstica de interés en
1.2. VARIABLE ALEATORIA 7
ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento
consistente en elegir una muestra aleatoria de n individuos y se anota Xi, el
valor de la caracteŕıstica en el individuo i-ésimo, entonces X = (X1, . . . , Xn) es
una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria
X, es decir, X1, . . . , Xn es una m.a.s. de X.
1.2.5. Modelo paramétrico
Usualmente la ley de probabilidad de una variable aleatoria se supone pertene-
ciente a un modelo matemático que depende sólo de un número finito de pará-
metros:
fX ∈ {f(x|θ) : θ ∈ Θ ⊆ Rk}.
Escribiremos alternativamente f(x; θ), f(x|θ) o fθ(x). El conjunto de distribu-
ciones dadas por fθ(x), θ ∈ Θ se llama familia paramétrica de distribucio-
nes. Θ es el conjunto de parámetros.
La correspondiente distribución conjunta de una muestra aleatoria simple de
X viene dada por la función de densidad (o función de masa de probabilidad,
según el caso)
fX(x|θ) =
n∏
i=1
fθ(xi).
A esta función la llamaremos función de verosimilitud de la muestra X.
Utilizaremos este término para referirnos indistintamente a la función de densi-
dad conjunta (si las variables aleatorias son continuas) o a la función de masa
conjunta (si son discretas).
Ejemplo 4.
Si X ∼ N(µ, σ2),
fX(x|µ, σ2) =
1√
2πσ2
e−
1
2σ2
(x−µ)2 .
La distribución de X es conocida salvo por dos parámetros, µ y σ2. En este caso
k = 2, θ = (µ, σ2)2 y Θ = R× R+ ⊂ R2.
La distribución conjunta de n v.a.i.i.d. con la misma distribución es
fX(x|µ, σ2) =
1
(2πσ2)n/2
e−
1
2σ2
∑n
i=1(xi−µ)
2
=
1
(2πσ2)n/2
e−
1
2σ2
||x−1nµ||2
donde 1n = (1, . . . , 1)
t ∈ Rn.
. .
8 CAPÍTULO 1. INTRODUCCIÓN
1.2.6. Sumas de variables aleatorias
Cuando se obtiene una muestra aleatoria simple X1, . . . , Xn normalmente se
calculan a partir de ellas cantidades que resumen los valores observados. Cual-
quiera de estos resúmenes se puede expresar como una función T (x1, . . . , xn) de-
finida en el espacio Xn ⊆ Rn donde están las imágenes del vector (X1, . . . , Xn).
Esta función T puede devolver valores de R, R2 o, en general, Rk.
Ejemplo 5.
T (X1, . . . , Xn) =
n∑
i=1
Xi, X̄, X̄ + 3, mı́n{X1, . . . , Xn}
T (X1, . . . , Xn) = (
n∑
i=1
Xi,
n∑
i=1
(Xi − X̄)2)
T (X1, . . . , Xn) = (mı́n{X1, . . . , Xn},
n∑
i=1
Xi,
n∑
i=1(Xi − X̄)2)
T (X1, . . . , Xn) = (X1, . . . , Xn)
. .
Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn
se llaman estad́ısticos. Dependen de los valores observados, pero no de los
parámetros desconocidos que determinan la distribución de Xi. Cuando un es-
tad́ıstico T es utilizado con el propósito de estimar un parámetro θ diremos que
T es un estimador de θ.
Ejemplo 6.
T (X1, . . . , Xn) = X̄ es un estimador de µ = E(X).
. .
En inferencia estad́ıstica interesa saber qué estad́ısticos son suficientes para
recoger toda la información que la muestra aporta sobre la distribución de la
variable aleatoria X muestreada. La respuesta depende de la distribución de X.
Dado que X = (X1, . . . , Xn) es una variable aleatoria, se tiene que Y =
T (X1, . . . , Xn) será también una variable aleatoria. La ley de probabilidad de Y
se denomina distribución en el muestreo de Y (o distribución muestral).
Los siguientes resultados dan información sobre algunas caracteŕısticas de
estad́ısticos definidos a partir de sumas de variables aleatorias.
Teorema 1. Sean x1, . . . , xn n números reales, sea x̄ =
1
n
∑n
i=1 xi su media
aritmética y sea S2 =
∑n
i=1(xi − x̄)2/(n− 1) su varianza muestral.
1.2. VARIABLE ALEATORIA 9
(a) mı́na
∑n
i=1(xi − a)2 =
∑n
i=1(xi − x̄)2.
(b) (n− 1)S2 =
∑n
i=1(xi − x̄)2 =
∑n
i=1 x
2
i − nx̄2.
Demostración:
(a)
n∑
i=1
(xi − a)2 =
n∑
i=1
(xi − x̄+ x̄− a)2 =
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 + 2
n∑
i=1
(xi − x̄)(x̄− a) =
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 + 2(x̄− a)
n∑
i=1
(xi − x̄) =
(observar que
∑n
i=1(xi − x̄) = 0)
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 ≥
n∑
i=1
(xi − x̄)2.
Por lo tanto el mı́nimo se alcanza si a = x̄.
(b) Trivial.
2
Lema 1. Sea X1, . . . , Xn una muestra aleatoria simple de X y sea g(x) una
función tal que E(g(X)) y V (g(X)) existen. Entonces,
(a) E(
∑n
i=1 g(Xi)) = nE(g(X)),
(b) V (
∑n
i=1 g(Xi)) = nV (g(X)),
Demostración: (a) Trivial, por propiedades básicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(Xi) son independientes y
aplicando propiedades básicas del operador varianza. 2
Teorema 2. Sea X1, . . . , Xn una muestra aleatoria simple de una población X
con esperanza µ y varianza σ2 <∞. Sean
X̄ =
1
n
n∑
i=1
Xi, S
2 =
1
n− 1
n∑
i=1
(Xi − X̄)2,
la media y la varianza muestrales, respectivamente. Entonces,
(a) E(X̄) = µ,
(b) V (X̄) = σ2/n,
10 CAPÍTULO 1. INTRODUCCIÓN
(c) E(S2) = σ2.
Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
(n− 1)S2 =
n∑
i=1
X2i − nX̄2 =⇒ (n− 1)E(S2) = nE(X2)− nE(X̄2) =
n(V (X) + E(X)2)− n(V (X̄) + E(X̄)2) = nσ2 + nµ2 − n 1
n
σ2 − nµ2 =
(n− 1)σ2 =⇒ E(S2) = σ2.
2
El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de
la media muestral en función de la f.g.m. de la variable aleatoria muestreada.
Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar
completamente la distribución de la media muestral.
Teorema 3. Sea X1, . . . , Xn una muestra aleatoria simple de una población X
con función generatriz de momentos MX(t). La función generatriz de momentos
de X̄ es
MX̄(t) = (MX(t/n))
n
.
Demostración: La f.g.m. deX se define comoMX(t) = E(e
tX) para los valores
de t para los que esa esperanza existe. Aśı,
MX̄(t) = E
(
etX̄
)
= E
(
e
t
n
∑n
i=1 Xi
)
= E
(
n∏
i=1
e
t
nXi
)
=
(independencia de las v.a. Xi)
n∏
i=1
E
(
e
t
nXi
)
=
n∏
i=1
MXi(t/n) =
(las Xi son idénticamente distribuidas)
n∏
i=1
MX(t/n) = (MX(t/n))
n
.
2
Ejemplo 7.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2). Entonces,
MX(t) = exp(µt+
σ2t2
2
).
1.3. DOS FAMILIAS DE DISTRIBUCIONES IMPORTANTES 11
Aśı,
MX̄(t) =
(
exp(
µt
n
+
σ2(t/n)2
2
)
)n
= exp(µt+
σ2t2
2n
)
y, por tanto, X̄ ∼ N(µ, σ2/n).
. .
Ejemplo 8.
X1, . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,
fX(x) =
xα−1e−x/β
Γ(α)βα
, x > 0, E(X) = αβ, V (X) = αβ2,
MX(t) =
(
1
1− βt
)α
, t <
1
β
.
Aśı,
MX̄(t) =
((
1
1− βt/n
)α)n
=
(
1
1− (β/n)t
)αn
y, por lo tanto, X̄ ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Aśı que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá
E(X̄) = n
µ
n
= µ, V (X̄)n
µ2
n2
=
µ2
n
.
. .
Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien
porque la f.g.m resultante no se corresponde con ninguna distribución conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribución de la media muestral. En primer lugar, se puede
trabajar con la función caracteŕıstica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la función de densidad de la suma como
la convolución de las n funciones de densidad (ver el ejemplo de la distribución
de Cauchy, Casella-Berger, páginas 210-211).
1.3. Dos familias de distribuciones importantes
1.3.1. Familias de localización y escala
Sea Z una variable aleatoria con distribución conocida. A la colección de
distribuciones de probabilidad de las variables aleatoriasX que se pueden definir
12 CAPÍTULO 1. INTRODUCCIÓN
de la forma
X = µ+ σZ, µ, σ ∈ R σ > 0
se la denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es variable aleatoria absolutamente continua con función
de densidad f(x), la familia de funciones de densidad{
f(x|µ, σ) = 1
σ
f
(
x− µ
σ
)
: µ ∈ R, σ > 0
}
forman la familia de localización y escala de f(x).
El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si
µ > 0) o a la izquierda (si µ < 0).
Proposición 1.
(a) Z ∼ f(x) ⇐⇒ X = σZ + µ ∼ f(x|µ, σ).
(b) X ∼ f(x|µ, σ) ⇐⇒ X−µσ ∼ f(x).
Demostración: Trivial, aplicando la fórmula de la función de densidad de la
transformación biyectiva de una variable aleatoria univariante. 2
Ejemplo 9.
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U(a, b) también es una familia
de localización y escala. En este caso µ = (a+ b)/2 y σ = b− a podŕıan servir
como parámetros de posición y escala.
. .
Corolario 1. Sea Z1, . . . , Zn una m.a.s. de Z ∼ f(x) y sea X1, . . . , Xn una
m.a.s. de X ∼ f(x|µ, σ). Si la ley de Z̄ es g(z) entonces la ley de X̄ es 1σ g
(
x−µ
σ
)
.
Demostración: Observar que Xi ∼ σZi + µ, luego X̄ ∼ σZ̄ + µ. Aplicando la
proposición anterior se tiene el resultado. 2
1.3.2. Familias exponenciales
X pertenece a la familia exponencial si su función de densidad o función de
masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ Rp y puede escribirse
aśı:
f(x|θ) = h(x)c(θ) exp
 k∑
j=1
wj(θ)tj(x)

1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 13
para ciertas funciones h, c, wj y tj . Si p = k y wj(θ) = θj , j = 1, . . . , p, entonces
diremos que la familia exponencial está parametrizada de forma natural. En ese
caso, el espacio paramétrico natural de esa familia es el conjunto
Θ = {θ ∈ Rk :
∫ ∞
−∞
h(x) exp
 k∑
j=1
θjtj(x)
 dx <∞}.
Si X1, . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,
entonces
f(x1, . . . , xn|θ) =
(
n∏
i=1
h(xi)
)
(c(θ))
n
exp
 k∑
j=1
wj(θ)
n∑
i=1
tj(xi)
 .
Observar que si definimos Tj(X1, . . . , Xn) =
∑n
i=1 tj(Xi), j = 1, . . . , p, en-
tonces la distribución de (T1, . . . , Tk) viene dada por
fT (u1, . . . , uk|θ) = H(u1, . . . , uk) (c(θ))n exp
 k∑
j=1
wj(θ)uj
 ,
es decir, T también pertenece a la familia exponencial.
Ejemplo 10.
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, bi-
nomial negativa, exponencial, normal, gamma, beta.
. .
1.4. Muestreo de unadistribución normal
En el resto del tema supondremos que X1, . . . , Xn es una m.a.s. de una
N(µ, σ2).
Teorema 4 (Teorema de Fisher, 1920). (a) X̄ y S2n son variables aleatorias
independientes.
(b) X̄ ∼ N(µ, σ2/n).
(c) (n− 1)S2n/σ2 ∼ χ2n−1.
Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1,
puesto que la familia normal es una familia de posición y escala.
(b) Se ha demostrado en el ejemplo 7.
14 CAPÍTULO 1. INTRODUCCIÓN
(a) Obsérvese que
(n− 1)S2n =
n∑
i=1
(Xi − X̄)2 = (X1 − X̄)2 +
n∑
i=2
(Xi − X̄)2 =
(como
∑n
i=1(Xi − X̄) = 0)(
n∑
i=2
(Xi − X̄)
)2
+
n∑
i=2
(Xi − X̄)2
de donde se deduce que S2n es función de (X2 − X̄, . . . , Xn − X̄). Probaremos
ahora que (X2 − X̄, . . . , Xn − X̄) y X̄ son independientes, lo cuál implicará que
(a) es cierto.
Hacemos el cambio de variable
y1 = x̄
y2 = x2 − x̄
...
yn = xn − x̄
 =⇒
x1 = nx̄−
∑n
i=2 xi = x̄−
∑n
i=2(xi − x̄) = y1 −
∑n
i=2 yi
x2 = y2 + y1
...
xn = yn + y1
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
fY (y1 . . . , yn) = fX(y1 −
n∑
i=2
yi, y2 + y1, . . . , yn + y1)n =
(
1√
2π
)n
n exp
{
−1
2
(y1 −
n∑
i=2
yi)
2 − 1
2
n∑
i=2
(yi + y1)
2
}
(∗)
=
n
(
√
2π)n
exp
{
−1
2
ny21
}
exp
{
−1
2
(
n∑
i=2
y2i + (
n∑
i=2
yi)
2
)}
.
Por lo tanto Y1 es independiente de (Y2, . . . , Yn) y de aqúı se sigue que X̄ es
independiente de S2n.
(∗) Falta por justificar el paso marcado con un (∗):
(y1 −
n∑
i=2
yi)
2 +
n∑
i=2
(yi + y1)
2 =
y21 + (
n∑
i=2
yi)
2 − 2y1
n∑
i=2
yi +
n∑
i=2
y2i + (n− 1)y21 + 2y1
n∑
i=2
yi =
ny21 + (
n∑
i=2
yi)
2 +
n∑
i=2
y2i .
(c) La demostración de este apartado se seguirá mejor después del apartado
siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 15
Denotaremos por X̄n y por S
2
n, respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tamaño n.
En primer lugar probaremos que se verifica la siguiente fórmula recursiva:
(n− 1)S2n = (n− 2)S2n−1 +
n− 1
n
(Xn − X̄n−1)2.
En efecto,
(n− 1)S2n =
n∑
i=1
(Xi − X̄n)2 =
n−1∑
i=1
(Xi − X̄n−1 + X̄n−1 − X̄n)2 + (Xn − X̄n)2 =
(n− 2)S2n−1 + (n− 1)(X̄n−1 − X̄n)2 + (Xn − X̄n)2 = (∗)
(teniendo en cuenta que (n− 1)X̄n−1 = nX̄n −Xn =⇒ (n− 1)(X̄n−1 −Xn) =
n(X̄n−Xn) y que (n−1)(X̄n−1− X̄n) = (X̄n−Xn) = ((n−1)/n)(X̄n−1−Xn))
(∗) = (n− 2)S2n−1 + (n− 1)
1
n2
(X̄n−1 −Xn)2 +
(n− 1)2
n2
(X̄n−1 −Xn)2 =
(n− 2)S2n−1 +
n− 1
n
(Xn − X̄n−1)2.
Una vez probada la relación entre S2n y S
2
n−1 probaremos por inducción que
(n− 1)S2n/σ2 ∼ χ2n−1.
Para n = 2, la fórmula recursiva nos da
S22 =
1
2
(X2 −X1)2.
Como X1 y X2 son N(0, 1) independientes, entonces (X2 −X1)/
√
2 ∼ N(0, 1)
y de ah́ı que
S22 = ((X2 −X1)/
√
2)2 ∼ χ21,
con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k − 1)S2k/σ2 ∼ χ2k−1.
Probemos que es también cierto para n = k + 1. Observar que
kS2k+1 = (k − 1)S2k︸ ︷︷ ︸
∼χ2k−1
+
k
k + 1
(Xk+1 − X̄k)2.
Aśı, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1−X̄k)2 es
una χ21, puesto que esta variable es independiente de S
2
k, al ser X̄k independiente
de S2k (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razón, Xk+1 ∼ N(0, 1) es también independiente de X̄k ∼
N(0, 1/k). Aśı que
Xk+1 − X̄k ∼ N
(
0,
k + 1
k
)
=⇒
(√
k
k + 1
(Xk+1 − X̄k)
)2
∼ χ21
16 CAPÍTULO 1. INTRODUCCIÓN
que es precisamente lo que queŕıamos probar. 2
Existen demostraciones alternativas de este teorema basadas en la función
generatriz de momentos o en la función caracteŕıstica.
1.4.1. Distribuciones asociadas a la normal
En esta sección se recuerdan las definiciones de las leyes χ2, t de Student
y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger.
La ley χ2ν
Diremos queX tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es
fν(x) =
1
Γ(ν/2)2ν/2
x(ν/2)−1e−x/2, 0 < x <∞,
es decir, X ∼ γ(ν/2, 2).
Lema 2. (a) Si X ∼ N(µ, σ2) entonces
(X − µ)2
σ2
∼ χ21.
(b) Si X1, . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces
Y =
n∑
i=1
Xi ∼ χ2ν ,
donde ν =
∑n
i=1 νi.
(c) Sean X1, . . . , Xn variables aleatorias independientes e idénticamente dis-
tribuidas según una N(0, 1). La variable aleatoria
Y =
n∑
i=1
X2i ∼ χ2n.
(Nota: esta propiedad se usa a veces como definición de la distribución
χ2).
La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp, si su función de densidad es
fp(x) =
Γ((p+ 1)/2)
Γ(p/2)
1
√
πp
1
(1 + t2/p)(p+1)/2
, −∞ < x <∞.
Si p = 1 se trata de la distribución de Cauchy.
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 17
Lema 3. (a) Z ∼ N(0, 1), Y ∼ χ2p, Z e Y independientes, entonces,
X =
Z√
Y/p
∼ tp.
(Nota: esta propiedad se usa a veces como definición de la distribución t
de Student.)
(a) Sean X1, . . . , Xn una m.a.s. de una N(µ, σ
2). Entonces
X̄ − µ
S/
√
n
∼ tn−1.
La distribución t de Student no tiene f.g.m. porque no tiene momentos de
todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden
estrictamente inferior a p: existe E(Xα) para α < p.
Si X ∼ tp, entonces E(X) = 0 si p > 1 y V (X) = p/(p− 2) si p > 2.
La ley Fp,q
Diremos que X sigue una distribución F con p y q grados de libertad y
lo denotaremos X ∼ Fp,q, si su función de densidad es
fp,q(x) =
Γ
(
p+q
2
)
Γ
(
p
2
)
Γ
(
q
2
) (p
q
)p/2
x(p/2)−1(
1 + pqx
) p+q
2
, 0 < x <∞.
Lema 4. (a) Si U ∼ χ2p, V ∼ χ2q y U y V son independientes, entonces
X =
U/p
V/q
∼ Fp,q.
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
(b) Sean X1, . . . , Xn m.a.s. de N(µX , σ
2
X), Y1, . . . , Ym m.a.s. de N(µY , σ
2
Y ),
dos muestras independientes. Entonces
S2X/σ
2
X
S2Y /σ
2
Y
∼ Fn−1,m−1.
(c) Si X ∼ Fp,q, entonces X−1 ∼ Fq,p.
(d) Si X ∼ tp,entonces X2 ∼ F1,p.
(e) Si X ∼ Fp,q, entonces
p
q
X
1 + pqX
∼ Beta
(p
2
,
q
2
)
.
18 CAPÍTULO 1. INTRODUCCIÓN
(f) Si X ∼ Fn−1,m−1, entonces
E(X) = E
(
χ2n−1/(n− 1)
χ2m−1/(m− 1)
)
= E
(
χ2n−1
n− 1
)
E
(
m− 1
χ2m−1
)
=
(
n− 1
n− 1
)(
m− 1
m− 3
)
=
m− 1
m− 3
.
(g) Si las distribuciones de partida tienen simetŕıa esférica, entonces el co-
ciente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).
1.5. Leyes de los Grandes Números y Teorema
Central del Ĺımite
En esta sección se enuncian dos resultados fundamentales en inferencia es-
tad́ıstica: la Ley Fuerte de los Grandes Números y el Teorema Central del Ĺımite.
Dada una sucesión de variables aleatorias definidas sobre el mismo espacio
muestral, se llaman leyes de los grandes números a los resultados sobre
convergencia de las sucesiones de sus medias aritméticas a una constante. Se co-
noce como problema del ĺımite central el estudio de la convergencia débil
de la sucesión de medias muestrales centradas y tipificadas a una distribución
no degenerada.
1.5.1. Leyes de los grandes números
Se enuncia a continuación una versión de ley débil de los grandes núme-
ros que establece la convergencia en media cuadrática (y por tanto, en probabili-
dad) de la media aritmética de una sucesión de variables aleatorias incorreladas.
Teorema 5 (Ley débil de los grandes números). Sea {Xn}n∈N una sucesión de
variables aleatorias incorreladas con momentos de segundo orden acotados por
una constante C, independiente de n. Sea Sn =
∑n
i=1Xi. Entonces
E
(∣∣∣∣Sn − E(Sn)n
∣∣∣∣2
)
≤ C
n
y, como consecuencia
ĺım
n−→∞
Sn − E(Sn)
n
= 0
en el sentido de la convergencia en media cuadrática.
La demostración de este resultado puede verse, por ejemplo, en Sanz (1999).
Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuenciarelativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley débil de Bernoulli.
1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMACENTRAL DEL LÍMITE19
Los resultados que garantizan la convergencia casi segura de la media mues-
tral se conocen como leyes fuertes de los grandes números. Se enuncia
a continuación una ley fuerte para variables con segundos momentos finitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes números). Bajo las hipótesis del teorema
5 se tiene que
ĺım
n−→∞
Sn − E(Sn)
n
= 0
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostración de este resultado. En ese
mismo texto se recoge una versión más general de la ley fuerte de los grandes
números, conocida como ley fuerte de los grandes números de Kolmo-
gorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la
convergencia casi segura de la media muestral a la esperanza.
1.5.2. Teorema central del ĺımite
En esta sección se presenta el teorema central del ĺımite de Lévy-
Lindeberg, válido para sucesiones de variables aleatorias independientes e
idénticamente distribuidas con momento de segundo orden finito.
Teorema 7 (Teorema central del ĺımite). Sea {Xn}n∈N una sucesión de va-
riables aleatorias independientes e idénticamente distribuidas con momento de
segundo orden finito. Sea µ la esperanza común y σ2 la varianza común, que
supondremos estrictamente positiva. Sea Sn =
∑n
i=1Xi. Se tiene que
Sn − nµ
σ
√
n
−→D Z,
donde Z ∼ N(0, 1) y −→D indica convergencia en distribución.
Este resultado puede demostrarse utilizando funciones generadoras de moe-
mentos o funciones caracteŕısticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostración (más laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una versión más fuerte
del teorema central del ĺımite.
El Teorema de De Moivre-Laplace, que establece la convergencia débil de la
binomial tipificada a la normal estándar, es una aplicación directa del teorema
central del ĺımite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproxi-
mación de la binomial por la normal son la estimación del error de aproximar
la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en
encuestas.
20 CAPÍTULO 1. INTRODUCCIÓN
1.5.3. Versiones multivariantes
Se enuncian a continuación versiones multivariantes de la ley de los griandes
números y del teorema central del ĺımite.
Teorema 8. Sea {Xn}n∈N una sucesión de variables aleatorias p-dimensionales
independientes e idénticamente distribuidas. Sea X̄n el vector p-diemensional
media aritmética de las n primeras variables:
X̄n =
1
n
n∑
i=1
Xi.
Se tiene lo siguiente:
1. Si existe E(Xi) = µ, entonces X̄n converge a µ casi seguramente.
2. Si, además, Xi tiene matriz de varianza y covarianzas finita Σ, entonces
√
n(X̄n − µ) −→D Np(0,Σ).
La demostración de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribución multino-
mial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS 21
1.6. Lista de problemas
Variables aleatorias. Muestras
1. (Casella-Berger, 5.2) Sean X1, X2 . . . v.a.i.i.d. cada una de ellas con den-
sidad f(x). Supongamos que cada Xi mide la cantidad anual de precipita-
ciones en un determinado emplazamiento. Da la distribución del número
de años que transcurren hasta que las lluvias del primer año, X1, son
superadas por primera vez.
2. (Casella-Berger, 5.5) Sean X1, . . . , Xn v.a.i.i.d. con densidad fX(x). Sea
X̄ su media muestral. Prueba que
fX̄(x) = nfX1+···+Xn(nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1, . . . , Xn una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
X =
1
n
n∑
i=1
Xi, S
2 =
1
n− 1
n∑
i=1
(Xi − X̄)2.
a) Prueba que
S2 =
1
2n(n− 1)
n∑
i=1
n∑
j=1
(Xi −Xj)2.
Supongamos que E(X4) < ∞. Sean θ1 = E(X) y θj = E((X − θ1)j),
j = 2, 3, 4.
b) Prueba que
V (S2) =
1
n
(
θ4 −
n− 3
n− 1
θ22
)
.
c) Da la expresión de Cov(X̄, S2) en términos de θ1, . . . , θ4. ¿Bajo qué
condiciones son X̄ y S2 incorreladas?
d) Si la distribución de X es simétrica respecto de θ1, ¿es posible que la
covarianza de esos estad́ısticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1, ¿es posible que
la covarianza de esos estad́ısticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X̄n y S
2
n a la media y la varianza mues-
trales calculadas a partir de n observaciones X1, . . . , Xn. Supongamos que
se observa un nuevo valor Xn+1. Demuestra las siguientes fórmulas recur-
sivas.
a)
X̄n+1 =
1
n+ 1
(Xn+1 + nX̄n).
22 CAPÍTULO 1. INTRODUCCIÓN
b)
nS2n+1 = (n− 1)S2n +
n
n+ 1
(Xn+1 − X̄n)2.
5. (Casella-Berger, 5.18) Sean X̄1 y X̄2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ2. Halla el menor valor de n que garantiza que
P
(
|X̄1 − X̄2| <
σ
5
)
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Ĺımite. Comenta los resultados obtenidos.
6. (Casella-Berger, 5.29) Sean Xi ∼ N(i, i2), i = 1, 2, 3, tres variables aleato-
rias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a) χ23.
b) t2.
c) F1,2.
7. (Casella-Berger, 5.36) Sean Ui, i = 1, 2, . . . , variables aleatorias indepen-
dientes con distribución U(0, 1). Sea X una variable aleatoria con distri-
bución
P (X = x) =
1
(e− 1)x!
, x = 1, 2, 3, . . .
Da la distribución de
Z = mı́n{U1, . . . , UX}.
Indicación: Observar que Z|X = x es el primer estad́ıstico de orden de
una muestra de tamaño x de una U(0, 1).
8. (Casella-Berger, 5.37) SeaX1, . . . , Xn una muestra aleatoria simple de una
población con densidad
fX(x) =
1
θ
I(0,θ)(x).
Sean X(1), . . . , X(n) los estad́ısticos orden. Prueba que X(1)/X(n) y X(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-
nenciales y describe el espacio paramétrico natural de cada una de ellas.
a) Familia normal con alguno de los parámetros µ o σ conocidos.
1.6. LISTA DE PROBLEMAS 23
b) Familia gamma con alguno de los parámetros α o β conocidos.
c) Familia beta con alguno de los parámetros α o β conocidos.
d) Familia Poisson.
e) Binomial negativa con el parámetro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en térmi-
nos de su espacio paramétrico natural con densidad
f(x;η) = h(x)c(η) exp{
k∑
i=1
ηiti(x)}.
Prueba que
Eη(ti(X)) = −
∂
∂ηi
log(c(η)).
Indicación: Usa el hecho de que para una familia exponencial se tiene
que
∂j
∂ηji
∫ ∞
−∞
fη(x)dx =
∫ ∞
−∞
∂j
∂ηji
fη(x)dx.
12. Considera la familia de distribuciones normales con media θ y varianza
θ2, donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
13. Sean X1, . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia ex-
ponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ N(iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ Exp(1/(iθ)),E(Xi) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
Familias de localización y escala
17. (Casella-Berger, 3.31) Considera la función de densidad
f(x) =
63
4
(x6 − x8), −1 < x < 1.
Dibuja el gráfico de
1
σ
f
(
x− µ
σ
)
para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.
24 CAPÍTULO 1. INTRODUCCIÓN
a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.
18. (Casella-Berger, 3.32) Muestra que si f(x) es una función de densidad
simétrica alrededor de 0, entonces la mediana de la densidad
1
σ
f
(
x− µ
σ
)
es µ.
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f(z). Se
define zα como un número que satisface que
α = P (Z > zα) =
∫ ∞
zα
f(z)dz.
Sea X una variable aleatoria con densidad en la familia de localización y
escala de f
1
σ
f
(
x− µ
σ
)
y sea xα = µ + σzα. Prueba que P (X > xα) = α. (Nota: Aśı, los valo-
res de xα se calculan fácilmente para cualquier miembro de la familia de
localización y escala si se dispone de una tabla de valores zα.)
20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad
f(x) =
1
π(1 + x2)
, x ∈ R,
y la familia de localización y escala definida a partir de ella: X tiene
distribución de Cauchy con parámetros µ y σ si su densidad es
f(x;µ, σ) =
σ
π(σ2 + (x− µ)2)
, x ∈ R.
No existen la esperanza ni la varianza de estas distribuciones, luego µ
y σ2 no son la media y la varianza. No obstante, tienen un importante
significado.
a) Prueba que µ es la mediana de X.
b) Prueba que µ− σ y µ+ σ son los cuartiles primero y tercero, respec-
tivamente, de X.
21. (Casella-Berger, 3.35) Sea f(x) una función de densidad con media µ y
varianza σ2. Indica cómo crear una familia de localización y escala basada
en f(x) tal que la densidad estándar de la familia, f∗(x), tenga esperanza
0 y varianza 1.
Caṕıtulo 2
Principios para reducir los
datos
Referencias: Casella-Berger, caṕıtulo 6. En algunos puntos se han
seguido también Cristóbal (1992) (caṕıtulo 7), Schervish (1995)
(caṕıtulo 2) y Garćıa-Nogales (1998) (caṕıtulo 3).
El uso de cualquier estad́ıstico T (X) implica una reducción de los datos
muestrales. Sea X = (X1, . . . , Xn) una muestra aleatoria simple (un vector
aleatorio) y sean x = (x1, . . . , xn), y = (y1, . . . , yn) muestras observadas (reali-
zaciones de X). Si decidimos usar el estad́ıstico T (X) en vez de toda la muestra,
serán tratadas igual dos muestras observadas cualesquiera x, y, siempre que
T (x) = T (y). Es decir, al usar el estad́ıstico T , en lugar de toda la muestra,
se pierde información. Se plantea aśı el problema de buscar estad́ısticos T tales
que la información que se pierde al usarlos sea irrelevante para los fines que nos
hayamos marcado.
Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio
X, reducir los datos en términos de un estad́ıstico T es equivalente a dar una
partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X}, la
imagen de X mediante el estad́ıstico T . Entonces {At = T−1(t) : t ∈ T } es
una partición de X inducida por T . Al observar x y limitarnos a registrar el
valor de T (x), podremos saber que hemos observado un elemento de AT (x), pero
desconoceremos cuál de ellos.
Ejemplo 11.
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
X = {x = (x1, . . . , xn) : xi ∈ {0, 1}}.
Se define T (x) =
∑n
i=1 xi. Entonces
T = {0, 1, 2, . . . , n}.
25
26 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
El estad́ıstico T ha creado una partición en X de forma que todas aquellas
secuencias de resultados con igual número de unos están en la misma clase:
At = {x = (x1, . . . , xn) ∈ T :
n∑
i=1
xi = t}.
No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.
. .
En este tema estudiaremos dos principios para reducir los datos que garan-
tizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aqúı (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene dis-
tribución perteneciente a una familia paramétrica:
X ∼ {f(x|θ), θ ∈ Θ ⊆ Rk}.
Se supondrá además que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estad́ısticos.
2.1. Principio de suficiencia
Un estad́ıstico T es suficiente para un parámetro θ si captura toda la in-
formación que sobre θ contiene la muestra. Cualquier información adicional (es
decir, aparte del valor del estad́ıstico T ) que la muestra pueda aportar, no pro-
porciona información relevante sobre θ. Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estad́ıstico suficiente para θ, cualquier inferencia sobre θ ha de de-
pender de la muestra X = (X1, . . . , Xn) sólo a través del valor T (X). Es decir,
si x e y son tales que T (x) = T (y), entonces la inferencia que se haga sobre θ
será la misma tanto si se observa x como si se observa y.
Formalmente, diremos que un estad́ıstico T es suficiente para θ si la dis-
tribución condicionada de X dado el valor T (X), no depende de θ.
Ejemplo 12.
Veamos, en el caso discreto, que la información que sobre un parámetro aporta
un estad́ıstico suficiente es toda la información que aportaŕıa la muestra com-
pleta. En primer lugar, si t es uno de los posibles valores de T (X), es decir, si
2.1. PRINCIPIO DE SUFICIENCIA 27
Pθ(T (X) = t) > 0, entonces
Pθ(X = x|T (X) = t) =
{
Pθ(X = x|T (X) = T (x)) si T (x) = t
0 si T (x) ̸= t
Aśı que sólo son de interés las probabilidades condicionadas Pθ(X = x|T (X) =
T (x)). Si T es suficiente estas probabilidades no dependen de θ, luego,
Pθ(X = x|T (X) = T (x)) = P (X = x|T (X) = T (x))
para todo θ. En este sentido entendemos que T captura toda la información
sobre θ.
Supongamos que dos cient́ıficos se interesan por la variable aleatoria X cuya
distribución depende del parámetro desconocido θ. Supongamos además que el
primer cient́ıfico observa toda una muestra x de X, mientras que el segundo
sólo puede estudiar el fenómeno a través de una revista que publica el valor
del estad́ıstico suficiente T (x). La cuestión relevante entonces es saber si ambos
cient́ıficos tienen o no la misma información sobre θ. Veamos que aśı es.
Como P (X = x|T (X) = T (x)) no depende de θ, esta distribución condi-
cional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cient́ıficos conocen
P (X = y|T (X) = T (x)), para todo y ∈ AT (x) = {y : T (y) = T (x)}.
Si el segundo cient́ıfico quisiera, podŕıa generar un vector aleatorio Y siguiendo
esa distribución y se satisfaŕıa que
P (Y = y|T (X) = T (x)) = P (X = y|T (X) = T (x)), para todo y ∈ AT (x)
Por lo tanto X e Y tendŕıan la misma distribución condicionada a que T (X) =
T (x). Además, ambas variables tienen la misma distribución incondicional:
Pθ(X = x) = Pθ(X = x, T (X) = T (x)) =
(porque {X = x} ⊆ {T (X) = T (x)})
Pθ(X = x|T (X) = T (x))Pθ(T (X) = T (x)) =
Pθ(Y = x|T (X) = T (x))Pθ(T (X) = T (x)) =
Pθ(Y = x, T (X) = T (x)) =
(teniendo en cuenta que {Y = x} ⊆ {T (X) = T (x)})
Pθ(Y = x)
Por lo tanto el segundo cient́ıfico ha podido observar una variable aleatoria Y
que tiene la misma distribución que la variable aleatoria X que observó el pri-
mer cient́ıfico, y ambos cient́ıficos obtienen el mismo valor del estad́ıstico T a
partir de sus respectivas observaciones. Por lo tanto, ambos cient́ıficos tienen la
misma información.
. .
28 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Teorema 9. Si f(x|θ) es la verosimilitud de un vector aleatorio X y q(t|θ)es la verosimilitud (función de densidad o de masa) de un estad́ıstico T (X), se
tiene la siguiente equivalencia. T (X) es un estad́ıstico suficiente para θ si y sólo
si para cada x del espacio muestral X el cociente
f(x|θ)
q(T (x)|θ)
no depende de θ.
Demostración: Haremos la prueba para el caso discreto. El caso continuo no
presenta dificultades adicionales.
Veamos primero que si f(x|θ)/q(T (x)|θ) no depende de θ entonces T es
suficiente. Si t es uno de los posibles valores de T (X), es decir, si Pθ(T (X) =
t) > 0, entonces
Pθ(X = x|T (X) = t) =
{
Pθ(X = x|T (X) = T (x)) si T (x) = t
0 si T (x) ̸= t
Luego si T (x) ̸= t la función de masa de probabilidad condicionada vale 0 y, no
depende de θ. En el otro caso,
Pθ(X = x|T (X) = T (x)) =
Pθ(X = x, T (X) = T (x))
Pθ(T (X) = T (x))
=
Pθ(X = x)
Pθ(T (X) = T (x))
=
f(x|θ)
q(T (x)|θ)
que tampoco depende de θ, de donde se sigue que T es suficiente.
Para probar el rećıproco, basta con leer la igualdad anterior en orden inverso,
f(x|θ)
q(T (x)|θ)
= Pθ(X = x|T (X) = T (x)),
que no depende de θ si T es suficiente. 2
Ejemplo 13.
Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
estad́ıstico T (X) = X1 + · · ·+Xn ∼ B(n, θ) es suficiente para θ:
f(x|θ)
q(T (x)|θ)
=
∏n
i=1 θ
xi(1− θ)1−xi(
n
t
)
θt(1− θ)n−t
=
(donde se ha definido t =
∑n
i=1 xi)
θt(1− θ)n−t(
n
t
)
θt(1− θ)n−t
=
1(
n
t
)
que no depende de θ.
. .
2.1. PRINCIPIO DE SUFICIENCIA 29
Ejemplo 14.
Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ N(µ, σ2), σ2 conocido.
El estad́ıstico T (X) = X̄ ∼ N(µ, σ2/n) es suficiente para µ:
f(x|θ)
q(T (x)|θ)
=
(2πσ2)−n/2 exp
{
− 12σ2
∑n
i=1(xi − µ)2
}
n1/2(2πσ2)−1/2 exp
{
− n2σ2 (x̄− µ)2
} =
(2πσ2)−n/2 exp
{
− 12σ2
(∑n
i=1(xi − x̄)2 + n(x̄− µ)2
)}
n1/2(2πσ2)−1/2 exp
{
− n2σ2 (x̄− µ)2
} =
(2πσ2)−n/2 exp
{
− 12σ2
∑n
i=1(xi − x̄)2
}
n1/2(2πσ2)−1/2
=
(2πσ2)−(n−1)/2n−1/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
,
que no depende de µ.
. .
El teorema 9 es útil para comprobar si un estad́ıstico es suficiente, pero no lo
es para buscar estad́ısticos suficientes. El siguiente teorema śı podrá usarse para
este cometido: permite encontrar estad́ısticos suficientes mediante la inspección
de la función de densidad o la función de masa de probabilidad, según el caso.
Teorema 10 (Teorema de Factorización: Fisher 1922, Neyman 1935). Sea
f(x|θ) la verosimilitud de X = (X1, . . . , Xn). El estad́ıstico T (X) es suficiente
para θ si y sólo si existen funciones g(t|θ) y h(x) tales que para cualquier x ∈ X
y cualquier θ ∈ Θ la función f(x|θ) puede factorizarse aśı:
f(x|θ) = g(T (x)|θ)h(x).
Demostración: (En el caso discreto). Supongamos primero que T es suficiente.
Tomemos g(t|θ) = Pθ(T (X) = t) y h(x) = Pθ(X = x|T (X) = T (x)), que no
depende de θ al ser T suficiente. Con esta elección,
f(x|θ) = Pθ(X = x) = Pθ(X = x, T (X) = T (x)) =
Pθ(X = x|T (X) = T (x))Pθ(T (X) = t) = g(T (x)|θ)h(x).
Veamos ahora el rećıproco. Supongamos que f(x|θ) = g(T (x)|θ)h(x) y que
q(t|θ) es la función de masa de probabilidad de T (X). Entonces,
f(x|θ)
q(t|θ)
=
f(x|θ)∑
y∈AT (x) f(y|θ)
=
30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
g(T (x)|θ)h(x)∑
y∈AT (x) g(T (y)|θ)h(y)
=
g(T (x)|θ)h(x)∑
y∈AT (x) g(T (x)|θ)h(y)
=
h(x)∑
y∈AT (x) h(y)
,
que es independiente de θ. Luego T es suficiente para θ. 2
(Nota: la demostración para el caso continuo puede verse, por ejemplo, en
Lehmann 1986 o en Cristóbal (1992), p. 173.)
Según el Teorema 10, para encontrar un estad́ıstico suficiente se factoriza la
función de densidad (o la de masa) en dos partes: una, h(x), que no contenga al
parámetro θ, y la otra que dependa de la muestra sólo a través de una función
suya T (x). El estad́ıstico suficiente será entonces T (X).
Ejemplo 15.
Sea X ∼ U{1, 2, . . . , θ} y X1, . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
f(x|θ) = 1
θ
I{1,2,...,θ}(x)
donde IA(x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
f(x1, . . . , xn|θ) =
1
θn
n∏
i=1
I{1,2,...,θ}(xi) =
1
θn
(
n∏
i=1
IN−{0}(xi)
)(
n∏
i=1
I(−∞,θ](xi)
)
=
1
θn
(
n∏
i=1
IN−{0}(xi)
)(
n∏
i=1
I[xi,∞)(θ)
)
=
1
θn
I(máx{xi:1≤i≤n},∞)(θ)︸ ︷︷ ︸
g(t|θ), donde t=máxi xi
(
n∏
i=1
IN−{0}(xi)
)
︸ ︷︷ ︸
h(x)
. .
Ejemplo 16.
Sea X ∼ N(µ, σ2), σ2 conocida. Entonces la verosimilitud de una muestra es
f(x|µ) = (2πσ2)−n/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
︸ ︷︷ ︸
h(x)
exp
{
− n
2σ2
(x̄− µ)2
}
︸ ︷︷ ︸
g(t|µ), donde t=x̄
Por lo tanto T (X) = X̄ es estad́ıstico suficiente para µ.
Obsérvese que
∑n
i=1Xi = nX̄ también es estad́ıstico suficiente: podŕıa defi-
nirse h(x) como antes y g(t|µ) = exp
{
−(n/(2σ2))(t/n− µ)2
}
.
. .
2.1. PRINCIPIO DE SUFICIENCIA 31
En general, si T (X) es estad́ıstico suficiente para θ y τ : T −→ S es una
transformación biyectiva del espacio donde toma valores T , se tiene que S(X) =
τ(T (X)) también es estad́ıstico suficiente para θ:
f(x|θ) = g(T (x)|θ)h(x) = g(τ−1(S(x))|θ)h(x) = g∗(S(x)|θ)h(x),
de donde se deduce que S(X) también es estad́ıstico suficiente. La función
g∗(s|θ) es g∗(s|θ) = g(τ−1(s)|θ).
2.1.1. Estad́ısticos suficientes r-dimensionales
Hasta ahora hemos visto únicamente estad́ısticos suficientes con valores reales,
es decir, unidimensionales. Sin embargo, en la aplicación del teorema de facto-
rización puede ocurrir que la función g(t|θ) dependa de la muestra a través de
más de una función suya. En ese caso la colección de esas funciones, digamos
T (X) = (T1(X), . . . , Tr(X)), es un estad́ıstico suficiente r-dimensional. Las
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidi-
mensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estad́ıstico suficiente.
Ejemplo 17.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos: θ =
(µ, σ2). Aśı,
f(x|µ, σ2) = (2πσ2)−n/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
exp
{
− n
2σ2
(x̄− µ)2
}
.
Sean T1(x) = x̄ y T2(x) = S
2 = (
∑n
i=1(xi − x̄)2)/(n− 1). Entonces,
f(x|µ, σ2) = (2πσ2)−n/2 exp
{
− (n− 1)
2σ2
T2(x)
}
exp
{
− n
2σ2
(T1(x)− µ)2
}
=
g(T1(x), T2(x)|µ, σ2)
y tomando h(x) = 1 se tiene la factorización de f(x|µ, σ2) que implica que
T (X) = (T1(X), T2(X)) = (X̄, S
2) es un estad́ıstico suficiente para (µ, σ2) en
la distribución normal. Es un estad́ıstico bivariante.
Obsérvese que el hecho de que un estad́ıstico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ2). Sin embargo, si no estamos seguros
de la normalidad de los datos no debeŕıamos conformarnos con conocer única-
mente la media y la varianza muestral.
. .
32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
2.1.2. Estad́ısticos suficientes minimales
La factorización de la función de verosimilitud no es única y como conse-
cuencia de ello, tampoco es único el estad́ıstico suficiente para un parámetro.
Ya vimos que cualquier transformación biyectiva de un estad́ıstico suficiente da
lugar a otro estad́ıstico suficiente. Pero aún hay muchos más estad́ısticos sufi-
cientes. Por ejemplo, la muestra completa X también es estad́ıstico suficiente
para el parámetro:
f(x|θ) = g(x|θ)h(x),
donde h(x) = 1, T (x) = x y g(x|θ) = f(x|θ).
Un estad́ıstico suficiente T (X) se llama minimal si para cualquier otro es-
tad́ıstico S(X) se tiene que T (X) es función de S(X). Es decir, si ocurre que
S(x) = S(y) entonces forzosamente se tiene que T (x) = T (y). Otra forma de
expresar esto es la siguiente: sea {At : t ∈ T } la partición del espacio muestral
inducida por el estad́ıstico T y sea {Bs : s ∈ S} la partición inducida por S;para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At. La partición inducida por
cualquier estad́ıstico suficiente es más fina que la inducida por el estad́ıstico
suficiente minimal.
Ejemplo 18.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos. Hemos
visto en el ejemplo 17 que (T1(X), T2(X)) = (X̄, S
2) es un estad́ıstico suficiente
para (µ, σ2).
Suponemos ahora que σ2 es conocido. Vimos en el ejemplo 14 que T1(X) = X̄
es estad́ıstico suficiente para µ. Pero también es cierto que (T1(X), T2(X)) =
(X̄, S2) es suficiente para µ. Claramente T1(X) consigue una mejor reducción
de los datos que (T1(X), T2(X)). Podemos escribir T1(X) como función de
(T1(X), T2(X)): T1(X) = τ(T1(X), T2(X)) donde τ(a, b) = a.
Dado que tanto T1(X) como (T1(X), T2(X)) son suficientes para µ, am-
bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral
S2 = T2(X) no aporta ninguna información sobre la media µ cuando σ
2 es
conocida.
. .
El siguiente teorema proporciona un método para encontrar el estad́ıstico
suficiente minimal.
Teorema 11. Sea fX(x|θ) la función de verosimilitud conjunta de X (discreta
o continua). Supongamos que existe una función T (x) tal que para cualquier
par de elementos del espacio muestral x, y, el cociente
fX(x|θ)
fX(y|θ)
2.1. PRINCIPIO DE SUFICIENCIA 33
es constante como función de θ, si y sólo si T (x) = T (y). Entonces T (x) es
estad́ıstico suficiente minimal para θ.
Demostración: Casella-Berger, p. 255 2
Ejemplo 19.
Sea X = (X1, . . . , Xn) m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconoci-
dos. Sean x e y dos muestras observadas y sean (x̄, S2x), (ȳ, S
2
y) las correspon-
dientes medias y varianzas muestrales. Recordando la factorización de f(x|µ, σ2)
que vimos en el ejemplo 17, se tiene que
fX(x|θ)
fX(y|θ)
=
(2πσ2)−n/2 exp
{
− (n−1)2σ2 S
2
x
}
exp
{
− n2σ2 (x̄− µ)
2
}
(2πσ2)−n/2 exp
{
− (n−1)2σ2 S2y
}
exp
{
− n2σ2 (ȳ − µ)2
} =
exp
{
1
2σ2
(
−n(x̄− µ)2 + n(ȳ − µ)2 − (n− 1)(S2x − S2y)
)}
=
exp
{
1
2σ2
(
−n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y)
)}
Esta expresión es constante como función de (µ, σ2) si y sólo si
−n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y) = 0,
y recordando que (n− 1)S2x =
∑n
i=1 x
2
i − nx̄2 eso ocurrirá si y sólo si
2nµ(x̄− ȳ)−
n∑
i=1
x2i +
n∑
i=1
y2i = 0, para todo µ,
pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)
es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y
sólo si
x̄ = ȳ y
n∑
i=1
x2i =
n∑
i=1
y2i ,
lo que equivale a decir, que
x̄ = ȳ y S2x = S
2
y .
Concluimos pues que (X̄, S2) es estad́ıstico minimal suficiente para (µ, σ2) cuan-
do muestreamos de una normal.
. .
Ejemplo 20.
Sea X1, . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Aśı,
f(x|θ) =
n∏
i=1
I[θ,θ+1](xi) = I[máxi xi−1,mı́ni xi](θ).
34 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Por el teorema de factorización, (T1(X), T2(X)) = (mı́niXi,máxiXi) es un
estad́ıstico suficiente para θ.
Para dos muestras x e y, el numerador y el denominador de f(x|θ)/f(y|θ)
serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y
máxi xi = máxi yi. En ese caso además el cociente valdrá 1, independientemente
del valor de θ. Aśı que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi
y máxi xi = máxi yi, luego (mı́niXi,máxiXi) es un estad́ıstico suficiente mini-
mal.
. .
Obsérvese que el estad́ıstico minimal no es único: cualquier transformación
biyectiva suya también es estad́ıstico minimal suficiente.
Se puede probar que siempre existen estad́ısticos suficientes minimales. Ver,
por ejemplo, el problema 15 del caṕıtulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristóbal (1992).
2.1.3. Estad́ısticos ancilares
Se define un estad́ıstico ancilar como aquel cuya distribución no de-
pende del parámetro θ. Los estad́ısticos ancilares son los que resumen la parte
de información de la muestra que no recogen los estad́ısticos minimales sufi-
cientes. A primera vista, parece que no deben aportar información relevante en
la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que
en combinación con otros estad́ısticos śı son útiles en la estimación de θ (ver
Casella-Berger, ejemplo 6.1.11).
Ejemplo 21.
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden de la
muestra.
El estad́ıstico Rango, definido como R = X(n)−X(1), sigue una distribución
Beta(n− 1, 2), sea cual sea el valor de θ, por lo que R es un estad́ıstico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de locali-
zación:
Sean X observaciones i.i.d. de una familia de localización con función de distri-
bución F (x−θ), −∞ < θ <∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden
de la muestra. Entonces la distribución del rango, definido comoR = X(n)−X(1),
no depende de θ por lo que es un estad́ıstico ancilar.
. .
2.1. PRINCIPIO DE SUFICIENCIA 35
Ejemplo 22.
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
Pθ(X = θ) = Pθ(X = θ + 1) = Pθ(X = θ + 2) =
1
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estad́ısticos de orden de la muestra. Puede demostrarse
que (R,M), con R = X(2) − X(1) y M = (X(1) + X(2))/2, es un estad́ıstico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r,m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m− 1 y X(2) = m+ 1 y, por lo tanto, θ = m− 1.
El saber el valor del estad́ıstico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habŕıamos tenido ninguna
información sobre θ.
. .
2.1.4. Estad́ısticos completos
Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un es-
tad́ıstico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es com-
pleta si se da la implicación siguiente:
Eθ(g(T )) = 0 para todo θ =⇒ Pθ(g(T ) = 0) = 1 para todo θ.
En ese caso diremos que T es un estad́ıstico completo.
Ejemplo 23.
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
0 = E(g(T )) =
n∑
t=0
g(t)
(
n
t
)
pt(1− p)n−t = (1− p)n
n∑
t=0
g(t)
(
n
t
)(
p
1− p
)t
.
Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0,∞) es
idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos:
g(t)
(
n
t
)
= 0, para todo t ∈ 0, 1, . . . , n
de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego
Pp(g(T ) = 0) = 1, para todo p,
36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
y la familia de distribuciones de T es completa.
. .
La definición de completitud refuerza la de suficiencia en el sentido de que
si un estad́ıstico es suficiente y completo entonces, por una parte, es suficiente
minimal (el rećıproco no es cierto) y, por otra, ese estad́ıstico es independiente
de cualquier estad́ıstico ancilar. Es decir, en el caso de que exista un estad́ıstico
suficiente y completo śı es cierta la idea intuitiva de que los estad́ıstico ancilares
no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre
si sólo se tienen estad́ısticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.
Teorema 12 (Teorema de Bahadur, 1954). Si T es un estad́ıstico suficiente y
completo para θ, entonces T es suficiente minimal.
La demostración puede encontrarse en Schervish (1995, p. 94). El rećıproco
no es cierto, como pone de manifiesto el siguiente ejemplo (Cristóbal1992, p.
200).
Ejemplo 24.
Sean X ∼ N(µ, σ2X) e Y ∼ N(µ, σ2Y ) variables aleatorias independientes. Del
teorema 11 se sigue que el estad́ıstico (X̄, Ȳ , S2X , S
2
Y ) es suficiente minimal para
θ = (µ, σ2X , σ
2
Y ) ∈ R× R+ × R+. Sin embargo no es completo, porque
Eθ(X̄ − Ȳ ) = 0 para todo θ
y sin embargo Pθ(X̄ = Ȳ ) = 0, para cualquier θ.
. .
Teorema 13 (Basu, 1955). Si T es un estad́ıstico suficiente y completo, y S es
un estad́ıstico ancilar, entonces T y S son independientes.
Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201. 2
Acabaremos esta sección dando un resultado que permite encontrar estad́ısti-
cos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14. Sea X variable aleatoria cuya distribución pertenece a la familia
exponencial y viene dada por la función de densidad (o de masa, según el caso)
f(x|θ) = h(x)c(θ) exp
 k∑
j=1
θjtj(x)
 , θ = (θ1, . . . , θk) ∈ Θ ⊆ Rk,
parametrizada de forma natural.
2.2. PRINCIPIO DE VEROSIMILITUD 37
Si el espacio paramétrico natural Θ contiene un abierto no vaćıo de Rk,
entonces el estad́ıstico
T (X) = (T1(X), . . . , Tk(X)), donde Tj(X) =
n∑
i=1
tj(Xi),
es estad́ıstico suficiente completo (y por lo tanto, minimal).
Demostración: La prueba de este resultado requiere técnicas de funciones
anaĺıticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garćıa-Nogales 1998 o 7.3.7 de
Cristóbal 1992. 2
Existe un resultado, conocido como el Teorema de Pitman-Koopman-Darmois
(el resultado fue publicado de forma independiente en tres art́ıculos práctica-
mente contemporáneos: Pitman en 1936, Koopman en 1936 y Darmois en 1935)
que puede considerarse el rećıproco del teorema anterior. Este resultado esta-
blece lo siguiente. Consideremos un modelo estad́ıstico paramétrico tal que el
soporte de las distribuciones no dependa del valor del parámetro. Si en el mues-
treo independiente idénticamente distribuido de ese modelo existe un estad́ıstico
suficiente cuya dimensión no cambie al aumentar el tamaño muestral, entonces
forzosamente el modelo paramétrico pertence a la familia exponencial.
Es decir, si el soporte de las distribuciones es el mismo para todos los valores
del parámetro y hacemos muestro aleatorio simple, las únicas distribuciones
para las cuales hay estad́ısticos suficientes de dimensión fija son de la familia
exponencial.
2.2. Principio de verosimilitud
Sea una muestra aleatoria simpleX = (X1, . . . , Xn) de una variable aleatoria
X y supongamos que se ha observado x. Llamamos función de verosimilitud
de la muestra a la función de densidad conjunta o a la función de masa de
probabilidad conjunta, según sea X continua o discreta, entendida ésta como
función del parámetro:
L(·|x) : Θ −→ R+
θ −→ L(θ|x) = f(x|θ)
La función de verosimilitud aśı definida puede entenderse como un estad́ıstico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x, la función de verosimilitud le asocia un
elemento del conjunto (R+)Θ de todas las funciones de Θ en R+, precisamente
L(·|x), la función de verosimilitud de esa muestra:
L : X −→ (R+)Θ
x −→ L(·|x)
38 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Aśı, L(X) es una función aleatoria de Θ en R. Por lo tanto, la función de vero-
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de
X (de dimensión n) a L(X) (de dimensión igual al cardinal de Θ, normalmente
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la fun-
ción de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expre-
sa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
L(θ|x) = C(x,y)L(θ|y), para todo θ,
donde C(x,y) es una función que puede depender de x e y pero no de θ, entonces
la inferencia que se haga sobre θ será la misma tanto si se observa x como si
se observa y.
Obsérvese que la verosimilitud de una muestra x en el caso discreto es la
colección de las probabilidades de haber observado x bajo los diferentes valores
de θ. Aśı, el cociente de dos valores de la verosimilitud
L(θ1|x)
L(θ2|x)
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2. En el caso
continuo esto es aproximadamente válido, si hablamos de la probabilidad de
observar valores en un entorno de x en lugar de la probabilidad de observar x:
Pθ1(X ∈ B(x, ε))
Pθ2(X ∈ B(x, ε))
≈ VolumenB(x, ε)f(x|θ1)
VolumenB(x, ε)f(x|θ2)
=
f(x|θ1)
f(x|θ2)
.
Si, por ejemplo, f(x|θ1)/f(x|θ2) = 2 podemos decir que θ1 es mucho más plausi-
ble (mucho más verosimil) que θ2. Aśı, la verosimilitud indica cómo de plausible
es un valor del parámetro θ1 en términos relativos (comparada esa plausibilidad
con la de otro valor de θ2).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,
L(θ1|x)
L(θ2|x)
=
C(x,y)L(θ1|y)
C(x,y)L(θ2|y)
=
L(θ1|y)
L(θ2|y)
,
2.2. PRINCIPIO DE VEROSIMILITUD 39
y por lo tanto, los valores de θ más verośımiles serán los mismos si se observa x
o y. Como consecuencia, x e y deben dar lugar a las mismas inferencias sobre
θ, como afirma el principio de verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimi-
litud son equivalentes.
Teorema 15. El principio de suficiencia y el principio de verosimilitud son
equivalentes.
Demostración: Suficiencia =⇒ Verosimilitud.
Veamos que la función de verosimilitud, vista como estad́ıstico L(X), es un
estad́ıstico suficiente. En efecto,
f(x|θ) = g(L(x)|θ)h(x),
donde h(x) = 1 y la función g(L(x)|θ) es la que devuelve el valor de L(x)
en el punto θ. Por el teorema de factorización L(X) es estad́ıstico suficiente.
Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de
la muestra X = (X1, . . . , Xn) sólo a través del valor L(X), lo cuál implica el
principio de verosimilitud.
Verosimilitud =⇒ Suficiencia.
Consideremos un estad́ıstico suficiente T (X) y dos valores muestrales x e y
tales que T (x) = T (y). Veamos que la inferencia sobre θ que se derive de x e
y ha de ser la misma (esta es otra forma de leer el principio de suficiencia). En
efecto, se tiene que
L(x|θ) = g(T (x)|θ)h(x) = g(T (y)|θ)h(x) =
g(T (y)|θ)h(y)h(x)
h(y)
= C(x,y)L(y|θ)
de donde se deduce por aplicación del principio de verosimilitud que la inferencia
que se haga sobre θ será la misma tanto si se observa x como si se observa y.
2
En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más deta-
llado sobre las implicaciones que existen entre estos y otros principios de re-
ducción de los datos. Las conclusiones a las que alĺı se llega implican que el
principio de verosimilitud es cierto también para inferencias hechas sobre un
mismo parámetro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
será la misma.
40 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
2.3. Lista de problemas
Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación

Continuar navegando

Materiales relacionados

24 pag.
Apuntes Econometría

User badge image

Central de Apuntes

222 pag.
Notas de Clases

User badge image

Central de Apuntes

175 pag.
09

SIN SIGLA

User badge image

Matiasestevez35