IyDapuntes

Estadística

•
SIN SIGLA

Mario Rosa
19/1/2024
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5547 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Curso de Inferencia y Decisión
Guadalupe Gómez y Pedro Delicado
Departament d’Estad́ıstica i Investigació Operativa
Universitat Politècnica de Catalunya
Enero de 2006
Índice abreviado
Caṕıtulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Caṕıtulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Caṕıtulo 3. Estimación puntual 1: Construcción de estimadores . 43
Caṕıtulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 85
Caṕıtulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Caṕıtulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Caṕıtulo 7. Introducción a la Teoŕıa de la Decisión . . . . . . . . . . . . . 213
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
i
Índice general
Índice abreviado I
Índice general II
Prólogo VII
1. Introducción 1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3
1.2.2. Distribución de una variable aleatoria. Funciones de dis-
tribución, de probabilidad y de densidad . . . . . . . . . . 4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 11
1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 11
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 12
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16
1.5. Leyes de los Grandes Números y Teorema Central del Ĺımite . . 18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18
1.5.2. Teorema central del ĺımite . . . . . . . . . . . . . . . . . . 19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
iv ÍNDICE GENERAL
2. Principios para reducir los datos 25
2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1. Estad́ısticos suficientes r-dimensionales . . . . . . . . . . 31
2.1.2. Estad́ısticos suficientes minimales . . . . . . . . . . . . . . 32
2.1.3. Estad́ısticos ancilares . . . . . . . . . . . . . . . . . . . . . 34
2.1.4. Estad́ısticos completos . . . . . . . . . . . . . . . . . . . . 35
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 37
2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. Estimación puntual 1: Construcción de estimadores 43
3.1. La función de distribución emṕırica y el método de los momentos 43
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 45
3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . . 49
3.1.3. El método de los momentos . . . . . . . . . . . . . . . . . 50
3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 52
3.2.1. Cálculo del estimador máximo verośımil . . . . . . . . . . 54
3.2.2. Cálculo numérico de los estimadores de máxima verosimi-
litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2.3. Principio de invariancia del estimador máximo verośımil . 68
3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 69
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 73
3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . 76
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 78
3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4. Estimación puntual 2: Evaluación de estimadores 85
4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 89
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 92
4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . . 94
4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 103
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 105
ÍNDICE GENERAL v
4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 112
4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 114
4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 122
4.4. Teoŕıa asintótica para el estimador máximo verośımil . . . . . . . 123
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5. Contrastes de hipótesis 139
5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 139
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 142
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 146
5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 147
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 148
5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin150
5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 153
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 155
5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 155
5.5.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . 157
5.5.2. Propiedades de los contrastes de razón de verosimilitudes 157
5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 161
5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 161
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 164
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 167
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 169
5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 170
5.7.3. Contraste de dos hipótesis compuestas. . . . . . . . . . . 170
5.7.4. Contraste de hipótesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 175
vi ÍNDICE GENERAL
6. Estimación por intervalos 181
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 181
6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 183
6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 183
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 187
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 191
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 193
6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 195
6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 195
6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 198
6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 200
6.4.1. Intervalos basados en el estimador de máxima verosimilitud201
6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 202
6.5. Lista de problemas . . . . . . .. . . . . . . . . . . . . . . . . . . 208
7. Introducción a la Teoŕıa de la Decisión 213
7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 213
7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 214
7.2. Teoŕıa de la decisión e inferencia estad́ıstica . . . . . . . . . . . . 216
7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 216
7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 219
7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 222
7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 224
7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 227
7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 227
7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 228
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 230
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Referencias 241
Prólogo
Este documento es el fruto de nuestra experiencia como docentes de la asig-
natura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estad́ısticas,
Universitat Politècnica de Catalunya) durante los cursos 99-03.
Cuando se preparó por primera vez la docencia de Inferencia y Decisión se
pensó en seguir lo más fielmente posible algún libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis-
tencia de libros en castellano o catalán dirigidos espećıficamente para alumnos
de Inferencia y Decisión, se optó por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio-
nes la necesidad de completarlo con otros libros. Ante esta situación (ausencia
de textos en castellano y cierta insatisfacción con el libro elegido) consideramos
conveniente escribir este documento. En él se recogen y ampĺıan los apuntes pre-
parados para las clases teóricas y las listas de problemas resueltas en las clases
prácticas.
El objetivo principal de la asignatura Inferencia y Decisión es proporcionar
una sólida base teórica de los fundamentos de la Inferencia Estad́ıstica y de la
Teoŕıa de la Decisión. Confiamos en que este Curso de Inferencia y Decisión
contribuya a lograrlo.
vii
Caṕıtulo 1
Introducción
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, caṕıtulo 3, 5.1, 5.2,
5.4.
En este curso de Inferencia y Decisión se desarrollan ideas y herramientas
matemáticas que la estad́ıstica utiliza para analizar datos. Se estudiarán técnicas
para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante
no perder de vista que en la aplicación de la estad́ıstica se necesita mucho más
que el conocimiento matemático. La recogida y la interpretación de los datos es
un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas.
Ejemplo 1.
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos d́ıas o más. Supongamos que podemos entrevistar a 20 estudian-
tes.
¿Qué se entiende por estudiante?
¿Cómo se puede asegurar que la muestra sea aleatoria?
¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing
data).
¿Dirán la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p?
En este caso el problema se plantea en términos de la variable aleatoria
X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p)
1
2 CAPÍTULO 1. INTRODUCCIÓN
y es un ejemplo de estimación en un contexto de inferencia paramétrica.
. .
Ejemplo 2.
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
card́ıacos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:
Sufren ataques No sufren Ataques por
card́ıacos ataques card́ıacos cada 1000 personas
Aspirina 104 10933 9.42
Placebo 189 10845 17.13
¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aqúı un problema de decisión o el contraste de
una hipótesis.
. .
1.1. Datos y modelos
Los datos que aparecen en los problemas estad́ısticos pueden suponerse pro-
venientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Término de acepción muy amplia que incluye cualquier proce-
dimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experi-
mento.
Ejemplo 3.
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podŕıa pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tra-
tados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser dif́ıcil obtener resultados extrapolables a toda la po-
blación. Seŕıa más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA 3
nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no respon-
de. En el primer caso el número de pacientes es variable y el espacio muestral
debeŕıa incluir las secuencias de todas las posibles longitudes (tantas como posi-
bles números de pacientes), mientras que en el segundo caso el espacio muestral
consistirá en las secuencias de longitud n.
. .
Definimos un modelo para un experimento como una colección de distribu-
ciones de probabilidad sobre el espacio muestral.
Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tamaño de la población
de referencia es mucho más grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {Pr(X1 = x1, . . . , Xn = xn) =
n∏
i=1
pxi(1− p)1−xi , 0 < p < 1}.
Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico
es {p : 0 < p < 1} ⊂ R.
Los problemas de inferencia en este modelo consistirán en hacer afirmacio-
nes (en forma de estimación puntual, estimación por intervalos o contrastes de
hipótesis) sobre cuán verośımiles son los posibles valores del parámetro p.
. .
1.2. Variable aleatoria
1.2.1. Variables y vectores aleatorios
Consideramos un experimento aleatorio cuyos resultados pertenecen al es-
pacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna
(Ω,A,Pr), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,
A ⊆ P(Ω) es una σ-álgebra, y Pr : A −→ [0, 1] es una medida de probabilidad
que refleja las caracteŕısticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representación numérica que facilita su tratamiento. Esto se
4 CAPÍTULO 1. INTRODUCCIÓN
hace mediante la definición de variables aleatorias. Dado un espacio de
probabilidad (Ω,A,Pr) y el espacio medible (R,B), donde B es la σ-álgebra de
Borel definida sobre la recta real R, una variable aleatoria es una función
X : Ω −→ R
medible, es decir, X−1(B) ∈ A para todo B ∈ B.
Si el espacio muestral Ω es finito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadasal experimento normalmente es-
tarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que
es un espacio continuo y X : Ω −→ R.
A partir de un mismo experimento se pueden definir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio
muestral asociado a este experimento es Ω = {CC,C+,+C,++}. Se pueden
definir diversas variables aleatorias:
X1 = número de caras, X2 = número de cruces,
X3 = cuadrado del número de caras = X
2
1 , etc.
Usualmente los datos están modelizados por un vector de variables aleatorias
X = (X1, . . . , Xn), donde las Xi toman valores en Z o en R. A X le llamaremos
vector aleatorio o también variable aleatoria multidimensional.
1.2.2. Distribución de una variable aleatoria. Funciones de
distribución, de probabilidad y de densidad
La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω
que es aleatorio. Por lo tanto X(ω) es un valor de R también aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en R. A esa medida
de probabilidad se le llama distribución de X o ley de X. Una de las formas
de caracterizar la distribución de una variable aleatoria es dar su función de
distribución FX , que está definida aśı:
FX(x) = Pr(X ≤ x) = Pr({ω ∈ Ω : X(ω) ≤ x}) = Pr(X−1(−∞, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X sólo tome una cantidad finita o numerable de valores de R, su
distribución también puede caracterizarse por su función de probabilidad
(o función de masa de probabilidad) fX , definida como
fX : R −→ [0, 1], fX(x) = Pr(X = x).
Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en
adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A
1.2. VARIABLE ALEATORIA 5
partir de la función de masa de probabilidad se puede calcular la probabilidad
de que la variable aleatoria X tome valores en cualquier elemento A de B:
Pr(X ∈ A) =
∑
x∈A
fX(x).
La función de distribución y la función de masa de probabilidad se relacionan
de la siguiente forma:
FX(x) =
∑
u≤x
fX(u), fX(x) = FX(x)− FX(x−),
donde FX(x
−) = ĺımh−→0+ F (x− h).
Una clase relevante de variables aleatorias no discretas son las que poseen
función de densidad, es decir, aquellas cuya distribución de probabilidad
puede caracterizarse por una función fX(x) ≥ 0 que cumple que
Pr(X ∈ A) =
∫
x∈A
fX(x)dx, para todo A ∈ B.
La relación entre FX y fX es la siguiente:
FX(x) =
∫ x
−∞
fX(u)du, fX(x) =
d
dx
FX(x)
salvo quizás en un número finito de puntos x ∈ R. Las variables aleatorias que
poseen función de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aqúı nos referiremos a ellas como variables
aleatorias continuas.
1.2.3. Esperanza y varianza
Si se desea describir totalmente la distribución de probabilidad de una varia-
ble aleatoria X acabamos de ver que podemos dar su función de distribución o
su función de masa o de densidad, según el caso. Una descripción parcial puede
efectuarse calculando algunas caracteŕısticas de la variable aleatoria X, como
por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
E(X) =
∫
Ω
X(w)dPr(w).
En el caso de variables aleatorias discretas la esperanza puede calcularse como
E(X) =
∑
w∈Ω
X(ω) Pr(ω) =
∑
k∈Z
kP (X = k) =
∑
k∈Z
kfX(k).
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
aśı:
E(X) =
∫
R
xfX(x)dx.
6 CAPÍTULO 1. INTRODUCCIÓN
La esperanza de una variable aleatoria X es una medida de posición de X: es
el centro de gravedad de la distribución de probabilidad de X.
Si h es una función medible h : R −→ R, entonces Y = h(X) es también
variable aleatoria y su esperanza se puede calcular a partir de la distribución de
X:
E(h(X)) =
∫
Ω
h(X(ω))dPr(ω)
que en el caso de que X sea discreta puede reescribirse como
E(h(X)) =
∑
k∈Z
h(k)fX(k).
Si X es una variable aleatoria continua entonces
E(h(X)) =
∫
R
h(x)fX(x)dx.
Si existe µ = E(X) y es finita puede definirse una medida de dispersión de
la variable aleatoria X a partir de una transformación h de X. Es lo que se
denomina varianza de X y se define aśı:
V (X) = E((X − µ)2) = E(X2)− µ2 = E(X2)− (E(X)2).
1.2.4. Muestra aleatoria simple
Sea X = (X1, . . . , Xn) un vector aleatorio. Se dice que sus componentes
(X1, . . . , Xn) son independientes si
P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X1 ≤ x1) · · ·P (Xn ≤ xn)
para cualesquiera valores x1, . . . , xn. Si además la distribución de las n variables
aleatorias Xi es la misma, se dice que X1, . . . , Xn son variables aleatorias
independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X = (X1, . . . , Xn) y X1, . . . , Xn son i.i.d. con función de densidad (en su
caso, de masa) fX , la distribución conjunta de X viene dada por la función de
densidad (en su caso, de masa) conjunta
fX(x) = f(X1,...,Xn)(x1, . . . , xn) = fX1(x1) · · · fXn(xn) =
n∏
i=1
fX(xi).
A un vector X = (X1, . . . , Xn) de v.a.i.i.d. con distribución igual a la de
la variable aleatoria X se le denomina también muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de-
sea estudiar la caracteŕıstica X de los individuos de una población de tamaño
infinito. Definimos el experimento consistente en elegir aleatoriamente un indi-
viduo de la población y llamamos X al valor de la caracteŕıstica de interés en
1.2. VARIABLE ALEATORIA 7
ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento
consistente en elegir una muestra aleatoria de n individuos y se anota Xi, el
valor de la caracteŕıstica en el individuo i-ésimo, entonces X = (X1, . . . , Xn) es
una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria
X, es decir, X1, . . . , Xn es una m.a.s. de X.
1.2.5. Modelo paramétrico
Usualmente la ley de probabilidad de una variable aleatoria se supone pertene-
ciente a un modelo matemático que depende sólo de un número finito de pará-
metros:
fX ∈ {f(x|θ) : θ ∈ Θ ⊆ Rk}.
Escribiremos alternativamente f(x; θ), f(x|θ) o fθ(x). El conjunto de distribu-
ciones dadas por fθ(x), θ ∈ Θ se llama familia paramétrica de distribucio-
nes. Θ es el conjunto de parámetros.
La correspondiente distribución conjunta de una muestra aleatoria simple de
X viene dada por la función de densidad (o función de masa de probabilidad,
según el caso)
fX(x|θ) =
n∏
i=1
fθ(xi).
A esta función la llamaremos función de verosimilitud de la muestra X.
Utilizaremos este término para referirnos indistintamente a la función de densi-
dad conjunta (si las variables aleatorias son continuas) o a la función de masa
conjunta (si son discretas).
Ejemplo 4.
Si X ∼ N(µ, σ2),
fX(x|µ, σ2) =
1√
2πσ2
e−
1
2σ2
(x−µ)2 .
La distribución de X es conocida salvo por dos parámetros, µ y σ2. En este caso
k = 2, θ = (µ, σ2)2 y Θ = R× R+ ⊂ R2.
La distribución conjunta de n v.a.i.i.d. con la misma distribución es
fX(x|µ, σ2) =
1
(2πσ2)n/2
e−
1
2σ2
∑n
i=1(xi−µ)
2
=
1
(2πσ2)n/2
e−
1
2σ2
||x−1nµ||2
donde 1n = (1, . . . , 1)
t ∈ Rn.
. .
8 CAPÍTULO 1. INTRODUCCIÓN
1.2.6. Sumas de variables aleatorias
Cuando se obtiene una muestra aleatoria simple X1, . . . , Xn normalmente se
calculan a partir de ellas cantidades que resumen los valores observados. Cual-
quiera de estos resúmenes se puede expresar como una función T (x1, . . . , xn) de-
finida en el espacio Xn ⊆ Rn donde están las imágenes del vector (X1, . . . , Xn).
Esta función T puede devolver valores de R, R2 o, en general, Rk.
Ejemplo 5.
T (X1, . . . , Xn) =
n∑
i=1
Xi, X̄, X̄ + 3, mı́n{X1, . . . , Xn}
T (X1, . . . , Xn) = (
n∑
i=1
Xi,
n∑
i=1
(Xi − X̄)2)
T (X1, . . . , Xn) = (mı́n{X1, . . . , Xn},
n∑
i=1
Xi,
n∑
i=1(Xi − X̄)2)
T (X1, . . . , Xn) = (X1, . . . , Xn)
. .
Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn
se llaman estad́ısticos. Dependen de los valores observados, pero no de los
parámetros desconocidos que determinan la distribución de Xi. Cuando un es-
tad́ıstico T es utilizado con el propósito de estimar un parámetro θ diremos que
T es un estimador de θ.
Ejemplo 6.
T (X1, . . . , Xn) = X̄ es un estimador de µ = E(X).
. .
En inferencia estad́ıstica interesa saber qué estad́ısticos son suficientes para
recoger toda la información que la muestra aporta sobre la distribución de la
variable aleatoria X muestreada. La respuesta depende de la distribución de X.
Dado que X = (X1, . . . , Xn) es una variable aleatoria, se tiene que Y =
T (X1, . . . , Xn) será también una variable aleatoria. La ley de probabilidad de Y
se denomina distribución en el muestreo de Y (o distribución muestral).
Los siguientes resultados dan información sobre algunas caracteŕısticas de
estad́ısticos definidos a partir de sumas de variables aleatorias.
Teorema 1. Sean x1, . . . , xn n números reales, sea x̄ =
1
n
∑n
i=1 xi su media
aritmética y sea S2 =
∑n
i=1(xi − x̄)2/(n− 1) su varianza muestral.
1.2. VARIABLE ALEATORIA 9
(a) mı́na
∑n
i=1(xi − a)2 =
∑n
i=1(xi − x̄)2.
(b) (n− 1)S2 =
∑n
i=1(xi − x̄)2 =
∑n
i=1 x
2
i − nx̄2.
Demostración:
(a)
n∑
i=1
(xi − a)2 =
n∑
i=1
(xi − x̄+ x̄− a)2 =
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 + 2
n∑
i=1
(xi − x̄)(x̄− a) =
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 + 2(x̄− a)
n∑
i=1
(xi − x̄) =
(observar que
∑n
i=1(xi − x̄) = 0)
n∑
i=1
(xi − x̄)2 +
n∑
i=1
(x̄− a)2 ≥
n∑
i=1
(xi − x̄)2.
Por lo tanto el mı́nimo se alcanza si a = x̄.
(b) Trivial.
2
Lema 1. Sea X1, . . . , Xn una muestra aleatoria simple de X y sea g(x) una
función tal que E(g(X)) y V (g(X)) existen. Entonces,
(a) E(
∑n
i=1 g(Xi)) = nE(g(X)),
(b) V (
∑n
i=1 g(Xi)) = nV (g(X)),
Demostración: (a) Trivial, por propiedades básicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(Xi) son independientes y
aplicando propiedades básicas del operador varianza. 2
Teorema 2. Sea X1, . . . , Xn una muestra aleatoria simple de una población X
con esperanza µ y varianza σ2 <∞. Sean
X̄ =
1
n
n∑
i=1
Xi, S
2 =
1
n− 1
n∑
i=1
(Xi − X̄)2,
la media y la varianza muestrales, respectivamente. Entonces,
(a) E(X̄) = µ,
(b) V (X̄) = σ2/n,
10 CAPÍTULO 1. INTRODUCCIÓN
(c) E(S2) = σ2.
Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
(n− 1)S2 =
n∑
i=1
X2i − nX̄2 =⇒ (n− 1)E(S2) = nE(X2)− nE(X̄2) =
n(V (X) + E(X)2)− n(V (X̄) + E(X̄)2) = nσ2 + nµ2 − n 1
n
σ2 − nµ2 =
(n− 1)σ2 =⇒ E(S2) = σ2.
2
El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de
la media muestral en función de la f.g.m. de la variable aleatoria muestreada.
Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar
completamente la distribución de la media muestral.
Teorema 3. Sea X1, . . . , Xn una muestra aleatoria simple de una población X
con función generatriz de momentos MX(t). La función generatriz de momentos
de X̄ es
MX̄(t) = (MX(t/n))
n
.
Demostración: La f.g.m. deX se define comoMX(t) = E(e
tX) para los valores
de t para los que esa esperanza existe. Aśı,
MX̄(t) = E
(
etX̄
)
= E
(
e
t
n
∑n
i=1 Xi
)
= E
(
n∏
i=1
e
t
nXi
)
=
(independencia de las v.a. Xi)
n∏
i=1
E
(
e
t
nXi
)
=
n∏
i=1
MXi(t/n) =
(las Xi son idénticamente distribuidas)
n∏
i=1
MX(t/n) = (MX(t/n))
n
.
2
Ejemplo 7.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2). Entonces,
MX(t) = exp(µt+
σ2t2
2
).
1.3. DOS FAMILIAS DE DISTRIBUCIONES IMPORTANTES 11
Aśı,
MX̄(t) =
(
exp(
µt
n
+
σ2(t/n)2
2
)
)n
= exp(µt+
σ2t2
2n
)
y, por tanto, X̄ ∼ N(µ, σ2/n).
. .
Ejemplo 8.
X1, . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,
fX(x) =
xα−1e−x/β
Γ(α)βα
, x > 0, E(X) = αβ, V (X) = αβ2,
MX(t) =
(
1
1− βt
)α
, t <
1
β
.
Aśı,
MX̄(t) =
((
1
1− βt/n
)α)n
=
(
1
1− (β/n)t
)αn
y, por lo tanto, X̄ ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Aśı que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá
E(X̄) = n
µ
n
= µ, V (X̄)n
µ2
n2
=
µ2
n
.
. .
Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien
porque la f.g.m resultante no se corresponde con ninguna distribución conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribución de la media muestral. En primer lugar, se puede
trabajar con la función caracteŕıstica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la función de densidad de la suma como
la convolución de las n funciones de densidad (ver el ejemplo de la distribución
de Cauchy, Casella-Berger, páginas 210-211).
1.3. Dos familias de distribuciones importantes
1.3.1. Familias de localización y escala
Sea Z una variable aleatoria con distribución conocida. A la colección de
distribuciones de probabilidad de las variables aleatoriasX que se pueden definir
12 CAPÍTULO 1. INTRODUCCIÓN
de la forma
X = µ+ σZ, µ, σ ∈ R σ > 0
se la denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es variable aleatoria absolutamente continua con función
de densidad f(x), la familia de funciones de densidad{
f(x|µ, σ) = 1
σ
f
(
x− µ
σ
)
: µ ∈ R, σ > 0
}
forman la familia de localización y escala de f(x).
El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si
µ > 0) o a la izquierda (si µ < 0).
Proposición 1.
(a) Z ∼ f(x) ⇐⇒ X = σZ + µ ∼ f(x|µ, σ).
(b) X ∼ f(x|µ, σ) ⇐⇒ X−µσ ∼ f(x).
Demostración: Trivial, aplicando la fórmula de la función de densidad de la
transformación biyectiva de una variable aleatoria univariante. 2
Ejemplo 9.
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U(a, b) también es una familia
de localización y escala. En este caso µ = (a+ b)/2 y σ = b− a podŕıan servir
como parámetros de posición y escala.
. .
Corolario 1. Sea Z1, . . . , Zn una m.a.s. de Z ∼ f(x) y sea X1, . . . , Xn una
m.a.s. de X ∼ f(x|µ, σ). Si la ley de Z̄ es g(z) entonces la ley de X̄ es 1σ g
(
x−µ
σ
)
.
Demostración: Observar que Xi ∼ σZi + µ, luego X̄ ∼ σZ̄ + µ. Aplicando la
proposición anterior se tiene el resultado. 2
1.3.2. Familias exponenciales
X pertenece a la familia exponencial si su función de densidad o función de
masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ Rp y puede escribirse
aśı:
f(x|θ) = h(x)c(θ) exp
 k∑
j=1
wj(θ)tj(x)

1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 13
para ciertas funciones h, c, wj y tj . Si p = k y wj(θ) = θj , j = 1, . . . , p, entonces
diremos que la familia exponencial está parametrizada de forma natural. En ese
caso, el espacio paramétrico natural de esa familia es el conjunto
Θ = {θ ∈ Rk :
∫ ∞
−∞
h(x) exp
 k∑
j=1
θjtj(x)
 dx <∞}.
Si X1, . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,
entonces
f(x1, . . . , xn|θ) =
(
n∏
i=1
h(xi)
)
(c(θ))
n
exp
 k∑
j=1
wj(θ)
n∑
i=1
tj(xi)
 .
Observar que si definimos Tj(X1, . . . , Xn) =
∑n
i=1 tj(Xi), j = 1, . . . , p, en-
tonces la distribución de (T1, . . . , Tk) viene dada por
fT (u1, . . . , uk|θ) = H(u1, . . . , uk) (c(θ))n exp
 k∑
j=1
wj(θ)uj
 ,
es decir, T también pertenece a la familia exponencial.
Ejemplo 10.
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, bi-
nomial negativa, exponencial, normal, gamma, beta.
. .
1.4. Muestreo de unadistribución normal
En el resto del tema supondremos que X1, . . . , Xn es una m.a.s. de una
N(µ, σ2).
Teorema 4 (Teorema de Fisher, 1920). (a) X̄ y S2n son variables aleatorias
independientes.
(b) X̄ ∼ N(µ, σ2/n).
(c) (n− 1)S2n/σ2 ∼ χ2n−1.
Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1,
puesto que la familia normal es una familia de posición y escala.
(b) Se ha demostrado en el ejemplo 7.
14 CAPÍTULO 1. INTRODUCCIÓN
(a) Obsérvese que
(n− 1)S2n =
n∑
i=1
(Xi − X̄)2 = (X1 − X̄)2 +
n∑
i=2
(Xi − X̄)2 =
(como
∑n
i=1(Xi − X̄) = 0)(
n∑
i=2
(Xi − X̄)
)2
+
n∑
i=2
(Xi − X̄)2
de donde se deduce que S2n es función de (X2 − X̄, . . . , Xn − X̄). Probaremos
ahora que (X2 − X̄, . . . , Xn − X̄) y X̄ son independientes, lo cuál implicará que
(a) es cierto.
Hacemos el cambio de variable
y1 = x̄
y2 = x2 − x̄
...
yn = xn − x̄
 =⇒
x1 = nx̄−
∑n
i=2 xi = x̄−
∑n
i=2(xi − x̄) = y1 −
∑n
i=2 yi
x2 = y2 + y1
...
xn = yn + y1
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
fY (y1 . . . , yn) = fX(y1 −
n∑
i=2
yi, y2 + y1, . . . , yn + y1)n =
(
1√
2π
)n
n exp
{
−1
2
(y1 −
n∑
i=2
yi)
2 − 1
2
n∑
i=2
(yi + y1)
2
}
(∗)
=
n
(
√
2π)n
exp
{
−1
2
ny21
}
exp
{
−1
2
(
n∑
i=2
y2i + (
n∑
i=2
yi)
2
)}
.
Por lo tanto Y1 es independiente de (Y2, . . . , Yn) y de aqúı se sigue que X̄ es
independiente de S2n.
(∗) Falta por justificar el paso marcado con un (∗):
(y1 −
n∑
i=2
yi)
2 +
n∑
i=2
(yi + y1)
2 =
y21 + (
n∑
i=2
yi)
2 − 2y1
n∑
i=2
yi +
n∑
i=2
y2i + (n− 1)y21 + 2y1
n∑
i=2
yi =
ny21 + (
n∑
i=2
yi)
2 +
n∑
i=2
y2i .
(c) La demostración de este apartado se seguirá mejor después del apartado
siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 15
Denotaremos por X̄n y por S
2
n, respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tamaño n.
En primer lugar probaremos que se verifica la siguiente fórmula recursiva:
(n− 1)S2n = (n− 2)S2n−1 +
n− 1
n
(Xn − X̄n−1)2.
En efecto,
(n− 1)S2n =
n∑
i=1
(Xi − X̄n)2 =
n−1∑
i=1
(Xi − X̄n−1 + X̄n−1 − X̄n)2 + (Xn − X̄n)2 =
(n− 2)S2n−1 + (n− 1)(X̄n−1 − X̄n)2 + (Xn − X̄n)2 = (∗)
(teniendo en cuenta que (n− 1)X̄n−1 = nX̄n −Xn =⇒ (n− 1)(X̄n−1 −Xn) =
n(X̄n−Xn) y que (n−1)(X̄n−1− X̄n) = (X̄n−Xn) = ((n−1)/n)(X̄n−1−Xn))
(∗) = (n− 2)S2n−1 + (n− 1)
1
n2
(X̄n−1 −Xn)2 +
(n− 1)2
n2
(X̄n−1 −Xn)2 =
(n− 2)S2n−1 +
n− 1
n
(Xn − X̄n−1)2.
Una vez probada la relación entre S2n y S
2
n−1 probaremos por inducción que
(n− 1)S2n/σ2 ∼ χ2n−1.
Para n = 2, la fórmula recursiva nos da
S22 =
1
2
(X2 −X1)2.
Como X1 y X2 son N(0, 1) independientes, entonces (X2 −X1)/
√
2 ∼ N(0, 1)
y de ah́ı que
S22 = ((X2 −X1)/
√
2)2 ∼ χ21,
con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k − 1)S2k/σ2 ∼ χ2k−1.
Probemos que es también cierto para n = k + 1. Observar que
kS2k+1 = (k − 1)S2k︸ ︷︷ ︸
∼χ2k−1
+
k
k + 1
(Xk+1 − X̄k)2.
Aśı, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1−X̄k)2 es
una χ21, puesto que esta variable es independiente de S
2
k, al ser X̄k independiente
de S2k (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razón, Xk+1 ∼ N(0, 1) es también independiente de X̄k ∼
N(0, 1/k). Aśı que
Xk+1 − X̄k ∼ N
(
0,
k + 1
k
)
=⇒
(√
k
k + 1
(Xk+1 − X̄k)
)2
∼ χ21
16 CAPÍTULO 1. INTRODUCCIÓN
que es precisamente lo que queŕıamos probar. 2
Existen demostraciones alternativas de este teorema basadas en la función
generatriz de momentos o en la función caracteŕıstica.
1.4.1. Distribuciones asociadas a la normal
En esta sección se recuerdan las definiciones de las leyes χ2, t de Student
y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger.
La ley χ2ν
Diremos queX tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es
fν(x) =
1
Γ(ν/2)2ν/2
x(ν/2)−1e−x/2, 0 < x <∞,
es decir, X ∼ γ(ν/2, 2).
Lema 2. (a) Si X ∼ N(µ, σ2) entonces
(X − µ)2
σ2
∼ χ21.
(b) Si X1, . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces
Y =
n∑
i=1
Xi ∼ χ2ν ,
donde ν =
∑n
i=1 νi.
(c) Sean X1, . . . , Xn variables aleatorias independientes e idénticamente dis-
tribuidas según una N(0, 1). La variable aleatoria
Y =
n∑
i=1
X2i ∼ χ2n.
(Nota: esta propiedad se usa a veces como definición de la distribución
χ2).
La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp, si su función de densidad es
fp(x) =
Γ((p+ 1)/2)
Γ(p/2)
1
√
πp
1
(1 + t2/p)(p+1)/2
, −∞ < x <∞.
Si p = 1 se trata de la distribución de Cauchy.
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 17
Lema 3. (a) Z ∼ N(0, 1), Y ∼ χ2p, Z e Y independientes, entonces,
X =
Z√
Y/p
∼ tp.
(Nota: esta propiedad se usa a veces como definición de la distribución t
de Student.)
(a) Sean X1, . . . , Xn una m.a.s. de una N(µ, σ
2). Entonces
X̄ − µ
S/
√
n
∼ tn−1.
La distribución t de Student no tiene f.g.m. porque no tiene momentos de
todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden
estrictamente inferior a p: existe E(Xα) para α < p.
Si X ∼ tp, entonces E(X) = 0 si p > 1 y V (X) = p/(p− 2) si p > 2.
La ley Fp,q
Diremos que X sigue una distribución F con p y q grados de libertad y
lo denotaremos X ∼ Fp,q, si su función de densidad es
fp,q(x) =
Γ
(
p+q
2
)
Γ
(
p
2
)
Γ
(
q
2
) (p
q
)p/2
x(p/2)−1(
1 + pqx
) p+q
2
, 0 < x <∞.
Lema 4. (a) Si U ∼ χ2p, V ∼ χ2q y U y V son independientes, entonces
X =
U/p
V/q
∼ Fp,q.
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
(b) Sean X1, . . . , Xn m.a.s. de N(µX , σ
2
X), Y1, . . . , Ym m.a.s. de N(µY , σ
2
Y ),
dos muestras independientes. Entonces
S2X/σ
2
X
S2Y /σ
2
Y
∼ Fn−1,m−1.
(c) Si X ∼ Fp,q, entonces X−1 ∼ Fq,p.
(d) Si X ∼ tp,entonces X2 ∼ F1,p.
(e) Si X ∼ Fp,q, entonces
p
q
X
1 + pqX
∼ Beta
(p
2
,
q
2
)
.
18 CAPÍTULO 1. INTRODUCCIÓN
(f) Si X ∼ Fn−1,m−1, entonces
E(X) = E
(
χ2n−1/(n− 1)
χ2m−1/(m− 1)
)
= E
(
χ2n−1
n− 1
)
E
(
m− 1
χ2m−1
)
=
(
n− 1
n− 1
)(
m− 1
m− 3
)
=
m− 1
m− 3
.
(g) Si las distribuciones de partida tienen simetŕıa esférica, entonces el co-
ciente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).
1.5. Leyes de los Grandes Números y Teorema
Central del Ĺımite
En esta sección se enuncian dos resultados fundamentales en inferencia es-
tad́ıstica: la Ley Fuerte de los Grandes Números y el Teorema Central del Ĺımite.
Dada una sucesión de variables aleatorias definidas sobre el mismo espacio
muestral, se llaman leyes de los grandes números a los resultados sobre
convergencia de las sucesiones de sus medias aritméticas a una constante. Se co-
noce como problema del ĺımite central el estudio de la convergencia débil
de la sucesión de medias muestrales centradas y tipificadas a una distribución
no degenerada.
1.5.1. Leyes de los grandes números
Se enuncia a continuación una versión de ley débil de los grandes núme-
ros que establece la convergencia en media cuadrática (y por tanto, en probabili-
dad) de la media aritmética de una sucesión de variables aleatorias incorreladas.
Teorema 5 (Ley débil de los grandes números). Sea {Xn}n∈N una sucesión de
variables aleatorias incorreladas con momentos de segundo orden acotados por
una constante C, independiente de n. Sea Sn =
∑n
i=1Xi. Entonces
E
(∣∣∣∣Sn − E(Sn)n
∣∣∣∣2
)
≤ C
n
y, como consecuencia
ĺım
n−→∞
Sn − E(Sn)
n
= 0
en el sentido de la convergencia en media cuadrática.
La demostración de este resultado puede verse, por ejemplo, en Sanz (1999).
Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuenciarelativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley débil de Bernoulli.
1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMACENTRAL DEL LÍMITE19
Los resultados que garantizan la convergencia casi segura de la media mues-
tral se conocen como leyes fuertes de los grandes números. Se enuncia
a continuación una ley fuerte para variables con segundos momentos finitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes números). Bajo las hipótesis del teorema
5 se tiene que
ĺım
n−→∞
Sn − E(Sn)
n
= 0
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostración de este resultado. En ese
mismo texto se recoge una versión más general de la ley fuerte de los grandes
números, conocida como ley fuerte de los grandes números de Kolmo-
gorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la
convergencia casi segura de la media muestral a la esperanza.
1.5.2. Teorema central del ĺımite
En esta sección se presenta el teorema central del ĺımite de Lévy-
Lindeberg, válido para sucesiones de variables aleatorias independientes e
idénticamente distribuidas con momento de segundo orden finito.
Teorema 7 (Teorema central del ĺımite). Sea {Xn}n∈N una sucesión de va-
riables aleatorias independientes e idénticamente distribuidas con momento de
segundo orden finito. Sea µ la esperanza común y σ2 la varianza común, que
supondremos estrictamente positiva. Sea Sn =
∑n
i=1Xi. Se tiene que
Sn − nµ
σ
√
n
−→D Z,
donde Z ∼ N(0, 1) y −→D indica convergencia en distribución.
Este resultado puede demostrarse utilizando funciones generadoras de moe-
mentos o funciones caracteŕısticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostración (más laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una versión más fuerte
del teorema central del ĺımite.
El Teorema de De Moivre-Laplace, que establece la convergencia débil de la
binomial tipificada a la normal estándar, es una aplicación directa del teorema
central del ĺımite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproxi-
mación de la binomial por la normal son la estimación del error de aproximar
la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en
encuestas.
20 CAPÍTULO 1. INTRODUCCIÓN
1.5.3. Versiones multivariantes
Se enuncian a continuación versiones multivariantes de la ley de los griandes
números y del teorema central del ĺımite.
Teorema 8. Sea {Xn}n∈N una sucesión de variables aleatorias p-dimensionales
independientes e idénticamente distribuidas. Sea X̄n el vector p-diemensional
media aritmética de las n primeras variables:
X̄n =
1
n
n∑
i=1
Xi.
Se tiene lo siguiente:
1. Si existe E(Xi) = µ, entonces X̄n converge a µ casi seguramente.
2. Si, además, Xi tiene matriz de varianza y covarianzas finita Σ, entonces
√
n(X̄n − µ) −→D Np(0,Σ).
La demostración de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribución multino-
mial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS 21
1.6. Lista de problemas
Variables aleatorias. Muestras
1. (Casella-Berger, 5.2) Sean X1, X2 . . . v.a.i.i.d. cada una de ellas con den-
sidad f(x). Supongamos que cada Xi mide la cantidad anual de precipita-
ciones en un determinado emplazamiento. Da la distribución del número
de años que transcurren hasta que las lluvias del primer año, X1, son
superadas por primera vez.
2. (Casella-Berger, 5.5) Sean X1, . . . , Xn v.a.i.i.d. con densidad fX(x). Sea
X̄ su media muestral. Prueba que
fX̄(x) = nfX1+···+Xn(nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1, . . . , Xn una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
X =
1
n
n∑
i=1
Xi, S
2 =
1
n− 1
n∑
i=1
(Xi − X̄)2.
a) Prueba que
S2 =
1
2n(n− 1)
n∑
i=1
n∑
j=1
(Xi −Xj)2.
Supongamos que E(X4) < ∞. Sean θ1 = E(X) y θj = E((X − θ1)j),
j = 2, 3, 4.
b) Prueba que
V (S2) =
1
n
(
θ4 −
n− 3
n− 1
θ22
)
.
c) Da la expresión de Cov(X̄, S2) en términos de θ1, . . . , θ4. ¿Bajo qué
condiciones son X̄ y S2 incorreladas?
d) Si la distribución de X es simétrica respecto de θ1, ¿es posible que la
covarianza de esos estad́ısticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1, ¿es posible que
la covarianza de esos estad́ısticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X̄n y S
2
n a la media y la varianza mues-
trales calculadas a partir de n observaciones X1, . . . , Xn. Supongamos que
se observa un nuevo valor Xn+1. Demuestra las siguientes fórmulas recur-
sivas.
a)
X̄n+1 =
1
n+ 1
(Xn+1 + nX̄n).
22 CAPÍTULO 1. INTRODUCCIÓN
b)
nS2n+1 = (n− 1)S2n +
n
n+ 1
(Xn+1 − X̄n)2.
5. (Casella-Berger, 5.18) Sean X̄1 y X̄2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ2. Halla el menor valor de n que garantiza que
P
(
|X̄1 − X̄2| <
σ
5
)
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Ĺımite. Comenta los resultados obtenidos.
6. (Casella-Berger, 5.29) Sean Xi ∼ N(i, i2), i = 1, 2, 3, tres variables aleato-
rias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a) χ23.
b) t2.
c) F1,2.
7. (Casella-Berger, 5.36) Sean Ui, i = 1, 2, . . . , variables aleatorias indepen-
dientes con distribución U(0, 1). Sea X una variable aleatoria con distri-
bución
P (X = x) =
1
(e− 1)x!
, x = 1, 2, 3, . . .
Da la distribución de
Z = mı́n{U1, . . . , UX}.
Indicación: Observar que Z|X = x es el primer estad́ıstico de orden de
una muestra de tamaño x de una U(0, 1).
8. (Casella-Berger, 5.37) SeaX1, . . . , Xn una muestra aleatoria simple de una
población con densidad
fX(x) =
1
θ
I(0,θ)(x).
Sean X(1), . . . , X(n) los estad́ısticos orden. Prueba que X(1)/X(n) y X(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-
nenciales y describe el espacio paramétrico natural de cada una de ellas.
a) Familia normal con alguno de los parámetros µ o σ conocidos.
1.6. LISTA DE PROBLEMAS 23
b) Familia gamma con alguno de los parámetros α o β conocidos.
c) Familia beta con alguno de los parámetros α o β conocidos.
d) Familia Poisson.
e) Binomial negativa con el parámetro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en térmi-
nos de su espacio paramétrico natural con densidad
f(x;η) = h(x)c(η) exp{
k∑
i=1
ηiti(x)}.
Prueba que
Eη(ti(X)) = −
∂
∂ηi
log(c(η)).
Indicación: Usa el hecho de que para una familia exponencial se tiene
que
∂j
∂ηji
∫ ∞
−∞
fη(x)dx =
∫ ∞
−∞
∂j
∂ηji
fη(x)dx.
12. Considera la familia de distribuciones normales con media θ y varianza
θ2, donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
13. Sean X1, . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia ex-
ponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ N(iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1, . . . , Xn v.a. independientes
tales que Xi ∼ Exp(1/(iθ)),E(Xi) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
Familias de localización y escala
17. (Casella-Berger, 3.31) Considera la función de densidad
f(x) =
63
4
(x6 − x8), −1 < x < 1.
Dibuja el gráfico de
1
σ
f
(
x− µ
σ
)
para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.
24 CAPÍTULO 1. INTRODUCCIÓN
a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.
18. (Casella-Berger, 3.32) Muestra que si f(x) es una función de densidad
simétrica alrededor de 0, entonces la mediana de la densidad
1
σ
f
(
x− µ
σ
)
es µ.
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f(z). Se
define zα como un número que satisface que
α = P (Z > zα) =
∫ ∞
zα
f(z)dz.
Sea X una variable aleatoria con densidad en la familia de localización y
escala de f
1
σ
f
(
x− µ
σ
)
y sea xα = µ + σzα. Prueba que P (X > xα) = α. (Nota: Aśı, los valo-
res de xα se calculan fácilmente para cualquier miembro de la familia de
localización y escala si se dispone de una tabla de valores zα.)
20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad
f(x) =
1
π(1 + x2)
, x ∈ R,
y la familia de localización y escala definida a partir de ella: X tiene
distribución de Cauchy con parámetros µ y σ si su densidad es
f(x;µ, σ) =
σ
π(σ2 + (x− µ)2)
, x ∈ R.
No existen la esperanza ni la varianza de estas distribuciones, luego µ
y σ2 no son la media y la varianza. No obstante, tienen un importante
significado.
a) Prueba que µ es la mediana de X.
b) Prueba que µ− σ y µ+ σ son los cuartiles primero y tercero, respec-
tivamente, de X.
21. (Casella-Berger, 3.35) Sea f(x) una función de densidad con media µ y
varianza σ2. Indica cómo crear una familia de localización y escala basada
en f(x) tal que la densidad estándar de la familia, f∗(x), tenga esperanza
0 y varianza 1.
Caṕıtulo 2
Principios para reducir los
datos
Referencias: Casella-Berger, caṕıtulo 6. En algunos puntos se han
seguido también Cristóbal (1992) (caṕıtulo 7), Schervish (1995)
(caṕıtulo 2) y Garćıa-Nogales (1998) (caṕıtulo 3).
El uso de cualquier estad́ıstico T (X) implica una reducción de los datos
muestrales. Sea X = (X1, . . . , Xn) una muestra aleatoria simple (un vector
aleatorio) y sean x = (x1, . . . , xn), y = (y1, . . . , yn) muestras observadas (reali-
zaciones de X). Si decidimos usar el estad́ıstico T (X) en vez de toda la muestra,
serán tratadas igual dos muestras observadas cualesquiera x, y, siempre que
T (x) = T (y). Es decir, al usar el estad́ıstico T , en lugar de toda la muestra,
se pierde información. Se plantea aśı el problema de buscar estad́ısticos T tales
que la información que se pierde al usarlos sea irrelevante para los fines que nos
hayamos marcado.
Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio
X, reducir los datos en términos de un estad́ıstico T es equivalente a dar una
partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X}, la
imagen de X mediante el estad́ıstico T . Entonces {At = T−1(t) : t ∈ T } es
una partición de X inducida por T . Al observar x y limitarnos a registrar el
valor de T (x), podremos saber que hemos observado un elemento de AT (x), pero
desconoceremos cuál de ellos.
Ejemplo 11.
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
X = {x = (x1, . . . , xn) : xi ∈ {0, 1}}.
Se define T (x) =
∑n
i=1 xi. Entonces
T = {0, 1, 2, . . . , n}.
25
26 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
El estad́ıstico T ha creado una partición en X de forma que todas aquellas
secuencias de resultados con igual número de unos están en la misma clase:
At = {x = (x1, . . . , xn) ∈ T :
n∑
i=1
xi = t}.
No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.
. .
En este tema estudiaremos dos principios para reducir los datos que garan-
tizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aqúı (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene dis-
tribución perteneciente a una familia paramétrica:
X ∼ {f(x|θ), θ ∈ Θ ⊆ Rk}.
Se supondrá además que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estad́ısticos.
2.1. Principio de suficiencia
Un estad́ıstico T es suficiente para un parámetro θ si captura toda la in-
formación que sobre θ contiene la muestra. Cualquier información adicional (es
decir, aparte del valor del estad́ıstico T ) que la muestra pueda aportar, no pro-
porciona información relevante sobre θ. Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estad́ıstico suficiente para θ, cualquier inferencia sobre θ ha de de-
pender de la muestra X = (X1, . . . , Xn) sólo a través del valor T (X). Es decir,
si x e y son tales que T (x) = T (y), entonces la inferencia que se haga sobre θ
será la misma tanto si se observa x como si se observa y.
Formalmente, diremos que un estad́ıstico T es suficiente para θ si la dis-
tribución condicionada de X dado el valor T (X), no depende de θ.
Ejemplo 12.
Veamos, en el caso discreto, que la información que sobre un parámetro aporta
un estad́ıstico suficiente es toda la información que aportaŕıa la muestra com-
pleta. En primer lugar, si t es uno de los posibles valores de T (X), es decir, si
2.1. PRINCIPIO DE SUFICIENCIA 27
Pθ(T (X) = t) > 0, entonces
Pθ(X = x|T (X) = t) =
{
Pθ(X = x|T (X) = T (x)) si T (x) = t
0 si T (x) ̸= t
Aśı que sólo son de interés las probabilidades condicionadas Pθ(X = x|T (X) =
T (x)). Si T es suficiente estas probabilidades no dependen de θ, luego,
Pθ(X = x|T (X) = T (x)) = P (X = x|T (X) = T (x))
para todo θ. En este sentido entendemos que T captura toda la información
sobre θ.
Supongamos que dos cient́ıficos se interesan por la variable aleatoria X cuya
distribución depende del parámetro desconocido θ. Supongamos además que el
primer cient́ıfico observa toda una muestra x de X, mientras que el segundo
sólo puede estudiar el fenómeno a través de una revista que publica el valor
del estad́ıstico suficiente T (x). La cuestión relevante entonces es saber si ambos
cient́ıficos tienen o no la misma información sobre θ. Veamos que aśı es.
Como P (X = x|T (X) = T (x)) no depende de θ, esta distribución condi-
cional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cient́ıficos conocen
P (X = y|T (X) = T (x)), para todo y ∈ AT (x) = {y : T (y) = T (x)}.
Si el segundo cient́ıfico quisiera, podŕıa generar un vector aleatorio Y siguiendo
esa distribución y se satisfaŕıa que
P (Y = y|T (X) = T (x)) = P (X = y|T (X) = T (x)), para todo y ∈ AT (x)
Por lo tanto X e Y tendŕıan la misma distribución condicionada a que T (X) =
T (x). Además, ambas variables tienen la misma distribución incondicional:
Pθ(X = x) = Pθ(X = x, T (X) = T (x)) =
(porque {X = x} ⊆ {T (X) = T (x)})
Pθ(X = x|T (X) = T (x))Pθ(T (X) = T (x)) =
Pθ(Y = x|T (X) = T (x))Pθ(T (X) = T (x)) =
Pθ(Y = x, T (X) = T (x)) =
(teniendo en cuenta que {Y = x} ⊆ {T (X) = T (x)})
Pθ(Y = x)
Por lo tanto el segundo cient́ıfico ha podido observar una variable aleatoria Y
que tiene la misma distribución que la variable aleatoria X que observó el pri-
mer cient́ıfico, y ambos cient́ıficos obtienen el mismo valor del estad́ıstico T a
partir de sus respectivas observaciones. Por lo tanto, ambos cient́ıficos tienen la
misma información.
. .
28 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Teorema 9. Si f(x|θ) es la verosimilitud de un vector aleatorio X y q(t|θ)es la verosimilitud (función de densidad o de masa) de un estad́ıstico T (X), se
tiene la siguiente equivalencia. T (X) es un estad́ıstico suficiente para θ si y sólo
si para cada x del espacio muestral X el cociente
f(x|θ)
q(T (x)|θ)
no depende de θ.
Demostración: Haremos la prueba para el caso discreto. El caso continuo no
presenta dificultades adicionales.
Veamos primero que si f(x|θ)/q(T (x)|θ) no depende de θ entonces T es
suficiente. Si t es uno de los posibles valores de T (X), es decir, si Pθ(T (X) =
t) > 0, entonces
Pθ(X = x|T (X) = t) =
{
Pθ(X = x|T (X) = T (x)) si T (x) = t
0 si T (x) ̸= t
Luego si T (x) ̸= t la función de masa de probabilidad condicionada vale 0 y, no
depende de θ. En el otro caso,
Pθ(X = x|T (X) = T (x)) =
Pθ(X = x, T (X) = T (x))
Pθ(T (X) = T (x))
=
Pθ(X = x)
Pθ(T (X) = T (x))
=
f(x|θ)
q(T (x)|θ)
que tampoco depende de θ, de donde se sigue que T es suficiente.
Para probar el rećıproco, basta con leer la igualdad anterior en orden inverso,
f(x|θ)
q(T (x)|θ)
= Pθ(X = x|T (X) = T (x)),
que no depende de θ si T es suficiente. 2
Ejemplo 13.
Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
estad́ıstico T (X) = X1 + · · ·+Xn ∼ B(n, θ) es suficiente para θ:
f(x|θ)
q(T (x)|θ)
=
∏n
i=1 θ
xi(1− θ)1−xi(
n
t
)
θt(1− θ)n−t
=
(donde se ha definido t =
∑n
i=1 xi)
θt(1− θ)n−t(
n
t
)
θt(1− θ)n−t
=
1(
n
t
)
que no depende de θ.
. .
2.1. PRINCIPIO DE SUFICIENCIA 29
Ejemplo 14.
Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ N(µ, σ2), σ2 conocido.
El estad́ıstico T (X) = X̄ ∼ N(µ, σ2/n) es suficiente para µ:
f(x|θ)
q(T (x)|θ)
=
(2πσ2)−n/2 exp
{
− 12σ2
∑n
i=1(xi − µ)2
}
n1/2(2πσ2)−1/2 exp
{
− n2σ2 (x̄− µ)2
} =
(2πσ2)−n/2 exp
{
− 12σ2
(∑n
i=1(xi − x̄)2 + n(x̄− µ)2
)}
n1/2(2πσ2)−1/2 exp
{
− n2σ2 (x̄− µ)2
} =
(2πσ2)−n/2 exp
{
− 12σ2
∑n
i=1(xi − x̄)2
}
n1/2(2πσ2)−1/2
=
(2πσ2)−(n−1)/2n−1/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
,
que no depende de µ.
. .
El teorema 9 es útil para comprobar si un estad́ıstico es suficiente, pero no lo
es para buscar estad́ısticos suficientes. El siguiente teorema śı podrá usarse para
este cometido: permite encontrar estad́ısticos suficientes mediante la inspección
de la función de densidad o la función de masa de probabilidad, según el caso.
Teorema 10 (Teorema de Factorización: Fisher 1922, Neyman 1935). Sea
f(x|θ) la verosimilitud de X = (X1, . . . , Xn). El estad́ıstico T (X) es suficiente
para θ si y sólo si existen funciones g(t|θ) y h(x) tales que para cualquier x ∈ X
y cualquier θ ∈ Θ la función f(x|θ) puede factorizarse aśı:
f(x|θ) = g(T (x)|θ)h(x).
Demostración: (En el caso discreto). Supongamos primero que T es suficiente.
Tomemos g(t|θ) = Pθ(T (X) = t) y h(x) = Pθ(X = x|T (X) = T (x)), que no
depende de θ al ser T suficiente. Con esta elección,
f(x|θ) = Pθ(X = x) = Pθ(X = x, T (X) = T (x)) =
Pθ(X = x|T (X) = T (x))Pθ(T (X) = t) = g(T (x)|θ)h(x).
Veamos ahora el rećıproco. Supongamos que f(x|θ) = g(T (x)|θ)h(x) y que
q(t|θ) es la función de masa de probabilidad de T (X). Entonces,
f(x|θ)
q(t|θ)
=
f(x|θ)∑
y∈AT (x) f(y|θ)
=
30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
g(T (x)|θ)h(x)∑
y∈AT (x) g(T (y)|θ)h(y)
=
g(T (x)|θ)h(x)∑
y∈AT (x) g(T (x)|θ)h(y)
=
h(x)∑
y∈AT (x) h(y)
,
que es independiente de θ. Luego T es suficiente para θ. 2
(Nota: la demostración para el caso continuo puede verse, por ejemplo, en
Lehmann 1986 o en Cristóbal (1992), p. 173.)
Según el Teorema 10, para encontrar un estad́ıstico suficiente se factoriza la
función de densidad (o la de masa) en dos partes: una, h(x), que no contenga al
parámetro θ, y la otra que dependa de la muestra sólo a través de una función
suya T (x). El estad́ıstico suficiente será entonces T (X).
Ejemplo 15.
Sea X ∼ U{1, 2, . . . , θ} y X1, . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
f(x|θ) = 1
θ
I{1,2,...,θ}(x)
donde IA(x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
f(x1, . . . , xn|θ) =
1
θn
n∏
i=1
I{1,2,...,θ}(xi) =
1
θn
(
n∏
i=1
IN−{0}(xi)
)(
n∏
i=1
I(−∞,θ](xi)
)
=
1
θn
(
n∏
i=1
IN−{0}(xi)
)(
n∏
i=1
I[xi,∞)(θ)
)
=
1
θn
I(máx{xi:1≤i≤n},∞)(θ)︸ ︷︷ ︸
g(t|θ), donde t=máxi xi
(
n∏
i=1
IN−{0}(xi)
)
︸ ︷︷ ︸
h(x)
. .
Ejemplo 16.
Sea X ∼ N(µ, σ2), σ2 conocida. Entonces la verosimilitud de una muestra es
f(x|µ) = (2πσ2)−n/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
︸ ︷︷ ︸
h(x)
exp
{
− n
2σ2
(x̄− µ)2
}
︸ ︷︷ ︸
g(t|µ), donde t=x̄
Por lo tanto T (X) = X̄ es estad́ıstico suficiente para µ.
Obsérvese que
∑n
i=1Xi = nX̄ también es estad́ıstico suficiente: podŕıa defi-
nirse h(x) como antes y g(t|µ) = exp
{
−(n/(2σ2))(t/n− µ)2
}
.
. .
2.1. PRINCIPIO DE SUFICIENCIA 31
En general, si T (X) es estad́ıstico suficiente para θ y τ : T −→ S es una
transformación biyectiva del espacio donde toma valores T , se tiene que S(X) =
τ(T (X)) también es estad́ıstico suficiente para θ:
f(x|θ) = g(T (x)|θ)h(x) = g(τ−1(S(x))|θ)h(x) = g∗(S(x)|θ)h(x),
de donde se deduce que S(X) también es estad́ıstico suficiente. La función
g∗(s|θ) es g∗(s|θ) = g(τ−1(s)|θ).
2.1.1. Estad́ısticos suficientes r-dimensionales
Hasta ahora hemos visto únicamente estad́ısticos suficientes con valores reales,
es decir, unidimensionales. Sin embargo, en la aplicación del teorema de facto-
rización puede ocurrir que la función g(t|θ) dependa de la muestra a través de
más de una función suya. En ese caso la colección de esas funciones, digamos
T (X) = (T1(X), . . . , Tr(X)), es un estad́ıstico suficiente r-dimensional. Las
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidi-
mensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estad́ıstico suficiente.
Ejemplo 17.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos: θ =
(µ, σ2). Aśı,
f(x|µ, σ2) = (2πσ2)−n/2 exp
{
− 1
2σ2
n∑
i=1
(xi − x̄)2
}
exp
{
− n
2σ2
(x̄− µ)2
}
.
Sean T1(x) = x̄ y T2(x) = S
2 = (
∑n
i=1(xi − x̄)2)/(n− 1). Entonces,
f(x|µ, σ2) = (2πσ2)−n/2 exp
{
− (n− 1)
2σ2
T2(x)
}
exp
{
− n
2σ2
(T1(x)− µ)2
}
=
g(T1(x), T2(x)|µ, σ2)
y tomando h(x) = 1 se tiene la factorización de f(x|µ, σ2) que implica que
T (X) = (T1(X), T2(X)) = (X̄, S
2) es un estad́ıstico suficiente para (µ, σ2) en
la distribución normal. Es un estad́ıstico bivariante.
Obsérvese que el hecho de que un estad́ıstico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ2). Sin embargo, si no estamos seguros
de la normalidad de los datos no debeŕıamos conformarnos con conocer única-
mente la media y la varianza muestral.
. .
32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
2.1.2. Estad́ısticos suficientes minimales
La factorización de la función de verosimilitud no es única y como conse-
cuencia de ello, tampoco es único el estad́ıstico suficiente para un parámetro.
Ya vimos que cualquier transformación biyectiva de un estad́ıstico suficiente da
lugar a otro estad́ıstico suficiente. Pero aún hay muchos más estad́ısticos sufi-
cientes. Por ejemplo, la muestra completa X también es estad́ıstico suficiente
para el parámetro:
f(x|θ) = g(x|θ)h(x),
donde h(x) = 1, T (x) = x y g(x|θ) = f(x|θ).
Un estad́ıstico suficiente T (X) se llama minimal si para cualquier otro es-
tad́ıstico S(X) se tiene que T (X) es función de S(X). Es decir, si ocurre que
S(x) = S(y) entonces forzosamente se tiene que T (x) = T (y). Otra forma de
expresar esto es la siguiente: sea {At : t ∈ T } la partición del espacio muestral
inducida por el estad́ıstico T y sea {Bs : s ∈ S} la partición inducida por S;para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At. La partición inducida por
cualquier estad́ıstico suficiente es más fina que la inducida por el estad́ıstico
suficiente minimal.
Ejemplo 18.
X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos. Hemos
visto en el ejemplo 17 que (T1(X), T2(X)) = (X̄, S
2) es un estad́ıstico suficiente
para (µ, σ2).
Suponemos ahora que σ2 es conocido. Vimos en el ejemplo 14 que T1(X) = X̄
es estad́ıstico suficiente para µ. Pero también es cierto que (T1(X), T2(X)) =
(X̄, S2) es suficiente para µ. Claramente T1(X) consigue una mejor reducción
de los datos que (T1(X), T2(X)). Podemos escribir T1(X) como función de
(T1(X), T2(X)): T1(X) = τ(T1(X), T2(X)) donde τ(a, b) = a.
Dado que tanto T1(X) como (T1(X), T2(X)) son suficientes para µ, am-
bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral
S2 = T2(X) no aporta ninguna información sobre la media µ cuando σ
2 es
conocida.
. .
El siguiente teorema proporciona un método para encontrar el estad́ıstico
suficiente minimal.
Teorema 11. Sea fX(x|θ) la función de verosimilitud conjunta de X (discreta
o continua). Supongamos que existe una función T (x) tal que para cualquier
par de elementos del espacio muestral x, y, el cociente
fX(x|θ)
fX(y|θ)
2.1. PRINCIPIO DE SUFICIENCIA 33
es constante como función de θ, si y sólo si T (x) = T (y). Entonces T (x) es
estad́ıstico suficiente minimal para θ.
Demostración: Casella-Berger, p. 255 2
Ejemplo 19.
Sea X = (X1, . . . , Xn) m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconoci-
dos. Sean x e y dos muestras observadas y sean (x̄, S2x), (ȳ, S
2
y) las correspon-
dientes medias y varianzas muestrales. Recordando la factorización de f(x|µ, σ2)
que vimos en el ejemplo 17, se tiene que
fX(x|θ)
fX(y|θ)
=
(2πσ2)−n/2 exp
{
− (n−1)2σ2 S
2
x
}
exp
{
− n2σ2 (x̄− µ)
2
}
(2πσ2)−n/2 exp
{
− (n−1)2σ2 S2y
}
exp
{
− n2σ2 (ȳ − µ)2
} =
exp
{
1
2σ2
(
−n(x̄− µ)2 + n(ȳ − µ)2 − (n− 1)(S2x − S2y)
)}
=
exp
{
1
2σ2
(
−n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y)
)}
Esta expresión es constante como función de (µ, σ2) si y sólo si
−n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y) = 0,
y recordando que (n− 1)S2x =
∑n
i=1 x
2
i − nx̄2 eso ocurrirá si y sólo si
2nµ(x̄− ȳ)−
n∑
i=1
x2i +
n∑
i=1
y2i = 0, para todo µ,
pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)
es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y
sólo si
x̄ = ȳ y
n∑
i=1
x2i =
n∑
i=1
y2i ,
lo que equivale a decir, que
x̄ = ȳ y S2x = S
2
y .
Concluimos pues que (X̄, S2) es estad́ıstico minimal suficiente para (µ, σ2) cuan-
do muestreamos de una normal.
. .
Ejemplo 20.
Sea X1, . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Aśı,
f(x|θ) =
n∏
i=1
I[θ,θ+1](xi) = I[máxi xi−1,mı́ni xi](θ).
34 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Por el teorema de factorización, (T1(X), T2(X)) = (mı́niXi,máxiXi) es un
estad́ıstico suficiente para θ.
Para dos muestras x e y, el numerador y el denominador de f(x|θ)/f(y|θ)
serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y
máxi xi = máxi yi. En ese caso además el cociente valdrá 1, independientemente
del valor de θ. Aśı que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi
y máxi xi = máxi yi, luego (mı́niXi,máxiXi) es un estad́ıstico suficiente mini-
mal.
. .
Obsérvese que el estad́ıstico minimal no es único: cualquier transformación
biyectiva suya también es estad́ıstico minimal suficiente.
Se puede probar que siempre existen estad́ısticos suficientes minimales. Ver,
por ejemplo, el problema 15 del caṕıtulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristóbal (1992).
2.1.3. Estad́ısticos ancilares
Se define un estad́ıstico ancilar como aquel cuya distribución no de-
pende del parámetro θ. Los estad́ısticos ancilares son los que resumen la parte
de información de la muestra que no recogen los estad́ısticos minimales sufi-
cientes. A primera vista, parece que no deben aportar información relevante en
la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que
en combinación con otros estad́ısticos śı son útiles en la estimación de θ (ver
Casella-Berger, ejemplo 6.1.11).
Ejemplo 21.
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden de la
muestra.
El estad́ıstico Rango, definido como R = X(n)−X(1), sigue una distribución
Beta(n− 1, 2), sea cual sea el valor de θ, por lo que R es un estad́ıstico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de locali-
zación:
Sean X observaciones i.i.d. de una familia de localización con función de distri-
bución F (x−θ), −∞ < θ <∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden
de la muestra. Entonces la distribución del rango, definido comoR = X(n)−X(1),
no depende de θ por lo que es un estad́ıstico ancilar.
. .
2.1. PRINCIPIO DE SUFICIENCIA 35
Ejemplo 22.
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
Pθ(X = θ) = Pθ(X = θ + 1) = Pθ(X = θ + 2) =
1
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estad́ısticos de orden de la muestra. Puede demostrarse
que (R,M), con R = X(2) − X(1) y M = (X(1) + X(2))/2, es un estad́ıstico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r,m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m− 1 y X(2) = m+ 1 y, por lo tanto, θ = m− 1.
El saber el valor del estad́ıstico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habŕıamos tenido ninguna
información sobre θ.
. .
2.1.4. Estad́ısticos completos
Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un es-
tad́ıstico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es com-
pleta si se da la implicación siguiente:
Eθ(g(T )) = 0 para todo θ =⇒ Pθ(g(T ) = 0) = 1 para todo θ.
En ese caso diremos que T es un estad́ıstico completo.
Ejemplo 23.
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
0 = E(g(T )) =
n∑
t=0
g(t)
(
n
t
)
pt(1− p)n−t = (1− p)n
n∑
t=0
g(t)
(
n
t
)(
p
1− p
)t
.
Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0,∞) es
idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos:
g(t)
(
n
t
)
= 0, para todo t ∈ 0, 1, . . . , n
de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego
Pp(g(T ) = 0) = 1, para todo p,
36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
y la familia de distribuciones de T es completa.
. .
La definición de completitud refuerza la de suficiencia en el sentido de que
si un estad́ıstico es suficiente y completo entonces, por una parte, es suficiente
minimal (el rećıproco no es cierto) y, por otra, ese estad́ıstico es independiente
de cualquier estad́ıstico ancilar. Es decir, en el caso de que exista un estad́ıstico
suficiente y completo śı es cierta la idea intuitiva de que los estad́ıstico ancilares
no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre
si sólo se tienen estad́ısticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.
Teorema 12 (Teorema de Bahadur, 1954). Si T es un estad́ıstico suficiente y
completo para θ, entonces T es suficiente minimal.
La demostración puede encontrarse en Schervish (1995, p. 94). El rećıproco
no es cierto, como pone de manifiesto el siguiente ejemplo (Cristóbal1992, p.
200).
Ejemplo 24.
Sean X ∼ N(µ, σ2X) e Y ∼ N(µ, σ2Y ) variables aleatorias independientes. Del
teorema 11 se sigue que el estad́ıstico (X̄, Ȳ , S2X , S
2
Y ) es suficiente minimal para
θ = (µ, σ2X , σ
2
Y ) ∈ R× R+ × R+. Sin embargo no es completo, porque
Eθ(X̄ − Ȳ ) = 0 para todo θ
y sin embargo Pθ(X̄ = Ȳ ) = 0, para cualquier θ.
. .
Teorema 13 (Basu, 1955). Si T es un estad́ıstico suficiente y completo, y S es
un estad́ıstico ancilar, entonces T y S son independientes.
Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201. 2
Acabaremos esta sección dando un resultado que permite encontrar estad́ısti-
cos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14. Sea X variable aleatoria cuya distribución pertenece a la familia
exponencial y viene dada por la función de densidad (o de masa, según el caso)
f(x|θ) = h(x)c(θ) exp
 k∑
j=1
θjtj(x)
 , θ = (θ1, . . . , θk) ∈ Θ ⊆ Rk,
parametrizada de forma natural.
2.2. PRINCIPIO DE VEROSIMILITUD 37
Si el espacio paramétrico natural Θ contiene un abierto no vaćıo de Rk,
entonces el estad́ıstico
T (X) = (T1(X), . . . , Tk(X)), donde Tj(X) =
n∑
i=1
tj(Xi),
es estad́ıstico suficiente completo (y por lo tanto, minimal).
Demostración: La prueba de este resultado requiere técnicas de funciones
anaĺıticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garćıa-Nogales 1998 o 7.3.7 de
Cristóbal 1992. 2
Existe un resultado, conocido como el Teorema de Pitman-Koopman-Darmois
(el resultado fue publicado de forma independiente en tres art́ıculos práctica-
mente contemporáneos: Pitman en 1936, Koopman en 1936 y Darmois en 1935)
que puede considerarse el rećıproco del teorema anterior. Este resultado esta-
blece lo siguiente. Consideremos un modelo estad́ıstico paramétrico tal que el
soporte de las distribuciones no dependa del valor del parámetro. Si en el mues-
treo independiente idénticamente distribuido de ese modelo existe un estad́ıstico
suficiente cuya dimensión no cambie al aumentar el tamaño muestral, entonces
forzosamente el modelo paramétrico pertence a la familia exponencial.
Es decir, si el soporte de las distribuciones es el mismo para todos los valores
del parámetro y hacemos muestro aleatorio simple, las únicas distribuciones
para las cuales hay estad́ısticos suficientes de dimensión fija son de la familia
exponencial.
2.2. Principio de verosimilitud
Sea una muestra aleatoria simpleX = (X1, . . . , Xn) de una variable aleatoria
X y supongamos que se ha observado x. Llamamos función de verosimilitud
de la muestra a la función de densidad conjunta o a la función de masa de
probabilidad conjunta, según sea X continua o discreta, entendida ésta como
función del parámetro:
L(·|x) : Θ −→ R+
θ −→ L(θ|x) = f(x|θ)
La función de verosimilitud aśı definida puede entenderse como un estad́ıstico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x, la función de verosimilitud le asocia un
elemento del conjunto (R+)Θ de todas las funciones de Θ en R+, precisamente
L(·|x), la función de verosimilitud de esa muestra:
L : X −→ (R+)Θ
x −→ L(·|x)
38 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Aśı, L(X) es una función aleatoria de Θ en R. Por lo tanto, la función de vero-
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de
X (de dimensión n) a L(X) (de dimensión igual al cardinal de Θ, normalmente
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la fun-
ción de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expre-
sa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
L(θ|x) = C(x,y)L(θ|y), para todo θ,
donde C(x,y) es una función que puede depender de x e y pero no de θ, entonces
la inferencia que se haga sobre θ será la misma tanto si se observa x como si
se observa y.
Obsérvese que la verosimilitud de una muestra x en el caso discreto es la
colección de las probabilidades de haber observado x bajo los diferentes valores
de θ. Aśı, el cociente de dos valores de la verosimilitud
L(θ1|x)
L(θ2|x)
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2. En el caso
continuo esto es aproximadamente válido, si hablamos de la probabilidad de
observar valores en un entorno de x en lugar de la probabilidad de observar x:
Pθ1(X ∈ B(x, ε))
Pθ2(X ∈ B(x, ε))
≈ VolumenB(x, ε)f(x|θ1)
VolumenB(x, ε)f(x|θ2)
=
f(x|θ1)
f(x|θ2)
.
Si, por ejemplo, f(x|θ1)/f(x|θ2) = 2 podemos decir que θ1 es mucho más plausi-
ble (mucho más verosimil) que θ2. Aśı, la verosimilitud indica cómo de plausible
es un valor del parámetro θ1 en términos relativos (comparada esa plausibilidad
con la de otro valor de θ2).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,
L(θ1|x)
L(θ2|x)
=
C(x,y)L(θ1|y)
C(x,y)L(θ2|y)
=
L(θ1|y)
L(θ2|y)
,
2.2. PRINCIPIO DE VEROSIMILITUD 39
y por lo tanto, los valores de θ más verośımiles serán los mismos si se observa x
o y. Como consecuencia, x e y deben dar lugar a las mismas inferencias sobre
θ, como afirma el principio de verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimi-
litud son equivalentes.
Teorema 15. El principio de suficiencia y el principio de verosimilitud son
equivalentes.
Demostración: Suficiencia =⇒ Verosimilitud.
Veamos que la función de verosimilitud, vista como estad́ıstico L(X), es un
estad́ıstico suficiente. En efecto,
f(x|θ) = g(L(x)|θ)h(x),
donde h(x) = 1 y la función g(L(x)|θ) es la que devuelve el valor de L(x)
en el punto θ. Por el teorema de factorización L(X) es estad́ıstico suficiente.
Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de
la muestra X = (X1, . . . , Xn) sólo a través del valor L(X), lo cuál implica el
principio de verosimilitud.
Verosimilitud =⇒ Suficiencia.
Consideremos un estad́ıstico suficiente T (X) y dos valores muestrales x e y
tales que T (x) = T (y). Veamos que la inferencia sobre θ que se derive de x e
y ha de ser la misma (esta es otra forma de leer el principio de suficiencia). En
efecto, se tiene que
L(x|θ) = g(T (x)|θ)h(x) = g(T (y)|θ)h(x) =
g(T (y)|θ)h(y)h(x)
h(y)
= C(x,y)L(y|θ)
de donde se deduce por aplicación del principio de verosimilitud que la inferencia
que se haga sobre θ será la misma tanto si se observa x como si se observa y.
2
En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más deta-
llado sobre las implicaciones que existen entre estos y otros principios de re-
ducción de los datos. Las conclusiones a las que alĺı se llega implican que el
principio de verosimilitud es cierto también para inferencias hechas sobre un
mismo parámetro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
será la misma.
40 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
2.3. Lista de problemas
Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación