Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Curso de Inferencia y Decisión Guadalupe Gómez y Pedro Delicado Departament d’Estad́ıstica i Investigació Operativa Universitat Politècnica de Catalunya Enero de 2006 Índice abreviado Caṕıtulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Caṕıtulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25 Caṕıtulo 3. Estimación puntual 1: Construcción de estimadores . 43 Caṕıtulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 85 Caṕıtulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Caṕıtulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Caṕıtulo 7. Introducción a la Teoŕıa de la Decisión . . . . . . . . . . . . . 213 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 i Índice general Índice abreviado I Índice general II Prólogo VII 1. Introducción 1 1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3 1.2.2. Distribución de una variable aleatoria. Funciones de dis- tribución, de probabilidad y de densidad . . . . . . . . . . 4 1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5 1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6 1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7 1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8 1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 11 1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 11 1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 12 1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13 1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16 1.5. Leyes de los Grandes Números y Teorema Central del Ĺımite . . 18 1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18 1.5.2. Teorema central del ĺımite . . . . . . . . . . . . . . . . . . 19 1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20 1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21 iii iv ÍNDICE GENERAL 2. Principios para reducir los datos 25 2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.1. Estad́ısticos suficientes r-dimensionales . . . . . . . . . . 31 2.1.2. Estad́ısticos suficientes minimales . . . . . . . . . . . . . . 32 2.1.3. Estad́ısticos ancilares . . . . . . . . . . . . . . . . . . . . . 34 2.1.4. Estad́ısticos completos . . . . . . . . . . . . . . . . . . . . 35 2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 37 2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3. Estimación puntual 1: Construcción de estimadores 43 3.1. La función de distribución emṕırica y el método de los momentos 43 3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 45 3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . . 49 3.1.3. El método de los momentos . . . . . . . . . . . . . . . . . 50 3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 52 3.2.1. Cálculo del estimador máximo verośımil . . . . . . . . . . 54 3.2.2. Cálculo numérico de los estimadores de máxima verosimi- litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.2.3. Principio de invariancia del estimador máximo verośımil . 68 3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 69 3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 69 3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 73 3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . 76 3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 78 3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4. Estimación puntual 2: Evaluación de estimadores 85 4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . 85 4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 89 4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 92 4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . . 94 4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 103 4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 105 ÍNDICE GENERAL v 4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 112 4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 114 4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 122 4.4. Teoŕıa asintótica para el estimador máximo verośımil . . . . . . . 123 4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5. Contrastes de hipótesis 139 5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 139 5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 140 5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 142 5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 146 5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 147 5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 148 5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin150 5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 153 5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 155 5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 155 5.5.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . 157 5.5.2. Propiedades de los contrastes de razón de verosimilitudes 157 5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 161 5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 161 5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 164 5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 167 5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 169 5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 170 5.7.3. Contraste de dos hipótesis compuestas. . . . . . . . . . . 170 5.7.4. Contraste de hipótesis nula simple frente a alternativa compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 175 vi ÍNDICE GENERAL 6. Estimación por intervalos 181 6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 181 6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 183 6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 183 6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 187 6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 191 6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 193 6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 195 6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 195 6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 198 6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 200 6.4.1. Intervalos basados en el estimador de máxima verosimilitud201 6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 202 6.5. Lista de problemas . . . . . . .. . . . . . . . . . . . . . . . . . . 208 7. Introducción a la Teoŕıa de la Decisión 213 7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 213 7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 214 7.2. Teoŕıa de la decisión e inferencia estad́ıstica . . . . . . . . . . . . 216 7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 216 7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 219 7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 222 7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 224 7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 227 7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 227 7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 228 7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 230 7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Referencias 241 Prólogo Este documento es el fruto de nuestra experiencia como docentes de la asig- natura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estad́ısticas, Universitat Politècnica de Catalunya) durante los cursos 99-03. Cuando se preparó por primera vez la docencia de Inferencia y Decisión se pensó en seguir lo más fielmente posible algún libro de texto que por contenidos y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis- tencia de libros en castellano o catalán dirigidos espećıficamente para alumnos de Inferencia y Decisión, se optó por usar como texto de referencia el libro de Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio- nes la necesidad de completarlo con otros libros. Ante esta situación (ausencia de textos en castellano y cierta insatisfacción con el libro elegido) consideramos conveniente escribir este documento. En él se recogen y ampĺıan los apuntes pre- parados para las clases teóricas y las listas de problemas resueltas en las clases prácticas. El objetivo principal de la asignatura Inferencia y Decisión es proporcionar una sólida base teórica de los fundamentos de la Inferencia Estad́ıstica y de la Teoŕıa de la Decisión. Confiamos en que este Curso de Inferencia y Decisión contribuya a lograrlo. vii Caṕıtulo 1 Introducción Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, caṕıtulo 3, 5.1, 5.2, 5.4. En este curso de Inferencia y Decisión se desarrollan ideas y herramientas matemáticas que la estad́ıstica utiliza para analizar datos. Se estudiarán técnicas para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante no perder de vista que en la aplicación de la estad́ıstica se necesita mucho más que el conocimiento matemático. La recogida y la interpretación de los datos es un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas. Ejemplo 1. Se desea estimar la proporción de estudiantes universitarios que no se duchan desde hace dos d́ıas o más. Supongamos que podemos entrevistar a 20 estudian- tes. ¿Qué se entiende por estudiante? ¿Cómo se puede asegurar que la muestra sea aleatoria? ¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing data). ¿Dirán la verdad? Problema de error de medida (measurement error). Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos satisfechos con el estimador que obtengamos? Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p? En este caso el problema se plantea en términos de la variable aleatoria X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p) 1 2 CAPÍTULO 1. INTRODUCCIÓN y es un ejemplo de estimación en un contexto de inferencia paramétrica. . . Ejemplo 2. Estudio de la aspirina. Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques card́ıacos se desarrolló un estudio controlado entre médicos (aproximadamente 22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un placebo durante cinco años. Los resultados del estudio fueron los siguientes: Sufren ataques No sufren Ataques por card́ıacos ataques card́ıacos cada 1000 personas Aspirina 104 10933 9.42 Placebo 189 10845 17.13 ¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque de corazón? Se plantea aqúı un problema de decisión o el contraste de una hipótesis. . . 1.1. Datos y modelos Los datos que aparecen en los problemas estad́ısticos pueden suponerse pro- venientes de un experimento, es decir, son valores en un espacio muestral. Experimento: Término de acepción muy amplia que incluye cualquier proce- dimiento que produce datos. Espacio muestral: Conjunto de todos los posibles resultados de un experi- mento. Ejemplo 3. Se desea estudiar la proporción de enfermos que responde positivamente a una nueva terapia. Se podŕıa pensar en administrar la medicina a todos los enfermos que lo deseen y utilizar como resultado del estudio las respuestas de los pacientes tra- tados con la nueva terapia, aunque esta muestra responde a un experimento no controlado y puede ser dif́ıcil obtener resultados extrapolables a toda la po- blación. Seŕıa más aconsejable identificar la población a la que está dirigida la 1.2. VARIABLE ALEATORIA 3 nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población relevante con la nueva medicina. En los dos casos el espacio muestral es una secuencia de responde/no respon- de. En el primer caso el número de pacientes es variable y el espacio muestral debeŕıa incluir las secuencias de todas las posibles longitudes (tantas como posi- bles números de pacientes), mientras que en el segundo caso el espacio muestral consistirá en las secuencias de longitud n. . . Definimos un modelo para un experimento como una colección de distribu- ciones de probabilidad sobre el espacio muestral. Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que responden positivamente a la nueva terapia. Hay una probabilidad p de observar una respuesta positiva en cada caso muestreado. Si el tamaño de la población de referencia es mucho más grande que el de la muestra, n, es razonable suponer que las respuestas de los individuos son independientes. Entonces el modelo es P = {Pr(X1 = x1, . . . , Xn = xn) = n∏ i=1 pxi(1− p)1−xi , 0 < p < 1}. Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico es {p : 0 < p < 1} ⊂ R. Los problemas de inferencia en este modelo consistirán en hacer afirmacio- nes (en forma de estimación puntual, estimación por intervalos o contrastes de hipótesis) sobre cuán verośımiles son los posibles valores del parámetro p. . . 1.2. Variable aleatoria 1.2.1. Variables y vectores aleatorios Consideramos un experimento aleatorio cuyos resultados pertenecen al es- pacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna (Ω,A,Pr), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω, A ⊆ P(Ω) es una σ-álgebra, y Pr : A −→ [0, 1] es una medida de probabilidad que refleja las caracteŕısticas aleatorias del experimento realizado. A esa terna se le llama espacio de probabilidad. Los resultados de un experimento aleatorio no son analizados en bruto, sino que se les da una representación numérica que facilita su tratamiento. Esto se 4 CAPÍTULO 1. INTRODUCCIÓN hace mediante la definición de variables aleatorias. Dado un espacio de probabilidad (Ω,A,Pr) y el espacio medible (R,B), donde B es la σ-álgebra de Borel definida sobre la recta real R, una variable aleatoria es una función X : Ω −→ R medible, es decir, X−1(B) ∈ A para todo B ∈ B. Si el espacio muestral Ω es finito o numerable, diremos que es un espacio discreto y las variables aleatorias asociadasal experimento normalmente es- tarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que es un espacio continuo y X : Ω −→ R. A partir de un mismo experimento se pueden definir diferentes variables aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio muestral asociado a este experimento es Ω = {CC,C+,+C,++}. Se pueden definir diversas variables aleatorias: X1 = número de caras, X2 = número de cruces, X3 = cuadrado del número de caras = X 2 1 , etc. Usualmente los datos están modelizados por un vector de variables aleatorias X = (X1, . . . , Xn), donde las Xi toman valores en Z o en R. A X le llamaremos vector aleatorio o también variable aleatoria multidimensional. 1.2.2. Distribución de una variable aleatoria. Funciones de distribución, de probabilidad y de densidad La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω que es aleatorio. Por lo tanto X(ω) es un valor de R también aleatorio. Es decir, la variable aleatoria X induce una medida de probabilidad en R. A esa medida de probabilidad se le llama distribución de X o ley de X. Una de las formas de caracterizar la distribución de una variable aleatoria es dar su función de distribución FX , que está definida aśı: FX(x) = Pr(X ≤ x) = Pr({ω ∈ Ω : X(ω) ≤ x}) = Pr(X−1(−∞, x]). En el caso de que X sea una variable aleatoria discreta, es decir, en el caso de que X sólo tome una cantidad finita o numerable de valores de R, su distribución también puede caracterizarse por su función de probabilidad (o función de masa de probabilidad) fX , definida como fX : R −→ [0, 1], fX(x) = Pr(X = x). Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A 1.2. VARIABLE ALEATORIA 5 partir de la función de masa de probabilidad se puede calcular la probabilidad de que la variable aleatoria X tome valores en cualquier elemento A de B: Pr(X ∈ A) = ∑ x∈A fX(x). La función de distribución y la función de masa de probabilidad se relacionan de la siguiente forma: FX(x) = ∑ u≤x fX(u), fX(x) = FX(x)− FX(x−), donde FX(x −) = ĺımh−→0+ F (x− h). Una clase relevante de variables aleatorias no discretas son las que poseen función de densidad, es decir, aquellas cuya distribución de probabilidad puede caracterizarse por una función fX(x) ≥ 0 que cumple que Pr(X ∈ A) = ∫ x∈A fX(x)dx, para todo A ∈ B. La relación entre FX y fX es la siguiente: FX(x) = ∫ x −∞ fX(u)du, fX(x) = d dx FX(x) salvo quizás en un número finito de puntos x ∈ R. Las variables aleatorias que poseen función de densidad se llaman variables aleatorias absolutamente continuas. Abusando del lenguaje, aqúı nos referiremos a ellas como variables aleatorias continuas. 1.2.3. Esperanza y varianza Si se desea describir totalmente la distribución de probabilidad de una varia- ble aleatoria X acabamos de ver que podemos dar su función de distribución o su función de masa o de densidad, según el caso. Una descripción parcial puede efectuarse calculando algunas caracteŕısticas de la variable aleatoria X, como por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas. Se define la esperanza de una variable aleatoria X como la integral de Lebesgue de X: E(X) = ∫ Ω X(w)dPr(w). En el caso de variables aleatorias discretas la esperanza puede calcularse como E(X) = ∑ w∈Ω X(ω) Pr(ω) = ∑ k∈Z kP (X = k) = ∑ k∈Z kfX(k). Por otro lado, la esperanza de una variable aleatoria continua se puede calcular aśı: E(X) = ∫ R xfX(x)dx. 6 CAPÍTULO 1. INTRODUCCIÓN La esperanza de una variable aleatoria X es una medida de posición de X: es el centro de gravedad de la distribución de probabilidad de X. Si h es una función medible h : R −→ R, entonces Y = h(X) es también variable aleatoria y su esperanza se puede calcular a partir de la distribución de X: E(h(X)) = ∫ Ω h(X(ω))dPr(ω) que en el caso de que X sea discreta puede reescribirse como E(h(X)) = ∑ k∈Z h(k)fX(k). Si X es una variable aleatoria continua entonces E(h(X)) = ∫ R h(x)fX(x)dx. Si existe µ = E(X) y es finita puede definirse una medida de dispersión de la variable aleatoria X a partir de una transformación h de X. Es lo que se denomina varianza de X y se define aśı: V (X) = E((X − µ)2) = E(X2)− µ2 = E(X2)− (E(X)2). 1.2.4. Muestra aleatoria simple Sea X = (X1, . . . , Xn) un vector aleatorio. Se dice que sus componentes (X1, . . . , Xn) son independientes si P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X1 ≤ x1) · · ·P (Xn ≤ xn) para cualesquiera valores x1, . . . , xn. Si además la distribución de las n variables aleatorias Xi es la misma, se dice que X1, . . . , Xn son variables aleatorias independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o simplemente i.i.d. Si X = (X1, . . . , Xn) y X1, . . . , Xn son i.i.d. con función de densidad (en su caso, de masa) fX , la distribución conjunta de X viene dada por la función de densidad (en su caso, de masa) conjunta fX(x) = f(X1,...,Xn)(x1, . . . , xn) = fX1(x1) · · · fXn(xn) = n∏ i=1 fX(xi). A un vector X = (X1, . . . , Xn) de v.a.i.i.d. con distribución igual a la de la variable aleatoria X se le denomina también muestra aleatoria simple de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de- sea estudiar la caracteŕıstica X de los individuos de una población de tamaño infinito. Definimos el experimento consistente en elegir aleatoriamente un indi- viduo de la población y llamamos X al valor de la caracteŕıstica de interés en 1.2. VARIABLE ALEATORIA 7 ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento consistente en elegir una muestra aleatoria de n individuos y se anota Xi, el valor de la caracteŕıstica en el individuo i-ésimo, entonces X = (X1, . . . , Xn) es una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria X, es decir, X1, . . . , Xn es una m.a.s. de X. 1.2.5. Modelo paramétrico Usualmente la ley de probabilidad de una variable aleatoria se supone pertene- ciente a un modelo matemático que depende sólo de un número finito de pará- metros: fX ∈ {f(x|θ) : θ ∈ Θ ⊆ Rk}. Escribiremos alternativamente f(x; θ), f(x|θ) o fθ(x). El conjunto de distribu- ciones dadas por fθ(x), θ ∈ Θ se llama familia paramétrica de distribucio- nes. Θ es el conjunto de parámetros. La correspondiente distribución conjunta de una muestra aleatoria simple de X viene dada por la función de densidad (o función de masa de probabilidad, según el caso) fX(x|θ) = n∏ i=1 fθ(xi). A esta función la llamaremos función de verosimilitud de la muestra X. Utilizaremos este término para referirnos indistintamente a la función de densi- dad conjunta (si las variables aleatorias son continuas) o a la función de masa conjunta (si son discretas). Ejemplo 4. Si X ∼ N(µ, σ2), fX(x|µ, σ2) = 1√ 2πσ2 e− 1 2σ2 (x−µ)2 . La distribución de X es conocida salvo por dos parámetros, µ y σ2. En este caso k = 2, θ = (µ, σ2)2 y Θ = R× R+ ⊂ R2. La distribución conjunta de n v.a.i.i.d. con la misma distribución es fX(x|µ, σ2) = 1 (2πσ2)n/2 e− 1 2σ2 ∑n i=1(xi−µ) 2 = 1 (2πσ2)n/2 e− 1 2σ2 ||x−1nµ||2 donde 1n = (1, . . . , 1) t ∈ Rn. . . 8 CAPÍTULO 1. INTRODUCCIÓN 1.2.6. Sumas de variables aleatorias Cuando se obtiene una muestra aleatoria simple X1, . . . , Xn normalmente se calculan a partir de ellas cantidades que resumen los valores observados. Cual- quiera de estos resúmenes se puede expresar como una función T (x1, . . . , xn) de- finida en el espacio Xn ⊆ Rn donde están las imágenes del vector (X1, . . . , Xn). Esta función T puede devolver valores de R, R2 o, en general, Rk. Ejemplo 5. T (X1, . . . , Xn) = n∑ i=1 Xi, X̄, X̄ + 3, mı́n{X1, . . . , Xn} T (X1, . . . , Xn) = ( n∑ i=1 Xi, n∑ i=1 (Xi − X̄)2) T (X1, . . . , Xn) = (mı́n{X1, . . . , Xn}, n∑ i=1 Xi, n∑ i=1(Xi − X̄)2) T (X1, . . . , Xn) = (X1, . . . , Xn) . . Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn se llaman estad́ısticos. Dependen de los valores observados, pero no de los parámetros desconocidos que determinan la distribución de Xi. Cuando un es- tad́ıstico T es utilizado con el propósito de estimar un parámetro θ diremos que T es un estimador de θ. Ejemplo 6. T (X1, . . . , Xn) = X̄ es un estimador de µ = E(X). . . En inferencia estad́ıstica interesa saber qué estad́ısticos son suficientes para recoger toda la información que la muestra aporta sobre la distribución de la variable aleatoria X muestreada. La respuesta depende de la distribución de X. Dado que X = (X1, . . . , Xn) es una variable aleatoria, se tiene que Y = T (X1, . . . , Xn) será también una variable aleatoria. La ley de probabilidad de Y se denomina distribución en el muestreo de Y (o distribución muestral). Los siguientes resultados dan información sobre algunas caracteŕısticas de estad́ısticos definidos a partir de sumas de variables aleatorias. Teorema 1. Sean x1, . . . , xn n números reales, sea x̄ = 1 n ∑n i=1 xi su media aritmética y sea S2 = ∑n i=1(xi − x̄)2/(n− 1) su varianza muestral. 1.2. VARIABLE ALEATORIA 9 (a) mı́na ∑n i=1(xi − a)2 = ∑n i=1(xi − x̄)2. (b) (n− 1)S2 = ∑n i=1(xi − x̄)2 = ∑n i=1 x 2 i − nx̄2. Demostración: (a) n∑ i=1 (xi − a)2 = n∑ i=1 (xi − x̄+ x̄− a)2 = n∑ i=1 (xi − x̄)2 + n∑ i=1 (x̄− a)2 + 2 n∑ i=1 (xi − x̄)(x̄− a) = n∑ i=1 (xi − x̄)2 + n∑ i=1 (x̄− a)2 + 2(x̄− a) n∑ i=1 (xi − x̄) = (observar que ∑n i=1(xi − x̄) = 0) n∑ i=1 (xi − x̄)2 + n∑ i=1 (x̄− a)2 ≥ n∑ i=1 (xi − x̄)2. Por lo tanto el mı́nimo se alcanza si a = x̄. (b) Trivial. 2 Lema 1. Sea X1, . . . , Xn una muestra aleatoria simple de X y sea g(x) una función tal que E(g(X)) y V (g(X)) existen. Entonces, (a) E( ∑n i=1 g(Xi)) = nE(g(X)), (b) V ( ∑n i=1 g(Xi)) = nV (g(X)), Demostración: (a) Trivial, por propiedades básicas del operador esperanza. (b) Trivial, observando que las variables aleatorias g(Xi) son independientes y aplicando propiedades básicas del operador varianza. 2 Teorema 2. Sea X1, . . . , Xn una muestra aleatoria simple de una población X con esperanza µ y varianza σ2 <∞. Sean X̄ = 1 n n∑ i=1 Xi, S 2 = 1 n− 1 n∑ i=1 (Xi − X̄)2, la media y la varianza muestrales, respectivamente. Entonces, (a) E(X̄) = µ, (b) V (X̄) = σ2/n, 10 CAPÍTULO 1. INTRODUCCIÓN (c) E(S2) = σ2. Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas de la esperanza y la varianza. (c) (n− 1)S2 = n∑ i=1 X2i − nX̄2 =⇒ (n− 1)E(S2) = nE(X2)− nE(X̄2) = n(V (X) + E(X)2)− n(V (X̄) + E(X̄)2) = nσ2 + nµ2 − n 1 n σ2 − nµ2 = (n− 1)σ2 =⇒ E(S2) = σ2. 2 El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de la media muestral en función de la f.g.m. de la variable aleatoria muestreada. Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar completamente la distribución de la media muestral. Teorema 3. Sea X1, . . . , Xn una muestra aleatoria simple de una población X con función generatriz de momentos MX(t). La función generatriz de momentos de X̄ es MX̄(t) = (MX(t/n)) n . Demostración: La f.g.m. deX se define comoMX(t) = E(e tX) para los valores de t para los que esa esperanza existe. Aśı, MX̄(t) = E ( etX̄ ) = E ( e t n ∑n i=1 Xi ) = E ( n∏ i=1 e t nXi ) = (independencia de las v.a. Xi) n∏ i=1 E ( e t nXi ) = n∏ i=1 MXi(t/n) = (las Xi son idénticamente distribuidas) n∏ i=1 MX(t/n) = (MX(t/n)) n . 2 Ejemplo 7. X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2). Entonces, MX(t) = exp(µt+ σ2t2 2 ). 1.3. DOS FAMILIAS DE DISTRIBUCIONES IMPORTANTES 11 Aśı, MX̄(t) = ( exp( µt n + σ2(t/n)2 2 ) )n = exp(µt+ σ2t2 2n ) y, por tanto, X̄ ∼ N(µ, σ2/n). . . Ejemplo 8. X1, . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces, fX(x) = xα−1e−x/β Γ(α)βα , x > 0, E(X) = αβ, V (X) = αβ2, MX(t) = ( 1 1− βt )α , t < 1 β . Aśı, MX̄(t) = (( 1 1− βt/n )α)n = ( 1 1− (β/n)t )αn y, por lo tanto, X̄ ∼ γ(nα, β/n). Un caso particular de distribución gamma es la distribución exponencial. Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Aśı que la media de exponenciales de media µ será una γ(n, µ/n) que tendrá E(X̄) = n µ n = µ, V (X̄)n µ2 n2 = µ2 n . . . Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien porque la f.g.m resultante no se corresponde con ninguna distribución conocida, siempre es posible intentar alguna de las dos estrategias siguientes para tratar de determinar la distribución de la media muestral. En primer lugar, se puede trabajar con la función caracteŕıstica que siempre existe. En segundo lugar se puede tratar de calcular directamente la función de densidad de la suma como la convolución de las n funciones de densidad (ver el ejemplo de la distribución de Cauchy, Casella-Berger, páginas 210-211). 1.3. Dos familias de distribuciones importantes 1.3.1. Familias de localización y escala Sea Z una variable aleatoria con distribución conocida. A la colección de distribuciones de probabilidad de las variables aleatoriasX que se pueden definir 12 CAPÍTULO 1. INTRODUCCIÓN de la forma X = µ+ σZ, µ, σ ∈ R σ > 0 se la denomina familia de localización y escala construida a partir de la distribución de Z. En particular, si Z es variable aleatoria absolutamente continua con función de densidad f(x), la familia de funciones de densidad{ f(x|µ, σ) = 1 σ f ( x− µ σ ) : µ ∈ R, σ > 0 } forman la familia de localización y escala de f(x). El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1. El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si µ > 0) o a la izquierda (si µ < 0). Proposición 1. (a) Z ∼ f(x) ⇐⇒ X = σZ + µ ∼ f(x|µ, σ). (b) X ∼ f(x|µ, σ) ⇐⇒ X−µσ ∼ f(x). Demostración: Trivial, aplicando la fórmula de la función de densidad de la transformación biyectiva de una variable aleatoria univariante. 2 Ejemplo 9. Las siguientes son algunas de las familias de distribuciones usuales que son de localización y escala y se parametrizan habitualmente como tales: normal, doble exponencial, Cauchy. La distribución uniforme U(a, b) también es una familia de localización y escala. En este caso µ = (a+ b)/2 y σ = b− a podŕıan servir como parámetros de posición y escala. . . Corolario 1. Sea Z1, . . . , Zn una m.a.s. de Z ∼ f(x) y sea X1, . . . , Xn una m.a.s. de X ∼ f(x|µ, σ). Si la ley de Z̄ es g(z) entonces la ley de X̄ es 1σ g ( x−µ σ ) . Demostración: Observar que Xi ∼ σZi + µ, luego X̄ ∼ σZ̄ + µ. Aplicando la proposición anterior se tiene el resultado. 2 1.3.2. Familias exponenciales X pertenece a la familia exponencial si su función de densidad o función de masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ Rp y puede escribirse aśı: f(x|θ) = h(x)c(θ) exp k∑ j=1 wj(θ)tj(x) 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 13 para ciertas funciones h, c, wj y tj . Si p = k y wj(θ) = θj , j = 1, . . . , p, entonces diremos que la familia exponencial está parametrizada de forma natural. En ese caso, el espacio paramétrico natural de esa familia es el conjunto Θ = {θ ∈ Rk : ∫ ∞ −∞ h(x) exp k∑ j=1 θjtj(x) dx <∞}. Si X1, . . . , Xn es muestra aleatoria simple de X, en la familia exponencial, entonces f(x1, . . . , xn|θ) = ( n∏ i=1 h(xi) ) (c(θ)) n exp k∑ j=1 wj(θ) n∑ i=1 tj(xi) . Observar que si definimos Tj(X1, . . . , Xn) = ∑n i=1 tj(Xi), j = 1, . . . , p, en- tonces la distribución de (T1, . . . , Tk) viene dada por fT (u1, . . . , uk|θ) = H(u1, . . . , uk) (c(θ))n exp k∑ j=1 wj(θ)uj , es decir, T también pertenece a la familia exponencial. Ejemplo 10. Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, bi- nomial negativa, exponencial, normal, gamma, beta. . . 1.4. Muestreo de unadistribución normal En el resto del tema supondremos que X1, . . . , Xn es una m.a.s. de una N(µ, σ2). Teorema 4 (Teorema de Fisher, 1920). (a) X̄ y S2n son variables aleatorias independientes. (b) X̄ ∼ N(µ, σ2/n). (c) (n− 1)S2n/σ2 ∼ χ2n−1. Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1, puesto que la familia normal es una familia de posición y escala. (b) Se ha demostrado en el ejemplo 7. 14 CAPÍTULO 1. INTRODUCCIÓN (a) Obsérvese que (n− 1)S2n = n∑ i=1 (Xi − X̄)2 = (X1 − X̄)2 + n∑ i=2 (Xi − X̄)2 = (como ∑n i=1(Xi − X̄) = 0)( n∑ i=2 (Xi − X̄) )2 + n∑ i=2 (Xi − X̄)2 de donde se deduce que S2n es función de (X2 − X̄, . . . , Xn − X̄). Probaremos ahora que (X2 − X̄, . . . , Xn − X̄) y X̄ son independientes, lo cuál implicará que (a) es cierto. Hacemos el cambio de variable y1 = x̄ y2 = x2 − x̄ ... yn = xn − x̄ =⇒ x1 = nx̄− ∑n i=2 xi = x̄− ∑n i=2(xi − x̄) = y1 − ∑n i=2 yi x2 = y2 + y1 ... xn = yn + y1 El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable aleatoria transformada es fY (y1 . . . , yn) = fX(y1 − n∑ i=2 yi, y2 + y1, . . . , yn + y1)n = ( 1√ 2π )n n exp { −1 2 (y1 − n∑ i=2 yi) 2 − 1 2 n∑ i=2 (yi + y1) 2 } (∗) = n ( √ 2π)n exp { −1 2 ny21 } exp { −1 2 ( n∑ i=2 y2i + ( n∑ i=2 yi) 2 )} . Por lo tanto Y1 es independiente de (Y2, . . . , Yn) y de aqúı se sigue que X̄ es independiente de S2n. (∗) Falta por justificar el paso marcado con un (∗): (y1 − n∑ i=2 yi) 2 + n∑ i=2 (yi + y1) 2 = y21 + ( n∑ i=2 yi) 2 − 2y1 n∑ i=2 yi + n∑ i=2 y2i + (n− 1)y21 + 2y1 n∑ i=2 yi = ny21 + ( n∑ i=2 yi) 2 + n∑ i=2 y2i . (c) La demostración de este apartado se seguirá mejor después del apartado siguiente en el que se tratan las distribuciones de probabilidad asociadas a la normal. 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 15 Denotaremos por X̄n y por S 2 n, respectivamente, la media muestral y la varianza muestral calculadas a partir de una muestra de tamaño n. En primer lugar probaremos que se verifica la siguiente fórmula recursiva: (n− 1)S2n = (n− 2)S2n−1 + n− 1 n (Xn − X̄n−1)2. En efecto, (n− 1)S2n = n∑ i=1 (Xi − X̄n)2 = n−1∑ i=1 (Xi − X̄n−1 + X̄n−1 − X̄n)2 + (Xn − X̄n)2 = (n− 2)S2n−1 + (n− 1)(X̄n−1 − X̄n)2 + (Xn − X̄n)2 = (∗) (teniendo en cuenta que (n− 1)X̄n−1 = nX̄n −Xn =⇒ (n− 1)(X̄n−1 −Xn) = n(X̄n−Xn) y que (n−1)(X̄n−1− X̄n) = (X̄n−Xn) = ((n−1)/n)(X̄n−1−Xn)) (∗) = (n− 2)S2n−1 + (n− 1) 1 n2 (X̄n−1 −Xn)2 + (n− 1)2 n2 (X̄n−1 −Xn)2 = (n− 2)S2n−1 + n− 1 n (Xn − X̄n−1)2. Una vez probada la relación entre S2n y S 2 n−1 probaremos por inducción que (n− 1)S2n/σ2 ∼ χ2n−1. Para n = 2, la fórmula recursiva nos da S22 = 1 2 (X2 −X1)2. Como X1 y X2 son N(0, 1) independientes, entonces (X2 −X1)/ √ 2 ∼ N(0, 1) y de ah́ı que S22 = ((X2 −X1)/ √ 2)2 ∼ χ21, con lo que queda probado el resultado para n = 2. Supongamos que el resultado es cierto para n = k, es decir, (k − 1)S2k/σ2 ∼ χ2k−1. Probemos que es también cierto para n = k + 1. Observar que kS2k+1 = (k − 1)S2k︸ ︷︷ ︸ ∼χ2k−1 + k k + 1 (Xk+1 − X̄k)2. Aśı, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1−X̄k)2 es una χ21, puesto que esta variable es independiente de S 2 k, al ser X̄k independiente de S2k (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones. Por esta misma razón, Xk+1 ∼ N(0, 1) es también independiente de X̄k ∼ N(0, 1/k). Aśı que Xk+1 − X̄k ∼ N ( 0, k + 1 k ) =⇒ (√ k k + 1 (Xk+1 − X̄k) )2 ∼ χ21 16 CAPÍTULO 1. INTRODUCCIÓN que es precisamente lo que queŕıamos probar. 2 Existen demostraciones alternativas de este teorema basadas en la función generatriz de momentos o en la función caracteŕıstica. 1.4.1. Distribuciones asociadas a la normal En esta sección se recuerdan las definiciones de las leyes χ2, t de Student y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger. La ley χ2ν Diremos queX tiene distribución χ2 con ν grados de libertad y se denota X ∼ χ2ν si su función de densidad es fν(x) = 1 Γ(ν/2)2ν/2 x(ν/2)−1e−x/2, 0 < x <∞, es decir, X ∼ γ(ν/2, 2). Lema 2. (a) Si X ∼ N(µ, σ2) entonces (X − µ)2 σ2 ∼ χ21. (b) Si X1, . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces Y = n∑ i=1 Xi ∼ χ2ν , donde ν = ∑n i=1 νi. (c) Sean X1, . . . , Xn variables aleatorias independientes e idénticamente dis- tribuidas según una N(0, 1). La variable aleatoria Y = n∑ i=1 X2i ∼ χ2n. (Nota: esta propiedad se usa a veces como definición de la distribución χ2). La ley tp Diremos que X sigue una distribución t de Student con p grados de libertad y lo denotaremos X ∼ tp, si su función de densidad es fp(x) = Γ((p+ 1)/2) Γ(p/2) 1 √ πp 1 (1 + t2/p)(p+1)/2 , −∞ < x <∞. Si p = 1 se trata de la distribución de Cauchy. 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 17 Lema 3. (a) Z ∼ N(0, 1), Y ∼ χ2p, Z e Y independientes, entonces, X = Z√ Y/p ∼ tp. (Nota: esta propiedad se usa a veces como definición de la distribución t de Student.) (a) Sean X1, . . . , Xn una m.a.s. de una N(µ, σ 2). Entonces X̄ − µ S/ √ n ∼ tn−1. La distribución t de Student no tiene f.g.m. porque no tiene momentos de todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden estrictamente inferior a p: existe E(Xα) para α < p. Si X ∼ tp, entonces E(X) = 0 si p > 1 y V (X) = p/(p− 2) si p > 2. La ley Fp,q Diremos que X sigue una distribución F con p y q grados de libertad y lo denotaremos X ∼ Fp,q, si su función de densidad es fp,q(x) = Γ ( p+q 2 ) Γ ( p 2 ) Γ ( q 2 ) (p q )p/2 x(p/2)−1( 1 + pqx ) p+q 2 , 0 < x <∞. Lema 4. (a) Si U ∼ χ2p, V ∼ χ2q y U y V son independientes, entonces X = U/p V/q ∼ Fp,q. (Nota: esta propiedad se usa a veces como definición de la distribución F .) (b) Sean X1, . . . , Xn m.a.s. de N(µX , σ 2 X), Y1, . . . , Ym m.a.s. de N(µY , σ 2 Y ), dos muestras independientes. Entonces S2X/σ 2 X S2Y /σ 2 Y ∼ Fn−1,m−1. (c) Si X ∼ Fp,q, entonces X−1 ∼ Fq,p. (d) Si X ∼ tp,entonces X2 ∼ F1,p. (e) Si X ∼ Fp,q, entonces p q X 1 + pqX ∼ Beta (p 2 , q 2 ) . 18 CAPÍTULO 1. INTRODUCCIÓN (f) Si X ∼ Fn−1,m−1, entonces E(X) = E ( χ2n−1/(n− 1) χ2m−1/(m− 1) ) = E ( χ2n−1 n− 1 ) E ( m− 1 χ2m−1 ) = ( n− 1 n− 1 )( m− 1 m− 3 ) = m− 1 m− 3 . (g) Si las distribuciones de partida tienen simetŕıa esférica, entonces el co- ciente de las varianzas muestrales sigue una F (Casella-Berger, p. 227). 1.5. Leyes de los Grandes Números y Teorema Central del Ĺımite En esta sección se enuncian dos resultados fundamentales en inferencia es- tad́ıstica: la Ley Fuerte de los Grandes Números y el Teorema Central del Ĺımite. Dada una sucesión de variables aleatorias definidas sobre el mismo espacio muestral, se llaman leyes de los grandes números a los resultados sobre convergencia de las sucesiones de sus medias aritméticas a una constante. Se co- noce como problema del ĺımite central el estudio de la convergencia débil de la sucesión de medias muestrales centradas y tipificadas a una distribución no degenerada. 1.5.1. Leyes de los grandes números Se enuncia a continuación una versión de ley débil de los grandes núme- ros que establece la convergencia en media cuadrática (y por tanto, en probabili- dad) de la media aritmética de una sucesión de variables aleatorias incorreladas. Teorema 5 (Ley débil de los grandes números). Sea {Xn}n∈N una sucesión de variables aleatorias incorreladas con momentos de segundo orden acotados por una constante C, independiente de n. Sea Sn = ∑n i=1Xi. Entonces E (∣∣∣∣Sn − E(Sn)n ∣∣∣∣2 ) ≤ C n y, como consecuencia ĺım n−→∞ Sn − E(Sn) n = 0 en el sentido de la convergencia en media cuadrática. La demostración de este resultado puede verse, por ejemplo, en Sanz (1999). Como caso particular del teorema anterior, se puede probar la convergencia en probabilidad de la frecuenciarelativa de un suceso a su probabilidad (ver Sanz 1999). Este resultado se conoce como ley débil de Bernoulli. 1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMACENTRAL DEL LÍMITE19 Los resultados que garantizan la convergencia casi segura de la media mues- tral se conocen como leyes fuertes de los grandes números. Se enuncia a continuación una ley fuerte para variables con segundos momentos finitos e incorreladas. Teorema 6 (Ley fuerte de los grandes números). Bajo las hipótesis del teorema 5 se tiene que ĺım n−→∞ Sn − E(Sn) n = 0 en el sentido de la convergencia casi segura. En Sanz (1999) puede encontrarse la demostración de este resultado. En ese mismo texto se recoge una versión más general de la ley fuerte de los grandes números, conocida como ley fuerte de los grandes números de Kolmo- gorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la convergencia casi segura de la media muestral a la esperanza. 1.5.2. Teorema central del ĺımite En esta sección se presenta el teorema central del ĺımite de Lévy- Lindeberg, válido para sucesiones de variables aleatorias independientes e idénticamente distribuidas con momento de segundo orden finito. Teorema 7 (Teorema central del ĺımite). Sea {Xn}n∈N una sucesión de va- riables aleatorias independientes e idénticamente distribuidas con momento de segundo orden finito. Sea µ la esperanza común y σ2 la varianza común, que supondremos estrictamente positiva. Sea Sn = ∑n i=1Xi. Se tiene que Sn − nµ σ √ n −→D Z, donde Z ∼ N(0, 1) y −→D indica convergencia en distribución. Este resultado puede demostrarse utilizando funciones generadoras de moe- mentos o funciones caracteŕısticas, como se hace en Casella-Berger. En Sanz (1999) se da una demostración (más laboriosa) que no requiere el uso de estas transformaciones. En Casella-Berger puede encontrarse una versión más fuerte del teorema central del ĺımite. El Teorema de De Moivre-Laplace, que establece la convergencia débil de la binomial tipificada a la normal estándar, es una aplicación directa del teorema central del ĺımite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproxi- mación de la binomial por la normal son la estimación del error de aproximar la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en encuestas. 20 CAPÍTULO 1. INTRODUCCIÓN 1.5.3. Versiones multivariantes Se enuncian a continuación versiones multivariantes de la ley de los griandes números y del teorema central del ĺımite. Teorema 8. Sea {Xn}n∈N una sucesión de variables aleatorias p-dimensionales independientes e idénticamente distribuidas. Sea X̄n el vector p-diemensional media aritmética de las n primeras variables: X̄n = 1 n n∑ i=1 Xi. Se tiene lo siguiente: 1. Si existe E(Xi) = µ, entonces X̄n converge a µ casi seguramente. 2. Si, además, Xi tiene matriz de varianza y covarianzas finita Σ, entonces √ n(X̄n − µ) −→D Np(0,Σ). La demostración de este resultado puede encontrarse, por ejemplo, en Arnold (1990). Como corolario se puede probar la convergencia de la distribución multino- mial (centrada y tipificada) a una normal multivariante (ver Arnold 1990). 1.6. LISTA DE PROBLEMAS 21 1.6. Lista de problemas Variables aleatorias. Muestras 1. (Casella-Berger, 5.2) Sean X1, X2 . . . v.a.i.i.d. cada una de ellas con den- sidad f(x). Supongamos que cada Xi mide la cantidad anual de precipita- ciones en un determinado emplazamiento. Da la distribución del número de años que transcurren hasta que las lluvias del primer año, X1, son superadas por primera vez. 2. (Casella-Berger, 5.5) Sean X1, . . . , Xn v.a.i.i.d. con densidad fX(x). Sea X̄ su media muestral. Prueba que fX̄(x) = nfX1+···+Xn(nx). 3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1, . . . , Xn una muestra aleatoria simple de X, a partir de la que se calcula la media y la varianza muestral de la forma usual: X = 1 n n∑ i=1 Xi, S 2 = 1 n− 1 n∑ i=1 (Xi − X̄)2. a) Prueba que S2 = 1 2n(n− 1) n∑ i=1 n∑ j=1 (Xi −Xj)2. Supongamos que E(X4) < ∞. Sean θ1 = E(X) y θj = E((X − θ1)j), j = 2, 3, 4. b) Prueba que V (S2) = 1 n ( θ4 − n− 3 n− 1 θ22 ) . c) Da la expresión de Cov(X̄, S2) en términos de θ1, . . . , θ4. ¿Bajo qué condiciones son X̄ y S2 incorreladas? d) Si la distribución de X es simétrica respecto de θ1, ¿es posible que la covarianza de esos estad́ısticos sea no nula? e) Si la distribución de X no es simétrica respecto de θ1, ¿es posible que la covarianza de esos estad́ısticos sea nula? 4. (Casella-Berger, 5.16) Llamemos X̄n y S 2 n a la media y la varianza mues- trales calculadas a partir de n observaciones X1, . . . , Xn. Supongamos que se observa un nuevo valor Xn+1. Demuestra las siguientes fórmulas recur- sivas. a) X̄n+1 = 1 n+ 1 (Xn+1 + nX̄n). 22 CAPÍTULO 1. INTRODUCCIÓN b) nS2n+1 = (n− 1)S2n + n n+ 1 (Xn+1 − X̄n)2. 5. (Casella-Berger, 5.18) Sean X̄1 y X̄2 las medias muestrales calculadas a partir de dos muestras independientes de tamaño n de una población con varianza σ2. Halla el menor valor de n que garantiza que P ( |X̄1 − X̄2| < σ 5 ) es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev como el Teorema Central del Ĺımite. Comenta los resultados obtenidos. 6. (Casella-Berger, 5.29) Sean Xi ∼ N(i, i2), i = 1, 2, 3, tres variables aleato- rias independientes. Construye a partir de estas variables aleatorias otras que tengan las siguientes distribuciones. a) χ23. b) t2. c) F1,2. 7. (Casella-Berger, 5.36) Sean Ui, i = 1, 2, . . . , variables aleatorias indepen- dientes con distribución U(0, 1). Sea X una variable aleatoria con distri- bución P (X = x) = 1 (e− 1)x! , x = 1, 2, 3, . . . Da la distribución de Z = mı́n{U1, . . . , UX}. Indicación: Observar que Z|X = x es el primer estad́ıstico de orden de una muestra de tamaño x de una U(0, 1). 8. (Casella-Berger, 5.37) SeaX1, . . . , Xn una muestra aleatoria simple de una población con densidad fX(x) = 1 θ I(0,θ)(x). Sean X(1), . . . , X(n) los estad́ısticos orden. Prueba que X(1)/X(n) y X(n) son independientes. 9. Demuestra los lemas 2, 3 y 4. Familias exponenciales 10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo- nenciales y describe el espacio paramétrico natural de cada una de ellas. a) Familia normal con alguno de los parámetros µ o σ conocidos. 1.6. LISTA DE PROBLEMAS 23 b) Familia gamma con alguno de los parámetros α o β conocidos. c) Familia beta con alguno de los parámetros α o β conocidos. d) Familia Poisson. e) Binomial negativa con el parámetro r conocido y 0 < p < 1. 11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en térmi- nos de su espacio paramétrico natural con densidad f(x;η) = h(x)c(η) exp{ k∑ i=1 ηiti(x)}. Prueba que Eη(ti(X)) = − ∂ ∂ηi log(c(η)). Indicación: Usa el hecho de que para una familia exponencial se tiene que ∂j ∂ηji ∫ ∞ −∞ fη(x)dx = ∫ ∞ −∞ ∂j ∂ηji fη(x)dx. 12. Considera la familia de distribuciones normales con media θ y varianza θ2, donde θ puede tomar cualquier valor real. Prueba que esta familia es una familia exponencial y determina el espacio paramétrico natural. 13. Sean X1, . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia ex- ponencial expresada en términos del espacio paramétrico natural. Prueba que la distribución conjunta de las n variables también pertenece a la familia exponencial. 14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1, . . . , Xn v.a. independientes tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1, . . . , Xn v.a. independientes tales que Xi ∼ N(iθ, 1), θ ∈ R. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1, . . . , Xn v.a. independientes tales que Xi ∼ Exp(1/(iθ)),E(Xi) = iθ, θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. Familias de localización y escala 17. (Casella-Berger, 3.31) Considera la función de densidad f(x) = 63 4 (x6 − x8), −1 < x < 1. Dibuja el gráfico de 1 σ f ( x− µ σ ) para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos. 24 CAPÍTULO 1. INTRODUCCIÓN a) µ = 0, σ = 1. b) µ = 3, σ = 1. c) µ = 3, σ = 2. 18. (Casella-Berger, 3.32) Muestra que si f(x) es una función de densidad simétrica alrededor de 0, entonces la mediana de la densidad 1 σ f ( x− µ σ ) es µ. 19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f(z). Se define zα como un número que satisface que α = P (Z > zα) = ∫ ∞ zα f(z)dz. Sea X una variable aleatoria con densidad en la familia de localización y escala de f 1 σ f ( x− µ σ ) y sea xα = µ + σzα. Prueba que P (X > xα) = α. (Nota: Aśı, los valo- res de xα se calculan fácilmente para cualquier miembro de la familia de localización y escala si se dispone de una tabla de valores zα.) 20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad f(x) = 1 π(1 + x2) , x ∈ R, y la familia de localización y escala definida a partir de ella: X tiene distribución de Cauchy con parámetros µ y σ si su densidad es f(x;µ, σ) = σ π(σ2 + (x− µ)2) , x ∈ R. No existen la esperanza ni la varianza de estas distribuciones, luego µ y σ2 no son la media y la varianza. No obstante, tienen un importante significado. a) Prueba que µ es la mediana de X. b) Prueba que µ− σ y µ+ σ son los cuartiles primero y tercero, respec- tivamente, de X. 21. (Casella-Berger, 3.35) Sea f(x) una función de densidad con media µ y varianza σ2. Indica cómo crear una familia de localización y escala basada en f(x) tal que la densidad estándar de la familia, f∗(x), tenga esperanza 0 y varianza 1. Caṕıtulo 2 Principios para reducir los datos Referencias: Casella-Berger, caṕıtulo 6. En algunos puntos se han seguido también Cristóbal (1992) (caṕıtulo 7), Schervish (1995) (caṕıtulo 2) y Garćıa-Nogales (1998) (caṕıtulo 3). El uso de cualquier estad́ıstico T (X) implica una reducción de los datos muestrales. Sea X = (X1, . . . , Xn) una muestra aleatoria simple (un vector aleatorio) y sean x = (x1, . . . , xn), y = (y1, . . . , yn) muestras observadas (reali- zaciones de X). Si decidimos usar el estad́ıstico T (X) en vez de toda la muestra, serán tratadas igual dos muestras observadas cualesquiera x, y, siempre que T (x) = T (y). Es decir, al usar el estad́ıstico T , en lugar de toda la muestra, se pierde información. Se plantea aśı el problema de buscar estad́ısticos T tales que la información que se pierde al usarlos sea irrelevante para los fines que nos hayamos marcado. Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio X, reducir los datos en términos de un estad́ıstico T es equivalente a dar una partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X}, la imagen de X mediante el estad́ıstico T . Entonces {At = T−1(t) : t ∈ T } es una partición de X inducida por T . Al observar x y limitarnos a registrar el valor de T (x), podremos saber que hemos observado un elemento de AT (x), pero desconoceremos cuál de ellos. Ejemplo 11. Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0 si sale cruz. El espacio muestral es X = {x = (x1, . . . , xn) : xi ∈ {0, 1}}. Se define T (x) = ∑n i=1 xi. Entonces T = {0, 1, 2, . . . , n}. 25 26 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS El estad́ıstico T ha creado una partición en X de forma que todas aquellas secuencias de resultados con igual número de unos están en la misma clase: At = {x = (x1, . . . , xn) ∈ T : n∑ i=1 xi = t}. No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo. . . En este tema estudiaremos dos principios para reducir los datos que garan- tizan que en el proceso de reducción no se pierde información relevante sobre los aspectos en estudio de la variable aleatoria de interés. Estos principios son el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse el principio de invariancia, que no trataremos aqúı (puede consultarse la sección 6.3 del Casella-Berger como material de lectura). En adelante supondremos que la variable aleatoria X en estudio tiene dis- tribución perteneciente a una familia paramétrica: X ∼ {f(x|θ), θ ∈ Θ ⊆ Rk}. Se supondrá además que se toma una muestra aleatoria simple de X y que a partir de ella se calculan estad́ısticos. 2.1. Principio de suficiencia Un estad́ıstico T es suficiente para un parámetro θ si captura toda la in- formación que sobre θ contiene la muestra. Cualquier información adicional (es decir, aparte del valor del estad́ıstico T ) que la muestra pueda aportar, no pro- porciona información relevante sobre θ. Estas consideraciones se concretan en el siguiente principio: Principio de suficiencia: Si T es un estad́ıstico suficiente para θ, cualquier inferencia sobre θ ha de de- pender de la muestra X = (X1, . . . , Xn) sólo a través del valor T (X). Es decir, si x e y son tales que T (x) = T (y), entonces la inferencia que se haga sobre θ será la misma tanto si se observa x como si se observa y. Formalmente, diremos que un estad́ıstico T es suficiente para θ si la dis- tribución condicionada de X dado el valor T (X), no depende de θ. Ejemplo 12. Veamos, en el caso discreto, que la información que sobre un parámetro aporta un estad́ıstico suficiente es toda la información que aportaŕıa la muestra com- pleta. En primer lugar, si t es uno de los posibles valores de T (X), es decir, si 2.1. PRINCIPIO DE SUFICIENCIA 27 Pθ(T (X) = t) > 0, entonces Pθ(X = x|T (X) = t) = { Pθ(X = x|T (X) = T (x)) si T (x) = t 0 si T (x) ̸= t Aśı que sólo son de interés las probabilidades condicionadas Pθ(X = x|T (X) = T (x)). Si T es suficiente estas probabilidades no dependen de θ, luego, Pθ(X = x|T (X) = T (x)) = P (X = x|T (X) = T (x)) para todo θ. En este sentido entendemos que T captura toda la información sobre θ. Supongamos que dos cient́ıficos se interesan por la variable aleatoria X cuya distribución depende del parámetro desconocido θ. Supongamos además que el primer cient́ıfico observa toda una muestra x de X, mientras que el segundo sólo puede estudiar el fenómeno a través de una revista que publica el valor del estad́ıstico suficiente T (x). La cuestión relevante entonces es saber si ambos cient́ıficos tienen o no la misma información sobre θ. Veamos que aśı es. Como P (X = x|T (X) = T (x)) no depende de θ, esta distribución condi- cional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos cient́ıficos conocen P (X = y|T (X) = T (x)), para todo y ∈ AT (x) = {y : T (y) = T (x)}. Si el segundo cient́ıfico quisiera, podŕıa generar un vector aleatorio Y siguiendo esa distribución y se satisfaŕıa que P (Y = y|T (X) = T (x)) = P (X = y|T (X) = T (x)), para todo y ∈ AT (x) Por lo tanto X e Y tendŕıan la misma distribución condicionada a que T (X) = T (x). Además, ambas variables tienen la misma distribución incondicional: Pθ(X = x) = Pθ(X = x, T (X) = T (x)) = (porque {X = x} ⊆ {T (X) = T (x)}) Pθ(X = x|T (X) = T (x))Pθ(T (X) = T (x)) = Pθ(Y = x|T (X) = T (x))Pθ(T (X) = T (x)) = Pθ(Y = x, T (X) = T (x)) = (teniendo en cuenta que {Y = x} ⊆ {T (X) = T (x)}) Pθ(Y = x) Por lo tanto el segundo cient́ıfico ha podido observar una variable aleatoria Y que tiene la misma distribución que la variable aleatoria X que observó el pri- mer cient́ıfico, y ambos cient́ıficos obtienen el mismo valor del estad́ıstico T a partir de sus respectivas observaciones. Por lo tanto, ambos cient́ıficos tienen la misma información. . . 28 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Teorema 9. Si f(x|θ) es la verosimilitud de un vector aleatorio X y q(t|θ)es la verosimilitud (función de densidad o de masa) de un estad́ıstico T (X), se tiene la siguiente equivalencia. T (X) es un estad́ıstico suficiente para θ si y sólo si para cada x del espacio muestral X el cociente f(x|θ) q(T (x)|θ) no depende de θ. Demostración: Haremos la prueba para el caso discreto. El caso continuo no presenta dificultades adicionales. Veamos primero que si f(x|θ)/q(T (x)|θ) no depende de θ entonces T es suficiente. Si t es uno de los posibles valores de T (X), es decir, si Pθ(T (X) = t) > 0, entonces Pθ(X = x|T (X) = t) = { Pθ(X = x|T (X) = T (x)) si T (x) = t 0 si T (x) ̸= t Luego si T (x) ̸= t la función de masa de probabilidad condicionada vale 0 y, no depende de θ. En el otro caso, Pθ(X = x|T (X) = T (x)) = Pθ(X = x, T (X) = T (x)) Pθ(T (X) = T (x)) = Pθ(X = x) Pθ(T (X) = T (x)) = f(x|θ) q(T (x)|θ) que tampoco depende de θ, de donde se sigue que T es suficiente. Para probar el rećıproco, basta con leer la igualdad anterior en orden inverso, f(x|θ) q(T (x)|θ) = Pθ(X = x|T (X) = T (x)), que no depende de θ si T es suficiente. 2 Ejemplo 13. Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El estad́ıstico T (X) = X1 + · · ·+Xn ∼ B(n, θ) es suficiente para θ: f(x|θ) q(T (x)|θ) = ∏n i=1 θ xi(1− θ)1−xi( n t ) θt(1− θ)n−t = (donde se ha definido t = ∑n i=1 xi) θt(1− θ)n−t( n t ) θt(1− θ)n−t = 1( n t ) que no depende de θ. . . 2.1. PRINCIPIO DE SUFICIENCIA 29 Ejemplo 14. Sea X = (X1, . . . , Xn) muestra aleatoria simple de X ∼ N(µ, σ2), σ2 conocido. El estad́ıstico T (X) = X̄ ∼ N(µ, σ2/n) es suficiente para µ: f(x|θ) q(T (x)|θ) = (2πσ2)−n/2 exp { − 12σ2 ∑n i=1(xi − µ)2 } n1/2(2πσ2)−1/2 exp { − n2σ2 (x̄− µ)2 } = (2πσ2)−n/2 exp { − 12σ2 (∑n i=1(xi − x̄)2 + n(x̄− µ)2 )} n1/2(2πσ2)−1/2 exp { − n2σ2 (x̄− µ)2 } = (2πσ2)−n/2 exp { − 12σ2 ∑n i=1(xi − x̄)2 } n1/2(2πσ2)−1/2 = (2πσ2)−(n−1)/2n−1/2 exp { − 1 2σ2 n∑ i=1 (xi − x̄)2 } , que no depende de µ. . . El teorema 9 es útil para comprobar si un estad́ıstico es suficiente, pero no lo es para buscar estad́ısticos suficientes. El siguiente teorema śı podrá usarse para este cometido: permite encontrar estad́ısticos suficientes mediante la inspección de la función de densidad o la función de masa de probabilidad, según el caso. Teorema 10 (Teorema de Factorización: Fisher 1922, Neyman 1935). Sea f(x|θ) la verosimilitud de X = (X1, . . . , Xn). El estad́ıstico T (X) es suficiente para θ si y sólo si existen funciones g(t|θ) y h(x) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la función f(x|θ) puede factorizarse aśı: f(x|θ) = g(T (x)|θ)h(x). Demostración: (En el caso discreto). Supongamos primero que T es suficiente. Tomemos g(t|θ) = Pθ(T (X) = t) y h(x) = Pθ(X = x|T (X) = T (x)), que no depende de θ al ser T suficiente. Con esta elección, f(x|θ) = Pθ(X = x) = Pθ(X = x, T (X) = T (x)) = Pθ(X = x|T (X) = T (x))Pθ(T (X) = t) = g(T (x)|θ)h(x). Veamos ahora el rećıproco. Supongamos que f(x|θ) = g(T (x)|θ)h(x) y que q(t|θ) es la función de masa de probabilidad de T (X). Entonces, f(x|θ) q(t|θ) = f(x|θ)∑ y∈AT (x) f(y|θ) = 30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS g(T (x)|θ)h(x)∑ y∈AT (x) g(T (y)|θ)h(y) = g(T (x)|θ)h(x)∑ y∈AT (x) g(T (x)|θ)h(y) = h(x)∑ y∈AT (x) h(y) , que es independiente de θ. Luego T es suficiente para θ. 2 (Nota: la demostración para el caso continuo puede verse, por ejemplo, en Lehmann 1986 o en Cristóbal (1992), p. 173.) Según el Teorema 10, para encontrar un estad́ıstico suficiente se factoriza la función de densidad (o la de masa) en dos partes: una, h(x), que no contenga al parámetro θ, y la otra que dependa de la muestra sólo a través de una función suya T (x). El estad́ıstico suficiente será entonces T (X). Ejemplo 15. Sea X ∼ U{1, 2, . . . , θ} y X1, . . . , Xn una m.a.s. de X. La función de masa de probabilidad de X es f(x|θ) = 1 θ I{1,2,...,θ}(x) donde IA(x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en caso contrario. La verosimilitud de la muestra es f(x1, . . . , xn|θ) = 1 θn n∏ i=1 I{1,2,...,θ}(xi) = 1 θn ( n∏ i=1 IN−{0}(xi) )( n∏ i=1 I(−∞,θ](xi) ) = 1 θn ( n∏ i=1 IN−{0}(xi) )( n∏ i=1 I[xi,∞)(θ) ) = 1 θn I(máx{xi:1≤i≤n},∞)(θ)︸ ︷︷ ︸ g(t|θ), donde t=máxi xi ( n∏ i=1 IN−{0}(xi) ) ︸ ︷︷ ︸ h(x) . . Ejemplo 16. Sea X ∼ N(µ, σ2), σ2 conocida. Entonces la verosimilitud de una muestra es f(x|µ) = (2πσ2)−n/2 exp { − 1 2σ2 n∑ i=1 (xi − x̄)2 } ︸ ︷︷ ︸ h(x) exp { − n 2σ2 (x̄− µ)2 } ︸ ︷︷ ︸ g(t|µ), donde t=x̄ Por lo tanto T (X) = X̄ es estad́ıstico suficiente para µ. Obsérvese que ∑n i=1Xi = nX̄ también es estad́ıstico suficiente: podŕıa defi- nirse h(x) como antes y g(t|µ) = exp { −(n/(2σ2))(t/n− µ)2 } . . . 2.1. PRINCIPIO DE SUFICIENCIA 31 En general, si T (X) es estad́ıstico suficiente para θ y τ : T −→ S es una transformación biyectiva del espacio donde toma valores T , se tiene que S(X) = τ(T (X)) también es estad́ıstico suficiente para θ: f(x|θ) = g(T (x)|θ)h(x) = g(τ−1(S(x))|θ)h(x) = g∗(S(x)|θ)h(x), de donde se deduce que S(X) también es estad́ıstico suficiente. La función g∗(s|θ) es g∗(s|θ) = g(τ−1(s)|θ). 2.1.1. Estad́ısticos suficientes r-dimensionales Hasta ahora hemos visto únicamente estad́ısticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de facto- rización puede ocurrir que la función g(t|θ) dependa de la muestra a través de más de una función suya. En ese caso la colección de esas funciones, digamos T (X) = (T1(X), . . . , Tr(X)), es un estad́ıstico suficiente r-dimensional. Las definiciones y resultados referentes a la suficiencia ya vistos para el caso unidi- mensional también se aplican al caso r-dimensional. Usualmente, si el parámetro θ es de dimensión mayor que 1, entonces también lo será el estad́ıstico suficiente. Ejemplo 17. X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos: θ = (µ, σ2). Aśı, f(x|µ, σ2) = (2πσ2)−n/2 exp { − 1 2σ2 n∑ i=1 (xi − x̄)2 } exp { − n 2σ2 (x̄− µ)2 } . Sean T1(x) = x̄ y T2(x) = S 2 = ( ∑n i=1(xi − x̄)2)/(n− 1). Entonces, f(x|µ, σ2) = (2πσ2)−n/2 exp { − (n− 1) 2σ2 T2(x) } exp { − n 2σ2 (T1(x)− µ)2 } = g(T1(x), T2(x)|µ, σ2) y tomando h(x) = 1 se tiene la factorización de f(x|µ, σ2) que implica que T (X) = (T1(X), T2(X)) = (X̄, S 2) es un estad́ıstico suficiente para (µ, σ2) en la distribución normal. Es un estad́ıstico bivariante. Obsérvese que el hecho de que un estad́ıstico sea o no suficiente para un parámetro depende del modelo que siguen las variables aleatorias implicadas. En el caso de muestrear una normal, podemos anotar únicamente la media y la varianza muestral y estar seguros de que tenemos toda la información relevante sobre los parámetros desconocidos (µ, σ2). Sin embargo, si no estamos seguros de la normalidad de los datos no debeŕıamos conformarnos con conocer única- mente la media y la varianza muestral. . . 32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS 2.1.2. Estad́ısticos suficientes minimales La factorización de la función de verosimilitud no es única y como conse- cuencia de ello, tampoco es único el estad́ıstico suficiente para un parámetro. Ya vimos que cualquier transformación biyectiva de un estad́ıstico suficiente da lugar a otro estad́ıstico suficiente. Pero aún hay muchos más estad́ısticos sufi- cientes. Por ejemplo, la muestra completa X también es estad́ıstico suficiente para el parámetro: f(x|θ) = g(x|θ)h(x), donde h(x) = 1, T (x) = x y g(x|θ) = f(x|θ). Un estad́ıstico suficiente T (X) se llama minimal si para cualquier otro es- tad́ıstico S(X) se tiene que T (X) es función de S(X). Es decir, si ocurre que S(x) = S(y) entonces forzosamente se tiene que T (x) = T (y). Otra forma de expresar esto es la siguiente: sea {At : t ∈ T } la partición del espacio muestral inducida por el estad́ıstico T y sea {Bs : s ∈ S} la partición inducida por S;para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At. La partición inducida por cualquier estad́ıstico suficiente es más fina que la inducida por el estad́ıstico suficiente minimal. Ejemplo 18. X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconocidos. Hemos visto en el ejemplo 17 que (T1(X), T2(X)) = (X̄, S 2) es un estad́ıstico suficiente para (µ, σ2). Suponemos ahora que σ2 es conocido. Vimos en el ejemplo 14 que T1(X) = X̄ es estad́ıstico suficiente para µ. Pero también es cierto que (T1(X), T2(X)) = (X̄, S2) es suficiente para µ. Claramente T1(X) consigue una mejor reducción de los datos que (T1(X), T2(X)). Podemos escribir T1(X) como función de (T1(X), T2(X)): T1(X) = τ(T1(X), T2(X)) donde τ(a, b) = a. Dado que tanto T1(X) como (T1(X), T2(X)) son suficientes para µ, am- bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral S2 = T2(X) no aporta ninguna información sobre la media µ cuando σ 2 es conocida. . . El siguiente teorema proporciona un método para encontrar el estad́ıstico suficiente minimal. Teorema 11. Sea fX(x|θ) la función de verosimilitud conjunta de X (discreta o continua). Supongamos que existe una función T (x) tal que para cualquier par de elementos del espacio muestral x, y, el cociente fX(x|θ) fX(y|θ) 2.1. PRINCIPIO DE SUFICIENCIA 33 es constante como función de θ, si y sólo si T (x) = T (y). Entonces T (x) es estad́ıstico suficiente minimal para θ. Demostración: Casella-Berger, p. 255 2 Ejemplo 19. Sea X = (X1, . . . , Xn) m.a.s. de X ∼ N(µ, σ2), ambos parámetros desconoci- dos. Sean x e y dos muestras observadas y sean (x̄, S2x), (ȳ, S 2 y) las correspon- dientes medias y varianzas muestrales. Recordando la factorización de f(x|µ, σ2) que vimos en el ejemplo 17, se tiene que fX(x|θ) fX(y|θ) = (2πσ2)−n/2 exp { − (n−1)2σ2 S 2 x } exp { − n2σ2 (x̄− µ) 2 } (2πσ2)−n/2 exp { − (n−1)2σ2 S2y } exp { − n2σ2 (ȳ − µ)2 } = exp { 1 2σ2 ( −n(x̄− µ)2 + n(ȳ − µ)2 − (n− 1)(S2x − S2y) )} = exp { 1 2σ2 ( −n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y) )} Esta expresión es constante como función de (µ, σ2) si y sólo si −n(x̄2 − ȳ2) + 2nµ(x̄− ȳ)− (n− 1)(S2x − S2y) = 0, y recordando que (n− 1)S2x = ∑n i=1 x 2 i − nx̄2 eso ocurrirá si y sólo si 2nµ(x̄− ȳ)− n∑ i=1 x2i + n∑ i=1 y2i = 0, para todo µ, pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior) es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y sólo si x̄ = ȳ y n∑ i=1 x2i = n∑ i=1 y2i , lo que equivale a decir, que x̄ = ȳ y S2x = S 2 y . Concluimos pues que (X̄, S2) es estad́ıstico minimal suficiente para (µ, σ2) cuan- do muestreamos de una normal. . . Ejemplo 20. Sea X1, . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Aśı, f(x|θ) = n∏ i=1 I[θ,θ+1](xi) = I[máxi xi−1,mı́ni xi](θ). 34 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Por el teorema de factorización, (T1(X), T2(X)) = (mı́niXi,máxiXi) es un estad́ıstico suficiente para θ. Para dos muestras x e y, el numerador y el denominador de f(x|θ)/f(y|θ) serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y máxi xi = máxi yi. En ese caso además el cociente valdrá 1, independientemente del valor de θ. Aśı que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi y máxi xi = máxi yi, luego (mı́niXi,máxiXi) es un estad́ıstico suficiente mini- mal. . . Obsérvese que el estad́ıstico minimal no es único: cualquier transformación biyectiva suya también es estad́ıstico minimal suficiente. Se puede probar que siempre existen estad́ısticos suficientes minimales. Ver, por ejemplo, el problema 15 del caṕıtulo 2 de Schervish (1995), o el teorema 7.2.7, p. 189, de Cristóbal (1992). 2.1.3. Estad́ısticos ancilares Se define un estad́ıstico ancilar como aquel cuya distribución no de- pende del parámetro θ. Los estad́ısticos ancilares son los que resumen la parte de información de la muestra que no recogen los estad́ısticos minimales sufi- cientes. A primera vista, parece que no deben aportar información relevante en la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que en combinación con otros estad́ısticos śı son útiles en la estimación de θ (ver Casella-Berger, ejemplo 6.1.11). Ejemplo 21. Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+ 1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden de la muestra. El estad́ıstico Rango, definido como R = X(n)−X(1), sigue una distribución Beta(n− 1, 2), sea cual sea el valor de θ, por lo que R es un estad́ıstico ancilar. Esta propiedad se puede generalizar al rango de cualquier familia de locali- zación: Sean X observaciones i.i.d. de una familia de localización con función de distri- bución F (x−θ), −∞ < θ <∞. Sean X(1) < · · · < X(n) los estad́ısticos de orden de la muestra. Entonces la distribución del rango, definido comoR = X(n)−X(1), no depende de θ por lo que es un estad́ıstico ancilar. . . 2.1. PRINCIPIO DE SUFICIENCIA 35 Ejemplo 22. Sean X1 y X2 observaciones independientes de una distribución discreta tal que: Pθ(X = θ) = Pθ(X = θ + 1) = Pθ(X = θ + 2) = 1 3 donde θ, el parámetro desconocido, es un entero cualquiera. Sean X(1) ≤ X(2) los estad́ısticos de orden de la muestra. Puede demostrarse que (R,M), con R = X(2) − X(1) y M = (X(1) + X(2))/2, es un estad́ıstico minimal suficiente. Dado que es una familia de localización R es ancilar. Sea un punto muestral (r,m), con m entero. Si consideramos sólo m, para que el punto tenga probabilidad positiva es preciso que θ tome uno de tres valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3 valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces forzosamente X(1) = m− 1 y X(2) = m+ 1 y, por lo tanto, θ = m− 1. El saber el valor del estad́ıstico ancilar ha aumentado nuestro conocimiento sobre θ, a pesar de que sólo con el valor de R no habŕıamos tenido ninguna información sobre θ. . . 2.1.4. Estad́ısticos completos Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un es- tad́ıstico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es com- pleta si se da la implicación siguiente: Eθ(g(T )) = 0 para todo θ =⇒ Pθ(g(T ) = 0) = 1 para todo θ. En ese caso diremos que T es un estad́ıstico completo. Ejemplo 23. La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p), 0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces, 0 = E(g(T )) = n∑ t=0 g(t) ( n t ) pt(1− p)n−t = (1− p)n n∑ t=0 g(t) ( n t )( p 1− p )t . Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0,∞) es idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos: g(t) ( n t ) = 0, para todo t ∈ 0, 1, . . . , n de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego Pp(g(T ) = 0) = 1, para todo p, 36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS y la familia de distribuciones de T es completa. . . La definición de completitud refuerza la de suficiencia en el sentido de que si un estad́ıstico es suficiente y completo entonces, por una parte, es suficiente minimal (el rećıproco no es cierto) y, por otra, ese estad́ıstico es independiente de cualquier estad́ıstico ancilar. Es decir, en el caso de que exista un estad́ıstico suficiente y completo śı es cierta la idea intuitiva de que los estad́ıstico ancilares no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre si sólo se tienen estad́ısticos suficientes y minimales. Los siguientes resultados reflejan formalmente estas ideas. Teorema 12 (Teorema de Bahadur, 1954). Si T es un estad́ıstico suficiente y completo para θ, entonces T es suficiente minimal. La demostración puede encontrarse en Schervish (1995, p. 94). El rećıproco no es cierto, como pone de manifiesto el siguiente ejemplo (Cristóbal1992, p. 200). Ejemplo 24. Sean X ∼ N(µ, σ2X) e Y ∼ N(µ, σ2Y ) variables aleatorias independientes. Del teorema 11 se sigue que el estad́ıstico (X̄, Ȳ , S2X , S 2 Y ) es suficiente minimal para θ = (µ, σ2X , σ 2 Y ) ∈ R× R+ × R+. Sin embargo no es completo, porque Eθ(X̄ − Ȳ ) = 0 para todo θ y sin embargo Pθ(X̄ = Ȳ ) = 0, para cualquier θ. . . Teorema 13 (Basu, 1955). Si T es un estad́ıstico suficiente y completo, y S es un estad́ıstico ancilar, entonces T y S son independientes. Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201. 2 Acabaremos esta sección dando un resultado que permite encontrar estad́ısti- cos suficientes y completos para las distribuciones que pertenecen a la familia exponencial, bajo condiciones bastante generales. Teorema 14. Sea X variable aleatoria cuya distribución pertenece a la familia exponencial y viene dada por la función de densidad (o de masa, según el caso) f(x|θ) = h(x)c(θ) exp k∑ j=1 θjtj(x) , θ = (θ1, . . . , θk) ∈ Θ ⊆ Rk, parametrizada de forma natural. 2.2. PRINCIPIO DE VEROSIMILITUD 37 Si el espacio paramétrico natural Θ contiene un abierto no vaćıo de Rk, entonces el estad́ıstico T (X) = (T1(X), . . . , Tk(X)), donde Tj(X) = n∑ i=1 tj(Xi), es estad́ıstico suficiente completo (y por lo tanto, minimal). Demostración: La prueba de este resultado requiere técnicas de funciones anaĺıticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de Schervish 1995, o las de los teoremas 3.9 de Garćıa-Nogales 1998 o 7.3.7 de Cristóbal 1992. 2 Existe un resultado, conocido como el Teorema de Pitman-Koopman-Darmois (el resultado fue publicado de forma independiente en tres art́ıculos práctica- mente contemporáneos: Pitman en 1936, Koopman en 1936 y Darmois en 1935) que puede considerarse el rećıproco del teorema anterior. Este resultado esta- blece lo siguiente. Consideremos un modelo estad́ıstico paramétrico tal que el soporte de las distribuciones no dependa del valor del parámetro. Si en el mues- treo independiente idénticamente distribuido de ese modelo existe un estad́ıstico suficiente cuya dimensión no cambie al aumentar el tamaño muestral, entonces forzosamente el modelo paramétrico pertence a la familia exponencial. Es decir, si el soporte de las distribuciones es el mismo para todos los valores del parámetro y hacemos muestro aleatorio simple, las únicas distribuciones para las cuales hay estad́ısticos suficientes de dimensión fija son de la familia exponencial. 2.2. Principio de verosimilitud Sea una muestra aleatoria simpleX = (X1, . . . , Xn) de una variable aleatoria X y supongamos que se ha observado x. Llamamos función de verosimilitud de la muestra a la función de densidad conjunta o a la función de masa de probabilidad conjunta, según sea X continua o discreta, entendida ésta como función del parámetro: L(·|x) : Θ −→ R+ θ −→ L(θ|x) = f(x|θ) La función de verosimilitud aśı definida puede entenderse como un estad́ıstico, es decir, como una función L de la muestra que no depende del parámetro: a cada posible muestra observada x, la función de verosimilitud le asocia un elemento del conjunto (R+)Θ de todas las funciones de Θ en R+, precisamente L(·|x), la función de verosimilitud de esa muestra: L : X −→ (R+)Θ x −→ L(·|x) 38 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Aśı, L(X) es una función aleatoria de Θ en R. Por lo tanto, la función de vero- similitud es una forma más de resumir la información que la muestra contiene acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X (de dimensión n) a L(X) (de dimensión igual al cardinal de Θ, normalmente infinito) no siempre se puede entender como un resumen de la información. En esta sección se desarrollan argumentos que prueban lo siguiente: si se acepta el principio de suficiencia, entonces la inferencia se debe basar en la fun- ción de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro se debe basar única y exclusivamente en la función de verosimilitud) se expre- sa formalmente en el principio de verosimilitud, que especifica cómo debe usarse la verosimilitud en la reducción de la información muestral. Principio de verosimilitud: Si x e y son dos puntos muestrales tales que L(θ|x) = C(x,y)L(θ|y), para todo θ, donde C(x,y) es una función que puede depender de x e y pero no de θ, entonces la inferencia que se haga sobre θ será la misma tanto si se observa x como si se observa y. Obsérvese que la verosimilitud de una muestra x en el caso discreto es la colección de las probabilidades de haber observado x bajo los diferentes valores de θ. Aśı, el cociente de dos valores de la verosimilitud L(θ1|x) L(θ2|x) indica cuantas veces más probable es observar x bajo θ1 que bajo θ2. En el caso continuo esto es aproximadamente válido, si hablamos de la probabilidad de observar valores en un entorno de x en lugar de la probabilidad de observar x: Pθ1(X ∈ B(x, ε)) Pθ2(X ∈ B(x, ε)) ≈ VolumenB(x, ε)f(x|θ1) VolumenB(x, ε)f(x|θ2) = f(x|θ1) f(x|θ2) . Si, por ejemplo, f(x|θ1)/f(x|θ2) = 2 podemos decir que θ1 es mucho más plausi- ble (mucho más verosimil) que θ2. Aśı, la verosimilitud indica cómo de plausible es un valor del parámetro θ1 en términos relativos (comparada esa plausibilidad con la de otro valor de θ2). En este sentido el enunciado del principio de verosimilitud es esencialmente equivalente a decir que la inferencia sobre el parámetro se debe basar única y exclusivamente en la función de verosimilitud: si dos valores muestrales dan lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales), los cocientes de verosimilitudes serán iguales si se observa una u otra, L(θ1|x) L(θ2|x) = C(x,y)L(θ1|y) C(x,y)L(θ2|y) = L(θ1|y) L(θ2|y) , 2.2. PRINCIPIO DE VEROSIMILITUD 39 y por lo tanto, los valores de θ más verośımiles serán los mismos si se observa x o y. Como consecuencia, x e y deben dar lugar a las mismas inferencias sobre θ, como afirma el principio de verosimilitud. El siguiente teorema afirma que el principio de suficiencia y el de verosimi- litud son equivalentes. Teorema 15. El principio de suficiencia y el principio de verosimilitud son equivalentes. Demostración: Suficiencia =⇒ Verosimilitud. Veamos que la función de verosimilitud, vista como estad́ıstico L(X), es un estad́ıstico suficiente. En efecto, f(x|θ) = g(L(x)|θ)h(x), donde h(x) = 1 y la función g(L(x)|θ) es la que devuelve el valor de L(x) en el punto θ. Por el teorema de factorización L(X) es estad́ıstico suficiente. Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de la muestra X = (X1, . . . , Xn) sólo a través del valor L(X), lo cuál implica el principio de verosimilitud. Verosimilitud =⇒ Suficiencia. Consideremos un estad́ıstico suficiente T (X) y dos valores muestrales x e y tales que T (x) = T (y). Veamos que la inferencia sobre θ que se derive de x e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia). En efecto, se tiene que L(x|θ) = g(T (x)|θ)h(x) = g(T (y)|θ)h(x) = g(T (y)|θ)h(y)h(x) h(y) = C(x,y)L(y|θ) de donde se deduce por aplicación del principio de verosimilitud que la inferencia que se haga sobre θ será la misma tanto si se observa x como si se observa y. 2 En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más deta- llado sobre las implicaciones que existen entre estos y otros principios de re- ducción de los datos. Las conclusiones a las que alĺı se llega implican que el principio de verosimilitud es cierto también para inferencias hechas sobre un mismo parámetro a partir de experimentos distintos: si se observan resultados tales que las correspondientes verosimilitudes son proporcionales, la inferencia será la misma. 40 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS 2.3. Lista de problemas Suficiencia 1. (Casella-Berger, 6.1) Sea X una observación
Compartir