Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Teoŕıa Estad́ıstica Notas del curso (en proceso) Licenciatura en Matemáticas Depto. de Matemáticas Cs. Básicas, CUCEI. Rubén Sánchez Gómez Introducción a estimación puntual Con base en los conceptos de teoŕıa de probabilidad, la estad́ıstica provee técnicas que permiten obtener conclusiones generales a partir de un conjunto limitado –pero representativo– de datos. Cuando se hace inferencia no se tiene garant́ıa de que la conclusión que obtenemos sea exactamente correcta. Sin embargo, la estad́ıstica permite cuantificar el error asociado a la estimación. La mayoŕıa de los modelos de probabilidad incluyen cierto número de parámetros, generalmente desconocidos y que se deben estimar a partir de una muestra. De esta forma, si de un modelo de probabilidad f(x; ✓) con parámetro ✓, se tienen n valores observados x1, x2, . . . , xn entonces, se puede obtener una estimación de ✓, digamos ✓̂ como función gf de los valores observados, es decir b✓ = gf (x1, x2, . . . , xn). A b✓ se le conoce como estad́ıstico o estimador de ✓ para el modelo de probabilidad f(x; ✓). Criterios de evaluación Tomando como punto de partida la definición de un estimador, evidentemente existe más de una alternativa para gf (x1, x2, . . . , xn). Por tanto, se deben establecer criterios que permitan evaluar, entre las infinitas posibilidades, aquellos que muestren las “mejores” propiedades. Def. 1 (Error Cuadrado Medio). Para un estimador T arbitrario de un parámetro desconocido ✓, el error cuadrado medio (ECM) está dado por ECM(T ) = E(T � ✓)2 o bien, desarrollando el cuadrado resulta ECM(T ) = V ar(T ) + � ✓ � E[T ] � 2 . De modo que, para dos estimadores de ✓, T1 y T2, si ECM(T1) < ECM(T2) entonces T1 es mejor que T2 en términos de ECM . Def. 2 (Sesgo). A la diferencia ✓ � E[T ] se le conoce como sesgo de T y se dice que un estimador es insesgado si E[T ] = ✓. Es evidente que si un estimador T es insesgado, entonces ECM(T ) = V ar(T ) y por tal, un estimador insesgado será preferible a uno sesgado en términos del ECM . 101 102 4 Además, la varianza de un estimador insesgado será la cantidad más importante para decidir qué tan “bueno” es un estimador del parámetro ✓ de modo que, para los estimadores T1 y T2, el criterio de decisión se reduce a comprar sus varianzas y en caso de que V ar(T1) < V ar(T2), T1 será un estimador más eficiente. Def. 3 (Estimador insesgado de mı́nima varianza). Para una muestra aleatoria x1, . . . , xn de una densidad de probabilidad fX(x; ✓). Si un estimador T con ET = ✓ es tal que su V ar(T ) es menor que la varianza de cualquier otro estimador insesgado de ✓, se dice entonces que T es un estimador insesgado de mı́nima varianza de ✓. Ejem. 1. Sea X1, X2, . . . , Xn una muestra ordenada en forma creciente i.i.d., con valor esperado µ = EX < 1 y varianza �2 = E ⇥ (X � EX)2 ⇤ < 1 y sean T1 = 1 n nX k=1 Xk (promedio de la muestra), T2 = 1 n� 2 n�1X k=2 Xk (promedio de la muestra sin los extremos). Aśı, se puede ver que (por linealidad) ⇤ ET1 = E " 1 n nX k=1 Xk # = 1 n nX k=1 EXk = 1 n nX k=1 µ = 1 n nµ = µ ⇤ ET2 = E " 1 n� 2 n�1X k=2 Xk # = 1 n� 2 n�2X k=2 EXk = 1 n� 2 n�2X k=2 µ = 1 n� 2(n� 2)µ = µ. Por tanto, ambos estimadores son insesgados ya que µ � ET1 = µ � µ = 0 y µ� ET2 = µ� µ = 0. Además, dado que los Xk son i.i.d., se tiene que ⇤ V ar(T1) = V ar " 1 n nX k=1 Xk # = 1 n2 nX k=1 V ar(Xk) = 1 n2 nX k=1 � 2 = 1 n2 n� 2 = � 2 n ⇤ V ar(T2) = V ar " 1 n� 2 n�1X k=2 Xk # = 1 (n� 2)2 n�2X k=2 V ar(Xk) = 1 (n� 2)2 n�2X k=2 � 2 = 1 (n� 2)2 (n� 2)� 2 = � 2 n� 2 . Luego, se tiene que � 2 n = V ar(T1) < V ar(T2) = � 2 n� 2 y aśı ECM(T1) = V ar(T1)+ � µ�E[T1] � 2 = � 2 n < ECM(T2) = V ar(T2)+ � µ�E[T2] � 2 = � 2 n� 2 , 103 4 de donde se concluye que T1 es mejor estimador que T2 (tiene menor error cuarado medio). Teo. 1 (Desigualdad de Cramér–Rao). Sea x1, . . . , xn una muestra de una población con densidad fX(x; ✓). Si T es un estimador insesgado de ✓ entonces V ar(T ) � 1 nE "✓ @ log f(X; ✓) @✓ ◆ 2 # Antes de mostrar el teorema, consideremos el siguiente paréntesis: Teo. 2 (Diferenciando bajo el operador integral). Sea f(t, x) : IRn+1 ! IR una función tal que para cada t fijo, existe la integral F (t) = Z IRn f(t, x) dx1 · · · dxn. Para todo x, suponga que @f/@t existe y que hay una función Riemann integrable g(x) tal que ���� f(s, x)� f(t, x) s� t ���� g(x) para todo s 6= t. Entonces, F es diferenciable y dF (t) dt = Z IRn @f(t, x) @t dx1 · · · dxn La demostración detallada se puede encontrar en Hubbard & Hubbard (2002)2 y se puede obtener mediante la definición de la derivada de una función. Mostrando la desigualdad de Cramér–Rao. Para llegar a la demostración, recordemos que si la función de densidad de una población continua o discreta es fX(x|✓), la función de verosimilitud (propuesta por Fisher en 1921) de una muestra de tamaño n queda descrita como L = L(x1, . . . , xn|✓) = nY k=1 f(xk|✓). Dado que L es una función de densidad conjunta, es evidente que Z · · · Z L dx1 · · · dxn = 1 (4.5) Supongamos ahora que las dos primeras derivadas de L respecto a ✓ existen para todo ✓, de modo que; diferenciando en ambos lados de 4.5 e intercambiando los operadores integración– 2Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms, second edition, Prentice Hall. 104 4 diferenciación, se obtiene Z · · · Z @L @✓ dx1 · · · dxn = 0 que se puede re-escribir como E ✓ @ logL @✓ ◆ = Z · · · Z ✓ 1 L @L @✓ ◆ L dx1 · · · dxn = 0 y diferenciando nuevamente e intercambiando los operadores se obtiene Z · · · Z ⇢✓ 1 L @L @✓ ◆ @L @✓ + L @ @✓ ✓ 1 L @L @✓ ◆� dx1 · · · dxn = 0 que se simplifica como Z · · · Z (✓ 1 L @L @✓ ◆ 2 + @ 2 logL @2✓ ) L dx1 · · · dxn = 0 o bien, E "✓ @ logL @✓ ◆ 2 # = �E ✓ @ 2 logL @2✓ ◆ (4.6) Ahora, sea t un estimador de ✓ tal que E(t) = ⌧(✓) para alguna función ⌧(✓) de modo que, si t es insesgado se tendŕıa que ⌧(✓) = ✓. Entonces, se tiene que E(t) = Z · · · Z tL dx1 · · · dxn = ⌧(✓) y, diferenciando e intercambiando operadores nuevamente resulta Z · · · Z t @ logL @✓ L dx1 · · · dxn = ⌧ 0(✓) de modo que, agregando un cero se puede escribir ⌧ 0(✓) = Z · · · Z n t� ⌧(✓) o @ logL @✓ L dx1 · · · dxn Luego, por desigualdad de Cauchy–Schwarz se tendŕıa que � ⌧ 0(✓) 2 ⇢Z · · · Z n t� ⌧(✓) o 2 L dx1 · · · dxn �⇢Z · · · Z n @ logL @✓ o 2 L dx1 · · · dxn � o bien � ⌧ 0(✓) 2 V ar(t)E "✓ @ logL @✓ ◆ 2 # (4.7) Esta es la desigualdad fundamental para la varianza de un estimador, usualmente conocida como desigualdad de Cramer–Rao y en el caso en que t sea un estimador insesgado se tendŕıa 105 4 que ⌧(✓) = ✓ y por tanto ⌧ 0(✓) = 1 y de la ecuación 4.7 resulta que 1 V ar(t)E "✓ @ logL @✓ ◆ 2 # () 1 E "✓ @ logL @✓ ◆ 2 # V ar(t) Más aún, dado que L = nY k=1 f(xk|✓) se tiene que logL = nX k=1 log f(xk|✓) y aśı, E "✓ @ logL @✓ ◆ 2 # = Z · · · Z ✓ @ logL @✓ ◆ 2 L dx1 · · · dxn = Z · · · Z nX k=1 @ log f(xk|✓) @✓ ! 2 L dx1 · · · dxn = Z · · · Z nX i=1 nX j=1 @ log f(xi|✓) @✓ @ log f(xj |✓) @✓ L dx1 · · · dxn = nX i=1 nX j=1 Z · · · Z @ log f(xi|✓) @✓ @ log f(xj |✓) @✓ L dx1 · · · dxn = I1 + I2, en donde, separando los términos cuadráticos (i = j) se tiene que I1 = nX k=1 Z · · · Z ✓ @ log f(xk|✓) @✓ ◆ 2 L dx1 · · · dxn I2 = X 1i,jn i 6=j Z · · · Z @ log f(xi|✓) @✓ @ log f(xj |✓) @✓ L dx1 · · · dxn pero, integrando cada uno por separado, se puede ver que I1 = nX k=1 Z · · · Z ✓ @ log f(xk|✓) @✓ ◆ 2 L dx1 · · · dxn = nX k=1 Z ✓ @ log f(xk|✓) @✓ ◆ 2 f(xk|✓)dxk ⇠⇠⇠ ⇠⇠⇠ ⇠⇠⇠ ⇠⇠⇠ ⇠⇠:1 n�10 @ Z · · · Z nY i=1,i 6=k f(xi|✓)dxi 1 A = nX k=1 E "✓ @ log f(xk|✓) @✓ ◆ 2 # = nE "✓ @ log f(xk|✓) @✓ ◆ 2 # y además, para la muestra se tiene que I2 = X 1i,jn i 6=j Z · · · Z @ log f(xi|✓) @✓ @ log f(xj |✓) @✓L dx1 · · · dxn = X 1i,jn i 6=j Z · · · Z @ log f(xi|✓) @✓ @ log f(xj |✓) @✓ f(x1|✓) · · · f(xn|✓) dx1 · · · dxn 106 4 pero, para un término, digamos I2(i, j), se puede ver que I2(i, j) = Z · · · Z @ log f(xi|✓) @✓ @ log f(xj |✓) @✓ f(x1|✓) · · · f(xn|✓) dx1 · · · dxn = E ✓ @ log f(xi|✓) @✓ ◆� E ✓ @ log f(xj |✓) @✓ ◆� pero, de forma análoga al caso de la densidad L, derivando respecto a ✓ se tiene que Z f(xi|✓)dxi = 1 =) Z @f(xi|✓) @✓ dxi = 0 =) Z 1 f(xi|✓) @f(xi|✓) @✓ f(xi|✓)dxi = 0 o bien, E @ @✓ log f(xi|✓) � = 0 8 i, es decir, I2 = 0 y por tanto, E "✓ @ logL @✓ ◆ 2 # = E 2 4 @ @✓ nX k=1 log f(xk|✓) ! 2 3 5 = nE "✓ @ log f(xk|✓) @✓ ◆ 2 # y aśı, el teorema de Cramer–Rao queda demostrado. ⌅ A la cantidad I = E "✓ @ logL @✓ ◆ 2 # se conoce como información de Fisher de la muestra o cantidad de información muestral y de forma similar, la desigualdad fundamental para la varianza de un estimador permite acotar al término I con base en los momentos de t mediante I � {⌧ 0(✓)}2 V ar(t) Def. 4 (Eficiente). Un estimador t del parámetro ✓ es eficiente, si es insesgado y satisface V ar(t) = 1 E "✓ @ logL @✓ ◆ 2 # . Def. 5 (Consistente). Sea Tn = gf (x1, . . . , xn) una secuencia de estimadores de un parámetro ✓. Si T es el estimador que representa a la secuencia Tn, se dice que T es consistente si ĺım n!1 P (|Tn � ✓| ⇠) = 1 8✓, en donde ⇠ > 0. Ejem. 2. Sea x1, . . . , xn una muestra de v.a.’s tales que E[xi] = µ y V ar(xi) = �2, ¿es x̄n = nX k=1 xk n un estimador consistente de µ? 107 4 Demostración. Se quiere demostrar que ĺım n!1 P (|x̄n � µ| ⇠) = 1 pero, dado que x̄n es una v.a. con E[x̄] = µ y V ar(x̄) = � 2 n , por teorema de Chevishev se cumple que P ✓ |x̄n � µ| > k�p n ◆ 1 k2 por tanto, si designamos k ⌘ ⇠ p n � para ⇠ > 0, se tiene que P (|x̄n � µ| > ⇠) � 2 n⇠2 () ĺım n!1 P (|x̄n � µ| > ⇠) = 0 ⌅ Métodos de estimación puntual Existen varios métodos para encontrar estimadores de los parámetros de cualquier modelo, tales como el método de momentos, el método de máxima verosimilitud y el método de Bayes, entre otros. Sin embargo en este caṕıtulo sólo se mencionan los tres primeros, ya que son los más utilizados en la literatura para estimar parámetros de una distribución de probabilidad. Método de momentos Es una técnica general que consiste en utilizar los momentos de muestra para estimar sus momentos de población correspondientes produce estimadores con las propiedades de mı́nima varianza e insesgados, en donde se representa a los parámetros en términos de los momentos de la distribución. Alrededor del 1800, Pearson propuso que, para una muestra x1, x2, . . . , xn, el método de momentos (MOM) consiste en igualar los momentos muestrales m1 = 1 n nX i=0 xi, m2 = 1 n nX i=0 x 2 i , m3 = 1 n nX i=0 x 3 i , . . . , mr = 1 n nX i=0 x r i con los momentos poblacionales del modelo probabiĺıstico propuesto µ1 = E[x], µ2 = E[x 2], µ3 = E[x 3], . . . , µr = E[x r] con base al número de parámetros que tiene la función de probabilidad. Ejem. 3. Para el modelo exponencial, dado por fT (t) = �e ��t 108 4 solo se tiene un parámetro, en este caso �, por lo que es suficiente comparar un momento muestral. En este caso, como µ1 = E(t) = 1 � y m1 = 1 n nP i=0 ti = t̄, al igualarlos se tiene que 1 � = t̄ =) b�MOM = 1 t̄ . Por otro lado, para el modelo gamma fT (t) = � k e ��t t k�1 �(k) , se tiene los parámetros k y �, lo que implica igualar dos momentos. Dado que µ1 = E(t) = k�, µ2 = E(t2) = (k2 + k)�2 y m1 = t̄, m2 = 1 n nP i=0 t 2 i , al igualar estos momentos respectivamente, se tiene que k� = t̄ y (k2 + k)�2 = m2 luego t̄ 2 + t̄ 2 k = m2 () bkMOM = t̄ 2 m2 � t̄ 2 y sustituyendo bkMOM se obtiene el estimador de momentos de � como b�MOM = m2 � t̄ 2 t̄ y finalmente bkMOM = t̄ 2 1 n nP i=0 t2 i � t̄ 2 , b�MOM = 1 n nP i=0 t 2 i � t̄ 2 t̄ Evidentemente, para un modelo con tres parámetros, se igualan tres momentos y aśı sucesivamente, de modo que los estimadores de momentos se obtienen simplemente despejando los parámetros en términos de los momentos muestrales. A pesar de ser un método simple y que generalmente proporciona una solución para cualquier modelo, su uso es muy reducido y por lo regular, la mayoŕıa de usuarios aplican el método de máxima verosimilitud. Método de máxima verosimilitud El método de máxima verosimilitud (MV ) fue propuesto por Sir Ronald Fisher, a partir de un trabajo desarrollado por Bernoulli y revisado por Euler, fundamentalmente consiste en determinar un valor paramétrico que maximice la posibilidad de que los valores observados en la muestra sean los más probables, es decir, se deben obtener valores paramétricos ✓ tales que la función de verosimilitud dada por L(✓) = f(✓;x1, . . . , xn) (4.8) sea máxima, en donde ✓ puede ser escalar o vectorial. El estimador de máxima verosimilitud (o máximo verośımil), como su nombre lo dice, se obtiene calculando el máximo de la función de verosimilitud, por lo que se aplican 109 4 conceptos elementales del cálculo, buscando maximizar la función L(✓), utilizando el modelo probabiĺıstico. Ejem. 4. Resolviendo un ejemplo, si t1, t2, . . . , tn es una muestra de la densidad exponencial, L(�) = f(�; t1, t2, . . . , tn) = nY i=1 �e ��ti = �ne �� nP i=1 ti entonces, para obtener el valor de � que maximiza la función de verosimilitud, derivando respecto a � e igualando a cero se tiene que n� � nX i=1 ti = 0 despejando � resulta b�MV = n nP i=1 ti = 1 1 n nP i=1 ti = 1 t̄ . En el caso particular de la función de densidad de probabilidad exponencial se puede observar que el estimador por método de momentos es el mismo que el que se obtiene mediante el método de máxima verosimilitud, sin embargo esto no cumple en general. En la mayoŕıa de textos aprovechan el hecho de que el máximo de f(x) es el mismo que el de log[f(x)], de modo que los cálculos se simplifican de forma significativa al momento de obtener los estimadores por máxima verosimilitud. Ejem. 5. Como ejemplo, nótese que analizando nuevamente el caso anterior, si L(�) = �ne �� nP i=1 ti entonces, aplicando el logaritmo natural se tiene que l(�) = logL(�) = n log �� � nX i=1 ti aśı, diferenciando respecto a � se tiene que d d� l(�) = n � � nX i=1 ti que al igualar a cero y despejar se obtiene el mismo resultado ⇣ b�MV = 1/t̄ ⌘ . 110 4 Ejem. 6. Como segundo ejemplo, para el modelo gamma se tiene que L(k,�) = nY i=1 � k e ��ti t k�1 i �(k) = �nke �� nP i=1 ti nQ i=1 t k�1 i �(k)n por tanto, aplicando logaritmo natural resulta l(k,�) = (nk) log �� � nX i=1 ti + (k � 1) nX i=1 ti � n log�(k) y diferenciando parcialmente respecto a k y � se obtiene el sistema @ @k l(k,�) = n log �+ nX i=1 ti � n ✓ �0(k) �(k) ◆ @ @� l(k,�) = nk � � nP i=1 ti e igualando a cero resulta nk � � nX i=1 ti = 0 (4.9) n log �+ nX i=1 ti � n ✓ �0(k) �(k) ◆ = 0. (4.10) Despejando k de la ecuación (4.9) se obtiene k = �t̄, mientras que para la ecuación (4.10) se tiene que log � = �0(k) �(k) � t̄ cuya solución no se puede obtener en forma anaĺıtica, por lo que se debe aproximar una solución del sistema mediante algún método numérico o bien, se puede simplificar el problema sustituyendo k para reducir el problema a la solución de una ecuación no lineal en una variable, mediante � = exp ✓ �0(k) �(k) � t̄ ◆ =) � = exp ✓ �0(�t̄) �(�t̄) � t̄ ◆ , e implementar un método numérico para aproximar los estimadores de máxima verosimilitud, tomando por ejemplo, los estimadores de momentos como valor inicial. Estimadores Bayesianos Consideremos una muestra de tamaño n, X1, . . . , Xn tomada de una población indexada por ✓ (otra variable aleatoria) de la cual, se conoce apriori su densidad de probabilidad, digamos ⇡(✓); entonces si la distribución del muestreo es f(x|✓), la distribuciónaposteriori 111 4 (condicional de ✓ dada la meustra) se obtiene mediante ⇡(✓|x) = f(x, ✓) m(x) = f(x|✓)⇡(✓) m(x) en donde m(x) = Z f(x, ✓)d✓ = Z f(x|✓)⇡(✓)d✓. Ejem. 7. (Bernoulli–Binomial) Supongamos que x ⇠ Bernoulli(x|✓); ✓ ⇠ Beta(✓|↵0,�0) y entonces, como f(x, ✓) = ⇥ ✓ x(1� ✓)1�x ⇤ �(↵0 + �0) �(↵0)�(�0) ✓ ↵0�1(1� ✓)�0�1 � = �(↵0 + �0) �(↵0)�(�0) ✓ x+↵0�1(1�✓)�0�x la densidad predictiva (para un x fijo, digamos x⇤) se escribe como m(x⇤) = 1Z 0 �(↵0 + �0) �(↵0)�(�0) ✓ x+↵0�1(1� ✓)�0�xd✓ = �(x ⇤ + ↵0)�(�0 � x⇤ + 1) �(↵0 + �0 + 1) �(↵0 + �0) �(↵0)�(�0) por lo tanto, ⇡(✓|x⇤) = �(↵0 + �0 + 1) �(x⇤ + ↵0)�(�0 � x⇤ + 1) ✓ x ⇤ +↵0�1(1� ✓)�0�x⇤ Bajo el contexto Bayesiano, por costumbre se cuestiona la información apriori, la densidad del parámetro ⇡(✓), en donde la pregunta natural es ¿cómo se construye la densidad apriori? En respuesta, el caso anterior Bernoulli – Beta corresponde a las distribuciones conjugadas de modo que se puede obtener la densidad aposteriori con un kernel similar al de la densidad de los datos. a manera de tabla, algunas de las familias conjugadas se pueden observar a continuación Verosimilitud Apriori conjugada Bernoulli Beta Binomial Beta Multinomial Dirichlet Binomial Negativa Beta Poisson Gamma Exponencial Gamma Gamma(�2) Gamma Normal µ Normal Normal �2 Gamma Inversa Pareto ↵ Gamma Pareto � Pareto 112 4 Y completando la información, se tienen dos alternativas: 1. Conseguir información ya sea a partir de los datos o bien cuestionando a un experto que conoce el fenómeno de estudio, es decir, obtener una distribución apriori informativa mediante Análisis emṕırico previo. Consultar al experto sobre lo que se espera del parámetro en términos de momentos, simetŕıas, intervalos,. . . 2. Suponiendo que no hay información disponible, en la literatura se puede encontrar una serie de técnicas para obtener distribuciones apriori no-informativa en una variedad de modelos estad́ısticos (Robert, 1994, pp. 112; Lindsey, 1996, pp. 334; Yang y Berger, 1998). Impropias Unif(�1,1) o bien Unif(0,1). Distribuciones apriori’s de Je↵rey. Distribuciones poco informativas, por ejemplo, para la distribución normal, ✓ ⇠ N(µ, 103), �2 ⇠ �(10�3, 10�3),. . . Ejem. 8. (Apriori no-informativa) Suponiendo una muetra x1, x2, . . . , xn de una variable aleatoria distribuida Pareto generalizada con parámetro de forma k y parámetro de escala � ⇥ o bien reparametrizando � = 1 � ⇤ la función de verosimilitud para la muestra, se escribe como L(k,�|datos) = ��n nY i=1 (1� kxi/�) 1 k�1 + " L(k, �|datos) = �n nY i=1 (1� k�xi) 1 k�1 + # . (4.11) De aqúı, algunas distribuciones alternativas son Si el parámetro de escala es conocido, por la forma de la DPG se tendŕıa que k 2 ⇣ �1, � tn:n ⌘ y aparentemente la opción más viable es suponer la distribución apriori localmente uniforme ⇡(k) / 1, popularizada por Laplace (1812), Considerando el modelo f(x|k, �) y asumiendo similarmente que k es conocido, dado que � > 0, es bastante común utilizar ⇡(�) / 1 � . y suponiendo que ambos parámetros son desconocidos, las distribuciones aprioris aplicables seŕıan 1. Apriori localmente uniforme ⇡(k,�) / 1, de donde la distribución posteriori tiene la forma ⇡1(k,�|datos) / L(k,�|datos)⇡(k,�) = ��n nY i=1 (1� kxi/�) 1 k�1 + 113 4 Es decir, en el peor de los casos, se obtiene le método de estimación por máxima verosimilitud. 2. Apriori log � localmente uniforme ⇡(k, �) / 1 � , obteniendo ⇡2(k, �|datos) / �n�1 nY i=1 (1� k�xi) 1 k�1 + Estimación puntual Bayesiana Una vez que se tiene la densidad aposteriori ⇡(✓|x), para obtener un estimador dada la muestra, se debe elegir aquel valor b✓ que minimice la función de pérdida esperada E[L(✓, b✓)] para ✓ desconocido, mediante mı́n b✓ E[L(✓, b✓)|x] = mı́n b✓ Z ⇥ L(✓, b✓)⇡(✓|x)d✓ en donde ⇥ se conoce como el espacio paramétrico. Pérdida cuadrática Para L(✓, b✓) = (✓ � b✓) se puede demostrar que E(✓|x) = mı́n b✓ Z ⇥ L(✓, b✓)⇡(✓|x)d✓, es decir, el estimador Bayesiano es la media aposteriori E(✓|x) = Z ⇥ ✓⇡(✓|x)d✓. En otras palabras, suponiendo una función de pérdida cuadrática, el estimador Bayesiano es el valor esperado de la densidad aposteriori. Pérdida de error absoluto Para L(✓, b✓) = |✓ � b✓| el estimador Bayesiano es la mediana de la densidad aposteriori, es decir b✓ : Z b✓ �1 ⇡(✓|x)d✓ = 0.5 Error absoluto asimétrico Para Lr,s(✓, b✓) = ( s(✓ � b✓) si ✓ > b✓ r(b✓ � ✓) si ✓ b✓ el estimador Bayesiano es el cuantil s r + s , es decir b✓ : Z b✓ �1 ⇡(✓|x)d✓ = s r + s 114 4 Por otro lado, una alternativa a la función de pérdida es el estimador del máximo aposteriori (MAP ), es decir, seleccionar el b✓ que maximice a ⇡(✓|x) (la moda de ⇡(✓|x)). Teorema central del ĺımite: aplicaciones A grandes rasgos, con el teorema central del ĺımite se puede afirmar que la media de una muestra aleatoria se distribuye asintóticamente normal estándar, bajo el enunciado Teo. 3 (Teorema central del ĺımite). Sean X1, . . . , Xn una muestra de v.a. distribuidas fX(x) con media µ y varianza �2 < 1. Sea Sn = X1 + · · ·+Xn, entonces ĺım n!1 P ✓ Sn � nµ � p n z ◆ = �(z), es decir, Sn converge en probabilidad a una v.a. normal estándar, o en forma equivalente, en el ĺımite cuando n tiende a infinito X � µ �/ p n ⇠ N(0, 1) para X = 1 n nX k=1 Xk. Exploración por simulación mediante el software estad́ıstico R del comportamiento de estimadores Para conocer las reglas básicas para jugar con R, una primer aproximación es tener una referencia rápida, siguiente sección, con un compendio de funciones de uso continuo en R para resolver ejercicios y problemas del curso de Estad́ıstica y Procesos Estocásticos. Referencia rápida Obteniendo ayuda Lo más rápido, desde consola o R-commander, obtiene ayuda de algún tópico tecleando ?(el tópico de interés) o bien help(el tópico). Desde RStudio se pueden teclear las opciones anteriores o seleccionar la pestaña de ayuda disponible en 115 4 y simplemente teclear el tópico de interés en el recuadro. Otros comandos informativos Otras funciones de R son muy útiles para obtener información. Por ejemplo: apropos(tópico) presenta una lista de todos los objetos que coinciden con el tópico, help.start() Inicia la versión de ayuda HTML, str(variable) muestra en pantalla la estructura del objeto “variable”, ls() muestra la lista de objetos activos, dir() archivos disponibles en el directorio de trabajo, entre otros. . . Informándose ahora sobre las variables is.na( x ) informa si la variable x tiene datos perdidos o ausencia de dato. Simi- larmente se tiene is.numeric(x), is.array(x), is.data.frame(x), is.complex(x), is.character(x) names(x) muestra los nombres de las columnas de x dim(x) muestra la dimensión de x cuando es matrix o data.frame, para vectores se usa length(v) Comandos importantes: Para salir de R basta teclear q() o bien basta con dar click para cerrar la ventana y pregunta si se quieren guardar cambios. Si de antemano no se quieren guardar cambios se teclea q(“no”). <- asigna un objeto (escalar, vector, matriz, tabla, marco de datos, . . . ) a una variable. Se puede aplicar en ambas direcciones: 116 4 x <- seq(-2*pi,4*pi/3, by=0.001) o bien sin(x) -> y. Aritmética básica + suma � resta ⇤ producto / cociente ^, o ⇤⇤ potencia %/% división entera %% módulo % ⇤ % multiplicación de matrices Loops if (cond) expr. for (var in seq) expr while(cond) expr Creando objetos de datos Si la cantidad de datos no es demasiado extensa para meterlos a mano o bien es extensa pero se reproducen en el sistema, lo común es utilizar: c(...) es una función genérica que permite combinar datos de distinto formato (numéricos, categóricos, booleanos, . . . ) ini:fin genera secuencias desde ini “:” hasta fin y tiene prioridad de operaciones; por ejemplo 1:4 + 1 genera “2, 3, 4, 5” seq(ini,fin) genera una secuencia desde ini hasta fin con incrementos espećıficosque pueden establecerse con by=valor o con la longitud de los incrementos con length=. seq(along=x) genera la secuencia 1, 2, . . . , de longitud x. Puede ser útil para ciclos for. rep(x,n) repite el valor x n veces. Se puede combinar con la instrucción each=n para que repita cada valor n ve- ces. Ej. rep(c(1,2,3),2) es 1 2 3 1 2 3. mientras que rep(c(1,2,3),each=2) genera el vector 1 1 2 2 3 3. list(...) crea una lista de argumentos que puede o no, tener nombre. Por ej. list(a=c(1,2),b=”hi”,c=3i); array(x,dim=v) genera un arreglo con los datos x; en las dimensiones especificadas, en donde dim=c(3,4,2) recicla los elementos de x si nos son suficientes. matrix(x, nrow=a, ncol=b genera una matriz con los valores de x y los ordena de acuerdo al número de filas y columnas nrow y ncol respectivamente. rbind(...) combina los argumentos en filas (cuando es posible) cbind(...) como el anterior pero por columnas. Algunas familias de probabilidad en RMedidas 117 4 Tabla 4.2: Lista con algunas familias de probabilidad disponibles en R. Familia Densidad Distibución Cuantile v.a. Beta pbeta qbeta dbeta rbeta Binomial pbinom qbinom dbinom rbinom Cauchy pcauchy qcauchy dcauchy rcauchy Chi-Square pchisq qchisq dchisq rchisq Exponencial pexp qexp dexp rexp F pf qf df rf Gamma pgamma qgamma dgamma rgamma Geometrica pgeom qgeom dgeom rgeom Hypergeometrica phyper qhyper dhyper rhyper Logistica plogis qlogis dlogis rlogis Log Normal plnorm qlnorm dlnorm rlnorm Binomial Negativa pnbinom qnbinom dnbinom rnbinom Normal pnorm qnorm dnorm rnorm Poisson ppois qpois dpois rpois t�Student pt qt dt rt Rango Studentizado ptukey qtukey dtukey rtukey Uniforme punif qunif dunif runif Weibull pweibull qweibull dweibull rweibull Rangos de Wilcoxon pwilcox qwilcox dwilcox rwilcox Rangos de Wilcoxon con signo psignrank qsignrank dsignrank rsignrank Como su nombre lo dice: min(x), max(x), median(x), mean(x) obtiene la mediana y media de los datos, quantile(x,p) calcula los cuantiles (0%, 25%, 50%, 75%, 100% de x), sum(x) (suma los elementos de x), prod(x) (multiplica los elementos de x), summary(x) presenta un resumen de los estad́ısticos de x. sort(x), ordena en forma ascendente. rank(x) muestra los ı́ndices de los elementos de x ordenados en forma creciente. 118 4 Jugando con R Sugiero que verifiquen todos los comandos que se muestran en los ejemplos. . . Ejem. 9. En el ejemplo 13, pág. 97, se calcula el estimador de la familia exponencial fT (t) = �e��x con el método de momentos, obteniendo �̂MOM = 1/t̄. 1. Genere una muestra de tamaño n = 105 de fT (t) con � = 7. Para generar una muestra, de la tabla 4.2 se puede ver que para generar v.a. exponenciales se utiliza la función rexp Un primer paso es identificar la función que genera una muestra del modelo exponencia, para asegurarse si corresponde exactamente al modelo fT (t) = �e��x. Usando ayuda en RStudio se obtiene es decir, el modelo que usan en R corresponde exactamente al del ejercicio. Aśı, para generar la muestra se teclea en donde el vector t conserva la muestra de tamaño n. 2. Genere un histograma de ésta muestra. Para obtener el histograma, se teclea hist(t), pero si se quiere tener control en el tipo de histograma, t́ıtulo de la gráfica, etiquetas de los ejes, color; se puede teclear 119 4 Se puede ver que los comentarios se agregan con el śımbolo (gato, hashtag, c-sharp) y se observan en color verde (no es necesario que los agreguen) 3. Calcule el estimador �̂MOM . En este caso, y dado que �̂MOM = 1/t̄, se teclear 1/mean(t). En mi caso resulta 6.9984 ¿Qué valor resulta en tu caso? NOTA: Observe que los resultados se muestran en la ventana de consola y en la ventana de Untitle1* es donde agrego los comandos. . . que se ejecutan dando click en el ı́cono Run Ejem. 10. En el ejemplo anterior sólo se corre una simulación de un experimento aleatorio con una muestra exponencial, en mi caso resulta �̂MOM = 6.9984 y evidentemente en cada una de las simulaciones que resuelven Ustedes se obtiene un 120 4 resultado semejante. ¿Qué pasa si se resuelven m = 103 simulaciones?. . . Simplemente se tendŕıa una muestra de estimadores del parámetro �̂MOM que sigue un modelo de probabilidad espećıfico con un valor esperado y una varianza de la v.a. �̂MOM . Hace años, esto sonaba a locura, ¿mil simulaciones?. . . ¿cada una de tamaño 100000?. . . No obstante, hoy en d́ıa se reduce a “jugar” con R. y el promedio de �̂MOM , en mi caso, es mean(hat.lambda) = 6.9999 y además, se puede calcular la probabildiad de que �̂MOM tome valores entre 6.98 y 7.02. En mi caso, P (6.98 < �̂MOM < 7.02) = 0.642, que se obtiene tecleando sum((hat.lambda > 6.98)*(hat.lambda < 7.02))/m ——————————————————————————————————— 121 4 Ejercicios 1.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga la expresión del estimador por el método de momentos de p con n fija. 2.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �2. Obtenga una expresión de los estimadores por el método de momentos. 3.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga la expresión del estimador de máxima verosimilitud de p con n fija. 4.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �. Obtenga una expresión de los estimadores por el método de máxima verosimilitud. 5.– Obtenga los estimadores de momentos y de máxima verosimilitud de la densidad Weibull fX(x;↵,�) = ↵�x��1e�↵x � I(x > 0), ↵,� > 0 6.– La distribución Pareto generalizada (DPG) se define como F (x; k,�) = 8 >< >: 1� ⇣ 1� kx � ⌘ 1 k + , k 6= 0 1� exp ⇣ �x � ⌘ , k = 0 Obtenga los estimadores de momentos y de máxima verosimilitud para k,� > 0 7.– Sea X1, . . . , Xn ⇠ Unif(0, 1). Aproxime la probabilidad de que la v.a. X̄n = 1 n nX k=1 Xk tome valores entre 0.48 y 0.52 con n = 30, 50 y 75. 8.– [Aproximación densidad normal a binomial ] Considere el experimento que consiste en arrojar una moneda con probabilidad de 0.4 de obtener águila. Calcule la probabilidad de obtener al menos 20 águilas en 40 lanzamientos usando: (a) la distribución binomial; (b) la aproximación normal; (c) Comente sobre la precisión de la aproximación. 9.– Si X1, X2, . . . , Xn es una muestra de una población normal con media µ y varianza �2, entonces X̄n ⇠ N(µ,�2) (4.12)p n(X̄n � µ) � ⇠ N(0, 1) (4.13) (n� 1)s2n �2 ⇠ �2n�1 (4.14) p n(X̄n � µ) sn ⇠ tn�1 (4.15) Genere 103 muestras de tamaño n = (102, 103, 104) de una distribución normal con parámetros µ = 2/3, �2 = 7/9 y con ellas verifique si hay argumentos emṕıricos que den evidencia de las ecuaciones (4.12), (4.13), (4.14) y (4.15). Bibliograf́ıa [1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369- 7, pp 654. [2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd Edition, Springer-Verlag. [3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw- Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México. [4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury Thomson Learning. ISBN 0-534-24312-6. [5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I, John Wiley & Sons, Inc., New York · London · Sydney. [6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical statistics. Upper Saddle River, N.J: Pearson Education. [7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms, second edition, Prentice Hall. [8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc., Caṕıtulo 9. [9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing Company, English translation which appeared in Russian, 1936. Para los interesados, está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/kolmogorov_foundations.pdf [10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar, España. [11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic Processes, McGraw�Hill, Inc. [12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp. 984. [13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585. 122
Compartir