Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Pontificia Universidad Católica de Chile Facultad de Ciencias Económicas y Administrativas. Escuela de Administración. Curso: EAS201A. APUNTES Y EJERCICIOS Inferencia Estadística Vicente Breguel Gallaher vabreguel@uc.cl Primer Semestre 2018 1 ÍNDICE ÍNDICE Índice 1. Distribuciones Muestrales 4 1.1. Distribución Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3. Distribución F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4. Distribuciones en 2 muestras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Estimación máximo verosimil. 8 3. Estimación de momentos. 9 4. Intervalos de confianza (1 muestra) Construcción de intervalos de confianza vía pivote. 10 5. Intervalos de confianza (2 muestras) Construcción de intervalos de confianza vía pivote. 11 5.1. Caso Muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6. Intervalos de confianza asintóticos Diferencia de medias, muestras grandes e independientes 12 7. Test de hipotesis - 1 muestra 13 7.1. Pasos para testear la hipotesis... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 7.2. Ejemplo sencillo... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 7.3. Pruebas asintoticas usando estimadores máximo verosimiles . . . . . . . . . . . . . . . . . . . 14 8. Test de hipótesis - 2 muestras 15 8.1. Prueba para diferencia de medias, muestras pequeñas o grandes (poblaciones normales, va- rianzas desconocidas e iguales). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 8.2. Prueba para diferencia de medias, muestras grandes o pequeñas (poblaciones normales, va- rianzas desconocidas y distintas). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 8.3. Prueba para diferencia de proporciones, muestras grandes. . . . . . . . . . . . . . . . . . . . . 15 8.4. Diferencia de medias: Muestras pareadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 9. p-Value: Cómo obtenerlo y para qué sirve. 17 9.1. Ejercicio: Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 9.1.1. Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 10.Test’s Chi-Cuadrado: Bondad de ajuste e independencia. 18 10.1. Prueba de Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 10.1.1. Ejemplo: Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 10.1.2. Solución ejemplo: Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 10.2. Prueba de independencia o homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 10.2.1. Ejemplo: Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 10.2.2. Solución ejemplo: Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 ÍNDICE ÍNDICE 11.Introducción al concepto de regresión 23 11.1. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 11.2. Estimación de los parámetros: Método de mínimos cuadrados ordinarios (MCO) . . . . . . . 24 11.3. Propiedades de los estimadores propuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 11.3.1. Ejemplo de algún test de hipótesis al cual nos podremos enfrentar. . . . . . . . . . . . 25 11.4. Especificación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 12.Tabla ANOVA y Coeficiente R2. 27 13.Ejercicios 30 13.1. Ejercicios - Tópicos 1, 2 y 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 13.2. Ejercicios - Tópicos 4, 5 y 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 13.3. Ejercicios - Tópicos 7 y 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 13.4. Ejercicio - Tópico 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 13.5. Ejercicios - Tópico 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 14.Soluciones 34 14.1. Soluciones - Tópicos 1, 2 y 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 14.2. Soluciones - Tópicos 4, 5 y 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 14.3. Soluciones - Tópicos 7 y 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 14.4. Soluciones - Tópico 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 14.5. Soluciones - Tópico 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3 1 DISTRIBUCIONES MUESTRALES 1. Distribuciones Muestrales Lo primero, es recordar los últimos tópicos que veíamos en el curso de Probabilidad y Estadística, en térmi- nos de variables aleatorias y muestras de ellas. En ese sentido, sea Y1, . . . , Yn una muestra aleatoria de una población Y tal que se cumple: E(Y ) = µ, V (Y ) = �2. 1. Sabemos que el promedio muestral se puede describir de la siguiente manera: Y = nP i=1 Yi n Además, para obtener su media, sabemos que se cumple que: E(Y ) = E ✓P Yi n ◆ (1) = P E(Yi) n = nµ n = µ ocurriendo (1) ya que la esperanza es un operador lineal (E P = P E), y lo que nos determina que Y es un estimador insesgado de la media (su esperanza es igual al parámetro que estima). Además, y también por lo visto en el curso de Probabilidades y Estadística, sabemos que la varianza de ese estimador se puede obtener del siguiente modo: V (Y ) = V ✓P Yi n ◆ = P V (Yi) n2 = P �2 n2 = n�2 n2 = �2 n Y finalmente, y aplicando el Teorema del Límite Central (TLC) -para muestras de tamaño n �30-, sabemos que se cumplirá la siguiente distribución y posterior estandarización: Y ⇠ N(µ, � 2 n ) Y � µ �p n ⇠ N(0, 1) 2. Sin embargo, y ya que tenemos un estimador muy bueno para la «media» de una muestra, debemos preguntarnos cómo estimar la varianza muestral. Tenemos 2 versiones: S2 = Pn i=1(Yi � Y )2 n� 1 (1) E(S2) = �2 � insesgado V (S2) = 2�4 n� 1 Y se puede demostrar que esa versión es equivalente a la siguiente, mostrandonos la dispersión de la muestra (que tan concentrada está con respecto a la media): Pn i=1 Y 2 i � nY 2 n� 1 (1 0) Y además, una segunda versión, se muestra a continuación: S2n = Pn i=1(Yi � Y )2 n (2) 4 1 DISTRIBUCIONES MUESTRALES 1.1 Distribución Chi-Cuadrado E(S2n) = n� 1 n �2 V (S2n) = 2(n� 1) n2 �4 Sin embargo, normalmente, para estimar la varianza de una muestra, ocupamos la 1ra versión del estimador, dada su caracteristica de insesgamiento con respecto al parámetro que estima: �2. 1.1. Distribución Chi-Cuadrado Definición: La suma de «n» normales IID, estándar al cuadrado N(0,1) es una Chi-Cuadrado con «n» grados de libertad. «n» siempre representará el número de normales estándar2 sumadas. nX i=1 ✓ Yi � µ � ◆2 ⇠ X2(n) E(X2(n)) = n V (X2(n)) = 2n Sin embargo, sabemos que esta distribución Chi-Cuadrado puede ser estandarizada con respecto al prome- dio muestral (El cambio desde µ ! Y no cambia la distribución, solo genera que esta tenga un grado de libertad menos: nX i=1 ✓ Yi � Y � ◆2 �������! equivalente (n� 1)S2 �2 ⇠ X2(n�1) Y, además, podemos notar que las propiedades de esperanza y varianza se mantienen: E(X2(n�1)) = (n� 1) V (X2(n�1)) = 2(n� 1) 1.2. Distribución t-Student Partamos desde la base de que tenemos Y1, Y2, . . . , Yn m.a.s de Y ⇠ N(µ,�2). Y, por lo tanto, sabemos que se cumple: Y � µ �/pn ⇠ N(0, 1) Sin embargo, ¿qué pasa si desconozco �? Y � u �/pn ( app⇠ N(0, 1) si ”n” es grande (� 30) (S ' �) ⇠ tn�1 n 30 Lo anterior, y en el caso en que n 30,tenemos una distribución t-Student con (n� 1) grados de libertad. Además, podemos notar que esta distribución no es más que una normal estándar, ajustada por el tamaño de la muestra extraída. Además, tenemos una segunda forma de reconocer una distribución t-Student, la cual se presenta a con- tinuación: 5 1.3 Distribución F de Fisher 1 DISTRIBUCIONES MUESTRALES Dado Z ⇠ N(0, 1) y W ⇠ X2(k) independientes, se tiene que : T = Zq W K ⇠ tk Lo que nos muestra que de la división entre una normal estándar N(0, 1) y la raíz de una Chi-Cuadrado partida en sus grados de libertad nace una distribución t-Student con los mismos grados de libertad que la Chi involucrada. Entonces, si: Z = Y � µ �/pn ⇠ N(0, 1) W = (n� 1)S2 �2 ⇠ X2(n�1) ⇧ Zq W (n�1) ⇠ t(n�1) Algunas consideraciones: Si n� 1 � 30 �! tn�1 ⇠ N(0, 1) Si n es pequeño, entonces hay diferencias sustanciales entre la distribución tn�1 y la N(0, 1) 1.3. Distribución F de Fisher Sean W1 s X2n y W2 s X2m, es decir, 2 chi cuadrado distintas e independientes, entonces, la variable: F = W1/n W2/m s Fn,m y se denomina una distribución de Fisher con n grados de libertad en el númerador y m grados de libertad en el denominador. Comúnmente, en esta parte del curso en donde solo vemos como nacen las distribuciones muestrales, se ocupa esta versión simple de la relación entre dos distribuciones chi-cuadrado. Sin embargo, más adelante, esto nos sirve mucho para relacionar varianzas entre distintas muestras. 1.4. Distribuciones en 2 muestras. Consideremos Y11, Y12, . . . , Y1n m.a.s de tamaño nde una población Y1 s N(µ1,�21), y, también, Y21,Y22, . . . , Y2m m.a.s de tamaño m de Y2 s N(µ2,�22) independientes entre sí. 1. Si consideramos que las varianzas �21 y �22 son conocidas, se cumple que: Z = (Y 2 � Y 1)� (µ2 � µ1)q �21 n + �22 m s N(0, 1) que es una estandarización normal, solamente que aplicada a dos muestras que entre sí son inde- pendientes. Notemos que, si no lo fueran, habría que agregar un término a la varianza muestral conjunta, el cual estaría relacionado al como «co-varían» entre ellas. Recordar : V ar(X ± Y ) = V ar(X) + V ar(Y )± 2Cov(X,Y ) 6 1 DISTRIBUCIONES MUESTRALES 1.4 Distribuciones en 2 muestras. 2. Si consideramos que las varianzas �21 y �22 son desconocidas y distintas, se cumple que: T = (Y 2 � Y 1)� (µ2 � µ1)q S21 n + S22 m s ( N(0, 1) si n+m� 2 > 30 tn+m�2 si n+m� 2 < 30 donde S2 corresponde a la estimación muestral de cada una de las varianzas (con la fórmula mostrada anteriormente), y la distribución dependerá de el tamaño de las muestras que se relacionan, considerando que en caso de que ambas sean de «tamaño pequeño», obtendremos una t-student de la misma manera en que lo hicimos cuando evaluamos el caso de una sola muestra. 3. Si consideramos que las varianzas �21 y �22 son desconocidas e iguales, tenemos lo siguiente: i. Hay un mejor estimador para la varianza muestral conjunta, y es el siguiente: S2p = (n� 1)S21 + (m� 1)S22 n+m� 2 ii. Entonces, se cumple que: T = (Y 2 � Y 1)� (µ2 � µ1) Sp q 1 n + 1 m s ( N(0, 1) si n+m� 2 > 30 tn+m�2 si n+m� 2 < 30 7 2 ESTIMACIÓN MÁXIMO VEROSIMIL. 2. Estimación máximo verosimil. Comúnmente cuando en el curso tratamos temas de máximo verosimilitud vemos la forma de estimar el estimador máximo verosímil, su varianza -la denominada Cota de Cramer Rao (CCR)- y, posteriormente, su distribución asíntotica. Además de eso, y aplicando una propiedad que será bastante conocida durante el curso (invarianza), obtenemos las distribuciones asintóticas de funciones de dichos parámetros. Los pasos a seguir para hacer cada uno de estos ejercicios, son los siguientes: Primer paso: Obtenemos la función de máximo verosimilitud de ✓ y la intentamos reducir lo que más se pueda (a continuación se muestral algunos tip’s para su reducacción): L(✓) = nY i=1 f(yi, ✓) 8 >>>>>>< >>>>>>: Qn i=1 � x = � P xi (1) ln ( Qn i=1 xi) = P ln(xi) (2) ln ( Qn i=1 xi!) = nada (3)Qn i=1 � � = ��n (4) Qn i=1 y � i = nada (5) Segundo paso: Obtenemos la ecuación de máximo verosimilitud de ✓ 1. Aplicamos ln(L(✓)), con el objetivo de poder derivar de manera más fácil y así obtener el estimador máximo verosimil. 2. Derivamos �ln(L(✓))�✓ una vez e igualamos a 0. De ese modo, despejando ✓ obtenemos el estimador máximo verosimil del parámetro. Tercer paso: Distribución asintótica del estimador máximo verosimil. 1. Derivamos por segunda vez � 2ln(L(✓)) �2✓ y así obtenemos la información de Fisher (In). Con In obtenemos la Cota de Cramer Rao (CCR) de ✓, la cual se define de la siguiente manera: CCR(✓) = �1 In , con In = E ✓ �2ln(L(✓)) �2✓ ◆ 2. Hacemos distribuir el estimador de manera asintótica de la siguiente manera: b✓ as N(✓, CCR(✓)) y cuando hablemos de función del parámetro, aplicaremos la propiedad de invarianza \g(✓)MV = g(\✓MV ), y obtendremos que su distribución asintótica es: g ⇣ ✓̂MV ⌘ s N(g(✓), CCR(✓) ⇤ ✓ �g �✓ ◆2 ) Gracias a esto, nace la noción de Estimador Insesgado de Mínima Varianza (EIMV ), y es aquel que tiene una varianza que alcanza la CCR. 8 3 ESTIMACIÓN DE MOMENTOS. 3. Estimación de momentos. La estimación por momentos es una medida alternativa para estimar los parámetros de una distribución. Para obtener los estimadores por el método de los momentos (EMM) se deben igualar los momentos poblacionales (aquellos que provienen de la población µ y �2) con los momentos muestrales (aquellos que provienen de una muestra Y y S2). De esa forma, definamos tanto los momentos poblaciones como los muestrales: 1. Momento poblacional de orden k: Sea Y una variable aleatoria con cierta distribución de probabi- lidad (densidad) en el caso de que sea discreta (continua). Definimos el momento poblacional de orden k al número definido por la siguiente relación. E(Y k) = (P ykpy(y) Y v.a discreta´ y✏Y y kfy(y)dy Y v.a continua 2. Momento muestral de orden k: Ahora, debemos tener una muestra. En ese sentido, sea Y1, Y2, Y3, . . . , Yn una m.a.s de una población Y con función de probabilidad (ó densidad) f(y; ✓), se denomina al momento muestral de orden k a la variable aleatoria definida como: Y k = Pn i=1 Y k i n 3. Estimador por método de los momentos (EMM): Luego de lo ya definido, la forma de obtener los estimadores es solucionando el sistema de ecuaciones que se extrae de igualar cada uno de los momentos muestrales a los momentos poblacionales. Finalmente, sea fy(y, ✓) = f(y, ✓1, ✓2, ✓3, . . . , ✓n), la estimación de cada uno de los kparámetros es solucionar el siguiente sistema de ecuaciones: E(Y k) = Y k k = 1, 2, 3, . . . .n. Comúnmente, no tendremos más de 2 parámetros por distribución, por lo que no será de mucha com- plicación obtener los estimadores de momentos de cualquier distribución. Ejemplo. Si tengo una distribución Normal(µ,�2) como la usualmente conocida, y quisiera obte- ner los estimadores de momentos (EMM) de ambos parámetros, la dinámica sería como se detalla a continuación. a) El momento poblacional de orden 1 es µ, y el momento muestral de orden 1 es Y . De ese modo, no cabe duda alguna que el estimador de momentos para µ es: bµMM = Y b) Luego, sabemos que para estimar la varianza podemos reescribirla como una expresión en función de los momentos poblacionales �2 = E(Y 2)� E(Y )2 Luego, b�2MM = Y 2 � Y 2 = Pn i=1 Y 2 i n � ✓Pn i=1 Yi n ◆2 9 4 INTERVALOS DE CONFIANZA (1 MUESTRA) CONSTRUCCIÓN DE INTERVALOS DE CONFIANZA VÍA PIVOTE. 4. Intervalos de confianza (1 muestra) Construcción de intervalos de confianza vía pivote. Sea Y1, Y2, . . . , Yn m.a.s de Y s N(µ,�2) 1. Pivote para µ con varianza conocida: Y � µ �p n v N(0, 1) 2. Pivote para µ con varianza desconocida: Y � µ Sp n v tn�1 3. Pivote para �2 con media conocida (µ0): Pn i=1(Yi � µ0) �2 ⇠ �2n 4. Pivote para �2 con media desconocida: (n� 1)S2 �2 s �2n�1 Nota: Recordar que la distribución t � Student y la Normal son simétricas (t centrada en torno a 0 y la normal centrada en torno a µ), y que esta propiedad de simetría generaque se cumpla lo siguiente: Z↵/2 = �Z1�↵/2 t(n�1)↵/2 = t (n�1) 1�↵/2 ¿Cuáles son las propiedades del pivote? ' = ✓̂ � ✓ se(b✓) 8 >>< >>: s N(0, 1) a s N(0, 1) s tn�1 Población normal c/� conocido n grande TLC Población normal c/� desconocido A continuación se adjunta una tabla con ejemplos de intervalos de confianza para 1 muestra y parámetro µ: Modelo media (µ) bµ �2 c�2 Intervalo de confianza Bernoulli(1,⇡) ⇡ p ⇡(1� ⇡) p(1� p) ⇢ p± Z1�↵/2 q p(1�p) n � Poisson(�) � Y Y Y ⇢ Y ± Z1�↵/2 q Y n � Exponencial(�) 1� Y 1 �2 Y n Y ± Z1�↵/2Y q 1 n o Y, además, debemos recordar que no todos los intervalos de confianza serán necesariamente de carácter bilateral, si no que algunos podrán ser unilaterales. Más en específico, los intervalos serán del siguiente modo en cada caso: 1. Cota Inferior: h ✓̂MV � Z1�↵se(✓̂MV ); + _ i 2. Cota Superior: h � /; ✓̂MV + Z1�↵se(✓̂MV ) i 10 5 INTERVALOS DE CONFIANZA (2 MUESTRAS) CONSTRUCCIÓN DE INTERVALOS DE CONFIANZA VÍA PIVOTE. 5. Intervalos de confianza (2 muestras) Construcción de intervalos de confianza vía pivote. ' = Pivote = (b✓1 � b✓2)� (✓1 � ✓2) se(b✓1 � b✓2) con se(b✓1 � b✓2) = q V ar(b✓1 � b✓2) = q V ar(b✓1) + V ar(b✓2)� 2Cov(b✓1, b✓2) 1. Para la diferencia de 2 medias µ2 � µ1 en poblaciones normales, con varianzas conocidas y muestras independientes: ' = (Y 2 � Y 1)� (µ2 � µ1)q �21 n + �22 m ⇠ N(0, 1) 99K ( Y 2 � Y 1 ± Z1�↵2 r �21 n + �22 m ) 2. Para la diferencia de 2 medias µ2 � µ1 en poblaciones normales con varianzas desconocidas e iguales, muestras independientes y ambas de tamaño pequeño. (�21 = �22 = �2) ' = (Y 2 � Y 1)� (µ2 � µ1) Sp q 1 n + 1 m ⇠ tn+m�2 99K ( Y 2 � Y 1 ± tn+m�21�↵2 Sp r 1 n + 1 m ) Si n +m � 2 > 30, se puede aproximar el percentil en base a la tabla normal. Además, la formula de la estimación de varianza muestral conjunta es: S2p = (n� 1)S2n + (m� 1)S2m n+m� 2 3. Para la diferencia de 2 medias µ2� µ1 en poblaciones normales con varianzas desconocidas y distintas, muestras independientes y ambas de tamaño pequeño: ' = (Y 2 � Y 1)� (µ2 � µ1)q S21 n + S22 m ⇠ tv 99K ( Y 2 � Y 1 ± tv1�↵2 r S21 n + S22 m ) siendo v igual a: v = 2 664 ⇣ s21 n + s22 m ⌘ ✓ s21 n ◆2 n�1 + ✓ s22 m ◆2 m�1 3 775 4. Para la diferencia de 2 medias µ2 � µ1 en poblaciones no necesariamente normales, con varianzas desconocidas, independientes y ambas de tamaño grande. ' = (Y 2 � Y 1)� (µ2 � µ1)q S21 n + S22 m ⇠ N(0, 1) Nota: Entonces, para ver qué utilizar en caso de muestras normales y de tamaño pequeño (sin saber nada sobre sus varianzas), debemos estimar cómo se comportan estas, para ver si son iguales o distintas. En caso de que en ese último intervalo de confianza (el de comparación de � entre muestras) contenta el 1, asumimos varianzas iguales. En caso de que NO contenga el 1, asumimos varianzas distintas. ¿Cómo lo hacemos para formar un intervalo que relacione 2 muestras y sus varianzas? La distribución F de fisher me permitirá hacerlo. 11 5.1 Caso Muestras Pareadas 6 INTERVALOS DE CONFIANZA ASINTÓTICOS DIFERENCIA DE MEDIAS, MUESTRAS GRANDES E INDEPENDIENTES Sean 2 muestras independientes, de tamaño ny m de poblaciones normales, entonces: ' = S21 �21 S22 �22 ⇠ F(n�1,m�1) () S21 S22 ⇤ � 2 2 �21 ⇠ F(n�1,m�1) quedando el intervalo de confianza para la razón de las varianzas del siguiente modo: ⇢ S22 S21 ⇤ F(n�1,m�1);↵/2 �22 �21 S 2 2 S21 ⇤ F(n�1,m�1);1�↵/2 � 5.1. Caso Muestras Pareadas Las muestras pareadas son acerca de poblaciones no independientes. Se selecciona una muestra de “n” individuos. Cada individuo se somete a dos tratamientos distintos y se observan los pares de respuestas: (X1, Y1), (X2, Y2), . . . , (Xn, Yn). Es muy importante que para que dos muestras estén pareadas, DEBEN tener el mismo tamaño. ' = (Y �X)� (µY � µX)q �2y+� 2 x�2b�xy n ⇠ N(0, 1) En el caso en que no sea fácil estimar la covarianza, el metodo es el siguiente: Definimos D = Y � X ⇠ N(µD,�2D), con µD = µY � µX . Sabemos que cµD = D = P Di n y que b�2D = S2p = P (D�D)2 n�1 . De este modo, convertimos el caso de 2 muestras en tan solo 1: D ± tn�1;1�↵/2 SDp n � cuando n 30. Si es mayor, el percentil pasa a ser el de una Z ⇠ N(0, 1) 6. Intervalos de confianza asintóticos Diferencia de medias, muestras grandes e independientes 1. Poblaciones Bernoulli: I.C(⇡2�⇡1) = ( ⇢2 � ⇢1 ± Z1�↵/2 r ⇢1(1� ⇢2) n + ⇢2(1� ⇢2) m ) 2. Poblaciones Poisson: IC(�2��1) = 8 < :Y 2 � Y 1 ± Z1�↵/2 s Y 2 m + Y 1 n 9 = ; 3. Poblaciones exponenciales: IC( 1�2 � 1 �1 ) = 8 < :Y 2 � Y 1 ± Z1�↵/2 s (Y 2)2 m + (Y 1)2 n 9 = ; 12 7 TEST DE HIPOTESIS - 1 MUESTRA 7. Test de hipotesis - 1 muestra Cuando hablemos de testear una hipótesis en general (1 o 2 muestras), nos veremos enfrentados a tener que tomar una decisión sobre alguna «teoría» sobre el valor puntual de un parámetro en particular. En ese sentido, y en términos de los ejercicios, tendremos una proposición entregada por el investigador (que aparecerá en el enunciado) y que representará la hipotesis alternativa. Luego, la hipotesis nula no será más que el contrario a la alternativa. En términos de notación, escribimos ambas del siguiente modo: H0 : hipótesis nula H1 : hipótesis alternativa Las hipótesis podrán ser de 3 tipos: 1. Unilateral inferior: H0 : ✓ ✓0 vs H1 : ✓ > ✓0 2. Unilateral superior: H0 : ✓ � ✓0 vs H1 : ✓ < ✓0 3. Bilateral: H0 : ✓ = ✓0 vs H1 : ✓ 6= ✓0 Y para efectos prácticos siempre trataremos a la hipótesis nula como una igualdad, transformandose todo lo anterior en lo siguiente: 1. Unilateral inferior: H0 : ✓ = ✓0 vs H1 : ✓ > ✓0 2. Unilateral superior: H0 : ✓ = ✓0 vs H1 : ✓ < ✓0 3. Bilateral: H0 : ✓ = ✓0 vs H1 : ✓ 6= ✓0 7.1. Pasos para testear la hipotesis... 1. Construimos un «estadístico de prueba» Z = b✓ � ✓0q Var(b✓0) que tendrá cierta distribución, dependiendo del tamaño de la muestra. El estadístico mostrado puede ser N(0, 1) o tn�1. El parámetro ✓0 siempre tendrá el valor que establezca la hipótesis nula. 2. Fijamos el nivel de confianza ↵. Recurrentemente este será dado por el enunciado. 3. Calculamos el valor observado de nuestro estadístico de prueba. ¿Cómo lo obtenemos? a) b✓ será una estimación, por lo tanto tendrá un valor estimado y será un número. b) Var(b✓) también podrá ser estimada con (a). c) ✓0 es lo que establece la hipotesis nula, lo que siempre será un valor. De ese modo, el estadístico tendrá un número el cual denotaremos con Zobs 4. Evaluamos qué regla de rechazo de la nula irá asociada al ejercicio: a) Si H1 : ✓ 6= ✓0 99K Si sucede que |Zobs| � Z1�↵2 99K Rechazamos la hipótesis nula, en favor de la alternativa. b) Si H1 : ✓ > ✓0 99K Si sucede que Zobs � Z1�↵ 99K Rechazamos la hipótesis nula, en favor de la alternativa. c) Si H1 : ✓ < ✓0 99K Si sucede que Zobs �Z1�↵ 99K Rechazamos la hipótesis nula, en favor de la alternativa. 5. Tomamos la decisión. Nota: Ojo que el percentil Z está puesto como el caso general, sin embargo, si el estadístico distribuye como una t-student, las reglas de rechazo se hacen acorde a esa distribución. 13 7.2 Ejemplo sencillo... 7 TEST DE HIPOTESIS - 1 MUESTRA 7.2. Ejemplo sencillo... Considerar un estimador con distribución normal. Sabemos que b✓ es 13.8 y que se(b✓) es 1.33. Pruebe el siguiente contraste de hipótesis al ↵ = 5%: H0 : ✓ = 10 H1 : ✓ 6= 10 1. Construyo el estadístico y veo su distribución para luego ver el percentil a utilizar en la regla de rechazo. Z = b✓ � (✓0 = 10) se(b✓) ⇠ H0 N(0, 1) 2. ↵ = 5%. 3. Obtenemos el estadístico observado : Zobs = 13,8� 10 1, 33 = 2, 89 4. Vemos la forma de la alternativa y sabemos que estaremos en la regla de rechazo número (1), de modo que el percentil asociado es: Z1�↵2 = Z0,975 = 1,96 5. Tomamos la decisión: Cómo Zobs > Z0,975 99K Rechazamos la hipótesis nula. En términos prácticos, lo que hacemos que es que rechazamos la teoría de que el parámetro ✓ sea igual a 10, en favor de que sea distinta de 10, que es lo que a priori propone el investigadordel problema. 7.3. Pruebas asintoticas usando estimadores máximo verosimiles Sea Y1, Y2, . . . , Ynm.a.s de Y ⇠ f(y; ✓), n � 30 y b✓ el estimador máximo verosímil de ✓. Ya sabemos que poor TLC, la distribución asintótica del estimador máximo verosímil es: b✓mva⇠N(✓, CCR(✓)) y cuando queramos hacer alguna prueba sobre el parámetro ✓, el estadístico de prueba será del tipo: ' = b✓mv � ✓0q CCR(b✓0) ⇠ N(0, 1) Además, si tenemos alguna función del parámetro g(✓) sabemos que podrá ser estimada usando la propiedad de invarianza, y que tendrá distribución asintótica del tipo: g(b✓)mv ⇠ N(g(✓), CCR(✓) ⇤ ✓ �g �✓ ◆2 ) y si quisieramos hacer alguna prueba sobre el valor de la función propiamente tal, el estadístico de prueba será del tipo: ' = g(b✓)mv � g(✓0)r CCR(b✓mv0) ⇤ ⇣ �g �✓0 ⌘2 ⇠ N(0, 1) 14 8 TEST DE HIPÓTESIS - 2 MUESTRAS 8. Test de hipótesis - 2 muestras Para el caso de 2 muestras, habrá distintas pruebas preestablecidas que nos permitirán identificar en cada caso del problema al cual nos enfrentaremos. Cabe entender que ahora las hipótesis serán del siguiente tipo: H1 : µ1 � µ2 6= �0 H1 : µ1 � µ2 > �0 H1 : µ1 � µ2 < �0 entendiendo que comúnmente haremos pruebas para la diferencia de medias. A continuación se detallan los estadísticos de prueba fundamentales dependiendo de cada una de las pruebas: 8.1. Prueba para diferencia de medias, muestras pequeñas o grandes (poblacio- nes normales, varianzas desconocidas e iguales). Sea X1, X2, . . . , Xnm.a.s de X ⇠ N(u1,�2) Y1, Y2, . . . , Ynm.a.s de Y ⇠ N(u2,�2) el estadístico de prueba es: ' = (Y 1 � Y 2)��0 sp q 1 n1 + 1n2 ⇠ N(0, 1) OJO: Si las poblaciones NO fueran normales, el estadístico anterior sería una tn1+n2�2 si y solo si n1+n2�2 < 30. En este caso, tendremos que estimar la varianza conjunta, a través del estimador de la varianza conjun- ta S2p , que se define a continuación: S2p = (n1 � 1)S21 + (n2 � 1)S22 n1 + n2 � 2 8.2. Prueba para diferencia de medias, muestras grandes o pequeñas (poblacio- nes normales, varianzas desconocidas y distintas). Sea X1, X2, . . . , Xnm.a.s de X ⇠ N(u1,�21) Y1, Y2, . . . , Ynm.a.s de Y ⇠ N(u2,�22) el estadístico de prueba es: ' = (Y 1 � Y 2)��0q s21 n1 + s 2 2 n2 ⇠ N(0, 1) es decir, en estos casos en que la varianzas son distintas y desconocidas, al única forma de componer el estadístico de prueba es a través de la estimación de las varianzas muestrales asociada a cada una de las muestras. 8.3. Prueba para diferencia de proporciones, muestras grandes. Sea X1, X2, . . . , Xnm.a.s de X ⇠ B(⇡1) Y1, Y2, . . . , Ynm.a.s de Y ⇠ B(⇡2) el estadístico de prueba es: ' = (bp1 � bp2)��0q p1(1�p1) n1 + p2(1�p2)n2 ⇠ N(0, 1) 15 8.4 Diferencia de medias: Muestras pareadas. 8 TEST DE HIPÓTESIS - 2 MUESTRAS 8.4. Diferencia de medias: Muestras pareadas. Se tiene que (X1, Y1), . . . , (Xn, Yn) muestra de (X,Y ), extraídas de X ⇠ N(u1,�21) y Y ⇠ N(u2,�22) 1. Se define Di = Xi � Yi ; 8i. 2. Calculamos: a) D = Pn i=1(Xi�Yi) n b) S2D = Pn i=1(Di�D) n�1 3. De ese modo, tenemos que el estadístico de prueba en estos casos es: ' = D �D0 SDp n ⇠ N(0, 1) OJO 1: Para testear muestras pareadas DEBEN tener el mismo tamaño de muestra. OJO 2: Las reglas de rechazo en el caso de dos muestras son las mismas que en el caso de 1 muestra ya descrito más arriba. 16 9 P-VALUE: CÓMO OBTENERLO Y PARA QUÉ SIRVE. 9. p-Value: Cómo obtenerlo y para qué sirve. Cuando analizamos los test estadísticos debemos saber que nunca pueden decirnos con absoluta certeza cuál de las dos hipótesis es la verdadera, sin embargo, pueden darnos una idea general de cuál probable es la hipótesis nula H0. Muchas veces quisiéramos poder conocer cuál es la probabilidad del evento que nos lleva a rechazar la hipótesis nula y a concluir a partir de la hipótesis alternativa, para medir si la conclusión podría haber sido obtenida por azar. En términos prácticos, el valor � p está definido como la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido, suponiendo que la hipótesis nula es cierta. Es decir, re- presenta un umbral para rechazar H0, y permite no acceder a ningún valor crítico para tomar una decisión en un contraste de hipótesis solamente considerando las siguientes condiciones: valor � p ↵! Rechazamos H0 valor � p > ↵! No Rechazamos H0 En definitiva, se utiliza como una medida alternativa para tomar la decisión de si rechazar o no rechazar la hipótesis nula, y su aplicación práctica se detalla a continuación. Si H1 : ✓ > ✓0 99K valor-p = 1� �(zobs) Si H1 : ✓ < ✓0 99K valor-p = �(zobs) Si H1 : ✓ 6= ✓0 99K valor-p = 2⇥ (1� �(zobs)) Veamos ahora un caso práctico: 9.1. Ejercicio: Valor-p Sea un parámetro µ el verdadero promedio de contenido de desechos tóxicos en una máquina expandidora de humo. Un investigador sugiere estudiar si el promedio es mayor a 2.5 u.m dentro de cada máquina. En ese sentido, le pide plantear las hipotesis a estudiar y a tomar una decisión en función de la utilización del p� value y considerando un nivel de significancia del ↵ = 5%. ¿Qué decide? ¿y al ↵ = 10%? Suponga que el estadístico de prueba distribuye como una N(0, 1) y que luego de obtenidos los valores muestrales, toma un valor de zobs = 1,6 (recuerde que siempre cuando se obtiene el zobs se da por «cierta» la H0) 9.1.1. Solución Lo primero que debemos notar es que la hipótesis que el investigador solicita testear se relaciona a la hipótesis alternativa del ejercicio, quedando el contraste del siguiente modo: H0 : µ = 2,5 vs H1 : µ > 2,5 Además, sabemos que una región de rechazo para este tipo de contrastes es de la forma zobs > z1�↵ sin embargo, decidiremos según el cálculo del p� value. Dada la forma de la alternativa, vemos que la utilización del valor-p se reduce a obtener la siguiente proba- bilidad asociada a la siguiente estandarización 1� �(zobs)! 1� �(1,6) = 1� 0, 9452 = 0, 0548. Es decir, el p� value es 5.48 %. En ese sentido: 1. Si ↵ = 5%, NO rechazamos H0 y por tanto el investigador NO tiene razón en su teoría sobre la cantidad de desechos que tienen las máquinas expandidoras de humo. 2. Si ↵ = 10%, SI rechazamos H0 y se cumple lo contrario a lo explicasdo en el punto (1). 17 10 TEST’S CHI-CUADRADO: BONDAD DE AJUSTE E INDEPENDENCIA. 10. Test’s Chi-Cuadrado: Bondad de ajuste e independencia. Las pruebas chi-cuadrado comienzan a modelar la esencia de la inferencia que ya no es paramétrica, ya que en la clásica ya estudiada, la distribución o población se asumía conocida y nosotros solamente estimabamos los parámetros que la componían. Ahora, cuando la distribución de probabilidad es desconocida, entonces debemos de alguna manera esti- marla, y es así como florece el concepto de la inferencia no paramétrica. En ese sentido, en esta sección estudiaremos dos de las pruebas más relevantes de este tópico: La prue- ba de bondad de ajuste (1 muestra) y la prueba de independencia (2 muestras). 10.1. Prueba de Bondad de Ajuste La prueba de la bondad de ajuste consiste principalmente en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso, es necesario que los valores de la va- riable en la muestra y sobre la cual queremos realizar la inferencia, esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignando sus valores a diferentes clases o grupos. A palabras simples, la prueba es una metodología útil para validar las hipótesis sobre la distribución teórica en la población que se realiza en la estadística paramétrica. Sirve para corroborar si mis datos siguen una distribución en particular, es decir, las hipótesis que se contrastan son del siguiente tipo: H0 : Y ⇠ f0(y; ✓0) vs H1 : Y⇢⇠f0(y; ✓0) ¿Cuáles son los pasos a seguir? 1. Debemos tener un número k de clases en las cuales se han ido registrando un total de n observaciones (n es el tamaño muestral). Denotaremos las frecuencias observadas en cada clase i como Oi, es decir,Oi es el número de valores en cada clase ki. Por supuesto, que al ser n el tamaño de la muestra (número de observaciones), se debe cumplir siempre que: O1 +O2 +O3 + . . .+Ok = n 2. Luego, dependendiendo de la forma de la hipótesis nula (cuál será la distribución que queremos testear que representa de mejor manera los datos), obtendremos las frecuencias esperadas (teóricas) para cada clase i, y las denotaremos como Ei. Es decir, Ei es el número de valores esperados en cada clase ki. Por supuesto que debe seguir cumpliendose que la suma de las frecuencias esperadas es igual al número de observaciones, esto es: E1 + E2 + . . .+ Ek = n Estas se obtienen calculando la probabilidad de ocurrencia de la clase ki y luego multiplicando por el tamaño total de la muestra n. 3. Obtenidas ya las frecuencias esperadas y las teóricas, obtenemos el estadístico de prueba para realizar la Bondad de Ajuste, el cual estará definido del siguiente modo: �2 ⇤ = kX i=1 (Oi � Ei)2 Ei Lo que nos muestra que es esperable que la diferencia entre lo observado Oi y lo esperado Ei sea lo más pequeña posible, de modo que entre menor es el valor del estadístico más coherentes serán las observaciones obtenidas con los valores esperados en función de la nula. 18 10 TEST’S CHI-CUADRADO: BONDAD DE AJUSTE E INDEPENDENCIA.10.1 Prueba de Bondad de Ajuste 4. La regla de decisión será la siguiente: rechazar H0 al nivel de riesgo ↵ si es que se cumple que X2 ⇤ = kX i=1 (Oi � Ei)2 Ei > �2(1�↵);(k�1�s) Siendo k el número de clases de la muestra, y s el número de parámetros estimados dentro de la distri- bución. Nota: Por último, es importante notar que para que se cumpla (por razones asintóticas) lo anterior debe ocurrir que el tamaño de la muestra general sea n > 30 y, además, que las frecuencias esperadas Ei representen todas un porcentaje mayor al 3% de n (> 5). Si esto no ocurre, se deben reagrupar las clases con frecuencias esperadas menores. 10.1.1. Ejemplo: Poisson. Una constructura particular llamada KADE S.A. entregó en los últimos meses 440 casas que fueron cons- truidas por la mano de obra que tienen contratada para este objetivo. De este número de hogares entregados se observó cuantos de ellos habían tenido alguna falla y/o habían sido razón de algún reclamo en particular, obteniendose los siguientes datos: Nº de errores o reclamos Frecuencia observada Oi 0 18 1 53 2 103 3 107 4 82 5 46 6 18 7 10 8 2 9 1 De este modo, se le pide testear al 5 % si el número de errores tendrá una distribución de Poisson, esto es: H0 : nº de errores tiene una distribución Poisson H1 : nº de errores NO tiene una distribución Poisson 10.1.2. Solución ejemplo: Poisson 1. Lo primero que debemos notar es que siempre uno comienza asumiendo que la hipótesis nula es cierta, y para enfrentar este ejercicio debemos notar también que la distribución establecida en la hipótesis nula tiene un sólo parámetro: �. En ese sentido, sabemos que representa una tasa media de ocurrencia de la variable aleatoria que sigue una distribución de poisson, por lo que los datos observados nos permiten hacer una estimación de este mismo del siguiente modo: b� = 0 ⇤ 18 + 1 ⇤ 53 + 2 ⇤ 103 + . . .+ 9 ⇤ 1 440 = 3,05 2. Luego, para obtener las frecuencias esperadas (bajo la «realidad» de que la hipótesis nula se cumple) debemos ocupar la función de probabilidad asociada a la distribución. De este modo, primero obtenemos las probabilidades de ocurrencia: P (X = 0|b� = 3,05) = e �3,05 ⇤ (3,05)0 0! = 0,0474 19 10.1 Prueba de Bondad de Ajuste10 TEST’S CHI-CUADRADO: BONDAD DE AJUSTE E INDEPENDENCIA. P (X = 1|b� = 3,05) = e �3,05 ⇤ (3,05)1 1! = 0,1444 [y así sucesivamente . . .] 3. Comenzamos a completar la tabla: Agregamos la tercera fila correspondiente a las probabilidades de ocurrencia asociadas a la distribución que establece la hipótesis nula: Nº de errores o reclamos Frecuencia observada Oi Probabilidad con Poisson � = 3 0 18 0.0474 1 53 0.1444 2 103 0.2203 3 107 0.2339 4 82 0.1708 5 46 0.1042 6 18 0.0530 7 10 0.0231 8 2 0.0088 9 1 0.0030 4. Ahora, con la probabilidad de ocurrencia obtenemos las frecuencias esperadas Ei : Nº de errores Frecuencia Probabilidad Frecuencia o reclamos observada Oi con Poisson � = 3 esperada Ei 0 18 0.0474 440*0.0474=20.84 1 53 0.1444 440*0.1444=63.56 2 103 0.2203 440*0.2203=96.92 3 107 0.2339 440*0.2339=98.54 4 82 0.1708 440*0.1708=75.14 5 46 0.1042 440*0.1042=45.83 6 18 0.0530 440*0.0530=23.30 7 10 0.0231 440*0.0231=10.15 8 2 0.0088 440*0.0088=3.87 9 1 0.0030 440*0.0030=1.31 5. Importante notar que las últimas dos clases Nº de errores = 9 y Nº de errores = 8 no representan separadamente las condiciones asintóticas que se deben cumplir en este test, por lo tanto debemos agruparlas para que juntas (con una Ei = 5,18) cumplan con la condición para la bondad de ajuste. 6. Finalmente, con la nueva «división» de clases, procedemos a obtener el estadístico X2 ⇤ : X2 ⇤ = kX i=1 (Oi � Ei)2 Ei = (18� 20,84)2 20,84 + (53� 63,56)2 63,56 + . . .+ (3� 5,18)2 5,18 = 6,001 7. Ahora, considerando ↵ = 5%, calculamos el estadístico a comparar: �20,95;( 9 (k) �1� 1 (s) )=7 = 14, 067 8. De este modo, como no se cumple la regla de rechazo, NO rechazamos la hipótesis nula y por tanto los datos si pueden ser representados mediante una distribución de Poisson. 20 10 TEST’S CHI-CUADRADO: BONDAD DE AJUSTE E INDEPENDENCIA.10.2 Prueba de independencia o homogeneidad 10.2. Prueba de independencia o homogeneidad El test de independencia surge cuando estamos interesados en determinar si dos cualidades o variables referidas a individuos de una misma población están relacionadas. Para el desarrollo de la prueba, supongamos que de la muestra de tamaño n se han observado dos característi- cas X e Y , obteniéndose una muestra aleatoria simple de carácter bidimensional (x1, y1), (x2, y2), . . . , (xn, yn). Sobre la base de dichas observaciones se desea contrastar si las características poblacionales x e y son inde- pendientes o no. H0 : independencia vs H1 : no independencia ¿Cuáles son los pasos a seguir? 1. Al conjunto de valores de X se divide en k conjuntos disjuntos A1, A2, A3, . . . , Ak. Además, el conjunto de valores de Y será descompusto en r conjuntos disjuntos B1, B2, . . . , Br. De ese modo, al clasificar los elementos de la muestra, aparecerá un cierto número de ellos nij en cada una de las k ⇥ r clases constituidas, dando lugar a una tabla de contingencia de la siguiente forma: A1 A2 . . . Ak Total B1 n11 n12 n1k n1. B2 n21 n2. ... ... Br nr1 nr2 nrk nr. Total n,1 n,2 n.k n 2. Con la tabla de contingencias anterior, procedemos a obtener las frecuencias esperadas eij bajo el supuesto de independencia (H0), haciendo un cálculo simple en términos del enfoque frecuentista: eij = ni ⇤ nj n y así rellenamos la nueva tabla en términos esperados: A1 A2 . . . Ak Total B1 e11 e12 e1k n1. = e1. B2 e21 n2. = e2. ... ... Br er1 er2 erk nr. = er. Total e,1 e,2 e.k n 3. Obtenidas ya las frecuencias esperadas y las teóricas, obtenemos el estadístico de prueba para realizar la prueba de independencia, el cual estará definido del siguiente modo: X2IND = rX i=1 kX j=1 (nij � eij)2 eij 4. La regla de decisión será la siguiente: rechazar H0 al nivel de riesgo ↵ si es que se cumple que X2IND = rX i=1 kX j=1 (nij � eij)2 eij > �2(1�↵);(r�1)⇥(k�1) de ese modo rechazaríamos la hipótesis de independencia en los datos y aprobaríamos el hecho de que NO lo son. 21 10.2 Prueba de independencia o homogeneidad10 TEST’S CHI-CUADRADO: BONDAD DE AJUSTE E INDEPENDENCIA. 10.2.1. Ejemplo: Independencia. Se desea analizar con un riesgo ↵ = 5% si el grado de satisfacción en el trabajo y el ingreso de una persona son variables aleatorias independientes o no. Para ello se encuesta a 442 personas obteniéndose los siguientes resultados. Satisfacción / Ingreso (nij) Alto Bajo Total Alto 263 42 305 Bajo 97 40 137 Total 360 82 442 = n Pruebe según el test de independencia que Ud. ya conoce, utilizando el estadísticode prueba ya conocido y su regla de rechazo asociada. 10.2.2. Solución ejemplo: Independencia. 1. Lo primero que debemos hacer es notar que hay k = r = 2 clases de cada característica (Satisfacción e ingreso). Lo anterior facilita mucho el cálculo de las frecuencias esperadas. Cómo sabemos que se calculan del siguiente modo: eij = ni ⇤ nj n procedemos a hacerlo para cada una de las seldas: ealto,alto = 305⇤360 442 = 248,42 ealto,bajo = 305⇤82 442 = 56,58 ebajo,alto = 137⇤360 442 = 111,584 ebajo,bajo = 137⇤82 442 = 25,416 2. Rellenamos la tabla para luego calcular el estadístico de prueba: Satisfacción / Ingreso (eij) Alto Bajo Total Alto 248.42 56.58 305 Bajo 111.584 25.416 137 Total 360 82 442 = n 3. Ahora calculamos el estadístico de prueba: X2IND = rX i=1 kX j=1 (nij � eij)2 eij X2IND = (263� 248,42)2 248,42 + (42� 56,58)2 56,58 + (97� 111,584)2 111,584 + (40� 25,416)2 25,416 = 14,8874 4. Evaluamos la regla de rechazo: X2IND = 14,8874 �20,95;(2�1)⇥(2�1) = 3,841 (por tabla) De ese modo rechazamos la nula de independencia y, por tanto, los datos agrupados en satisfacción NO son independientes a los datos agrupados para ingreso. 22 11 INTRODUCCIÓN AL CONCEPTO DE REGRESIÓN 11. Introducción al concepto de regresión El análisis de la regresión nace con la intención de poder predecir un valor o el comportamiento de una cierta variable Y en función de otras variables X que lo «explican» y ciertos parámetros � que «ponderan» esta explicación. En inferencia estadística, vemos el modelo de regresión lineal, entendiendo que el término de linealidad se refiere directamente a cómo especificamos los parámetros. Además, antes de comenzar el análisis propio de la regresión, debemos entender que al tener la intención de predecir Y , estaremos hablando de valores esperados y condicionales en el comportamiento de las varia- bles X, por lo tanto una regresión de Y sobre distintos X se puede representar del siguiente modo: E(Y |X = x) = �0 + �1x donde: 1. Y es la variable dependiente (también la llamamos variable endogéna o respuesta). 2. X es la variable independiente (y recurrentemente la llamamos variable explicativa). 3. �0 es el intercepto, y representa el valor que toma la dependiente Y cuando la explicativa es 0 (E(Y |X = 0) = �0). 4. �1 es la pendiente, y corresponde a la variación de E(Y |X = x) cuando x aumenta en una unidad. Por supuesto que esto se puede generalizar al comportamiento de muchas más variables x, lo que solamente generaliza el concepto lineal simple a lineal múltiple. E(Y |X1 = x1, X2 = x2, . . . , Xk = xk) = �0 + �1x1 + �2x2 + . . .+ �kxk En vistas de lo anterior, dado los datos {(xi, yi) , i = 1, 2, . . . , n} las etapas para hacer un análisis de regresión óptimo son: 1. Especificar la forma del modelo. E(Y |x) = �0 + �1x ó E(Y |x) = �0 + �1x2, por ejemplo. 2. Estimación de los parámetros b�0 y b�1. 3. Inferencia con la muestra sobre los parámetros del modelo. 11.1. Regresión lineal simple Cuando hablamos de un modelo con una sola variable explicativa X y olvidamos el concepto de análisis esperado y condicional en el valor de esa variable, debemos especificar nuestro modelo del siguiente modo: Y = �0 + �1x+ ✏ donde la relación entre las variables X e Y se explica en una línea recta en donde los valores de X fluctúan alrededor de la recta de regresión lineal. Cómo ahora no estamos trabajando con valores esperados, aparece el término de error de la regresión ✏ que para efectos prácticos y según los supuestos del modelo será una variable aleatoria con media 0 y varian- za �2 desconocida, por lo tanto habrá que estimarla en algún minuto. Además de eso, usualmente suponemos normalidad en el término de error, por lo tanto: ✏ ⇠ N(0,�2) De ese modo, el modelo de regresión lineal simple posee tres parámetros �0,�1,�2 que hay que estimar a partir de una muestra de n observaciones de elementos {(xi, yi) , i = 1, 2, . . . , n}. 23 11.2 Estimación de los parámetros: Método de mínimos cuadrados ordinarios (MCO)11 INTRODUCCIÓN AL CONCEPTO DE REGRESIÓN 11.2. Estimación de los parámetros: Método de mínimos cuadrados ordinarios (MCO) Para estimar los parámetros del modelo de regresión lineal simple estimaremos según la minimización de la suma de los errores del modelo al cuadrado, con el objetivo de minimizar el componente ✏ de la regresión. En ese sentido, sabemos que: ✏ = Y � �0 � �1x 99K ✏2 = (Y � �0 � �1x)2 99K Lsuma = nX i=1 n ✏2i = (Y � �0 � �1x) 2 o por lo tanto, el problema se representa del siguiente modo: mı́n �0,�1 {Lsuma} = nX i=1 (Y � �0 � �1x)2 y para minímizar sólo derivamos cada uno de los elementos: Primero, veamos para �0: �LSUMA ��0 = 0 99K nX i=1 2(Yi � �0 � �1xi) ⇤ (�1) = 0 nX i=1 Yi � nX i=1 �0 � nX i=1 �1xi = 0 Cómo los parámetros �0 y �1 son constantes, podemos tratarlas como tal: nX i=1 Yi � n�0 � �1 nX i=1 xi = 0 De modo que la estimación b�0 queda así: b�0 = Y � �1X Segundo, veamos para �1: �LSUMA ��1 = 0 99K nX i=1 2(Yi � �0 � �1xi) ⇤ (�xi) = 0 nX i=1 Yixi � b�0 nX i=1 xi � �1 nX i=1 x2i = 0 reemplazando la expresión de la estimación de b�0 = Y � �1X en la ecuación ya mostrada, resulta que la estimación de �1 es: b�1 = n Pn i=1 Yixi � Pn i=1 xi Pn i=1 Yi n Pn i=1 x 2 i � ( Pn i=1 xi) 2 • Sin embargo, vemos cómo la expresión de la estimación de �1 es bastante tediosa de operar, por lo que vemos una alternativa muy viable para su estimación si es que definimos el error de estimación ✏i (residuo de la regresión) como la diferencia entre lo real y lo estimado, es decir, ✏i = yi � byi = yi � ⇣ b�0 + b�1xi ⌘ y si minimzamos la suma de esos errores al cuadrado llegamos a lo siguiente con respecto a �1: L 0 suma = nX i=1 ✏2i = nX i=1 (yi � ⇣ b�0 + b�1xi ⌘ )2 b�1 = Pn i=1(xi � x)(yi � y)Pn i=1(xi � x)2 = cov(x, y) var(x) En econometría esta versión se llama estimación con respecto a la media. 24 11 INTRODUCCIÓN AL CONCEPTO DE REGRESIÓN11.3 Propiedades de los estimadores propuestos. Por último, y ya olvidandonos un poco de la matemática mostrada recién, la estimación del último parámetro que nos falta �2 es (en su versión general): b�2 = Pn i=1 ✏ 2 i n� k donde k es el número de parámetros que se estiman en el modelo de regresión, por lo que en el que nosotros vemos que sólo tiene dos parámetros la estimación de la varianza del error ✏i es: b�2 = Pn i=1 ✏ 2 i n� 2 11.3. Propiedades de los estimadores propuestos. Se puede demostrar facilmente que todos los estimadores propuestos son estimadores insesgados, es decir, que la esperanza del estimador es igual a los parámetros que estiman, es decir: E ⇣ b�0 ⌘ = �0;E ⇣ b�1 ⌘ = �1;E ⇣ c�2 ⌘ = �2 Sin embargo, lo que más nos interesa para poder hacer inferencia sobre estos mismos son sus varianzas, ya que así nos permitirá hacer intervalos de confianza o test de hipótesis. En ese sentido: Var(b�0) = �2 1 n + x2Pn i=1(xi � x)2 � Var(b�1) = �2Pn i=1(xi � x)2 Var(c�2) = 2� 4 n� 2 Además, algo importante también es notar que los estimadores tienen covarianza entre ellos, y que se puede expresar como: Cov(b�0, b�1) = � �2xPn i=1(xi � x)2 lo anterior ya que si en algún minuto se nos pide un intervalo de confianza o testear una hipótesis para alguna combinación del tipo �1 + �2, por ejemplo., tendremos que considerar que que el pivote o estadístico de prueba (dependiendo de lo que nos pidan) será del tipo: ' = Z = (c�0 +c�1)� (�0 + �1)q V ar(b�0) + V ar(b�1) + 2Cov(b�0,c�1) ⇠ N(0, 1) Por último, sólo sabemos que lo anterior distribuirá como una N(0, 1) en caso de que el tamaño de la muestra sea mayor a 30, sin embargo, debemos notar que en estos casos de regresión donde estimamos 2 parámetros (en el caso general se estiman k), el estadístico o pivote a priori distribuye como una t � student ya no solamente de n� 1 grados de libertad, sino que de n� k siendo k el número de parámetros estimados. En ese sentido, en el caso de la regresión lineal simple, el estadístico distribuye como una tn�2,pero si n � 2 > 30 distribuye como una N(0, 1). 11.3.1. Ejemplo de algún test de hipótesis al cual nos podremos enfrentar. Pregunta: ¿Podemos decir que en realidad existe un modelo de regresión lineal que relaciona las variables X e Y ? Respuesta: Para poder enfrentar esta pregunta debemos tener claro que un modelo de regresión que relacione las variables X e Y debe tener un parámetro que acompañe a X y que sea distinto de 0, ya que de ese modo 25 11.4 Especificación del modelo. 11 INTRODUCCIÓN AL CONCEPTO DE REGRESIÓN afectará (positiva o negativamente) el comportamiento de la variable dependiente Y . De ese modo, la pregunta se reduce a hacer un test de hipótesis del tipo: H0 : �1 = 0 vs H0 : �1 6= 0 Lo que se hace a través de un estadístico de prueba del tipo: z = b�1 � (�1)0q �2Pn i=1(xi�x)2 ⇠ tn�2 y para ver si rechazo la hipótesis nula (según la forma de la alternativa) debe cumplirse que zobs > t 1�↵2 n�2 11.4. Especificación del modelo. Para entender si la especificación de un modelo es correcta o no, lo primero que debemos definir es la variabilidad que existe en cada una de las variables: 1. La variabilidad existente en la variable dependiente Y se puede definir como la suma de sus diferencias con respecto al promedio muestral, es decir: nX i=1 (yi � y)2 lo que denominaremos de ahora en adelante como la Suma de Cuadrados Totales (SCT ) 2. La variabilidad del error también ya la definimos anteriormente y se ve del siguiente modo: nX i=1 (yi � byi)2 y de ahora en adelante la denominaremos como la Suma de Cuadrados del Error (SCE). 3. La variabilidad restante me la entregaran las diferencias entre lo estimado de la variable dependiente y el promedio muestral de esta misma, es decir: nX i=1 (byi � y)2 y de ahora en adelante la denominaremos como la Suma de Cuadrados de la Regresión (SCR). En ese sentido, es importante notar que se cumplirá siempre que: SCT = SCR + SCE y para ver la correcta (o no) especificación de un modelo de regresión ocuparemos el coeficiente de deter- minación R2, que es una medida de calidad de ajuste del modelo de regresión lineal definida del siguiente modo: R2 = SCR SCT = 1� SCE SCT R2✏[0, 1] y su valor nos indicará la calidad del ajuste del modelo: R2 cercano a 0! Pobre ajuste del modelo R2 cercano a 1!Muy buen ajuste del modelo 26 12 TABLA ANOVA Y COEFICIENTE R2. Además, y aparte de la versión ya entregada para obtener el R2, es importante saber que este se puede definir como el cuadrado del coeficiente de correlación lineal ⇢x,y entre las variables X e Y , que se define como: ⇢ = \Cov(x, y) c�x ⇤c�y por lo que: R2 = ⇢2 y cuando nosotros tenemos el coeficiente de correlación lineal entre X e Y podemos directamente inferir (o al menos suponer, el test nos entregará la conclusión definitiva) el signo que tendrá el parámetro que acompaña a la independiente X, que es �1. Es decir, 1. Si ⇢ > 0! �1 > 0. 2. Si ⇢ < 0! �1 < 0. 3. Si ⇢ = 0! �1 = 0. 12. Tabla ANOVA y Coeficiente R2. Antes que cualquier cosa, recordemos que cuando veíamos la especificación de un modelo lo primero que hacíamos era definir ciertas mediciones de variabilidad dentro del modelo de regresión, las cuales definiamos del siguiente modo: 1. La variabilidad existente en la variable dependiente Y se puede definir como la suma de sus diferencias con respecto al promedio muestral, es decir: nX i=1 (yi � y)2 lo que denominaremos de ahora en adelante como la Suma de Cuadrados Totales (SCT ). 2. La variabilidad del error también ya la definimos anteriormente y se ve del siguiente modo: nX i=1 (yi � byi)2 y de ahora en adelante la denominaremos como la Suma de Cuadrados del Error (SCE). 3. La variabilidad restante me la entregaran las diferencias entre lo estimado de la variable dependiente y el promedio muestral de esta misma, es decir: nX i=1 (byi � y)2 y de ahora en adelante la denominaremos como la Suma de Cuadrados de la Regresión (SCR). Y, además, sabiamos que existía una identidad que debía cumplirse siempre: SCT = SCE + SCR Lo que hace la tabla ANOV A es resumir esta información, además de agregarle ciertos datos que son útiles para obtener un test que mencionaré más adelante. En definitiva, la tabla se mostrará del siguiente modo: Fuente grados de libertad SC MC F Regresión Error Total 27 12 TABLA ANOVA Y COEFICIENTE R2. Ahora, vayamos definiendo fila por fila: 1. La primera fila (grados de libertad) contendrá los grados de libertad de cada una de las expresiones mostradas anteriormente en la especificación del modelo, las cuales procedo a adjuntar a continuación: SCtotales = (n� 1) SCregresión = k � 1 SCError = (n� k) siendo n el tamaño de la muestra y k el número de parámetros (�i) estimados en la regresión (en nuestro modelo de regresión lineal simple son 2 (�0 y �1)) . De ese modo, considerando como se comporta el modelo que vemos usualmente, los grados de libertad quedan como: SCtotales = (n� 1) SCregresión = 1 SCError = (n� 2) Quedando la tabla como sigue: Fuente grados de libertad SC MC F Regresión 1 Error n� 2 Total n� 1 2. La segunda fila SC no hace más que solamente mostrarnos la suma de los cuadrados de cada fuente, por lo que más que resolverla númericamente, tendremos que «jugar» con la identidad entre ellas (SCT = SCE + SCR), ya que en los ejercicios clásicos lo que te piden es «rellenar» la tabla ANOV A. De ese modo, la tabla se rellena de la siguiente forma: Fuente grados de libertad SC MC F Regresión 1 Pn i=1(byi � y)2 Error n� 2 Pn i=1(yi � byi)2 Total n� 1 Pn i=1(yi � y)2 3. La tercera fila MC no hace más que medirnos la media cuadrática de cada uno de las fuentes de la regresión. Es algo asi como una estimación de la varianza de cada una de ellas. Recordemos que cuando estimamos varianzas lo hacemos ajustando por grados de libertad, por lo que en este caso no es más que dividir cada uno de los SC por sus grados de libertad correspondientes: Fuente grados de libertad SC MC F Regresión 1 Pn i=1(byi � y)2 Pn i=1(byi � y)2 Error n� 2 Pn i=1(yi � byi)2 Pn i=1(yi�byi) 2 n�2 Total n� 1 Pn i=1(yi � y)2 4. La última fila F lo que hace es mostrarnos el estadístico observado de la regresión particular que nos ayudará a realizar un test de hipótesis sobre si la regresión ES o NO ES significativa (esto es lo mismo que decir si los parámetros �i son o no distintos de 0, pero eso se ve más en econometría). Particularmente, la tabla queda reescrita del siguiente modo, ya que el estadístico F se calcula como sigue: Fuente grados de libertad SC MC F Regresión 1 Pn i=1(byi � y)2 Pn i=1(byi � y)2 Pn i=1(byi�y) 2 Pn i=1(yi�byi) 2 n�2 = MCRegresiónMCerror Error n� 2 Pn i=1(yi � byi)2 Pn i=1(yi�byi) 2 n�2 Total n� 1 Pn i=1(yi � y)2 28 12 TABLA ANOVA Y COEFICIENTE R2. De ese modo, lo ocuparemos para testear las siguientes hipótesis: H0 : La regresión NO es significativa H1 : La regresión es significativa y lo compararemos con un estadístico de tabla F al (1� ↵) de confianza descrito del siguiente modo: F ⇠ H0 F 1�↵(k�1,n�k) pero como sabemos que k es el número de parámetros estimados en nuestra regresión (en la simple son solo 2), el estadístico a compararse es: F 1�↵(1,n�2) y si el F de la tabla ANOV A es mayor a ese estadístico de tabla, se rechaza H0 y por lo tanto la regresión si es significativa, es decir, sus parámetros �i con i = 0, 1 si son distintos de 0. Por el contrario, si sucede que el valor de F en ANOV A es menor al estadístico de tabla, no rechazamos H0 y por tanto mi regresión NO es significativa. 5. Una última cosa que es bueno mencionar es que la tabla ANOV A también me permite medir que tan bueno (o malo) es mi modelo de regresión, ya que si se dan cuenta podemos obtener el valor de R2 fácilmente extrayendólo de la tabla. Recordemos lo siguiente: SCT = SCE + SCR ! 1 = SCE SCT + SCR SCT| {z } R2 99K R2 = SCR SCT = 1� SCE SCT y cómo en la tabla tenemos la suma de los cuadrados de cada una de las fuentes de mi regresión, obtener el coeficiente de determinaciónsera trivialmente sencillo. De ese modo, podremos decir si el modelo explica en gran porcentaje o no a la variable dependiente (Y ), si es que el R2 es «grande» será un modelo que es bueno. Por el contrario, si es pequeño, estaremos frente a un modelo que poca utilidad me reporta cuando quiero medir el impacto sobre mi dependiente. 29 13 EJERCICIOS 13. Ejercicios 13.1. Ejercicios - Tópicos 1, 2 y 3. Ejercicio Nº1 Sea Y1, Y2, Y3, . . . , Yn, Yn+1 una m.a.s de una población Y s N(µ,�2). Sean: Y = Pn i=1 Yi n S2 = Pn i=1(Yi � Y ) n� 1 1. Encontrar la distribución de D = Y � Yn+1. 2. Deducir la constante c de modo que: Y � Yn+1 cS s t� Student 3. Si n = 8, encontrar k de modo que: P (Y � kS 6 Y9 6 Y + kS) = 0,8 Ejercicio Nº2 Sea Y1, Y2, Y3, . . . , Yn m.a.s de Y s f(y,�) = �y�+1 , y > 1, � > 0 y E(Y ) = � �+1 . 1. Encontrar el Estimador Máximo Verosímil (EMV) del parámetro �. Ejercicio Nº3 Sea Z1, Z2, . . . , Z10 iid s N(0, 1) y Z el promedio. 1. Encontrar una constante ctal que Y = cZ2 sea conocida. 2. Use la distribución de Y para calcular P (Z2 < 0, 1323). Ejercicio Nº4 Se desea estimar el valor medio µ de tiempo de espera de los buses del transantiago. Para ello, se toma una m.a.s de 81 pasajeros, a los que se le consulta por su tiempo de espera. En un estudio anterior, en que se consultó a un nº muy grande de pasajeros, se obtuvo que � = 3minutos (y se asume que se mantiene). ¿Cuál es el tamaño de muestra mínimo que asegura que la probabilidad de que el promedio de la muestra se distancie de la media poblacional -en ambos sentidos- en a lo más 0,6 minutos, sea 0.95? Ejercicio Nº5 Sea X1, . . . , Xn IID, cada una con distribución de probabilidad: fx(x; ✓) = (✓ + 1)x✓. Calcule el EMV (✓) Ejercicio Nº6 Sea X1, X2, . . . , Xn m.a.s de X s Poisson(�). Calcule el EMV (�). 30 13 EJERCICIOS 13.2 Ejercicios - Tópicos 4, 5 y 6. 13.2. Ejercicios - Tópicos 4, 5 y 6. Ejercicio Nº1 Sea Y1, Y2, . . . , Yn m.a.s de una población Y ⇠ Poisson(�). 1. Obtener paso a paso la Cota de Cramer Rao para la varianza de los estimadores insesgados de �. 2. Proponga un EIMV para �. 3. Obtenga la distribución asintótica de g(b�MV ) = q b�mv 4. Obtener la distribución asintótica del estimador de la siguiente probabilidad: ⇣ = P (Y = 0). Ejercicio Nº2 Sea Y1, . . . , Yn m.a.s de tamaño n = 25 de una población Y ⇠ N(µ, µ2). Asumiendo que: nX i=1 Yi = 300 nX i=1 Y 2i = 30.000 1. Usando un pivote, determine un intervalo bilateral de confianza al 95% para parámetro µ. 2. Determine un intervalo del 95% para el percentil 90% de la población. Ejercicio Nº3 Una empresa productora de bebidas gaseosas está interesada en participar del mercado Chileno y está dis- puesta a hacerlo si el consumo medio muestral de los hogares en Chile es superior a 30 litros por mes. Para poder tomar su decisión, la empresa le encarga un estudio a una consultora, la cual considera una muestra aleatoria de n = 225 hogares Chilenos. Consumo en L Nº de hogares [0,10] 10 ]10,20] 24 ]20,30] 65 ]30,40] 73 ]40,50] 44 ]50,60] 9 1. ¿Cuál es el promedio y la desviación estándar del consumo muestral? 2. Mediante un intervalo al 98%, ¿Qué decisión debe tomar la empresa? 3. Mediante un intervalo al 95%, ¿Qué decisión debe tomar la empresa? Ejercicio Nº4 Sean 2 poblaciones: X ⇠ f(x; ✓1) e Y ⇠ f(y; ✓2). De ambas poblaciones se extraen muestras aleatorias independientes, cada una de tamaño 1200. Sean b✓1 y b✓2 los estimadores EMV de ✓1 y ✓2, los cuales son insesgados y, además, sabemos que: V ar(b✓1) = 3.5 y V ar(b✓2) = 2.1. Suponga que se observan las muestras y se obtiene: b✓1 = 30 y b✓2 = 12. 1. Construya un intervalo al 90% para deducir si ✓1 6= ✓2. ¿Qué decide? 2. Construya un intervalo al 98% para deducir si ✓1 > 2✓2. ¿Qué decide? 3. Construya un intervalo al 95% para deducir si ✓1 + ✓2 < 40. ¿Qué decide? 31 13.3 Ejercicios - Tópicos 7 y 8. 13 EJERCICIOS 13.3. Ejercicios - Tópicos 7 y 8. Ejercicio 1 Sea Y1, . . . , Yn m.a.s de f(y; ✓) = y✓ e � y 2 ✓ ; y > 0, ✓ > 0. Además, sabe que E(Yi) = 0 y V (Yi) = ✓. 1. Obtenga un intervalo de confianza al (1�↵) para b✓MV . Para hacerlo, obtenga tanto el estimador como la CCR del parámetro y utilicelos para obtener la distribución asintótica y luego el intervalo solicitado. 2. Al ↵ = 5%, construir un test del tipo H0 : ✓ = 1 vs Ha : ✓ > 1 y encontrar la constante tal que se rechaza H0, y que suponiendo n = 30 cumple con b✓ > . Ejercicio 2 En las últimas elecciones del año 2013 en Chile, tan solo un 49,4% de la planilla electoral fue efectivamente a votar. Un comentarista político, afirmó que los hechos nefastos descubiertos por la fiscalía nacioanal redundarán en una baja del 25% o más del porcentaje de votantes en las próximas elecciones de este año 2017. 1. Reconozca la población y el parámetro a testear. 2. Plantee las hipotesis estadísticas. 3. Si n=1200; ¿Cuál es el número máximo de votantes de la muestra que irán a votar en las próximas elecciones, tal que permiten con un ↵ = 5% que el comentarista tenga razón en su afirmación. 4. Si 408 personas irán a votar, ¿con que nivel de ↵ el comentarista político tiene razón? Ejercicio 3 Sea X1, . . . , Xnm.a.s de X ⇠ N(µx,�2) e independientemente, sea Y1, . . . , Ynm.a.s de Y ⇠ N(µy,�2). 1. Demuestre que b� = X + Y es un estimador insesgado de � = µx + µy y encuentre su distribución. 2. Si � = 5, ¿Para que tamaño de n el margen de error al 95 % del estimador b� será ±2? 3. Si � = 5, n = 200, P200 i=1 Xi = 1000, P200 i=1 Yi = 1200, pruebe al 1% las hipótesis: H0 : µx + µy = 10 H0 : µx + µy > 10 32 13 EJERCICIOS 13.4 Ejercicio - Tópico 10 13.4. Ejercicio - Tópico 10 Ejercicio Nº1 Una empresa de investigación de mercado, que está actualmente enfocada a las campañas presidenciales de este año, está estudiando las preferencias para los 3 candidatos más nombrados entre los electores de las tres más grandes circunscripciones del país, para ello selecciona en cada una de las 3 circunscripciones una muestra aleatoria de 200 electores, la tabla muestra la información obtenida: Preferencias I Circunscripción II Circunscripción III Circunscripción Total Candidato A 110 100 90 Candidato B 80 50 40 Candidato C 10 50 70 Total 600 = n 1. ¿Se puede afirmar, con un nivel de significación del 5 %, que en la III Circunscripción, los tres candidatos son igualmente probables? 2. ¿Se puede afirmar que, con un nivel de significación del 5 %, los tres candidatos tienen preferencias similares en las tres circunscripciones? 3. ¿Construya un intervalo del 90% de confianza para la diferencia entre la proporción de preferencias entre los candidatos B y C, que le permita averiguar si están o no en un empate estadístico? 13.5. Ejercicios - Tópico 11 Ejercicio Nº1 Se quiere estimar el efecto que tienen las horas de estudio sobre el rendimiento académico de los alumnos del curso Inferencia Estadística, ya que en el último tiempo se ha puesto mucho en duda la forma en la cuál se han llevado a cabo las ayudantías y el ramo en general. Para ello, se tomo una muestra aleatoria de 10 estudiantes del curso que lo cursaron el semestre 2017-1, describiendose las siguientes variables: y = Nota en el curso; se mide de 1 a 7. x = Total de horas semanales de estudio. y teniendo los siguientes datos: 10X i=1 xi = 20, 10X i=1 yi = 39, 7, 10X i=1 x2i = 55, 04, 10X i=1 y2i = 180, 85, 10X i=1 xiyi = 97, 64 Se cree que la relación entre ambas variables puede ser representada a través de un modelo de regresión lineal simple, del tipo Y = �0+�1X+✏, cumpliendose con el todos los supuestos de Gauss-Markov. A continuación, se le pide lo siguiente: 1. Estime mediante mínimos cuadrados ordinarios la recta de regresión. Esto es, obtenga los valores b�0 y b�1. 2. ¿Cómo se interpretan los coeficientes (parámetros)? Explique. ¿Qué signo esperaría para cada uno? 3. Pruebe la hipótesis nula al ↵ = 5% de que las horas semanales de estudio NO afectan el rendimiento académico, frente a la hipótesis alternativa de que estas tienenun efecto positivo. Recuerde que la varianza de �1 estimado se obtiene según la siguiente fórmula: Var(b�1) = �2Pn i=1(xi � x)2 b�2 = Pn i=1 ✏ 2 i n� 2 sin embargo, asuma para efectos prácticos de este ejercicio que la varianza de c�1 es 0.4. 4. Estudie la hipótesis que establece como verdadero el hecho de que si NO hay horas de estudio en la semana, la nota predicha es un 1. Asuma que V ⇣ c�0 ⌘ = 0,09. 33 14 SOLUCIONES Ejercicio Nº2 Considere un modelo de regresión lineal simple como el que ya se ha visto en clases Yi = �0 + �1x1 + ✏i y que además de cumplir con los supuestos clásicos, cumple con el supuesto de normalidad en los errores, esto es, ✏i ⇠ N(0,�2) 8i = 1, 2, 3, . . . , n. 1. Obtenga los estimadores máximo verosímiles de �0,�1,�2 y especifique si coinciden o no con aquellos obtenidos mediante el proceso MCO (mínimos cuadrados ordinarios). 2. Analice el insesgamiento de los estimadores. En caso de que se encuentre con alguno sesgado, analice si en un escenario asintótico se cumple con esta propiedad. 3. Obtenga la varianza teórica de b�0 y proponga un intervalo de confianza bilateral simétrico al 95 % de confianza. ¿Es significativo el parámetro? Para efectos sólo de esta pregunta, suponga que: c�0 = 5, 87 V ar(c�0) = 9, 01 Ejercicio Nº3 El índice de precios al consumidor (IPC) mide la variación de los precios de una canasta de bienes y servicios, consumida por un hogar urbano del gran santiago. Su propósito es estimar la inflación (o deflación según sea el caso) doméstica. A continuación, se presenta una tabla resumen de las variaciones mensuales del IPC en los últimos 190 meses: Intervalo (�1,�0, 5%) (�0, 5%, 0%) (0%, 0, 5%) (0,5%, 1%) (1%,1) Conteo 5 46 93 38 8 Expertos en el área indican que las variaciones mensuales del IPC distribuyen según un modelo Normal, y además dicen que las estimaciones sugieren que bµ = 0,28% y b� = 0, 41%. A usted le parece razonable lo que indican los expertos? Utilice un nivel de riesgo (significancia) del 10 % y para todos sus cálculos considere tres decimales. 14. Soluciones 14.1. Soluciones - Tópicos 1, 2 y 3. Ejercicio Nº1 1. Sabemos que: Y s N(µ, �2 n ) Yn+1 s N(µ,� 2) Como tenemos dos normales, y sabemos que la suma (o la resta) de normales es normal, la distribución de D, por lo tanto, será: D s N(µ� µ, � 2 n + �2) D s N(0,�2 (n+ 1) n ) 2. Recordar que una t� Student es X�µ�/pn s tn�1. Por lo tanto, si estandarizamos D: (Y � Yn+1)� (0)q �2(n+1) n s t 34 14 SOLUCIONES 14.1 Soluciones - Tópicos 1, 2 y 3. Y � Yn+1 � q n+1 n Recordemos que cuando n < 30, � se estima con S: ) c = r n+ 1 n 3. Si n = 8: Y � Y9 S q 9 8 s t7 Vamos a la tabla t � Student y, recordando que esta distribución es simetrica, veo la probabilidad de que sea menor a 0.9 y a 0.1 (para acumular 0.8 en ese intervalo): P (�1,4149 6 Y � Y9 S q 9 8 6 1,4149) = 0,8 P (�1,4149 ⇤ S r 9 8 6 Y � Y9 6 1,4149 ⇤ S r 9 8 ) = 0,8 P (�Y � 1,4149 ⇤ S r 9 8 6 �Y9 6 �Y + 1,4149 ⇤ S r 9 8 ) = 0,8 P (Y � 1,4149 ⇤ S r 9 8 6 Y9 6 Y + 1,4149 ⇤ S r 9 8 ) = 0,8 ) k = 1,4149 r 9 8 v 1,5 Ejercicio Nº2 Planteamos la función de máximo verosímilitud y la reducimos -según los criterios que ya conocemos- lo que más podamos: L(�) = nY i=1 � y�+1i = �n nY i=1 y�(�+1)i Ahora, para encontrar el estimador máximo verosímil propiamente tal, debemos aplicar los dos pasos para encontrar la ecuación de máximo verosímilitud: ln(L(�)) = n ⇤ ln(�) + ln( nY i=1 y�(�+1)i ) = n ⇤ ln(�)� (� + 1) ⇤ ln( nY i=1 yi) Como ln( Qn i=1 yi) = ln(y1 · y2 · . . . · yn) = Pn i=1 ln(yi), tenemos lo siguiente: = n ⇤ ln(�)� (� + 1) ⇤ nX i=1 ln(yi) Derivando e igualando a 0 (para encontrar el estimador), tenemos: �ln(L(�)) �� = n ⇤ 1 � � nX i=1 ln(yi) = 0! nX i=1 ln(yi) = n � | {z } b�mv = nPn i=1 ln(yi) Ejercicio Nº3 35 14.1 Soluciones - Tópicos 1, 2 y 3. 14 SOLUCIONES 1. Sabemos que Z s N(µ, �2/n) con los datos�! Z s N(0, 1/10). Ahora, si la estandarizamos y la elevamos al cuadrado, por definición obtendremos una Chi-cuadrado de 1 grado de libertad, ya que hay solo una normal estándar relacionada: Z � 0p 1/10 !2 s X2(1) �! 10Z 2 s X2(1) ) c = 10 Notar que como hay una normal estándar al cuadrado, inmediatamente debemos saber que nos estamos refiriendo a una Chi-cuadrado. 2. Tenemos que: P (Z 2 < 0,1323) = P (10 ⇤ Z2 < 10 ⇤ 0,1323) = P (Y < 1,323) Como sabemos que Y s X2(1), buscamos en la tabla que nos da valores acumulados y tenemos: P (Y < 1,323) = 0,75 Ejercicio Nº4 Se conoce: � = 3 Se necesita: P (|x� µ| 6 0,6) = 0,95. Esto refleja la distancia en ambos sentidos. P (�0,6 6 x� µ 6 0,6) = 0,95 ,! P (�0,6�p n 6 x� µ�p n|{z} normal estándar 6 0,6�p n ) = 0,95 Ahora, reemplazando �, tenemos lo siguiente: P (�0,2 p n 6 Z 6 0,2 p n) = 0,95 P (Z 6 0,2 p n)� P (Z 6 �0,2 p n) = 0,95 Recordando la propiedad: �(�z) = 1� �(z), nos queda: �(0,2 p n)� � 1� �(0,2 p n) = 0,95 2�(0,2 p n) = 1,95 �(0,2 p n) = 0,975 Vamos a la tabla normal y notamos que �(1,96) = 0,975, por lo que: 0,2 p n = 1,96 n = ✓ 1,96 0,2 ◆2 t 96,04 Ejercicio Nº5 Primero, vemos la función de máximo verosímilitud: L(✓) = nY i=1 (✓ + 1)x✓ �! (✓ + 1)n nY i=1 x✓i 36 14 SOLUCIONES 14.1 Soluciones - Tópicos 1, 2 y 3. Y luego, la ecuación de máximo verosímilitud: ln(L(✓)) = n ⇤ ln(✓ + 1) + ✓ ⇤ ln( nY i=1 xi) = n ⇤ ln(✓ + 1) + ✓ ⇤ nX i=1 ln(xi) Derivando e igualando a 0: �ln(L(✓)) �✓ = n ✓ + 1 + nX i=1 ln(xi) = 0 � nX i=1 ln(xi) = n ✓ + 1 ✓ + 1 = �nPn i=1 ln(xi) b✓mv = �nPn i=1 ln(xi) � 1 Ejercicio Nº6 Nuevamente, lo primero: la función de máximo verosímilitud. L(�) = nY i=1 e�� ⇤ �xi xi! �! (e ��)n ⇤ (�x1 · �x2 · . . . · �xn)Qn i=1 xi! ! e ��n ⇤ � Pn i=1 xi Qn i=1 xi! Luego, la ecuación de máximo verosímilitud. ln(L(�)) = ��n ⇤ 1 + nX i=1 xi ⇤ ln(�)� ln( nY i=1 xi!) Derivando e igualando a 0. �ln(L(�)) �� = �n+ Pn i=1 xi � = 0 b�mv = Pn i=1 xi n = x 37 14.2 Soluciones - Tópicos 4, 5 y 6. 14 SOLUCIONES 14.2. Soluciones - Tópicos 4, 5 y 6. Ejercicio Nº1 1. Primero que todo, planteamos la función de máximo verosimilitud: L(�) = nY i=1 e���x x! ) e ��n ⇤ � P xi Q xi! Para luego dar paso a la ecuación de máximo verosimilitud: ln(L(�)) = ��n+ X xiln(�)� ln ⇣Y xi! ⌘ �ln(L(�)) �� = 0! �n+ P xi � = 0! b�MV = P xi n = X Ahora, para tener acceso a la distribución asintótica del estimador, debemos tener la CCR(�), debemos derivar por 2º vez para así tener la información de Fisher (In) y luego la varianza requerida. �2ln(L(�)) ��2 = � P xi �2 CCR(�) = � 1 E ⇣ � P xi �2 ⌘ = � 1 � P E(xi) �2 = �2 n� = � n ⇠ 2. ¿Cuál es la varianza de X? E(X) = � V (X) = � n Notamos que su varianza alcanza la CCR(�) y, aparte, es insesgado. Por lo tanto, X es el Estimador Insesgado de Mínima Varianza (EIMV ). 3. g(�) = p �. Sabemos que por propiedades asintóticas tendremos lo siguiente en el caso de que tengamos una función del parámetro: g(b�MV ) a⇠ N( p �, � n ⇤ ✓ 1 2 p � ◆2 )! g(b�MV ) a⇠ N( p �, 1 4n ) 4. � = P (X = 0). Sabemos que X ⇠ Poisson(�), por lo que: P (X = 0) = e���0 0! = e�� y podemos verlo como una función del parámetro � f(�) = e�� � , por lo que su distribución asintótica responde a la misma propiedad del ejercicio anterior: Ejercicio Nº2 1. Resolvemos metódicamente: a) Planteamos el pivote usual para µcon varianza conocida e igual a µ2: ' = Y � µ µp n ⇠ N(0, 1) 38 14 SOLUCIONES 14.2 Soluciones - Tópicos 4, 5 y 6. b) Vemos el tema de la confianza: 1� ↵ = 0.95 ↵ = 0.05 ↵/2 = 0.025 1� ↵/2 = 0.975 c) Pivoteamos d) Por lo tanto, un Intervalo de Confianza al 95% para µ en este caso es: 2. Para el percentil 90% de la población, debemos saber primero a qué se refiere: P (Y ) = 0.9 siendo el valor del percentil 90% de la población. En ese sentido, y como sabemos que la distribución de Y ⇠ N(µ, µ2), estandarizamos: � ✓ � µ µ ◆ = 0.9 buscamos en la tabla y el valor que debe tener la estandarización es 1.28: � µ µ = 1.28! = 2.28µ Ahora, y como sabemos desde (a) cuál es el intervalo de confianza para µ, aplicando la propiedad de invarianza, obtenemos el Idec para = 2.28µ [8, 62 µ 19, 74] [19, 65 2.28µ = 45, 01] es un intervalo de confianza al 95% para el percentil del 90% de la población. Ejercicio Nº3 En problemas como estos con intervalos, para calcular el Y y luego la varianza, debemos considerar la marca de clase de los datos, que es el punto medio del intervalo. En ese sentido, el calculo es el siguiente: Y = X y ⇤ P (y) = 5 ⇤ 10 225 + 24 ⇤ 15 225 + . . .+ = 31, 4 litros. V (y) = E(y2)� E(y)2 ! 134, 15 p V (y) = DESV EST (y) = 11, 58 1. Hacemos un intervalo de confianza “unilateral inferior” : a) Pivote usual: ' = Y � µ s 1p n ⇠ N(0, 1) b) Vemos el tema confianza: 1� ↵ = 0.98 ↵ = 0.02 ↵/2 = 0.01 1� ↵/2 = 0.99 39 14.2 Soluciones - Tópicos 4, 5 y 6. 14 SOLUCIONES c) Una cota inferior es: µ � Y � Z1�↵s 1p n µ � 31.4� Z0.98 11.58p 225 µ � 29.81 Y, por lo tanto, no le recomiendo a la empresa. 2. Ahora, con un 95% de confianza: µ � 31.4� Z0.95 11.58p 225 µ � 31.4� 1, 64511.58p 225 µ � 30, 13 Y ahora, a diferencia de la letra anterior, si le recomiendo a la empresa seguir. Ejercicio Nº4 1. ✓1 � ✓2 6= 0! Tenemos que ver si el 0 está o no en el intervalo a) Pivote usual en caso de 2 muestras: ' = (b✓1 � b✓2)� (✓1 � ✓2)q V ar(b✓1) + V ar(b✓2) ⇠ N(0, 1) b) Tema confianza: 1� ↵ = 0.90 ↵ = 0.10 ↵/2 = 0.05 1� ↵/2 = 0.95 c) Pivoteamos: P (�Z1�↵/2 ' Z1�↵/2) = 0.9 P (�1.645 ⇤ p 5.6 (b✓1 � b✓2)� (✓1 � ✓2) 1.645 p 5.6) = 0.9 P (18� 1.645 ⇤ p 5.6 (✓1 � ✓2) 18 + 1.645 p 5.6) = 0.9 P (14.1 (✓1 � ✓2) 21, 9) = 0.9 Por lo tanto, se puede afirmar con un 90% que son distintos. 2. ✓1 � 2✓2 > 0! Hacemos un intervalo unilateral inferior para tomar una decisión en esta ocasión: ✓1 � 2✓2 � b✓1 � 2b✓2 � Z1�↵ q V ar(b✓1) + 4V ar(b✓2) ✓1 � 2✓2 � 6� 2.05 p 11.9 ✓1 � 2✓2 � �1.07 Y como el 0 SI está en el intervalo, NO se puede afirmar con un 98% de confianza que ✓1�2✓2 > 0 3. ✓1 + ✓2 < 40! Hacemos un intervalo unilateral superior para tomar una decisión en esta ocasión: ✓1 + ✓2 b✓1 + b✓2 + Z0.95 q V ar(b✓1) + V ar(b✓2) ✓1 + ✓2 42 + 1.645 p 5, 6 ✓1 + ✓2 45.9 Como el 40 está en el intervalo, NO se puede afirmar con un 95% de confianza que ✓1+ ✓2 < 40 . 40 14 SOLUCIONES 14.3 Soluciones - Tópicos 7 y 8. 14.3. Soluciones - Tópicos 7 y 8. Ejercicio 1 1. Intervalo de confianza (1� ↵) para ✓. a) Planteamos la función de máximo verosimilitud: L(✓) = nY i=1 yi ✓ e� y2 ✓ 99K Qn i=1 yi ✓n e� Pn i=1 y 2 i ✓ b) Aplicamos logaritmo natural y derivamos para obtener b✓mv : ln(L(✓)) = ln nY i=1 yi ! � nln(✓)� Pn i=1 y 2 i ✓ �ln(L(✓)) �✓ = 0 99K �n ✓ + P y2i ✓2 = 0 99K b✓mv = Pn i=1 y 2 i n c) Derivamos por segunda vez, aplicamos esperanza y luego obtenemos la ccr(✓): �2ln(L(✓)) �✓2 � n ✓2 � 2 Pn i=1 y 2 i ✓3 E ✓ �2ln(L(✓)) �✓2 ◆ = n ✓2 � 2 ✓3 nX i=1 E(y2i ) Ahora, notamos que la E(y2i ) la podemos obtener a través de la fórmula de la varianza: V (x) = E(x2)� E(x)2 99K E(x2) = V (x)� E(x)2 aplicado al ejercicio: E(y2i ) = ✓ � 0 = ✓ de este modo, operando, tenemos que la ccr(✓) = ✓ 2 n d) Finalmente, vamos a tener que la distribución asintótica para el estimador máximo verosímil es: b✓mv ⇠ N(✓, ✓2 n ) y por tanto un pivote para el parámetro ✓ sería: Z = b✓mv � ✓ ✓p n ⇠ N(0, 1) Luego, el intervalo de confianza al (1 � ↵) se obtiene de despejar el pivote, dandonos cuenta que este último puede reescribirse del siguiente modo para facilitar el despeje: ' = p n b✓mv ✓ � 1 ! y, por lo tanto, el intervalo queda del siguiente modo: 2 4 b✓mv 1 + Z1�↵/2p n ✓ b✓mv 1� Z1�↵/2p n 3 5 41 14.3 Soluciones - Tópicos 7 y 8. 14 SOLUCIONES 2. Al ↵ = 5%, para que rechazemos la hipótesis nula que nos establece el enunciado debemos recordar que la regla de rechazo en estos caos es: Zobs � Z1�↵ y el estadístico de prueba es: Zobs = b✓ � 1q 1 n � Z0,95 = 1, 645 de este modo, lo que tiene que suceder sobre el parámetro b✓ para rechazar la nula es: b✓ � 1, 645 ⇤ r 1 n + 1 como n=30: b✓ � 1, 3 = Ejercicio 2 1. La población es fácil de reconocer, ya que como la persona puede ir a votar o no hacerlo, es claro que será una bernoulli, con parámetro ⇡ = proporción de votantes que va a votar. Y ⇠ Bernoulli(⇡) 2. Las hipótesis estadísticas en este caso son las siguientes: H1 : ⇡ < 0, 75 ⇤ 49, 4% = 37, 05% H0 : ⇡ � 0, 75 ⇤ 49, 4% ⇣= 0, 75 ⇤ 49, 4% = 37, 05% Recordar que la hipótesis alternativa es la que propone el investigador (y que extraímos del enunciado). La hipótesis nula H0 es la que resulta por diferencia. 3. Si n = 1200, para rechazar H0 en favor de H1 lo que tiene que ocurrir es que: Zobs �Z1�↵(por la forma de las hipótesis y regla de rechazo) en ese sentido, tendremos que: Zobs = bp� ⇡0q ⇡0(1�⇡0) n �1,645 = �Z1�↵ recordar que las estimaciones que van en la varianza son las que establece la hipótesis nula, por lo que el estadístico observado será: Zobs = bp� 0, 3705q 0,3705(0,6295) 1200 �1, 645 bp �1, 645 ⇤ r 0, 3705(0, 6295) 1200 + 0, 3705 bp 0, 3476 y como bp puede reescribirse como: proporción de votas de la muestra que SÍ irá a votar1200 (total de encuestados) , tenemos que: bp = proporción de votas de la muestra que SÍ irá a votar 1200 (total de encuestados) 0, 3476 proporción de votas de la muestra que SÍ irá a votar 0, 3476 ⇤ 1200 proporción de votas de la muestra que SÍ irá a votar 417 42 14 SOLUCIONES 14.3 Soluciones - Tópicos 7 y 8. 4. Si las personas que irán a votar serán 408, nuevamente hacemos un análisis parecido al anterior, ya que rechazaremos en el mismo caso. Zobs �Z1�↵ 408 1200 � 0, 3705q 0,3705⇤0,6295 1200 �Z1�↵ �2, 19 �Z1�↵ Ahora, viendo el mínimo nivel de ↵ para rechazar H0 , aplicando �(.) a cada lado de la ecuación anterior: �(2, 19) � 1� ↵ 0, 9857 � 1� ↵ ↵ � 1, 43% Ejercicio 3 1. Para demostrar que es insesgado, aplicamos el operador E al estimador: E(b�) = E � X + Y � = E(X) + E(Y ) = µx + µy de ese modo, se corrobora que es insesgado con respecto a los parámetros. Además, sabemos que como X e Y son normales, ambas definidas del siguiente modo: X ⇠ N(µx, �2 n ) Y ⇠ N(µy, �2 n ) por lo tanto, la suma de normales es normal y la distribución asintótica del estimador es: b�mv ⇠ N(µx + µy, 2�2 n ) 2. Si � = 5, el intervalo de confianza para µx + µy se obtendría pivotiando el siguiente pivote: ' = (X + Y )� (µx + µy)q 2�2 n ⇠ N(0, 1) de ese modo, llegaremos a que el intervalo es: 2 6664 (X + Y )� Margen de errorz }| { Z1�↵/2 ⇤ r 2�2 n ; (X + Y ) + Margen de errorz }| { Z1�↵/2 ⇤ r 2�2 n 3 7775 Ahora, vemos las confianzas: 1� ↵ = 0,95 ↵ = 0, 05 ↵/2 = 0,025 1� ↵/2 = 0,975 por lo tanto, para que el margen de error sea igual a 2: Z0,975 ⇤ r 2 ⇤ (52) n = 2 1, 96 ⇤ r 50 n = 2 n ' 48 43 14.4 Soluciones - Tópico 10. 14 SOLUCIONES 3. Para testear lo pedido, debemos contruir el siguiente estadístico de prueba: Z = (X + Y )� (µx + µy)0q 2�2 n ⇠ N(0, 1) Como sabemos los datos para estimar X e Y , y además que � = 5, sabemos que nuestro Zobs será igual a 2. Y si queremos testear al 1 %, la regla de rechazo en este caso sería: Zobs = 2 � Z0,99 = 2, 32 como lo anterior NO se cumple, no rechazamos H0 con un 99% de confianza. 14.4. Soluciones - Tópico 10. 1. Se trata de testear las siguientes hipótesis: H0 : ⇡A = ⇡B = ⇡C vs H1 : Al menos un ⇡i 6= 1 3 De ese modo, queremos ver si los datos tienen la misma distribución dentro de la III Circunscrip- ción, por lo que se procede a hacer un test de Bondad de Ajuste. Como en la tabla ya tenemos las frecuencias observadas Oi debemos proceder a obtener las esperadas Ei para luego calcular el estadís- tico de prueba. Cómo la hipótesis nula señala que la proporción de votantes dentro de la III Circunscripción es la misma para todos los candidatos ⇡i = 13 8i, las frecuencias esperadas (y considerando que nIII = 200) son iguales para los 3: Ei = 200
Compartir