Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Regresion Lineal Múltiple Parte II Jorge Rodríguez Econometría, Octubre 2020 Outline 1. Inferencia en el modelo de regresion múltiple (cap 7) 1.1 Test de hipótesis e intervalos de confianza sobre βj . 1.2 Tests de hipótesis conjuntos. 1.3 Presentación resultados y análisis de regresión Tests de hipótesis e intervalos de confianza sobre βj Tests de hipótesis sobre βj Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui Test de hipótesis: H0: βj = βj,o H1: βj 6= βj,0 Necesitamos: I Estadístico (t) I Nivel de significancia α I Comparar con valor crítico I p-value. Distribución muestral y errores standar (SE(β̂j)) I Sea β̂ ′ = ( β̂0 β̂1 . . . β̂k ) y X ′ i = ( 1 X1i . . . Xki ) I En muestras grandes, podemos aproximar la distribución de β̂: β̂ ∼ N(β,Σβ̂) I Σβ̂: matrix de varianzas y covarianzas (k + 1)× (k + 1) Σβ̂ = [ E ( XiX ′ i )]−1 E ( u2iXiX ′ i ) [ E ( XiX ′ i )]−1 I Diagonal (j, j): varianza estimada de β̂j I Fuera de diagonal (j, s): covarianza estimada de β̂j y β̂s. Tests de hipótesis sobre βj Estadístico t: t̂ = β̂j − βj,0 SE(β̂j) Se puede demostrar: t̂ d→ X ∼ N(0, 1) En muestras grandes, podemos usar probabilidades de una normal estándar para inferencia estadística. Tests de hipótesis sobre βj Dos opciones: 1. Comparar t̂ con tcritico que depende de α. 2. Calcular p-value. p-value = 2Φ(− ∣∣t̂∣∣) p-value para t = 0.9 0 .1 .2 .3 .4 D en si da d -1.96 -0.9 0.9 1.96 p-value para t = −3.1 0 .1 .2 .3 .4 D en si da d -3.1 -1.96 1.96 3.1 Tests de hipótesis de una cola sobre β1: α = 5%, N(0, 1) 95% 0 .1 .2 .3 .4 D en si da d -1.645 0 Ejemplo: Test Scores y Class Size En SW, los resultados incluyendo SEs son: ̂TestScore = 698.9− 2.28× STR (10.4) (0.52) ̂TestScore = 698.9− 1.10× STR− 0.650× PctEL (8.7) (0.43) (0.031) Suponga: H0 : β1 = 0 H1 : β1 6= 0 Ejemplo: Test Scores y Class Size t̂ = β̂1 − β1,0 SE(β̂1) = −2.28 0.52 = −4.4 < −1.96 (valor critico de N(0, 1)) t̂ = β̂1 − β1,0 SE(β̂1) = −1.10 0.43 = −2.55 < −1.96 (valor critico de N(0, 1)) Intervalos de confianza sobre βj t = β̂j − βj SE(β̂j) ∼ N(0, 1) Prob(−tα/2 < t < tα/2) = 1− α Prob(−tα/2 × SE(β̂j) < β̂j − βj < tα/2 × SE(β̂j)) = 1− α Luego, un intervalo de confianza para βj : Prob(β̂j − tα/2 × SE(β̂j) < βj < β̂j + tα/2 × SE(β̂j)) = 1− α Ejemplo: Test Scores y Class Size En SW, los resultados incluyendo SEs son: ̂TestScore = 698.9− 2.28× STR (10.4) (0.52) ̂TestScore = 698.9− 1.10× STR− 0.650× PctEL (8.7) (0.43) (0.031) Intervalo de confianza: [β̂1 − 1.96× SE(β̂1), β̂1 + 1.96× SE(β̂1)] [−2.28− 1.96× 0.52,−2.28 + 1.96× 0.52] = [−3.2992,−1.2608] [−1.10− 1.96× 0.43,−1.10 + 1.96× 0.43] = [−1.9428,−0.2572] Rechazamos H0 si β1,0 cae fuera de este intervalo, dado α = 5%. Tests de hipótesis conjuntos Ejemplo: Test Scores y Class Size ̂TestScore = 698.9− 1.10× STR− 0.650× PctEL (8.7) (0.43) (0.031) I H0 : β1 = 0 vs H1 : β1 6= 0: t̂1 = −1.1/0.43 = 2.56 ⇒ Rechazo I H0 : β2 = 0 vs H1 : β2 6= 0: t̂2 = −0.650/0.031 = 20.9 ⇒ Rechazo Podemos afirmar que β1 6= 0 y β2 6= 0 con α = 5%? Por qué no testeamos un coeficiente a la vez? I H0 : β1 = 0 y β2 = 0. I Supongamos que estadísticos t1 y t2 son independientes I ¿Cual es la probabilidad de que rechacemos la nula cuando esta es cierta (α)? Pr( ∣∣t̂1∣∣ ≤ 1.96 y ∣∣t̂2∣∣ ≤ 1.96) = 0.952 = 0.9025 I Luego, α = 1− 0.9025 = 9.75% I Intuitivamente: ante muchos tests, probabilidad de rechazar (por suerte) va aumentando I Si estadísticos t1 y t2 son dependientes, problema podría ser peor. Tests de hipótesis conjunto H0 : βj = βj,0, βm = βm,0, ...para un total de q restricciones H1 : al menos una restricción no se cumple bajo H0 I q restricciones: imponemos un valor específico a un coeficiente. I Método: 1. Estadístico con cierta distribución. 2. p-values o valores críticos. Estadístico F con q restricciones I H0 : βj = βj,0, βm = βm,0, ... puede escribirse como: Rβ = r I R: matriz que selecciona qué coeficiente están restringidos I β: vector de pendientes I r: vector con valores βj,0. I Estadístico F : F = (Rβ̂ − r)′ [ RΣ̂β̂R ′ ]−1 (Rβ̂ − r)/q I También acomoda tests individuales, con varios coeficientes: H0 : β1 + 2β2 = −β3. Estadístico F con q restricciones I Distribución F (Fq,n−k−1) es la distribución de una variable aleatoria definida como (W/q)/(V/(n− k − 1)) donde W ∼ χq y V ∼ χn−k−1. I Para ello, necesitamos que ûi ∼ N I Resultado para muestras grandes (independiente de distribución de errores): F d→ χ2q/q ≡ Fq,∞ I Valores críiticos (ver appendix de Stock & Watson): I χ2q/q I Fq,∞ Distribución Fq,n 0 .2 .4 .6 .8 D en si da d 0 1 2 3 4 F4,10 F4,25 F4,50 F4,100 Estadístico F con 2 restricciones I Suponga H0 : β1 = 0, β2 = 0 (q = 2). Entonces F = 1 2 ( t21 + t 2 2 − 2ρ̂t1,t2t1t2 1− ρ̂2t1,t2 ) I Si unos de los tests individuales se rechaza, no implica necesariamente que la hipótesis conjunta tambiíen. I Si q = 1, entonces F = t2. I Cuando tests están correlacionados, estadístico F ajusta por ρ̂t1,t2 . Homoscedasticidad versus Heteroscedasticidad I Al igual que el modelo simple, problema se remite a cálculo de SEs. I Robusta: Σβ̂ = [ E ( XiX ′ i )]−1 E ( u2iXiX ′ i ) [ E ( XiX ′ i )]−1 I Bajo homoscedasticidad: Σβ̂ = σ 2 [ E ( XiX ′ i )]−1 I En ambos casos: F = (Rβ̂ − r)′ [ RΣ̂β̂R ′ ]−1 (Rβ̂ − r)/q F y R2 I Qué tan importante son las q restricciones para explicar V ar(Y )? I Al relajar q restricciones (ej., incluyendo más variables en la regresión), SSR baja I Sube R2 I Luego, F y R2 están relacionados I Al incluir variables, si R2 sube “mucho”, puede ser señal de que coeficientes asociados a variables incluidas son conjuntamente significantivos F y R2 Si hay homoscedasticidad : F = (SSRrestricted − SSRunrestricted) /q SSRunrestricted/(n− kunrestricted − 1) F = ( R2unrestricted −R2restricted ) /q (1−R2unrestricted)/(n− kunrestricted − 1) Ejemplo: Test Scores y Class Size ̂TestScore = 649.6− 0.29× STR− 0.656× PctEL+ 3.87× Expn,R2 = 0.4366 (15.5) (0.48) (0.032) (1.59) ̂TestScore = 664.7− 0.671× PctEL, R2 = 0.4149 (1.0) (0.032) Bajo homoscedasticidad, q = 2. F = (0.4366− 0.4149)/2 (1− 0.4366)/(420− 3− 1) = 8.01 ⇒Rechazo al 1% (valor critico es 4.61). Ejemplo: Test Scores y Class Size I Bajo heteroscedasticidad: F = 5.43. Asumir erróneamente homoscedasticidad tiene altos costos Presentación de resultados y análisis de regresión Cómo escribir un informe/estudio econométrico I El objetivo final: estudio de efectos causales I Mejor presentado en forma de pregunta (ver ejemplo abajo). 1. Un estudio econométrico empieza detallando marco institucional y datos 2. Enunciamos “estrategia de identificación” I Identificación: estrategia para obtener un estimador de efectos causales I Para nuestros efectos, el efecto causal no está identificado cuando E[u | X] 6= E[u] I Esta sección puede referirse también a “metodología”, “estrategia empírica”, etc; en mi opininón, si alude a efectos causales es mejor. Cómo escribir un informe/estudio econométrico 3. Resultados I Presentación estimaciones I Discusión de números e implicancias. 4. Conclusiones I Volver a pregunta original. Ejemplo: Colegios y Salarios I Objetivo del estudio I Aumentan tus salarios futuros asistir a un colegio privado? I Datos en Contreras, Rodriguez y Urzua (2020) I Tipo de colegio, II medio. I Escolaridad padres e ingreso familiar I Salarios ~10 años después I Marco institucional: Chile I Contexto: marcadas diferencias en calidad de educación. Estrategia de identificación Asumiremos independencia condicional: al incluir controles, variable de interés es independiente de errores Salariosi = β0 + βppagDi +X ′ iβ + ui Donde Di = { 1 estudio en colegio privado-pagado 0 en cualquier otro caso X′iβ = βescEscMadre+ βingIngFam E[ui | Di, EscMadre, IngFam] = E[ui | EscMadre, IngFam] Resultados Table: Efecto de asistir a colegio privado sobre salarios (1) (2) (3) Asiste a privado (Di) 233.6*** 102.2*** 86.6*** (6.8) (6.7) (8.0) Escolaridadmadre X X Ingreso familiar X R2 1.1% 1.2% 2.1% N obs 11,395 11,395 11,395 Notas: *, **, *** indican significancia el 10, 5, y 1%. Ejercicios Ejercicios. I Del libro Stock & Watson: Review the Concepts (todos), 7.1, 7.2, 7.3(a), 7.4(a), 7.6, 7.8, 7.10. Introducción Tests de hipótesis e intervalos de confianza sobre j Tests de hipótesis conjuntos Presentacion de resultados y análisis de regresión
Compartir