Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Inferencia Estad́ıstica Lućıa Babino Universidad Torcuato Di Tella 1 / 47 Bibliograf́ıa para esta clase ISLR (https://www.statlearning.com/), cap 3 (sec. 3.1.2 y 3.1.2) Wasserman, cap. 13 (sec. 13.1 a 13.5) → para todo el tema de regresión lineal (es más teórico y usa tets e IC asintóticos para los coeficientes en vez de exactos, como veremos) 2 / 47 Repaso 3 / 47 Modelo Lineal Simple - Ejemplo Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n xi = inversión en TV en mercado i Yi = ventas totales en mercado i Supuestos: ϵ1, . . . , ϵn independientes E(ϵi) = 0 ∀i V(ϵi) = σ2 ∀i 4 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 Preguntas importantes Queŕıamos responder... 3 ¿Qué medios están asociados con las ventas? 4 ¿Cuán alta es la asociación entre cada medio y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 3 ¿TV está asociado con las ventas? 4 ¿Cuán alta es la asociación entre TV y las ventas? 5 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 3. ¿TV está asociado con las ventas? Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 β̂1 = 0.048 Estructura del estad́ıstico: T = β̂1 SE(β̂1) ó β̂1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) 6 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 4. ¿Cuán alta es la asociación entre TV y las ventas? Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que aumenten las ventas? ⇒ necesitamos estimar a β1 mediante β̂1 y un IC. Estructura del Pivote: P = β̂1 − β1 SE(β̂1) ó β̂1 − β1 ŜE(β̂1) ⇒ necesitamos SE(β̂1) . 7 / 47 Esperanza y varianza de los EMC Para construir el test y el IC para β1 también necesitamos calcular E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1). También veremos las fórmulas de E(β̂0) y V(β̂0) 8 / 47 Esperanza y varianza de los EMC Para construir el test y el IC para β1 también necesitamos calcular E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1). También veremos las fórmulas de E(β̂0) y V(β̂0) 8 / 47 Esperanza y varianza de los EMC Para construir el test y el IC para β1 también necesitamos calcular E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1). También veremos las fórmulas de E(β̂0) y V(β̂0) 8 / 47 Esperanza y varianza de los EMC E(β̂1) = β1 ; E(β̂0) = β0 V(β̂1) = σ2∑n i=1(xi − xn)2 V(β̂0) = σ2 ( 1 n + x2n∑n i=1(xi − xn)2 ) Necesitamos estimar σ2 9 / 47 Esperanza y varianza de los EMC E(β̂1) = β1 ; E(β̂0) = β0 V(β̂1) = σ2∑n i=1(xi − xn)2 V(β̂0) = σ2 ( 1 n + x2n∑n i=1(xi − xn)2 ) Necesitamos estimar σ2 9 / 47 Estimación de σ2 σ̂2 = 1 n− 2 n∑ i=1 e2i → estimador insesgado de σ2 RSE = √√√√ 1 n− 2 n∑ i=1 e2i → Residual Standard Error donde ei = Yi − Ŷi = Yi − (β̂0 + β̂1xi) ↑ i-ésimo residuo 10 / 47 Estimación del SE de los EMC ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ŜE(β̂0) = √ σ̂2 ( 1 n + x2n∑n i=1(xi − xn)2 ) con σ̂2 = RSE2 = 1 n− 2 n∑ i=1 e2i 11 / 47 Clase de hoy 12 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ısticodel test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 Test e IC para los coeficientes Ya podemos calcular... P = β̂1 − β1 ŜE(β̂1) → Pivote del IC T = β̂1 ŜE(β̂1) → Estad́ıstico del test Pero para poder calcular el IC y el test exactos para β1, necesitamos conocer... la distribución de P la distribución de T bajo H0 Para eso necesitamos conocer la distribución de β̂1. (Idem para β̂0). 13 / 47 EMC β̂0 = Y n − β̂1xn β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 ¿De qué depende la distribución de los EMC? ¿Nos dice algo el modelo sobre la distribución de las Y ′i s? 14 / 47 EMC β̂0 = Y n − β̂1xn β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 ¿De qué depende la distribución de los EMC? ¿Nos dice algo el modelo sobre la distribución de las Y ′i s? 14 / 47 EMC β̂0 = Y n − β̂1xn β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 ¿De qué depende la distribución de los EMC? ¿Nos dice algo el modelo sobre la distribución de las Y ′i s? 14 / 47 Modelo Lineal Modelo: Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n Supuestos: ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep. E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i ¿Qué nos dice el modelo sobre la distribución de las Y ′i s? 15 / 47 Modelo Lineal Modelo: Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n Supuestos: ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep. E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i ¿Qué nos dice el modelo sobre la distribución de las Y ′i s? 15 / 47 Modelo Lineal Modelo: Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n Supuestos: ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep. E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i ¿Qué nos dice el modelo sobre la distribución de las Y ′i s? 15 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Modelo Lineal con supuesto de normalidad Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i → ¿es razonable este supuesto? Los supuestos 1 a 4 son equivalentes a ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. ¿Cómo se traducen estos supuestos en términos de las Y ′i s? Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2) 16 / 47 Distribución de los EMC A partir de ahora, asumiremos elmodelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Distribución de los EMC A partir de ahora, asumiremos el modelo con el supuesto de normalidad. Distribución de β̂1 β̂1 = ∑n i=1(xi − xn)(Yi − Y n)∑n i=1(xi − xn)2 β̂1 ∼ N ( β1, σ2∑n i=1(xi − xn)2 ) Distribución de β̂0 β̂0 = Y n − β̂1xn β̂0 ∼ N ( β0, σ 2 [ 1 n + x2n∑n i=1(xi − xn)2 ]) 17 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test para β1 Para responder si TV está asociado con las ventas, necesitamos un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 . Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ∼ tn−2 bajo H0 RR de nivel exacto α: R = {|T | > tn−2,α/2} p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|) con Tn−2 ∼ tn−2 18 / 47 Test asintótico para β1 (no lo veremos) Si asumimos el modelo lineal sin el supuesto de normalidad podemos hacer el siguiente test asintótico. Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ≈ N (0, 1) bajo H0 (no lo veremos, sale por otra versión del TCL, es el que hace Wasserman) RR de nivel asintótico α: R = {|T | > zα/2} p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|) 19 / 47 Test asintótico para β1 (no lo veremos) Si asumimos el modelo lineal sin el supuesto de normalidad podemos hacer el siguiente test asintótico. Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ≈ N (0, 1) bajo H0 (no lo veremos, sale por otra versión del TCL, es el que hace Wasserman) RR de nivel asintótico α: R = {|T | > zα/2} p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|) 19 / 47 Test asintótico para β1 (no lo veremos) Si asumimos el modelo lineal sin el supuesto de normalidad podemos hacer el siguiente test asintótico. Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ≈ N (0, 1) bajo H0 (no lo veremos, sale por otra versión del TCL, es el que hace Wasserman) RR de nivel asintótico α: R = {|T | > zα/2} p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|) 19 / 47 Test asintótico para β1 (no lo veremos) Si asumimos el modelo lineal sin el supuesto de normalidad podemos hacer el siguiente test asintótico. Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ≈ N (0, 1) bajo H0 (no lo veremos, sale por otra versión del TCL, es el que hace Wasserman) RR de nivel asintótico α: R = {|T | > zα/2} p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|) 19 / 47 Test asintótico para β1 (no lo veremos) Si asumimos el modelo lineal sin el supuesto de normalidad podemos hacer el siguiente test asintótico. Estad́ıstico: T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) ≈ N (0, 1) bajo H0 (no lo veremos, sale por otra versión del TCL, es el que hace Wasserman) RR de nivel asintótico α: R = {|T | > zα/2} p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|) 19 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociaciónentre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 IC para β1 Para responder cuán alta es la asociación entre TV y ventas, necesitamos β̂1 y un IC para β1. Pivote: P = β̂1 − β1√ σ̂2∑n i=1(xi−xn)2 = β̂1 − β1 ŜE(β̂1) ∼ tn−2 IC de nivel exacto: IC = (β̂1 ± tn−2,α/2ŜE(β̂1)) IC de nivel asintótico (no lo veremos): IC = (β̂1 ± zα/2ŜE(β̂1)) 20 / 47 Test e IC para β0 El test y el IC para β0 son idénticos a los de β1 reemplazando β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0). 21 / 47 Test e IC para β0 El test y el IC para β0 son idénticos a los de β1 reemplazando β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0). 21 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i √∑n i=1(xi − xn)2 22 / 47 Test de nivel 5% para β1 en el ejemplo R = {|T | > tn−2,α/2} T = β̂1√ σ̂2∑n i=1(xi−xn)2 = β̂1 ŜE(β̂1) Necesitamos... tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 → ISLR usa 2 β̂1 = 0.0475 ŜE(β̂1) = √ σ̂2∑n i=1(xi−xn)2 = σ̂√∑n i=1(xi−xn)2 ⇒ necesitamos σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i√∑n i=1(xi − xn)2 22 / 47 RSE en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 RSE = 3.259 23 / 47 RSE en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 RSE = 3.259 23 / 47 Cálculo de √∑n i=1(xi − xn)2 √√√√ n∑ i=1 (xi − xn)2 = √ (n− 1) √√√√ 1 n− 1 n∑ i=1 (xi − xn)2 = √ 199 sd(datos$TV) = 1211, 123 ŜE(β̂1) = σ̂√∑n i=1(xi − xn)2 = 3.259 1211, 123 = 0, 002691 24 / 47 Cálculo de √∑n i=1(xi − xn)2 √√√√ n∑ i=1 (xi − xn)2 = √ (n− 1) √√√√ 1 n− 1 n∑ i=1 (xi − xn)2 = √ 199 sd(datos$TV) = 1211, 123 ŜE(β̂1) = σ̂√∑n i=1(xi − xn)2 = 3.259 1211, 123 = 0, 002691 24 / 47 Cálculo de √∑n i=1(xi − xn)2 √√√√ n∑ i=1 (xi − xn)2 = √ (n− 1) √√√√ 1 n− 1 n∑ i=1 (xi − xn)2 = √ 199 sd(datos$TV) = 1211, 123 ŜE(β̂1) = σ̂√∑n i=1(xi − xn)2 = 3.259 1211, 123 = 0, 002691 24 / 47 Cálculo de √∑n i=1(xi − xn)2 √√√√ n∑ i=1 (xi − xn)2 = √ (n− 1) √√√√ 1 n− 1 n∑ i=1 (xi − xn)2 = √ 199 sd(datos$TV) = 1211, 123 ŜE(β̂1) = σ̂√∑n i=1(xi − xn)2 = 3.259 1211, 123 = 0, 002691 24 / 47 Cálculo de √∑n i=1(xi − xn)2 √√√√ n∑ i=1 (xi − xn)2 = √ (n− 1) √√√√ 1 n− 1 n∑ i=1 (xi − xn)2 = √ 199 sd(datos$TV) = 1211, 123 ŜE(β̂1) = σ̂√∑n i=1(xi − xn)2 = 3.259 1211, 123 = 0, 002691 24 / 47 ŜE(β̂1) en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.00269117.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 ŜE(β̂1) = 0.002691 25 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Decisión del test Tobs = β̂1,obs ŜE(β̂1)obs = 0.0475 0.002691 = 17.66518 R = {|T | > 1.97} ⇒ Rechazamos H0 p-valor ∼= 0 26 / 47 Tobs y p− valor en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 Tobs = 17.67 y p− valor < 2 10−16 27 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Conclusión del test para β1 Hay evidencia muy fuerte de que la pendiente de la recta de regresión es distinta de cero (β1 ̸= 0). Es decir, hay evidencia muy fuerte de que TV está asociado con las ventas. Obs: se suele decir que β̂1 es significativamente distinto de cero, eso en realidad quiere decir que... hay evidencia significativa de que β1 ̸= 0. 28 / 47 Test para β0 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 ¿Cuál es el estad́ıstico y el p-valor? ¿Qué estamos testeando? 29 / 47 Test para β0 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 ¿Cuál es el estad́ıstico y el p-valor? ¿Qué estamos testeando? 29 / 47 IC para β1 en el ejemplo ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1)) = (0.0475± 1.97 0.0027) = (0.042, 0.053) En R: 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 Interpretación: por cada $1000 que aumenta la inversión en publicidad en TV, las ventas esperadas aumentan entre 42 y 53 unidades con un 95% de confianza. 30 / 47 IC para β1 en el ejemplo ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1)) = (0.0475± 1.97 0.0027) = (0.042, 0.053) En R: 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 Interpretación: por cada $1000 que aumenta la inversión en publicidad en TV, las ventas esperadas aumentan entre 42 y 53 unidades con un 95% de confianza. 30 / 47 IC para β1 en el ejemplo ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1)) = (0.0475± 1.97 0.0027) = (0.042, 0.053) En R: 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 Interpretación: por cada $1000 que aumenta la inversión en publicidad en TV, las ventas esperadas aumentan entre 42 y 53 unidades con un 95% de confianza. 30 / 47 IC para β1 en el ejemplo ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1)) = (0.0475± 1.97 0.0027) = (0.042, 0.053) En R: 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 Interpretación: por cada $1000 que aumenta la inversión en publicidad en TV, las ventas esperadas aumentan entre 42 y 53 unidades con un 95% de confianza. 30 / 47 IC para β1 en el ejemplo ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1)) = (0.0475± 1.97 0.0027) = (0.042, 0.053) En R: 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 Interpretación: por cada $1000 que aumenta la inversión en publicidad en TV, las ventas esperadas aumentan entre 42 y 53 unidades con un 95% de confianza. 30 / 47 IC para β0 en el ejemplo 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.042230720.05284256 ICβ0(95%) = (6.1297 , 7.9355) Interpretación: cuando la inversión en publicidad en TV es de $0, las ventas esperadas están entre 61297 y 79355 unidades con un 95% de confianza. 31 / 47 IC para β0 en el ejemplo 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 ICβ0(95%) = (6.1297 , 7.9355) Interpretación: cuando la inversión en publicidad en TV es de $0, las ventas esperadas están entre 61297 y 79355 unidades con un 95% de confianza. 31 / 47 IC para β0 en el ejemplo 1 confint(ajusteTV) 2 # 3 # 2.5 % 97.5 % 4 # (Intercept) 6.12971927 7.93546783 5 # TV 0.04223072 0.05284256 ICβ0(95%) = (6.1297 , 7.9355) Interpretación: cuando la inversión en publicidad en TV es de $0, las ventas esperadas están entre 61297 y 79355 unidades con un 95% de confianza. 31 / 47 Bondad de ajuste 32 / 47 Preguntas importantes Intentaremos responder... 2 ¿Cuán fuerte es la asociación entre los medios y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 2 ¿Cuán fuerte es la asociación entre TV y las ventas? ¿Cuál es la diferencia con ... 3 ¿Cuán alta es la asociación entre TV y las ventas? 33 / 47 Preguntas importantes Intentaremos responder... 2 ¿Cuán fuerte es la asociación entre los medios y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 2 ¿Cuán fuerte es la asociación entre TV y las ventas? ¿Cuál es la diferencia con ... 3 ¿Cuán alta es la asociación entre TV y las ventas? 33 / 47 Preguntas importantes Intentaremos responder... 2 ¿Cuán fuerte es la asociación entre los medios y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 2 ¿Cuán fuerte es la asociación entre TV y las ventas? ¿Cuál es la diferencia con ... 3 ¿Cuán alta es la asociación entre TV y las ventas? 33 / 47 Preguntas importantes Intentaremos responder... 2 ¿Cuán fuerte es la asociación entre los medios y las ventas? Por ahora sólo tenemos TV ⇒ vamos a responder ... 2 ¿Cuán fuerte es la asociación entre TV y las ventas? ¿Cuál es la diferencia con ... 3 ¿Cuán alta es la asociación entre TV y las ventas? 33 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Preguntas importantes 3 ¿Cuán alta es la asociación entre TV y las ventas? = ¿Cuán grande es β1? 2 ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? Podemos tener... asociación alta y débil asociación baja y fuerte Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo a los datos (es decir, cuán cerca están los puntos de la recta) ↑ Medidas de bondad de ajuste 34 / 47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 / 47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 / 47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 / 47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 / 47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 /47 Bondad de ajuste: RSE ei = Yi − Ŷi ↑ distancia (con signo) del punto i a la recta m̂(x) RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) ⇒ RSE es una medida de bondad de ajuste. Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno 35 / 47 Bondad de ajuste: R2 R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 36 / 47 Bondad de ajuste: R2 R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 36 / 47 Bondad de ajuste: R2 R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 36 / 47 Bondad de ajuste: R2 R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 36 / 47 Bondad de ajuste: R2 R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 36 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 37 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal Se puede ver que R2 ⇒ β̂1 = 0 38 / 47 Moralejas R2 mide la fuerza de la relación lineal entre X e Y ¡Graficar los datos! 39 / 47 Moralejas R2 mide la fuerza de la relación lineal entre X e Y ¡Graficar los datos! 39 / 47 Ejemplos con R2 ∼= 0 link datasaurus 40 / 47 https://www.autodesk.com/research/publications/same-stats-different-graphs R2 en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients:11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 R2 = 0.6119 → Multiple R-squared 41 / 47 R2 en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 R2 = 0.6119 → Multiple R-squared 41 / 47 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 42 / 47 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 42 / 47 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 42 / 47 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 42 / 47 Formas de calcular el R2 R2 = TSS −RSS TSS TSS = ∑n i=1(Yi − Y )2 RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom ¿Qué podemos sacar del summary? 43 / 47 Formas de calcular el R2 R2 = TSS −RSS TSS TSS = ∑n i=1(Yi − Y )2 RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom ¿Qué podemos sacar del summary? 43 / 47 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 1983.25922 = 2102.974 44 / 47 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 1983.25922 = 2102.974 44 / 47 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 1983.25922 = 2102.974 44 / 47 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 1983.25922 = 2102.974 44 / 47 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 45 / 47 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 45 / 47 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 45 / 47 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 45 / 47 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 45 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: paraacceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. Yapa: para acceder a los residuos... ajusteTV$residuals 46 / 47 Ejercicios de la práctica que pueden hacer Práctica 5: hasta ej. 8 (menos 7.d y e si no llegamos a ver R2) 47 / 47
Compartir