Clase 21 - Inferencia Estadística

Estadística

•
SIN SIGLA

tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5563 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 47
Bibliograf́ıa para esta clase
ISLR (https://www.statlearning.com/), cap 3 (sec. 3.1.2 y
3.1.2)
Wasserman, cap. 13 (sec. 13.1 a 13.5) → para todo el tema
de regresión lineal (es más teórico y usa tets e IC asintóticos
para los coeficientes en vez de exactos, como veremos)
2 / 47
Repaso
3 / 47
Modelo Lineal Simple - Ejemplo
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
xi = inversión en TV en mercado i
Yi = ventas totales en mercado i
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
4 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta:
¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0?
⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta:
por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1)
⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
E(β̂1) = β1 ; E(β̂0) = β0
V(β̂1) =
σ2∑n
i=1(xi − xn)2
V(β̂0) = σ2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
Necesitamos estimar σ2
9 / 47
Esperanza y varianza de los EMC
E(β̂1) = β1 ; E(β̂0) = β0
V(β̂1) =
σ2∑n
i=1(xi − xn)2
V(β̂0) = σ2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
Necesitamos estimar σ2
9 / 47
Estimación de σ2
σ̂2 =
1
n− 2
n∑
i=1
e2i → estimador insesgado de σ2
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → Residual Standard Error
donde
ei = Yi − Ŷi
= Yi − (β̂0 + β̂1xi)
↑
i-ésimo residuo
10 / 47
Estimación del SE de los EMC
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
ŜE(β̂0) =
√
σ̂2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
con
σ̂2 = RSE2 =
1
n− 2
n∑
i=1
e2i
11 / 47
Clase de hoy
12 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ısticodel test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de
β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
→ ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Distribución de los EMC
A partir de ahora, asumiremos elmodelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼
N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor =
P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor =
P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociaciónentre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
Test e IC para β0
El test y el IC para β0 son idénticos a los de β1 reemplazando
β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0).
21 / 47
Test e IC para β0
El test y el IC para β0 son idénticos a los de β1 reemplazando
β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0).
21 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 =
t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 =
qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) =
1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97
→
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 =
0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i
√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
RSE en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
RSE = 3.259
23 / 47
RSE en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
RSE = 3.259
23 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
ŜE(β̂1) en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.00269117.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
ŜE(β̂1) = 0.002691
25 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor
∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Tobs y p− valor en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
Tobs = 17.67 y p− valor < 2 10−16
27 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero
(β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Test para β0
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
¿Cuál es el estad́ıstico y el p-valor?
¿Qué estamos testeando?
29 / 47
Test para β0
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
¿Cuál es el estad́ıstico y el p-valor? ¿Qué estamos testeando?
29 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.042230720.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
Bondad de ajuste
32 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja:
depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 /47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1
y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS
⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS
⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0 38 / 47
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
39 / 47
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
39 / 47
Ejemplos con R2 ∼= 0
link datasaurus
40 / 47
https://www.autodesk.com/research/publications/same-stats-different-graphs
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
41 / 47
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
41 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste?
Depende del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende
del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
42 / 47
Formas de calcular el R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
43 / 47
Formas de calcular el R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
43 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS =
(n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 =
1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo?
3314.175.
Yapa: paraacceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Ejercicios de la práctica que pueden hacer
Práctica 5: hasta ej. 8 (menos 7.d y e si no llegamos a ver R2)
47 / 47