Logo Studenta

Clase 21 - Inferencia Estadística

¡Este material tiene más páginas!

Vista previa del material en texto

Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 47
Bibliograf́ıa para esta clase
ISLR (https://www.statlearning.com/), cap 3 (sec. 3.1.2 y
3.1.2)
Wasserman, cap. 13 (sec. 13.1 a 13.5) → para todo el tema
de regresión lineal (es más teórico y usa tets e IC asintóticos
para los coeficientes en vez de exactos, como veremos)
2 / 47
Repaso
3 / 47
Modelo Lineal Simple - Ejemplo
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
xi = inversión en TV en mercado i
Yi = ventas totales en mercado i
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
4 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
Preguntas importantes
Queŕıamos responder...
3 ¿Qué medios están asociados con las ventas?
4 ¿Cuán alta es la asociación entre cada medio y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
3 ¿TV está asociado con las ventas?
4 ¿Cuán alta es la asociación entre TV y las ventas?
5 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta:
¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0?
⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
3. ¿TV está asociado con las ventas?
Pregunta: ¿β1 ̸= 0? ⇒ necesitamos un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
β̂1 = 0.048
Estructura del estad́ıstico:
T =
β̂1
SE(β̂1)
ó
β̂1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
6 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta:
por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
4. ¿Cuán alta es la asociación entre TV y las ventas?
Pregunta: por cada dolar gastado, ¿cuánto espero (o predigo) que
aumenten las ventas?
⇒ necesitamos estimar a β1 mediante β̂1 y un IC.
Estructura del Pivote:
P =
β̂1 − β1
SE(β̂1)
ó
β̂1 − β1
ŜE(β̂1)
⇒ necesitamos SE(β̂1)
.
7 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1)
⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
Para construir el test y el IC para β1 también necesitamos calcular
E(β̂1) ⇒ calcularemos E(β̂1) y V(β̂1).
También veremos las fórmulas de E(β̂0) y V(β̂0)
8 / 47
Esperanza y varianza de los EMC
E(β̂1) = β1 ; E(β̂0) = β0
V(β̂1) =
σ2∑n
i=1(xi − xn)2
V(β̂0) = σ2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
Necesitamos estimar σ2
9 / 47
Esperanza y varianza de los EMC
E(β̂1) = β1 ; E(β̂0) = β0
V(β̂1) =
σ2∑n
i=1(xi − xn)2
V(β̂0) = σ2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
Necesitamos estimar σ2
9 / 47
Estimación de σ2
σ̂2 =
1
n− 2
n∑
i=1
e2i → estimador insesgado de σ2
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → Residual Standard Error
donde
ei = Yi − Ŷi
= Yi − (β̂0 + β̂1xi)
↑
i-ésimo residuo
10 / 47
Estimación del SE de los EMC
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
ŜE(β̂0) =
√
σ̂2
(
1
n
+
x2n∑n
i=1(xi − xn)2
)
con
σ̂2 = RSE2 =
1
n− 2
n∑
i=1
e2i
11 / 47
Clase de hoy
12 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ısticodel test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de
β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
Test e IC para los coeficientes
Ya podemos calcular...
P =
β̂1 − β1
ŜE(β̂1)
→ Pivote del IC
T =
β̂1
ŜE(β̂1)
→ Estad́ıstico del test
Pero para poder calcular el IC y el test exactos para β1,
necesitamos conocer...
la distribución de P
la distribución de T bajo H0
Para eso necesitamos conocer la distribución de β̂1.
(Idem para β̂0).
13 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
EMC
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
¿De qué depende la distribución de los EMC?
¿Nos dice algo el modelo sobre la distribución de las Y ′i s?
14 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn indep. ⇔ Y1, . . . , Yn indep.
E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
¿Qué nos dice el modelo sobre la distribución de las Y ′i s?
15 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
→ ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Modelo Lineal con supuesto de normalidad
Yi = β0 + β1xi + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i → ¿es razonable este supuesto?
Los supuestos 1 a 4 son equivalentes a
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
¿Cómo se traducen estos supuestos en términos de las Y ′i s?
Y1, . . . , Yn indep. con Yi ∼ N (β0 + β1xi, σ2)
16 / 47
Distribución de los EMC
A partir de ahora, asumiremos elmodelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼
N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Distribución de los EMC
A partir de ahora, asumiremos el modelo con el supuesto de
normalidad.
Distribución de β̂1
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
β̂1 ∼ N
(
β1,
σ2∑n
i=1(xi − xn)2
)
Distribución de β̂0
β̂0 = Y n − β̂1xn
β̂0 ∼ N
(
β0, σ
2
[
1
n
+
x2n∑n
i=1(xi − xn)2
])
17 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor =
P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test para β1
Para responder si TV está asociado con las ventas, necesitamos un
test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
∼ tn−2 bajo H0
RR de nivel exacto α:
R = {|T | > tn−2,α/2}
p-valor = P(|Tn−2| ≥ |Tobs|) = 2P(Tn−2 ≥ |Tobs|)
con Tn−2 ∼ tn−2
18 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor =
P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
Test asintótico para β1 (no lo veremos)
Si asumimos el modelo lineal sin el supuesto de normalidad
podemos hacer el siguiente test asintótico.
Estad́ıstico:
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
≈ N (0, 1) bajo H0
(no lo veremos, sale por otra versión del TCL, es el que hace
Wasserman)
RR de nivel asintótico α:
R = {|T | > zα/2}
p-valor = P(|Z| ≥ |Tobs|) = 2P(Z ≥ |Tobs|)
19 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociaciónentre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
IC para β1
Para responder cuán alta es la asociación entre TV y ventas,
necesitamos β̂1 y un IC para β1.
Pivote:
P =
β̂1 − β1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1 − β1
ŜE(β̂1)
∼ tn−2
IC de nivel exacto:
IC = (β̂1 ± tn−2,α/2ŜE(β̂1))
IC de nivel asintótico (no lo veremos):
IC = (β̂1 ± zα/2ŜE(β̂1))
20 / 47
Test e IC para β0
El test y el IC para β0 son idénticos a los de β1 reemplazando
β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0).
21 / 47
Test e IC para β0
El test y el IC para β0 son idénticos a los de β1 reemplazando
β̂1 y ŜE(β̂1) por β̂0 y ŜE(β̂0).
21 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 =
t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 =
qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) =
1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97
→
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 =
0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i
√∑n
i=1(xi − xn)2
22 / 47
Test de nivel 5% para β1 en el ejemplo
R = {|T | > tn−2,α/2}
T =
β̂1√
σ̂2∑n
i=1(xi−xn)2
=
β̂1
ŜE(β̂1)
Necesitamos...
tn−2,α/2 = t198,0.025 = qt(1-0.025, df = 198) = 1.97 →
ISLR usa 2
β̂1 = 0.0475
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi−xn)2
= σ̂√∑n
i=1(xi−xn)2
⇒ necesitamos
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i√∑n
i=1(xi − xn)2
22 / 47
RSE en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
RSE = 3.259
23 / 47
RSE en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
RSE = 3.259
23 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
Cálculo de
√∑n
i=1(xi − xn)2
√√√√ n∑
i=1
(xi − xn)2 =
√
(n− 1)
√√√√ 1
n− 1
n∑
i=1
(xi − xn)2
=
√
199 sd(datos$TV)
= 1211, 123
ŜE(β̂1) =
σ̂√∑n
i=1(xi − xn)2
=
3.259
1211, 123
= 0, 002691
24 / 47
ŜE(β̂1) en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.00269117.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
ŜE(β̂1) = 0.002691
25 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor
∼= 0
26 / 47
Decisión del test
Tobs =
β̂1,obs
ŜE(β̂1)obs
=
0.0475
0.002691
= 17.66518
R = {|T | > 1.97}
⇒ Rechazamos H0
p-valor ∼= 0
26 / 47
Tobs y p− valor en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
Tobs = 17.67 y p− valor < 2 10−16
27 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero
(β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Conclusión del test para β1
Hay evidencia muy fuerte de que la pendiente de la recta de
regresión es distinta de cero (β1 ̸= 0).
Es decir, hay evidencia muy fuerte de que TV está asociado con las
ventas.
Obs: se suele decir que β̂1 es significativamente distinto de cero,
eso en realidad quiere decir que...
hay evidencia significativa de que β1 ̸= 0.
28 / 47
Test para β0
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
¿Cuál es el estad́ıstico y el p-valor?
¿Qué estamos testeando?
29 / 47
Test para β0
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
¿Cuál es el estad́ıstico y el p-valor? ¿Qué estamos testeando?
29 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β1 en el ejemplo
ICβ1(95%) = (β̂1 ± tn−2,α/2ŜE(β̂1))
= (0.0475± 1.97 0.0027)
= (0.042, 0.053)
En R:
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
Interpretación: por cada $1000 que aumenta la inversión en
publicidad en TV, las ventas esperadas aumentan entre 42 y 53
unidades con un 95% de confianza.
30 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.042230720.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
IC para β0 en el ejemplo
1 confint(ajusteTV)
2 #
3 # 2.5 % 97.5 %
4 # (Intercept) 6.12971927 7.93546783
5 # TV 0.04223072 0.05284256
ICβ0(95%) = (6.1297 , 7.9355)
Interpretación: cuando la inversión en publicidad en TV es de $0,
las ventas esperadas están entre 61297 y 79355 unidades con un
95% de confianza.
31 / 47
Bondad de ajuste
32 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
Intentaremos responder...
2 ¿Cuán fuerte es la asociación entre los medios y las ventas?
Por ahora sólo tenemos TV ⇒ vamos a responder ...
2 ¿Cuán fuerte es la asociación entre TV y las ventas?
¿Cuál es la diferencia con ...
3 ¿Cuán alta es la asociación entre TV y las ventas?
33 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Preguntas importantes
3 ¿Cuán alta es la asociación entre TV y las ventas? =
¿Cuán grande es β1?
2 ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
Podemos tener...
asociación alta y débil
asociación baja y fuerte
Necesitamos medidas que cuantifiquen cuán bien ajusta el modelo
a los datos (es decir, cuán cerca están los puntos de la recta)
↑
Medidas de bondad de ajuste
34 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja:
depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 /47
Bondad de ajuste: RSE
ei = Yi − Ŷi
↑
distancia (con signo) del punto i a la recta m̂(x)
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
⇒ RSE es una medida de bondad de ajuste.
Desventaja: depende de las unidades ⇒ conocer su magnitud no
me permite saber si el ajuste el bueno
35 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
36 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1
y además no depende de las unidades.
37 / 47
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
37 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS
⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS
⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0
38 / 47
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
Se puede ver que R2 ⇒ β̂1 = 0 38 / 47
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
39 / 47
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
39 / 47
Ejemplos con R2 ∼= 0
link datasaurus
40 / 47
https://www.autodesk.com/research/publications/same-stats-different-graphs
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
41 / 47
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
41 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste?
Depende del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende
del área.
42 / 47
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
42 / 47
Formas de calcular el R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
43 / 47
Formas de calcular el R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
43 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS =
(n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 =
1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 1983.25922 = 2102.974
44 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
45 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo?
3314.175.
Yapa: paraacceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
Yapa: para acceder a los residuos...
ajusteTV$residuals
46 / 47
Ejercicios de la práctica que pueden hacer
Práctica 5: hasta ej. 8 (menos 7.d y e si no llegamos a ver R2)
47 / 47

Continuar navegando