Clase 22 - Inferencia Estadística

Estadística

•
SIN SIGLA

tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5563 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 43
Bibliograf́ıa para esta clase
ISLR (https://www.statlearning.com/), cap 3 (3.1.3 y 3.2.1)
2 / 43
Repaso
3 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con
un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con
un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1
con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Respondimos...
3 ¿TV está asociado con las ventas?
con un test para
H0 : β1 = 0 vs. H1 : β1 ̸= 0
con Estad́ıstico
T =
β̂1
ŜE(β̂1)
4 ¿Cuán alta es la asociación entre TV y las ventas?
con un IC para β1 con Pivote
P =
β̂1 − β1
ŜE(β̂1)
4 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i
→ podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R
→ usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2
→ ¿cómo lo calculamos con R?
5 / 43
Preguntas importantes
Para hacer el test y el IC necesitamos calcular...
ŜE(β̂1) =
√
σ̂2∑n
i=1(xi − xn)2
⇒ necesitamos calcular ...
σ̂ = RSE =
√
1
n−2
∑n
i=1 e
2
i → podemos calcularlo...
con el summary
con R → usando ajuste$residuals donde ajuste es el
objeto donde guardamos la salida del lm
∑n
i=1(xi − xn)2 → ¿cómo lo calculamos con R?
5 / 43
Bondad de ajuste
6 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas?
=
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas?
=
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos?
=
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca estánlos puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Preguntas importantes
Queremos responder...
2. ¿Cuán fuerte es la asociación entre TV y las ventas? =
¿Cuán buena es TV para predecir las ventas? =
¿Cuán bien ajusta el modelo a los datos? =
¿Cuán cerca están los puntos de la recta?
↑
Necesitamos medidas de bondad de ajuste
7 / 43
Bondad de ajuste: RSE
Primera medida de bondad de ajuste:
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
donde ei = Yi − Ŷi
Desventaja: depende de las unidades
⇒ conocer su magnitud no me permite saber si el ajuste el bueno.
8 / 43
Bondad de ajuste: RSE
Primera medida de bondad de ajuste:
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
donde ei = Yi − Ŷi
Desventaja: depende de las unidades
⇒ conocer su magnitud no me permite saber si el ajuste el bueno.
8 / 43
Bondad de ajuste: RSE
Primera medida de bondad de ajuste:
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
donde ei = Yi − Ŷi
Desventaja:
depende de las unidades
⇒ conocer su magnitud no me permite saber si el ajuste el bueno.
8 / 43
Bondad de ajuste: RSE
Primera medida de bondad de ajuste:
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
donde ei = Yi − Ŷi
Desventaja: depende de las unidades
⇒ conocer su magnitud no me permite saber si el ajuste el bueno.
8 / 43
Bondad de ajuste: RSE
Primera medida de bondad de ajuste:
RSE =
√√√√ 1
n− 2
n∑
i=1
e2i → estimador de σ
↑
mide la distancia del cjto. de puntos a la recta m̂(x)
donde ei = Yi − Ŷi
Desventaja: depende de las unidades
⇒ conocer su magnitud no me permite saber si el ajuste el bueno.
8 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
Segunda medida de bondad de ajuste:
R2 =
TSS −RSS
TSS
→ coeficiente de determinación R2
donde...
TSS =
n∑
i=1
(Yi − Y )2 → Total Sum of Squares
↑
(medida de la variabilidad total de Y )
RSS =
n∑
i=1
e2i =
n∑
i=1
(Yi − Ŷi)2 → Residual Sum of Squares
↑
(medida de la variabilidad residual del modelo
o variabilidad de Y NO explicada por el modelo)
9 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1
y además no depende de las unidades.
10 / 43
Bondad de ajuste: R2
TSS = variabilidad total de Y
RSS = variabilidad de Y NO explicada por el modelo
⇒
TSS −RSS = variabilidad de Y explicada por el modelo
⇒
R2 =
TSS −RSS
TSS
=
variabilidad de Y explicada por el modelo
variabilidad total de Y
↑
proporción de la variabilidad de Y explicada por el modelo.
⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades.
10 / 43
Clase de hoy
11 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS
⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS
⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relaciónentre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Interpretación del R2 = TSS−RSSTSS
A mayor R2, menor RSS ⇒ mejor es el ajuste
Caso
extremo:
R2 = 1
A menor R2, mayor RSS ⇒ peor es el ajuste
relación entre X e Y débil
relación entre X e Y perfecta
pero no lineal
12 / 43
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
13 / 43
Moralejas
R2 mide la fuerza de la relación lineal entre X e Y
¡Graficar los datos!
13 / 43
Ejemplos con R2 ∼= 0
link datasaurus
14 / 43
https://www.autodesk.com/research/publications/same-stats-different-graphs
Calculemos el R2 en el ejemplo
15 / 43
Cálculo del R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
16 / 43
Cálculo del R2
R2 =
TSS −RSS
TSS
TSS =
∑n
i=1(Yi − Y )2
RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
¿Qué podemos sacar del summary?
16 / 43
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS =
(n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974
o con R: RSS = sum((ajusteTV$residuals)^2)
17 / 43
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 =
198 ∗ 3.25922 = 2102.974
o con R: RSS = sum((ajusteTV$residuals)^2)
17 / 43
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974
o con R: RSS = sum((ajusteTV$residuals)^2)
17 / 43
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974
o con R: RSS =
sum((ajusteTV$residuals)^2)
17 / 43
Cálculo de RSS =
∑n
i=1 e
2
i
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974
o con R: RSS = sum((ajusteTV$residuals)^2)
17 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de TSS =
∑n
i=1(Yi − Y )2
Con R:
sum((datos$sales - mean(datos$sales))^2)= 5417.149
sd(datos$sales) = 5.2175
var(datos$sales) = 27.22185
sum((datos$sales)^2) = 44743.25
mean(datos$sales) = 14.0225
↑
tarea
18 / 43
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
19 / 43
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
19 / 43
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
19 / 43
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
19 / 43
Cálculode R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo?
3314.175.
19 / 43
Cálculo de R2
R2 =
TSS −RSS
TSS
=
5417.149− 2102.974
5417.149
=
3314.175
5417.149
= 0.6118
¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175.
19 / 43
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
20 / 43
R2 en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
R2 = 0.6119 → Multiple R-squared
20 / 43
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
21 / 43
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste?
Depende del área.
21 / 43
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende
del área.
21 / 43
Interpretación del R2
R2 = 0.6119, es decir que el 61.19% de la variabilidad de las
ventas está explicada por la regresión lineal en TV.
¿Qué valores de R2 indican un buen ajuste? Depende del área.
21 / 43
Más bondad de ajuste
R2 mide la fuerza de la relación lineal entre X e Y .
¿Qué cantidad vieron en Intro que mide esa relación lineal?
22 / 43
Más bondad de ajuste
R2 mide la fuerza de la relación lineal entre X e Y .
¿Qué cantidad vieron en Intro que mide esa relación lineal?
22 / 43
cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))}
→ depende de las unidades
corr(X,Y ) =
cov(X,Y )√
V(X)
√
V(Y )
23 / 43
cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))} → depende de las unidades
corr(X,Y ) =
cov(X,Y )√
V(X)
√
V(Y )
23 / 43
cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))} → depende de las unidades
corr(X,Y ) =
cov(X,Y )√
V(X)
√
V(Y )
23 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤ 1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y ,
pero... ¿la conocemos?
24 / 43
Propiedades de la correlación (poblacional)
−1 ≤ corr(X,Y ) ≤1
corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y
corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y
corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y
(Y = β0 + β1X con β1 > 0)
corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y
(Y = β0 + β1X con β1 < 0)
corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y
Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre
X e Y , pero... ¿la conocemos?
24 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Bondad de ajuste: correlación muestral
Tercera medida de bondad de ajuste:
ĉorr(X,Y ) =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
= r
¿Depende de las unidades?
25 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Propiedades de la correlación muestral r
−1 ≤ r ≤ 1
r > 0 ⇔ relación lineal creciente entre X e Y
r < 0 ⇔ relación lineal decreciente entre X e Y
r = 1 ⇔ relación lin. crec. perfecta entre X e Y
r = −1 ⇔ relación lin. decr. perfecta entre X e Y
r = 0 ⇔ ninguna relación lineal entre X e Y
26 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0,
peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1,
mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0,
peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1,
mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2
→ el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y R2
Notemos que...
−1 ≤ r ≤ 1
Cuanto más cerca está r de 0, peor es el ajuste.
Cuanto más cerca está r de 1 ó −1, mejor es el ajuste.
Recordemos que...
0 ≤ R2 ≤ 1
Cuanto más cerca está R2 de 0, peor es el ajuste.
Cuanto más cerca está R2 de 1, mejor es el ajuste.
Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide
probarlo en el caso x = y = 0
27 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias) y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario: β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias)
y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario: β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias) y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario: β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias) y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario: β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias) y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario:
β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Recordemos que...
β̂1 =
∑n
i=1(Xi −Xn)(Yi − Y n)∑n
i=1(Xi −Xn)2
(si pensamos a las Xi como aleatorias) y
r =
∑n
i=1(Xi −X)(Yi − Y )√∑n
i=1(Xi −X)2
∑n
i=1(Yi − Y )2
Propiedad
β̂1 =
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r
Corolario: β̂1 y r tienen el mismo signo.
28 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX
=
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y
=
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r =
SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Relación entre r y β1
Proof.
Definamos...
SXY =
∑n
i=1(Xi −X)(Yi − Y )
SXX =
∑n
i=1(Xi −X)2
SY Y =
∑n
i=1(Yi − Y )2
⇒ r = SXY√
SXXSXY
y β̂1 =
SXY
SXX
⇒
√ ∑n
i=1(Yi − Y )2∑n
i=1(Xi −X)2
r =
√
SY Y
SXX
SXY√
SXXSY Y
=
SXY
SXX
= β̂1
29 / 43
Cálculo de r en el ejemplo
Podemos calcularlo...
a mano con R → ¿cómo?
con el summary
30 / 43
Cálculo de r en el ejemplo
Podemos calcularlo...
a mano con R
→ ¿cómo?
con el summary
30 / 43
Cálculo de r en el ejemplo
Podemos calcularlo...
a mano con R → ¿cómo?
con el summary
30 / 43
Cálculo de r en el ejemplo
Podemos calcularlo...
a mano con R → ¿cómo?
con el summary
30 / 43
r en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
r2 = R2 = 0.6119 ⇒ |r| =
√
0.6119 = 0.7822 ⇒ r = ±0.7822
31 / 43
r en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18# Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
r2 = R2 = 0.6119
⇒ |r| =
√
0.6119 = 0.7822 ⇒ r = ±0.7822
31 / 43
r en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
r2 = R2 = 0.6119 ⇒ |r| =
√
0.6119 = 0.7822
⇒ r = ±0.7822
31 / 43
r en summary
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Call:
4 # lm(formula = sales ~ TV, data = datos)
5 #
6 # Residuals:
7 # Min 1Q Median 3Q Max
8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124
9 #
10 # Coefficients:
11 # Estimate Std. Error t value Pr(>t)
12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
13 # TV 0.047537 0.002691 17.67 <2e-16 ***
14 # ---
15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
16 #
17 # Residual standard error: 3.259 on 198 degrees of freedom
18 # Multiple R-squared: 0.6119 , Adjusted R-squared:
0.6099
19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
r2 = R2 = 0.6119 ⇒ |r| =
√
0.6119 = 0.7822 ⇒ r = ±0.7822
31 / 43
Regresión Lineal Múltiple
32 / 43
Objetivo inicial: estudiar la relación entre los medios (TV, radio y
newspaper) y las ventas (sales)
¿Qué podemos hacer con lo que sabemos hasta ahora?
Ajustar 3 regresiones lineales simples
33 / 43
Objetivo inicial: estudiar la relación entre los medios (TV, radio y
newspaper) y las ventas (sales)
¿Qué podemos hacer con lo que sabemos hasta ahora?
Ajustar 3 regresiones lineales simples
33 / 43
Objetivo inicial: estudiar la relación entre los medios (TV, radio y
newspaper) y las ventas (sales)
¿Qué podemos hacer con lo que sabemos hasta ahora?
Ajustar 3 regresiones lineales simples
33 / 43
1 ajusteTV <- lm(sales ~ TV, data = datos)
2 summary(ajusteTV)
3 # Coefficients:
4 # Estimate Std. Error t value Pr(>t)
5 # (Intercept) 7.032594 0.457843 15.36 <2e-16 ***
6 # TV 0.047537 0.002691 17.67 <2e-16 ***
1 ajusteRadio <- lm(sales ~ radio , data = datos)
2 summary(ajusteRadio)
3
4 # Coefficients:
5 # Estimate Std. Error t value Pr(>t)
6 # (Intercept) 9.31164 0.56290 16.542 <2e-16 ***
7 # radio 0.20250 0.02041 9.921 <2e-16 ***
1 ajusteNews <- lm(sales ~ newspaper , data = datos)
2 summary(ajusteNews)
3 # Coefficients:
4 # Estimate Std. Error t value Pr(>t)
5 # (Intercept) 12.35141 0.62142 19.88 < 2e-16 ***
6 # newspaper 0.05469 0.01658 3.30 0.00115 **
34 / 43
Desventajas del enfoque anterior
¿Cómo predecimos las ventas de un mercado conociendo sus
valores de inversión en los 3 medios?
Cada regresión simple ignora a los otros medios al estimar a
los coeficientes.
Es importante tener en cuenta la relación de los otros medios
tanto con sales como con la variable predictora (covariable).
La clase que viene veremos que cuando las covariables están
correlacionadas, los coeficientes de cada regresión lineal
simple pueden ser engañosos.
35 / 43
Desventajas del enfoque anterior
¿Cómo predecimos las ventas de un mercado conociendo sus
valores de inversión en los 3 medios?
Cada regresión simple ignora a los otros medios al estimar a
los coeficientes.
Es importante tener en cuenta la relación de los otros medios
tanto con sales como con la variable predictora (covariable).
La clase que viene veremos que cuando las covariables están
correlacionadas, los coeficientes de cada regresión lineal
simple pueden ser engañosos.
35 / 43
Desventajas del enfoque anterior
¿Cómo predecimos las ventas de un mercado conociendo sus
valores de inversión en los 3 medios?
Cada regresión simple ignora a los otros medios al estimar a
los coeficientes.
Es importante tener en cuenta la relación de los otros medios
tanto con sales como con la variable predictora (covariable).
La clase que viene veremos que cuando las covariables están
correlacionadas, los coeficientes de cada regresión lineal
simple pueden ser engañosos.
35 / 43
Desventajas del enfoque anterior
¿Cómo predecimos las ventas de un mercado conociendo sus
valores de inversión en los 3 medios?
Cada regresión simple ignora a los otros medios al estimar a
los coeficientes.
Es importante tener en cuenta la relación de los otros medios
tanto con sales como con la variable predictora (covariable).
La clase que viene veremos que cuando las covariables están
correlacionadas, los coeficientes de cada regresión lineal
simple pueden ser engañosos.
35 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y :
sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 :
TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 :
radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 :
newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Regresión Lineal Múltiple en el ejemplo
Y = β0 + β1X1 + β2X2 + β3X3 + ϵ
donde
Y : sales
X1 : TV
X2 : radio
X3 : newspaper
ϵ : término del error
36 / 43
Modelo de Regresión Lineal Múltiple
Y = β0 + β1X1 + · · ·+ βpXp + ϵ
donde
Y : variable de respuesta
X1, . . . , Xp : covariables / variables explicativas o predictoras
ϵ : término del error
37 / 43
Modelo de Regresión Lineal Múltiple
Y = β0 + β1X1 + · · ·+ βpXp + ϵ
donde
Y : variable de respuesta
X1, . . . , Xp : covariables / variables explicativas o predictoras
ϵ : término del error
37 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversiónen diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado
38 / 43
Modelo de Regresión Lineal Múltiple con supuestos
Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
2 E(ϵi) = 0 ∀i
3 V(ϵi) = σ2 ∀i
4 ϵi es normal ∀i
O equivalentemente
ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d.
En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200
donde
Yi = ventas de i-ésimo mercado
xi1 = inversión en TV en i-ésimo mercado
xi2 = inversión en radio en i-ésimo mercado
xi3 = inversión en diario en i-ésimo mercado 38 / 43
Interpretación de los coeficientes en el ejemplo
1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data =
datos)
2 summary(ajuste_mult)
3 # Coefficients:
4 # Estimate Std. Error t value Pr(>t)
5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 ***
6 # TV 0.045765 0.001395 32.809 <2e-16 ***
7 # radio 0.188530 0.008611 21.893 <2e-16 ***
8 # newspaper -0.001037 0.005871 -0.177 0.86
9 # ---
10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
11 #
12 # Residual standard error: 1.686 on 196 degrees of freedom
13 # Multiple R-squared: 0.8972 , Adjusted R-squared:
0.8956
14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
β̂1 = 0.0458 → cuando incrementamos la inversión en TV en
$1000 y mantenemos fijas las inversiones en radio y diario, las
ventas esperadas aumentan aproximadamente 458 unidades.
39 / 43
Interpretación de los coeficientes en el ejemplo
1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data =
datos)
2 summary(ajuste_mult)
3 # Coefficients:
4 # Estimate Std. Error t value Pr(>t)
5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 ***
6 # TV 0.045765 0.001395 32.809 <2e-16 ***
7 # radio 0.188530 0.008611 21.893 <2e-16 ***
8 # newspaper -0.001037 0.005871 -0.177 0.86
9 # ---
10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
11 #
12 # Residual standard error: 1.686 on 196 degrees of freedom
13 # Multiple R-squared: 0.8972 , Adjusted R-squared:
0.8956
14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
β̂1 = 0.0458
→ cuando incrementamos la inversión en TV en
$1000 y mantenemos fijas las inversiones en radio y diario, las
ventas esperadas aumentan aproximadamente 458 unidades.
39 / 43
Interpretación de los coeficientes en el ejemplo
1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data =
datos)
2 summary(ajuste_mult)
3 # Coefficients:
4 # Estimate Std. Error t value Pr(>t)
5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 ***
6 # TV 0.045765 0.001395 32.809 <2e-16 ***
7 # radio 0.188530 0.008611 21.893 <2e-16 ***
8 # newspaper -0.001037 0.005871 -0.177 0.86
9 # ---
10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’
0.1 ’ ’ 1
11 #
12 # Residual standard error: 1.686 on 196 degrees of freedom
13 # Multiple R-squared: 0.8972 , Adjusted R-squared:
0.8956
14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
β̂1 = 0.0458 → cuando incrementamos la inversión en TV en
$1000 y mantenemos fijas las inversiones en radio y diario, las
ventas esperadas aumentan aproximadamente 458 unidades.
39 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversiónen TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi
⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Interpretación de los coeficientes en el ejemplo
Cambio de notación:
xi1 = ti inversión en TV en i-ésimo mercado
xi2 = ri inversión en radio en i-ésimo mercado
xi3 = di inversión en diario en i-ésimo mercado
Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒
E(Yi) = β0 + β1ti + β2ri + β3di
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d
E(Y )(t,r,d) = β0 + β1t+ β2r + β3d
⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1
⇒ β1 representa el aumento en la media de las ventas cuando la inversión en
TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas.
(idem con β2 y β3)
40 / 43
Estimación de los coeficientes (caso p = 2)
Y = β0 + β1X1 + β2X2 + ϵ
Idea: hallar el plano que
más se acerque a los
puntos.
Calculamos (β̂0, β̂1, β̂2) que minimice
L(b0, b1, b2) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2)]2
↑
mide la distancia de los puntos al plano.
41 / 43
Estimación de los coeficientes (caso p = 2)
Y = β0 + β1X1 + β2X2 + ϵ
Idea: hallar el plano que
más se acerque a los
puntos.
Calculamos (β̂0, β̂1, β̂2) que minimice
L(b0, b1, b2) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2)]2
↑
mide la distancia de los puntos al plano.
41 / 43
Estimación de los coeficientes (caso p = 2)
Y = β0 + β1X1 + β2X2 + ϵ
Idea: hallar el plano que
más se acerque a los
puntos.
Calculamos (β̂0, β̂1, β̂2) que minimice
L(b0, b1, b2) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2)]2
↑
mide la distancia de los puntos al plano.
41 / 43
Estimación de los coeficientes (caso p = 2)
Y = β0 + β1X1 + β2X2 + ϵ
Idea: hallar el plano que
más se acerque a los
puntos.
Calculamos (β̂0, β̂1, β̂2) que minimice
L(b0, b1, b2) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2)]2
↑
mide la distancia de los puntos al plano.
41 / 43
Estimación de los coeficientes (caso p = 2)
Y = β0 + β1X1 + β2X2 + ϵ
Idea: hallar el plano que
más se acerque a los
puntos.
Calculamos (β̂0, β̂1, β̂2) que minimice
L(b0, b1, b2) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2)]2
↑
mide la distancia de los puntos al plano.
41 / 43
Estimación de los coeficientes por ḿınimos cuadrados
En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice
L(b0, b1, . . . , bp) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2
Se puede ver que también el ḿınimo se encuentra derivando e
igualando a cero. Es decir, resolviendo un sistema de (p+ 1)
ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo
veremos)
42 / 43
Estimación de los coeficientes por ḿınimos cuadrados
En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice
L(b0, b1, . . . , bp) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2
Se puede ver que también el ḿınimo se encuentra derivando e
igualando a cero.
Es decir, resolviendo un sistema de (p+ 1)
ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo
veremos)
42 / 43
Estimación de los coeficientes por ḿınimos cuadrados
En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice
L(b0, b1, . . . , bp) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2
Se puede ver que también el ḿınimo se encuentra derivando e
igualando a cero. Es decir,resolviendo un sistema de (p+ 1)
ecuaciones por (p+ 1) incógnitas
→ álgebra de matrices (no lo
veremos)
42 / 43
Estimación de los coeficientes por ḿınimos cuadrados
En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice
L(b0, b1, . . . , bp) =
n∑
i=1
[Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2
Se puede ver que también el ḿınimo se encuentra derivando e
igualando a cero. Es decir, resolviendo un sistema de (p+ 1)
ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo
veremos)
42 / 43
Ejercicios de la práctica que pueden hacer
Práctica 5 - parte 1: toda
43 / 43
Clase 22 - Inferencia Estadística

Estadística

SIN SIGLA

Estadística

Continuar navegando

Otros materiales