Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Inferencia Estad́ıstica Lućıa Babino Universidad Torcuato Di Tella 1 / 43 Bibliograf́ıa para esta clase ISLR (https://www.statlearning.com/), cap 3 (3.1.3 y 3.2.1) 2 / 43 Repaso 3 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Respondimos... 3 ¿TV está asociado con las ventas? con un test para H0 : β1 = 0 vs. H1 : β1 ̸= 0 con Estad́ıstico T = β̂1 ŜE(β̂1) 4 ¿Cuán alta es la asociación entre TV y las ventas? con un IC para β1 con Pivote P = β̂1 − β1 ŜE(β̂1) 4 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Preguntas importantes Para hacer el test y el IC necesitamos calcular... ŜE(β̂1) = √ σ̂2∑n i=1(xi − xn)2 ⇒ necesitamos calcular ... σ̂ = RSE = √ 1 n−2 ∑n i=1 e 2 i → podemos calcularlo... con el summary con R → usando ajuste$residuals donde ajuste es el objeto donde guardamos la salida del lm ∑n i=1(xi − xn)2 → ¿cómo lo calculamos con R? 5 / 43 Bondad de ajuste 6 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca estánlos puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Preguntas importantes Queremos responder... 2. ¿Cuán fuerte es la asociación entre TV y las ventas? = ¿Cuán buena es TV para predecir las ventas? = ¿Cuán bien ajusta el modelo a los datos? = ¿Cuán cerca están los puntos de la recta? ↑ Necesitamos medidas de bondad de ajuste 7 / 43 Bondad de ajuste: RSE Primera medida de bondad de ajuste: RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) donde ei = Yi − Ŷi Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno. 8 / 43 Bondad de ajuste: RSE Primera medida de bondad de ajuste: RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) donde ei = Yi − Ŷi Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno. 8 / 43 Bondad de ajuste: RSE Primera medida de bondad de ajuste: RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) donde ei = Yi − Ŷi Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno. 8 / 43 Bondad de ajuste: RSE Primera medida de bondad de ajuste: RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) donde ei = Yi − Ŷi Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno. 8 / 43 Bondad de ajuste: RSE Primera medida de bondad de ajuste: RSE = √√√√ 1 n− 2 n∑ i=1 e2i → estimador de σ ↑ mide la distancia del cjto. de puntos a la recta m̂(x) donde ei = Yi − Ŷi Desventaja: depende de las unidades ⇒ conocer su magnitud no me permite saber si el ajuste el bueno. 8 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 Segunda medida de bondad de ajuste: R2 = TSS −RSS TSS → coeficiente de determinación R2 donde... TSS = n∑ i=1 (Yi − Y )2 → Total Sum of Squares ↑ (medida de la variabilidad total de Y ) RSS = n∑ i=1 e2i = n∑ i=1 (Yi − Ŷi)2 → Residual Sum of Squares ↑ (medida de la variabilidad residual del modelo o variabilidad de Y NO explicada por el modelo) 9 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Bondad de ajuste: R2 TSS = variabilidad total de Y RSS = variabilidad de Y NO explicada por el modelo ⇒ TSS −RSS = variabilidad de Y explicada por el modelo ⇒ R2 = TSS −RSS TSS = variabilidad de Y explicada por el modelo variabilidad total de Y ↑ proporción de la variabilidad de Y explicada por el modelo. ⇒ 0 ≤ R2 ≤ 1 y además no depende de las unidades. 10 / 43 Clase de hoy 11 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relaciónentre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Interpretación del R2 = TSS−RSSTSS A mayor R2, menor RSS ⇒ mejor es el ajuste Caso extremo: R2 = 1 A menor R2, mayor RSS ⇒ peor es el ajuste relación entre X e Y débil relación entre X e Y perfecta pero no lineal 12 / 43 Moralejas R2 mide la fuerza de la relación lineal entre X e Y ¡Graficar los datos! 13 / 43 Moralejas R2 mide la fuerza de la relación lineal entre X e Y ¡Graficar los datos! 13 / 43 Ejemplos con R2 ∼= 0 link datasaurus 14 / 43 https://www.autodesk.com/research/publications/same-stats-different-graphs Calculemos el R2 en el ejemplo 15 / 43 Cálculo del R2 R2 = TSS −RSS TSS TSS = ∑n i=1(Yi − Y )2 RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom ¿Qué podemos sacar del summary? 16 / 43 Cálculo del R2 R2 = TSS −RSS TSS TSS = ∑n i=1(Yi − Y )2 RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom ¿Qué podemos sacar del summary? 16 / 43 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974 o con R: RSS = sum((ajusteTV$residuals)^2) 17 / 43 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974 o con R: RSS = sum((ajusteTV$residuals)^2) 17 / 43 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974 o con R: RSS = sum((ajusteTV$residuals)^2) 17 / 43 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974 o con R: RSS = sum((ajusteTV$residuals)^2) 17 / 43 Cálculo de RSS = ∑n i=1 e 2 i 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom RSS = (n− 2)RSE2 = 198 ∗ 3.25922 = 2102.974 o con R: RSS = sum((ajusteTV$residuals)^2) 17 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de TSS = ∑n i=1(Yi − Y )2 Con R: sum((datos$sales - mean(datos$sales))^2)= 5417.149 sd(datos$sales) = 5.2175 var(datos$sales) = 27.22185 sum((datos$sales)^2) = 44743.25 mean(datos$sales) = 14.0225 ↑ tarea 18 / 43 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 Cálculode R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 Cálculo de R2 R2 = TSS −RSS TSS = 5417.149− 2102.974 5417.149 = 3314.175 5417.149 = 0.6118 ¿Cuál es la variabilidad de Y explicada por el modelo? 3314.175. 19 / 43 R2 en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 R2 = 0.6119 → Multiple R-squared 20 / 43 R2 en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 R2 = 0.6119 → Multiple R-squared 20 / 43 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 21 / 43 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 21 / 43 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 21 / 43 Interpretación del R2 R2 = 0.6119, es decir que el 61.19% de la variabilidad de las ventas está explicada por la regresión lineal en TV. ¿Qué valores de R2 indican un buen ajuste? Depende del área. 21 / 43 Más bondad de ajuste R2 mide la fuerza de la relación lineal entre X e Y . ¿Qué cantidad vieron en Intro que mide esa relación lineal? 22 / 43 Más bondad de ajuste R2 mide la fuerza de la relación lineal entre X e Y . ¿Qué cantidad vieron en Intro que mide esa relación lineal? 22 / 43 cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))} → depende de las unidades corr(X,Y ) = cov(X,Y )√ V(X) √ V(Y ) 23 / 43 cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))} → depende de las unidades corr(X,Y ) = cov(X,Y )√ V(X) √ V(Y ) 23 / 43 cov(X,Y ) = E{(X − E(X)) (Y − E(Y ))} → depende de las unidades corr(X,Y ) = cov(X,Y )√ V(X) √ V(Y ) 23 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤ 1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Propiedades de la correlación (poblacional) −1 ≤ corr(X,Y ) ≤1 corr(X,Y ) > 0 ⇔ relación lineal creciente entre X e Y corr(X,Y ) < 0 ⇔ relación lineal decreciente entre X e Y corr(X,Y ) = 1 ⇔ relación lin. crec.perfecta entre X e Y (Y = β0 + β1X con β1 > 0) corr(X,Y ) = −1 ⇔ relación lin. decr. perfecta entre X e Y (Y = β0 + β1X con β1 < 0) corr(X,Y ) = 0 ⇔ ninguna relación lineal entre X e Y Conclusión: corr(X,Y ) mide la fuerza de la relación lineal entre X e Y , pero... ¿la conocemos? 24 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Bondad de ajuste: correlación muestral Tercera medida de bondad de ajuste: ĉorr(X,Y ) = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 = r ¿Depende de las unidades? 25 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Propiedades de la correlación muestral r −1 ≤ r ≤ 1 r > 0 ⇔ relación lineal creciente entre X e Y r < 0 ⇔ relación lineal decreciente entre X e Y r = 1 ⇔ relación lin. crec. perfecta entre X e Y r = −1 ⇔ relación lin. decr. perfecta entre X e Y r = 0 ⇔ ninguna relación lineal entre X e Y 26 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que...0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y R2 Notemos que... −1 ≤ r ≤ 1 Cuanto más cerca está r de 0, peor es el ajuste. Cuanto más cerca está r de 1 ó −1, mejor es el ajuste. Recordemos que... 0 ≤ R2 ≤ 1 Cuanto más cerca está R2 de 0, peor es el ajuste. Cuanto más cerca está R2 de 1, mejor es el ajuste. Se puede ver que r2 = R2 → el ej. 9 de la práctica 5 les pide probarlo en el caso x = y = 0 27 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Recordemos que... β̂1 = ∑n i=1(Xi −Xn)(Yi − Y n)∑n i=1(Xi −Xn)2 (si pensamos a las Xi como aleatorias) y r = ∑n i=1(Xi −X)(Yi − Y )√∑n i=1(Xi −X)2 ∑n i=1(Yi − Y )2 Propiedad β̂1 = √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r Corolario: β̂1 y r tienen el mismo signo. 28 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Relación entre r y β1 Proof. Definamos... SXY = ∑n i=1(Xi −X)(Yi − Y ) SXX = ∑n i=1(Xi −X)2 SY Y = ∑n i=1(Yi − Y )2 ⇒ r = SXY√ SXXSXY y β̂1 = SXY SXX ⇒ √ ∑n i=1(Yi − Y )2∑n i=1(Xi −X)2 r = √ SY Y SXX SXY√ SXXSY Y = SXY SXX = β̂1 29 / 43 Cálculo de r en el ejemplo Podemos calcularlo... a mano con R → ¿cómo? con el summary 30 / 43 Cálculo de r en el ejemplo Podemos calcularlo... a mano con R → ¿cómo? con el summary 30 / 43 Cálculo de r en el ejemplo Podemos calcularlo... a mano con R → ¿cómo? con el summary 30 / 43 Cálculo de r en el ejemplo Podemos calcularlo... a mano con R → ¿cómo? con el summary 30 / 43 r en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 r2 = R2 = 0.6119 ⇒ |r| = √ 0.6119 = 0.7822 ⇒ r = ±0.7822 31 / 43 r en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18# Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 r2 = R2 = 0.6119 ⇒ |r| = √ 0.6119 = 0.7822 ⇒ r = ±0.7822 31 / 43 r en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 r2 = R2 = 0.6119 ⇒ |r| = √ 0.6119 = 0.7822 ⇒ r = ±0.7822 31 / 43 r en summary 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Call: 4 # lm(formula = sales ~ TV, data = datos) 5 # 6 # Residuals: 7 # Min 1Q Median 3Q Max 8 # -8.3860 -1.9545 -0.1913 2.0671 7.2124 9 # 10 # Coefficients: 11 # Estimate Std. Error t value Pr(>t) 12 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 13 # TV 0.047537 0.002691 17.67 <2e-16 *** 14 # --- 15 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 16 # 17 # Residual standard error: 3.259 on 198 degrees of freedom 18 # Multiple R-squared: 0.6119 , Adjusted R-squared: 0.6099 19 # F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16 r2 = R2 = 0.6119 ⇒ |r| = √ 0.6119 = 0.7822 ⇒ r = ±0.7822 31 / 43 Regresión Lineal Múltiple 32 / 43 Objetivo inicial: estudiar la relación entre los medios (TV, radio y newspaper) y las ventas (sales) ¿Qué podemos hacer con lo que sabemos hasta ahora? Ajustar 3 regresiones lineales simples 33 / 43 Objetivo inicial: estudiar la relación entre los medios (TV, radio y newspaper) y las ventas (sales) ¿Qué podemos hacer con lo que sabemos hasta ahora? Ajustar 3 regresiones lineales simples 33 / 43 Objetivo inicial: estudiar la relación entre los medios (TV, radio y newspaper) y las ventas (sales) ¿Qué podemos hacer con lo que sabemos hasta ahora? Ajustar 3 regresiones lineales simples 33 / 43 1 ajusteTV <- lm(sales ~ TV, data = datos) 2 summary(ajusteTV) 3 # Coefficients: 4 # Estimate Std. Error t value Pr(>t) 5 # (Intercept) 7.032594 0.457843 15.36 <2e-16 *** 6 # TV 0.047537 0.002691 17.67 <2e-16 *** 1 ajusteRadio <- lm(sales ~ radio , data = datos) 2 summary(ajusteRadio) 3 4 # Coefficients: 5 # Estimate Std. Error t value Pr(>t) 6 # (Intercept) 9.31164 0.56290 16.542 <2e-16 *** 7 # radio 0.20250 0.02041 9.921 <2e-16 *** 1 ajusteNews <- lm(sales ~ newspaper , data = datos) 2 summary(ajusteNews) 3 # Coefficients: 4 # Estimate Std. Error t value Pr(>t) 5 # (Intercept) 12.35141 0.62142 19.88 < 2e-16 *** 6 # newspaper 0.05469 0.01658 3.30 0.00115 ** 34 / 43 Desventajas del enfoque anterior ¿Cómo predecimos las ventas de un mercado conociendo sus valores de inversión en los 3 medios? Cada regresión simple ignora a los otros medios al estimar a los coeficientes. Es importante tener en cuenta la relación de los otros medios tanto con sales como con la variable predictora (covariable). La clase que viene veremos que cuando las covariables están correlacionadas, los coeficientes de cada regresión lineal simple pueden ser engañosos. 35 / 43 Desventajas del enfoque anterior ¿Cómo predecimos las ventas de un mercado conociendo sus valores de inversión en los 3 medios? Cada regresión simple ignora a los otros medios al estimar a los coeficientes. Es importante tener en cuenta la relación de los otros medios tanto con sales como con la variable predictora (covariable). La clase que viene veremos que cuando las covariables están correlacionadas, los coeficientes de cada regresión lineal simple pueden ser engañosos. 35 / 43 Desventajas del enfoque anterior ¿Cómo predecimos las ventas de un mercado conociendo sus valores de inversión en los 3 medios? Cada regresión simple ignora a los otros medios al estimar a los coeficientes. Es importante tener en cuenta la relación de los otros medios tanto con sales como con la variable predictora (covariable). La clase que viene veremos que cuando las covariables están correlacionadas, los coeficientes de cada regresión lineal simple pueden ser engañosos. 35 / 43 Desventajas del enfoque anterior ¿Cómo predecimos las ventas de un mercado conociendo sus valores de inversión en los 3 medios? Cada regresión simple ignora a los otros medios al estimar a los coeficientes. Es importante tener en cuenta la relación de los otros medios tanto con sales como con la variable predictora (covariable). La clase que viene veremos que cuando las covariables están correlacionadas, los coeficientes de cada regresión lineal simple pueden ser engañosos. 35 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Regresión Lineal Múltiple en el ejemplo Y = β0 + β1X1 + β2X2 + β3X3 + ϵ donde Y : sales X1 : TV X2 : radio X3 : newspaper ϵ : término del error 36 / 43 Modelo de Regresión Lineal Múltiple Y = β0 + β1X1 + · · ·+ βpXp + ϵ donde Y : variable de respuesta X1, . . . , Xp : covariables / variables explicativas o predictoras ϵ : término del error 37 / 43 Modelo de Regresión Lineal Múltiple Y = β0 + β1X1 + · · ·+ βpXp + ϵ donde Y : variable de respuesta X1, . . . , Xp : covariables / variables explicativas o predictoras ϵ : término del error 37 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversiónen diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Modelo de Regresión Lineal Múltiple con supuestos Yi = β0 + β1xi1 + · · ·+ βpxip + ϵi 1 ≤ i ≤ n Supuestos: 1 ϵ1, . . . , ϵn independientes 2 E(ϵi) = 0 ∀i 3 V(ϵi) = σ2 ∀i 4 ϵi es normal ∀i O equivalentemente ϵ1, . . . , ϵn ∼ N (0, σ2) i.i.d. En el ej.: Yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi, 1 ≤ i ≤ 200 donde Yi = ventas de i-ésimo mercado xi1 = inversión en TV en i-ésimo mercado xi2 = inversión en radio en i-ésimo mercado xi3 = inversión en diario en i-ésimo mercado 38 / 43 Interpretación de los coeficientes en el ejemplo 1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data = datos) 2 summary(ajuste_mult) 3 # Coefficients: 4 # Estimate Std. Error t value Pr(>t) 5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 *** 6 # TV 0.045765 0.001395 32.809 <2e-16 *** 7 # radio 0.188530 0.008611 21.893 <2e-16 *** 8 # newspaper -0.001037 0.005871 -0.177 0.86 9 # --- 10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 11 # 12 # Residual standard error: 1.686 on 196 degrees of freedom 13 # Multiple R-squared: 0.8972 , Adjusted R-squared: 0.8956 14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 β̂1 = 0.0458 → cuando incrementamos la inversión en TV en $1000 y mantenemos fijas las inversiones en radio y diario, las ventas esperadas aumentan aproximadamente 458 unidades. 39 / 43 Interpretación de los coeficientes en el ejemplo 1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data = datos) 2 summary(ajuste_mult) 3 # Coefficients: 4 # Estimate Std. Error t value Pr(>t) 5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 *** 6 # TV 0.045765 0.001395 32.809 <2e-16 *** 7 # radio 0.188530 0.008611 21.893 <2e-16 *** 8 # newspaper -0.001037 0.005871 -0.177 0.86 9 # --- 10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 11 # 12 # Residual standard error: 1.686 on 196 degrees of freedom 13 # Multiple R-squared: 0.8972 , Adjusted R-squared: 0.8956 14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 β̂1 = 0.0458 → cuando incrementamos la inversión en TV en $1000 y mantenemos fijas las inversiones en radio y diario, las ventas esperadas aumentan aproximadamente 458 unidades. 39 / 43 Interpretación de los coeficientes en el ejemplo 1 ajuste_mult <- lm(sales ~ TV + radio + newspaper , data = datos) 2 summary(ajuste_mult) 3 # Coefficients: 4 # Estimate Std. Error t value Pr(>t) 5 # (Intercept) 2.938889 0.311908 9.422 <2e-16 *** 6 # TV 0.045765 0.001395 32.809 <2e-16 *** 7 # radio 0.188530 0.008611 21.893 <2e-16 *** 8 # newspaper -0.001037 0.005871 -0.177 0.86 9 # --- 10 # Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 11 # 12 # Residual standard error: 1.686 on 196 degrees of freedom 13 # Multiple R-squared: 0.8972 , Adjusted R-squared: 0.8956 14 # F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 β̂1 = 0.0458 → cuando incrementamos la inversión en TV en $1000 y mantenemos fijas las inversiones en radio y diario, las ventas esperadas aumentan aproximadamente 458 unidades. 39 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversiónen TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Interpretación de los coeficientes en el ejemplo Cambio de notación: xi1 = ti inversión en TV en i-ésimo mercado xi2 = ri inversión en radio en i-ésimo mercado xi3 = di inversión en diario en i-ésimo mercado Yi = β0 + β1ti + β2ri + β3di + ϵi ⇒ E(Yi) = β0 + β1ti + β2ri + β3di E(Y )(t,r,d) = β0 + β1t+ β2r + β3d E(Y )(t+1,r,d) = β0 + β1(t+ 1) + β2r + β3d E(Y )(t,r,d) = β0 + β1t+ β2r + β3d ⇒ E(Y )(t+1,r,d) − E(Y )(t,r,d) = β1 ⇒ β1 representa el aumento en la media de las ventas cuando la inversión en TV aumenta en $1000 y las inversiones en radio y diario se mantienen fijas. (idem con β2 y β3) 40 / 43 Estimación de los coeficientes (caso p = 2) Y = β0 + β1X1 + β2X2 + ϵ Idea: hallar el plano que más se acerque a los puntos. Calculamos (β̂0, β̂1, β̂2) que minimice L(b0, b1, b2) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2)]2 ↑ mide la distancia de los puntos al plano. 41 / 43 Estimación de los coeficientes (caso p = 2) Y = β0 + β1X1 + β2X2 + ϵ Idea: hallar el plano que más se acerque a los puntos. Calculamos (β̂0, β̂1, β̂2) que minimice L(b0, b1, b2) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2)]2 ↑ mide la distancia de los puntos al plano. 41 / 43 Estimación de los coeficientes (caso p = 2) Y = β0 + β1X1 + β2X2 + ϵ Idea: hallar el plano que más se acerque a los puntos. Calculamos (β̂0, β̂1, β̂2) que minimice L(b0, b1, b2) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2)]2 ↑ mide la distancia de los puntos al plano. 41 / 43 Estimación de los coeficientes (caso p = 2) Y = β0 + β1X1 + β2X2 + ϵ Idea: hallar el plano que más se acerque a los puntos. Calculamos (β̂0, β̂1, β̂2) que minimice L(b0, b1, b2) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2)]2 ↑ mide la distancia de los puntos al plano. 41 / 43 Estimación de los coeficientes (caso p = 2) Y = β0 + β1X1 + β2X2 + ϵ Idea: hallar el plano que más se acerque a los puntos. Calculamos (β̂0, β̂1, β̂2) que minimice L(b0, b1, b2) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2)]2 ↑ mide la distancia de los puntos al plano. 41 / 43 Estimación de los coeficientes por ḿınimos cuadrados En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice L(b0, b1, . . . , bp) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2 Se puede ver que también el ḿınimo se encuentra derivando e igualando a cero. Es decir, resolviendo un sistema de (p+ 1) ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo veremos) 42 / 43 Estimación de los coeficientes por ḿınimos cuadrados En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice L(b0, b1, . . . , bp) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2 Se puede ver que también el ḿınimo se encuentra derivando e igualando a cero. Es decir, resolviendo un sistema de (p+ 1) ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo veremos) 42 / 43 Estimación de los coeficientes por ḿınimos cuadrados En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice L(b0, b1, . . . , bp) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2 Se puede ver que también el ḿınimo se encuentra derivando e igualando a cero. Es decir,resolviendo un sistema de (p+ 1) ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo veremos) 42 / 43 Estimación de los coeficientes por ḿınimos cuadrados En el caso p gral., calculamos (β̂0, β̂1, . . . , β̂p) que minimice L(b0, b1, . . . , bp) = n∑ i=1 [Yi − (b0 + b1xi1 + b2xi2 + · · ·+ bpxip)]2 Se puede ver que también el ḿınimo se encuentra derivando e igualando a cero. Es decir, resolviendo un sistema de (p+ 1) ecuaciones por (p+ 1) incógnitas → álgebra de matrices (no lo veremos) 42 / 43 Ejercicios de la práctica que pueden hacer Práctica 5 - parte 1: toda 43 / 43
Compartir