Logo Studenta

Semana 12 Analisis_de_Regresion_Lineal_Simple Actualizado_2021-I

¡Este material tiene más páginas!

Vista previa del material en texto

MÉTODOS ESTADÍSTICOS PARA 
LA INVESTIGACIÓN I
Profesores del curso
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Facultad de Economía y Planificación
Departamento Académico de Estadística e Informática
Análisis de Regresión Lineal Simple
2021-I
OBJETIVOS
Formular modelos de regresión lineal simple. Usando variables dentro del
contexto de su especialidad.
Identificar los supuestos del modelo de regresión lineal simple.
Aplicar criterios para seleccionar y validar el mejor modelo de regresión
lineal simple.
Realizar estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a resultados obtenidos del análisis de regresión.
Métodos Estadísticos para la Investigación I 2021-I
Sabías que…
Se efectuó un experimento para evaluar el efecto del zinc en el peso de
cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio
diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron
registradas. Los datos de los pesos medios por grupo al final de la semana
están expresados como porcentajes sobre los pesos iniciales.
Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la
semana
a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio (en %) 100 92 95 90 98 85 67
Métodos Estadísticos para la Investigación I 2021-I
Logro de la sesión:
Al final de la sesión el estudiante analiza y resuelve
problemas de una variable dependiente y una independiente
en situaciones reales aplicadas a su especialidad, haciendo
uso de la regresión lineal simple, prueba de hipótesis
estimación y predicción.
LA REGRESIÓN LINEAL SIMPLE
 Tiene como propósito predecir o estimar una variable dependiente (Y) a
partir de otra variable llamada independiente (X) a través de un modelo
matemático.
 El modelo poblacional de la regresión lineal simple es el siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜀𝑖
 Los parámetros del modelo β0 y β1 son estimados por el método de
mínimos cuadrados ordinarios (MCO), buscando minimizar la siguiente
expresión:
 El modelo de regresión estimado es:
෠𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖
Métodos Estadísticos para la Investigación I 2021-I
 
2
2
0 1
1 1
n n
i i i
i i
Y X  
 
   
LA REGRESIÓN LINEAL SIMPLE
SUPUESTOS
1) Se asume que la variable independiente X es fija
(no aleatoria).
2) La variable dependienteY es aleatoria.
3) Para cada valor de X existe una distribución normal
de la variableY:
4) El error tiene distribución normal con media 0 y
varianza constante el cual se puede expresar de
la siguiente forma:
5) Esta expresión indica que no hay dependencia entre
las observaciones y tampoco entre los valores de ɛi
con los valores de Xi
 2|~ ,ii Y XY N  
2
 2~ 0,i N 
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo de Aplicación 1
Conforme los quesos maduran, ocurren varios procesos
químicos que determinan el sabor del producto final. En un
estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida
subjetiva del sabor fue obtenida combinando los puntajes
asignados por varios sujetos que probaron el queso. Los datos se
dan a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor (Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7 
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328 
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo de Aplicación 1
Las variables son: 
Sabor: puntaje subjetivo del sabor, obtenido combinando los 
puntajes de varios sujetos. 
AA : logaritmo natural de la concentración de ácido 
acético. ( AA= ln(ConcentÁcido Acético)) 
El objetivo de este estudio es evaluar el efecto de la variable AA 
(variable independiente o predictora) en el sabor del queso 
(variable dependiente o respuesta). 
Se pide, elaborar el gráfico de dispersión entre las variables 
Sabor y AA. 
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo de Aplicación 1
En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente relación
de dependencia entre ambas variables en el sentido de que a mayor concentración de ácido
acético, mayor será la calificación del sabor.
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
 a) Determine la ecuación de regresión lineal estimada 
Muestra Sabor (Y) AA (X) Y2 X2 XY
1 12.3 4.54 151.29 20.64 55.88 
2 47.9 5.76 2294.41 33.17 275.86 
3 37.3 5.89 1391.29 34.72 219.77 
4 21 5.24 441.00 27.48 110.08 
5 0.7 4.48 0.49 20.04 3.13 
6 40.9 6.37 1672.81 40.51 260.33 
7 18 5.25 324.00 27.53 94.45 
8 15.2 5.30 231.04 28.07 80.53 
9 16.8 5.37 282.24 28.79 90.15 
10 0.7 5.33 0.49 28.39 3.73 
Total 210.8 53.52 6789.06 289.34 1193.91 
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
 Donde calculamos:
El modelo de regresión estimado es:
𝑌 = 21.08
𝑋 = 5.3517
෍𝑋𝑖
2 = 289.34
෍𝑌𝑖
2 = 6789.06
෍𝑋𝑖 𝑌𝑖 = 1193.91
𝑏1 =
ሻ𝑆𝑃(𝑋𝑌
ሻ𝑆𝐶(𝑋
=
σ𝑖=1
𝑛 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌
σ𝑖=1
𝑛 𝑋𝑖
2 − 𝑛𝑋
2 =
ሻ1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517
289.34 − 10 ∗ 5.3517 2
= 22.44
𝑏0 = 𝑌 − 𝑏1𝑋 = 21.08 − 22.44 ∗ (5.3517ሻ = −99.03
�̰� = −99.03 + 22.44𝑋
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
 b) Analice el siguiente gráfico e interprete. 
6.56.05.55.04.5
50
40
30
20
10
0
S 1 0.4246
R-cuad. 62.9%
R-cuad.(ajustado) 58.3%
AA (X)
S
a
b
o
r(
Y
)
Gráfica de línea ajustada
Sabor(Y) = - 99.03 + 22.44 AA (X)
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
El intercepto
En este caso el intercepto, -99.03, correspondería al puntaje
estimado del sabor de un queso cuando el logaritmo natural de
la concentración de ácido acético es igual a cero. Dado que en la
estimación de este modelo se utilizaron valores AA de 4.477
hasta 6.365, esta interpretación no tiene validez.
El coeficiente de regresión
El coeficiente de regresión, 22.44 es siempre interpretable y en
este caso indica que por cada incremento unitario en el
logaritmo natural de la concentración de ácido acético, se estima
un incremento en el puntaje del sabor de 22.44 puntos.
Métodos Estadísticos para la Investigación I 2021-I
EL ANÁLISIS DE VARIANZA
Cuando se obtiene la ecuación de regresión, todavía no se puede
afirmar estadísticamente que exista una dependencia lineal de la
variable Y respecto a la variable X. Por lo tanto, es necesario proceder
con una prueba hipótesis de la pendiente de la ecuación de
regresión y esto se logra utilizando un procedimiento matemático
conocido como el Análisis de Varianza (ANVA). El ANVA permite
evaluar si existe dependencia lineal o no de la variable dependiente (Y)
respecto a la variable independiente (X).
Métodos Estadísticos para la Investigación I 2021-I
EL ANÁLISIS DE VARIANZA
Fuentes de 
variación
Gl SC CM Fc
Regresión 1 b1 SP(XY)
Error n – 2 SC(Y) – b SP(XY)
Total n - 1 SC(Y) =SC(Total)
Métodos Estadísticos para la Investigación I 2021-I
𝑆𝐶(𝑌ሻ =෎
𝑖=1
𝑛
𝑌2𝑖 −
(σ𝑌𝑖ሻ
2
𝑛
𝑆𝑃(𝑋𝑌ሻ =෎
𝑖=1
𝑛
𝑋𝑖𝑌𝑖 −
(σ𝑋𝑖ሻ( σ𝑌𝑖ሻ
𝑛
SC(Reg) = b1 SP(XY)
SC(Error) = SC(Y) – b1 SP(XY)
SC(Total) = SC(Y)
𝑏1 = መ𝛽1 =
𝑆𝑃 𝑋𝑌
𝑆𝑃 𝑋
𝑆𝐶(𝑋ሻ =෎
𝑖=1
𝑛
𝑋2𝑖 −
(σ𝑋𝑖ሻ
2
𝑛
Análisis de Variancia – Prueba de hipótesis
El procedimento es:
P1)
P2) Nivel de significancia: 
P3) Estadístico de Prueba:
P4) Regla de decisión: Rechazar Ho si: Fc > F (1-α,GLReg,GLError)
Graficar
Decisión: Rechazar H0 o no rechazar H0.
P6) Conclusión
 
 
0 1
1 1
: 0
: 0
H No existe dependencia lineal de Y respecto a X
H Existe dependencia lineal de Y respecto a X




r² =
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de la variabilidad de la respuesta que esexplicado por la variable predictora. Su valor va de 0 a 1 y se
calcula mediante la siguiente expresión:
( )
( )
SC Reg
SC Total
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
 Valide el modelo de regresión estimado en el ejemplo 3, siendo las
variables Y = sabor y X = AA a un nivel de significación del 5%
Solución:
𝑆𝐶 (Totalሻ = 𝑆𝐶(𝑌ሻ = ෍
𝑖=1
𝑛
𝑌𝑖
2 − 𝑛𝑌
2
= 6789.06 − 10 21.08 2 = 2345.40
𝑆𝐶 (Regresionሻ = 𝑏1𝑆𝑃(𝑋𝑌ሻ = 22.44 ሻ1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517 = 1475.92
𝑆𝐶 (Errorሻ = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ − 𝑆𝐶(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛ሻ = 2345.40 − 1475.92 = 869.48
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
Prueba de Hipótesis
P1)
P2)
P3)
P4)
P5) Conclusión: A un nivel de significación del 5% se rechaza H0. Luego se
puede afirmar que el sabor del queso depende linealmente del logaritmo
natural de la concentración de ácido acético.
Fuentes de Variación GL SC CM 𝐹𝑐
Regresión 1 1475.92 1475.92 13.58
Error 8 869.48 108.685
Total 9 2345.40
𝐻0: 𝛽1 = 0
𝐻1: 𝛽1 ≠ 0
𝛼 = 0.05
𝐹𝑐 = 13.58 ∼ 𝐹 1,8
𝐶𝑜𝑚𝑜 𝐹𝑐 = 13.58 > 𝐹tab = 𝐹 0.95,1.8 = 5.318, se rechaza la H0
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
Para el ejemplo tratado en esta sección el coeficiente de determinación es:
𝑟2 =
ሻ𝑆𝐶(𝑅𝑒𝑔
ሻ𝑆𝐶(𝑇𝑜𝑡𝑎𝑙
= 𝑟2 =
1475.92
2345.40
= 0.63 ó 63%
El 63% de la variabilidad del sabor es explicado por el
logaritmo natural de la concentración de ácido acético.
Métodos Estadísticos para la Investigación I 2021-I
ESTIMACIÓN Y PREDICCIÓN
 Estimación puntual:
 Estimación por intervalo:
0 1
ˆ
i iY b b X 
2
0
0
(1 , 2)
2
( )1ˆ( / ) *
( )n
x X
IC Y X x Y t CME
n SC X

 
 
    
 
2
0
0
(1 , 2)
2
( )1ˆ( / ) * 1
( )n
x X
IP Y X x Y t CME
n SC X

 
 
     
 
INTERVALO DE 
PREDICCIÓN
INTERVALO DE 
CONFIANZA
Interpretación como predicción de
un valor individual o como
estimación de valor medio
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo: 
 Encontrar un intervalo de predicción de un valor individual y un intervalo
de confianza para el valor medio a un 95% para evaluar el sabor del queso
cuando el logaritmo de ácido acético es 5.2.
𝑥0 = 5.2 �̰� = −99.03 + 22.44𝑋 𝐶𝑀𝐸 = 108.685 𝑛 = 10
𝑆𝐶(𝑋ሻ = ෍
𝑖=1
𝑛
𝑋𝑖
2 − 𝑛𝑋
2
= 289.34 − 10 ∗ 5.3517 2 = 2.933
𝑡
1−
𝛼
2
,𝑛−2
= 𝑡
1−
0.05
2
,10−2
= 𝑡 0.975,8 = 2.306
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo:
Intervalo de predicción de un valor individual a un 95%
Como los puntajes son positivos el intervalo de predicción sería:
IP(Y/X=5.2)=[0, 42.96]
Interpretación 
Con un nivel de predicción del 95%, se puede decir que el sabor
del queso, cuando el logaritmo natural de la concentración de
ácido acético es de 5.2, está entre 0 y 42.96 unidades.
𝐼𝑃( Τ𝑌 𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685 1 +
1
10
+
5.2−5.3517 2
2.933
= (−7.65,42.96)
Métodos Estadísticos para la Investigación I 2021-I
Ejemplo: 
Intervalo de confianza del valor medio a un 95%
Interpretación 
Con un nivel de confianza del 95%, se puede decir que el sabor
medio del queso, cuando el logaritmo natural de la
concentración de ácido acético es de 5.2, está contenido entre
5.94 y 29.38 unidades.
𝐼𝐶( Τ𝑌 𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685
1
10
+
5.2−5.3517 2
2.933
= (5.94,29.38)
Métodos Estadísticos para la Investigación I 2021-I
Aplicación
Se efectuó un experimento para evaluar el efecto del zinc en el peso de
cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio
diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron
registradas. Los datos de los pesos medios por grupo al final de la semana
están expresados como porcentajes sobre los pesos iniciales.
Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la
semana
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio (en %) 100 92 95 90 98 85 67
Métodos Estadísticos para la Investigación I 2021-I
a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis
más adecuada. Use un nivel de significancia de 0.01
d) Calcule e interprete el coeficiente de determinación.
Métodos Estadísticos para la Investigación I 2021-I
REPORTE MINITAB
Regression Analysis: y versus x 
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 595.8 595.77 19.87 0.007
x 1 595.8 595.77 19.87 0.007
Error 5 149.9 29.99
Total 6 745.7
Model Summary
S R-sq R-sq(adj) R-sq(pred)
5.47614 79.89% 75.87% 45.87%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00
Regression Equation
y = 99.47 - 0.962 x
Métodos Estadísticos para la Investigación I 2021-I

Continuar navegando