Logo Studenta

Semana 14 Análisis_de_Regresión_Lineal_Múltiple Actualizado_2021-I

¡Este material tiene más páginas!

Vista previa del material en texto

MÉTODOS ESTADÍSTICOS PARA 
LA INVESTIGACIÓN I
Profesores del curso
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Facultad de Economía y Planificación
Departamento Académico de Estadística e Informática
Semana XIII: Análisis de Regresión 
Lineal Múltiple
2021-I
OBJETIVOS
Formular modelos de regresión lineal simple y múltiple. Usando variables
dentro del contexto de su especialidad
Identificar los supuestos del modelo de regresión lineal simple y múltiple
Aplicar criterios para seleccionar y validar el mejor modelo de regresión
lineal múltiple
Realizar estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a resultados obtenidos del análisis de regresión
Métodos Estadísticos para la Investigación I 2021-I
Análisis de Regresión Lineal 
Múltiple
Generalidades
INTRODUCCIÓN
 En el análisis multivariado de datos, se analizan dos o más
variables en conjunto.
 Existen diversas técnicas que permiten analizar datos
multivariados con distintos fines como asociativos, explicativos,
predictivos, etc.
 Cuando el objetivo es explicar la dependencia de una variable
cuantitativa Y a partir de otras variables independientes (X1,
X2, …,Xk), entonces la técnica a utilizar es el análisis de
regresión lineal múltiple.
Métodos Estadísticos para la Investigación I 2021-I
LA REGRESIÓN LINEAL MÚLTIPLE
 Tiene como objetivo predecir o estimar una variable
dependiente (Y) mediante más de una variable independiente a
través de un modelo matemático.
 El incluir un mayor número de variables independientes en el
modelo supondría mayor precisión para la predicción de la
variable dependiente.
 El modelo poblacional de la regresión lineal múltiple es el
siguiente:
 Siendo la ecuación de regresión poblacional:
0 1 1, 2 2, 3 3, ,......i i i i k k i iY X X X X           
1 2/ , ,... 0 1 1, 2 2, 3 3, ,
......
kY X X X i i i k k i
X X X X          
Métodos Estadísticos para la Investigación I 2021-I
LA REGRESIÓN LINEAL MÚLTIPLE
ESTIMACIÓN
Ecuación de regresión estimada
Con una muestra
de n
observaciones
multivariadas
1, 2,...,i n
0 1 1, 2 2, 3 3, ,
ˆ ......i i i i k k iY b b X b X b X b X     
La estimación puntual se realiza utilizando la ecuación de regresión estimada.
Métodos Estadísticos para la Investigación I 2021-I
Sistema de Ecuaciones Normales en 
su forma matricial:
Luego, de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para 
hallar el vector 𝑏.
donde:
Métodos Estadísticos para la Investigación I 2021-I
LA REGRESIÓN LINEAL MÚLTIPLE
SUPUESTOS
1) Las variables independientes de X son fijas (no aleatoria)
2) La variable dependienteY es aleatoria
3) Para cada combinación de los valores de X existe una
distribución normal multivariante para la variableY:
4) El error tiene distribución normal con media 0 y varianza
constante el cual se puede expresar de la siguiente
forma:
Esta expresión indica que no existe dependencia o
correlación entre las observaciones y tampoco existe
relación de los valores de ɛi con los valores de
(Homocedasticidad)
5) No debe existir correlación o combinación lineal entre las
variables indepedientes de X (no debe haber efecto de
Multicolinealidad).
 2|~ ,ii Y XY N  
 2~ 0,i N 
2
Métodos Estadísticos para la Investigación I 2021-I
ˆ
iY
COEFICIENTE DE DETERMINACIÓN 
MÚLTIPLE
 Mide el porcentaje de la variabilidad de la respuesta que es
explicado por las variables predictoras. Su valor va de 0 a 1 y
se calcula mediante la siguiente expresión:
 
 
2
SC Regresión
r
SC Total

Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
 Se desea estudiar el efecto de la temperatura ambiente
promedio diario en °F (X1), y la cantidad de aislante utilizado
en un desván medido en pulgadas de grosor (X2) sobre el
consumo mensual de petróleo, en galones, para calefacción de
casas (Y). Para el efecto se ha tomado una muestra aleatoria
de 15 casas cuyos datos medidos se reportan en las cuatro
primeras columnas de la tabla.
Los datos se muestran a continuación:
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
Muestra Y X1 X2
1 275.3 40 3 
2 363.8 27 3 
3 264.3 40 10 
4 40.8 73 6 
5 94.3 64 6 
6 230.9 34 6 
7 366.7 9 6 
8 300.6 8 10 
9 237.8 23 10 
10 121.4 63 3 
11 31.4 65 10 
12 203.5 41 6 
13 441.1 21 3 
14 323 38 3 
15 52.47 58 10 
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
a) Analice la matriz de correlaciones
Según la matriz de correlaciones, observamos que existe una alta
correlación negativa entre Y e 𝑋1 (-0.872) y una correlación
moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y
𝑋2 y es como debe de ser, no debe existir asociación entre las
variables independientes.
Correlación: Y, X1, x2 
Y X1
X1 -0.872
x2 -0.398 0.009
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
b) Presente la ecuación de regresión lineal múltiple estimada
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
Y = 550.325 – 5.445X1 – 17.04 X2
c) Interprete b1 y b2
b1 = Cuando la temperatura ambiente promedio estimada diaria se
incremente en 1 °F, el consumo mensual promedio de petróleo para
calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de
aislamiento en el desván (X2).
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
b2 = Cuando la cantidad de aislamiento en el desván se incremente en 1
pulgada de grosor, el consumo mensual promedio estimado de petróleo para
calefacción disminuirá en 17.04 galones, manteniendo constante la
temperatura ambiente promedio diario (X1).
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
d) Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperatura ambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
Si 𝑋1= 50 y 𝑋2= 10, entonces:
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones
e) Calcule e interprete el coeficiente de determinación
Del reporte de Minitab,𝑅2 = 0.91358.
Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de
petróleo, es explicado por las variables 𝑋1 y 𝑋2 , por el modelo y solo el
8.64% se debe al error propio del muestreo y a otras variables que no han
sido consideradas en el modelo.
Métodos Estadísticos para la Investigación I 2021-I
EL ANÁLISIS DE VARIANZA
El cálculo de las sumas de cuadrados se realiza mediante
operaciones matriciales. Para el desarrollo del curso se usarán
reportes Minitab 19 que facilitan su cálculo.
Fuentes de 
variación
Gl SC CM Fc
Regresión k=p-1 SC(Reg)
Error n-k-1 SC(Error)
Total n - 1 SC(Total)
Métodos Estadísticos para la Investigación I 2021-I
PRUEBAS DE HIPÓTESIS
Prueba Global
P1)
P2) α=0.05
P3) El estadístico de prueba
P4)
Si se rechaza H0
P5) Conclusión
0 1 2
1
: ... 0
:
k
j
H
H Al menos un es distinto de cero
  

   
 
 , 1calc k n k
CM Reg
F F
CME
 

 1 , , 1calc k n kF F   
Métodos Estadísticos para la Investigación I 2021-I
PRUEBAS DE HIPÓTESIS
Prueba de Efectos Adicionales
P1)
P2) α=0.05
P3) El estadístico de prueba
Donde bj es el coeficiente de regresión estimado j y Sbj es su error estándar. Estos
valores se obtienen de un reporte de Minitab
P4) Criterio de decisión:
Si tcj < t(α/2,n-k-1) ó tcj > t(α/2,n-k-1) se rechaza H0
P5) Conclusión
0 1
1 1
: 0
: 0
H
H




0 2
1 2
: 0
: 0
H
H




0
1
: 0
: 0
k
k
H
H




…. 
 1
~
j
j
j
c n k
b
b
t t
s
 

Métodos Estadísticos para la Investigación I 2021-I
SELECCIÓN DE VARIABLES
Paso 1: Realizar el análisis de varianza
Si resulta no significativo, entonces ninguna variableaporta al modelo.
Paso 2: Realizar el análisis de efectos adicionales
De ser significativo el ANVA, evaluar la influencia de cada variable en el modelo
Paso 3: Construir nuevo modelo eliminando la variable no significativa.
Nota: Si hay más de una variable no significativa en el paso anterior, eliminar la que
tiene menor tc en valor absoluto o la que tiene mayor p-valor
Paso 4: Volver al paso 1 hasta que todas las variables sean significativas
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
f) Realice el Análisis de Variancia. (Use α=0.05)
P1)
P2) α=0.05
P3) El estadístico de prueba
𝐻0: 𝛽1 = 𝛽2 = 0
𝐻1: Existe al menos una 𝛽𝑖 diferente a cero
𝐹𝑐𝑎𝑙𝑐 =
𝐶𝑀𝑅𝑒𝑔
𝐶𝑀𝐸
∼ 𝐹 𝑝−1,𝑛−𝑝 𝐹𝑐𝑎𝑙𝑐 =
107364.458
1692.6013
= 63.43; 𝐹 2,12,0.05 = 3.88
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0
P5) Conclusión
Como 𝐹𝑐 > 𝐹𝑡 entonces, se rechaza la Ho y se acepta la H1. Conclusión: A un
nivel de significación del 5%, podemos afirmar que al menos ya sea
temperatura o aislamiento se relacionan con el consumo de petróleo.
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
g) Evalúe el efecto lineal adicional de las variables Xi
P1)
P2) α=0.05
P3) El estadístico de prueba
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
𝐻0: 𝛽1 = 0
𝐻1: 𝛽1 ≠ 0
𝐻0: 𝛽2 = 0
𝐻1: 𝛽2 ≠ 0
𝑡𝑐𝑗 =
𝑏𝑗
𝑆𝑏𝑗
∼ 𝑡 12 𝑡 =
−5.4449
0.5317316
= −10.24 𝑡 =
−17.04
3.704712
= −4.5995
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
P4) Criterio de decisión
Si no se rechaza H0
Si se rechaza H0
P5) Conclusión (Se hace por cada hipótesis)
Para 𝑋1: 
Con un nivel de significación del 5% se rechaza 𝐻𝑜. Por lo tanto la variable 
temperatura (𝑋1) si influye en el modelo de regresión. 
Para 𝑋2: 
Con un nivel de significación del 5% se rechaza 𝐻𝑜. Por lo tanto la variable 
cantidad de aislamiento (𝑋2) si influye en el modelo de regresión. 
𝑡 12,0.975 = 2.179
−2.179 ≤ 𝑡𝑐𝑗 ≤ 2.179
𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
i) Seleccione el mejor conjunto de variables. 
P1) ANVA
P1)
P2)
P3)
P4) Como 𝐹𝑐 > 𝐹𝑡 , entonces, se rechaza la 𝐻0 y se acepta la 𝐻1.
𝐻0: 𝛽1 = 𝛽2 = 0
𝐻1: Existe al menos una 𝛽𝑖 diferente a cero
𝛼 = 0.05
𝐹𝑐𝑎𝑙𝑐 =
𝐶𝑀𝑅𝑒𝑔
𝐶𝑀𝐸
∼ 𝐹 2,12
𝐹𝑐𝑎𝑙𝑐 =
107364.458
1692.6013
= 63.43; 𝐹 2,12,0.95 = 3.88
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II
P2) Análisis de efectos adicionales
P1)
P2)
P3)
P4) En ambos casos se rechaza 𝐻𝑜. Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina, por lo tanto, el modelo estimado es:
𝐻0: 𝛽1 = 0
𝐻1: 𝛽1 ≠ 0
𝐻0: 𝛽2 = 0
𝐻1: 𝛽2 ≠ 0
𝛼 = 0.05
𝑡 =
𝑏1
𝑆𝑏1
∼ 𝑡 )𝐺𝐿(𝐸𝐸 𝑡 =
−5.4449
0.5317316
= −10.24
𝑡 =
−17.04
3.704712
= −4.5995 𝑡 12,0.95 = 2.179
Y = 550.325 – 5.445X1 – 17.04 X2 
Métodos Estadísticos para la Investigación I 2021-I
ESTIMACIÓN Y PREDICCIÓN POR INTERVALO
INTERVALO DE CONFIANZA
Para un valor medio:
Donde:
INTERVALO DE PREDICCIÓN
Para un valor individual:
Donde:
0 0 0ˆ ˆ0 01 ; 1 1 ; 1
2 2
ˆ ˆ
y y X y
n k n k
y t S y t S
 
    
        
   
 
    
 
 
0 0 0 0ˆ ˆ0 0 01 ; 1 1 ; 1
2 2
ˆ ˆ
y y y y
n k n k
y t S y y t S
     
        
   
 
    
 
 
0
2
ŷS S
' -1
0 0X (X´X) X
0 0
2
ˆ (1y yS S 
' -1
0 0+ X (X´X) X )
Métodos Estadísticos para la Investigación I 2021-I
Valores pronosticados para nuevas observaciones
Nueva Ajuste
Obs Ajuste SE IC de 95% PI de 95%
1 203.8 12.4 (176.7, 230.9) (110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs X1 x2
1 48.0 5.00
Reporte Minitab de ayuda
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II 
j) Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es:Y = 550.325 – 5.445(48) – 17.04(5) = 203.8
Intervalo
IC :(176.7, 230.9)
k) Estime al 95% de confianza el consumo mensual individual de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es:Y = 550.325 – 5.445(48) – 17.04(5) = 203.8.
Intervalo:
IP: (110.1, 297.4)
Métodos Estadísticos para la Investigación I 2021-I
EJERCICIO PROPUESTO
El gerente de una empresa inmobiliaria realiza un estudio de precios en una
muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un
solo centro comercial. Se consideran en el análisis las siguientes variables:
Y: Precio de la vivienda (en miles de dólares)
X1: Área construida de la vivienda (en metros cuadrados)
X2: Distancia al centro comercial (en metros) y
X3:Antigüedad de la vivienda (en años)
Análisis de regresión: Precio vs. Area, Distancia, Antigüedad 
Predictor Coef SECoef T 
Constante 75.73 16.77 4.52 
Área 0.2849 0.0332 8.58 
Distancia 0.0092 0.0134 0.69
Antigüedad -3.377 1.4942 -2.26 
Métodos Estadísticos para la Investigación I 2021-I
EJERCICIO PROPUESTO
a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente
estimado para la variable antigüedad
b) Determine si el modelo es significativo. Use α = 0.05
a) Calcule e interprete el coeficiente de determinación.
b) Determine el mejor modelo. Use α = 0.05
c) Estime el precio de la vivienda, con una área construida de 90 metros
cuadrados, que tiene una distancia al centro comercial de 50 metros y con
una antigüedad de 5 años.
Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total
Métodos Estadísticos para la Investigación I 2021-I

Continuar navegando