Logo Studenta

Cuadernillo 12 (Regresión Lineal Simple) - Maria Cristina Rodriguez Escalante

¡Estudia con miles de materiales!

Vista previa del material en texto

Estadística I 
 
Cuadernillo N°12 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
-2- www.grupolamatriz.com 
 
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE 
 
 
 
INTRODUCCIÓN 
En esta parte del curso vamos a determinar la relación matemática que existe entre dos 
variables. 
Existen dos formas de estudiar la asociación o relación entre dos variables cuantitativas. 
La primera forma se denomina correlación, que como ya vimos en el capítulo anterior, 
consiste en estudiar el tipo o sentido y el nivel o grado de relación que presentan dos 
variables. La medida que indica el tipo o sentido de la relación se denomina Covarianza, y 
la medida que indica el nivel o grado de relación se denomina Coeficiente de Correlación. 
La segunda forma se denomina regresión, que consiste en determinar una relación 
matemática y funcional (denominada línea o ecuación de regresión), que nos permita 
predecir el valor de una de las variables (denominada variable dependiente), en base al 
valor de la otra variable (denominada variable independiente o explicativa). 
La ecuación de regresión será confiable si existe un alto grado de correlación entre las 
variables indicado por el coeficiente de determinación. 
 
 
REGRESIÓN LINEAL SIMPLE 
Tiene como objetivo estimar y analizar una ecuación o modelo matemático, que describa 
la relación funcional existente entre una variable en estudio Y, denominada variable 
dependiente, y otra variable en estudio X, denominada variable independiente o 
explicativa. 
= →y f(x) ecuación o modelo de regresión 
 
Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la información 
proporcionada por la variable explicativa o independiente X, para describir adecuadamente 
el comportamiento de la variable dependiente Y. 
 
Análisis de Regresión Lineal Simple 
 
 www.grupolamatriz.com -3- 
Variable dependiente (Y): Es la variable que se desea predecir. 
Variable independiente (X): Es la variable que proporciona los datos para la predicción 
de la variable dependiente. 
 
Ecuación o Modelo de regresión lineal simple. 
Expresión matemática que define la relación lineal entre dos variables, una dependiente y 
la otra independiente. 
 
Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico. 
Se forma sobre el supuesto de linealidad, el que indica que todas las medias de la variable 
Y para los diferentes valores de Xi, caerán sobre una línea recta, lo que generará la 
siguiente línea o ecuación de regresión: 
y.x 0 1 ii .X =  +  
Donde: 
0 : Coeficiente de intersección poblacional. (Intercepto de la línea de regresión) 
 Expresa el valor de la media de Y cuando X = 0. 
1 : Coeficiente de regresión poblacional. (Pendiente de la línea de regresión) 
 Mide el cambio promedio en Y cuando X aumenta una unidad. 
 
Observaciones: 
 Si 1 0  entonces, la media de Y aumenta. 
 Si 1 0  entonces, la media de Y disminuye. 
 
Modelo de regresión lineal simple Estadístico. 
Es el que incluye un componente aleatorio. 
El término aleatorio residual o del error, expresa el efecto del muestreo aleatorio y el 
efecto de no haber incluido en el modelo a otras variables explicativas. 
El valor observado de Y (Yi) será igual al valor medio de Y para cada valor de X ( y xi ), 
más una desviación i, es decir: i y x iiY =  +  
Por lo tanto: i y x i 0 1 i iiY X=  +  =  +  +  
 
Análisis de Regresión Lineal Simple 
-4- www.grupolamatriz.com 
Donde: Yi = Valor observado. 
 y xi = Valor medio de Y para cada valor de X. 
 i = Término aleatorio residual o del error. 
 
SUPUESTOS sobre MODELO ESTADÍSTICO de RLS 
1. La relación funcional entre X e Y puede ser expresada por: 
 
=  +  +  =i 0 1 i iY X , i 1, 2,...,k 
 
 Siendo: y x 0 1 ii X =  +   =  + i y x iiY , 
 
2. Los términos aleatorios de error residual i son independientes, y son tales que: 
 i.   =   =  = i ii0 E 0 
 ii.    =  
2 2
ii E 
 iii.    =  i jE[ ] 0 i j 
 iv. La distribución de los errores o residuales se ajusta a la distribución Normal. 
 
3. Los valores de Xi son fijados y medidos sin error. 
 
4. Para cada valor de Xi, los valores de Y tienen una distribución normal: 
 
2
y.x y.xY N( , )   . 
 
5. Las distribuciones de Y para los diferentes valores de X tienen igual variancia, a esto 
se le denomina HOMOCEDASTICIDAD. 
2 2 2 2
y.x y.x y.x1 2 k......  =  = =  =  
 
6. Los valores de Y, para cada valor de X, son obtenidos de una muestra aleatoria. 
 
Análisis de Regresión Lineal Simple 
 
 www.grupolamatriz.com -5- 
ESTIMACIÓN DE LOS PARÁMETROS 0 y 1 
Para la estimación de los parámetros 0 y 1 solo se requiere el cumplimiento de algunos 
de los supuestos establecidos anteriormente. 
El objetivo es determinar las características de los estimadores b0 y b1 para los 
parámetros 0 y 1, en base a un conjunto de n pares de observaciones o puntos 
muestrales (Xi, Yi). 
Es decir, se desea obtener la siguiente ecuación o línea de regresión estimada: 
 
i y x 0 1 iiŶ b b Xˆ =  = + 
 
Donde: b0: coeficiente de intersección muestral (estimador de 0 ) 
 b1: coeficiente de regresión muestral (estimador de 1 ) 
 
Para el caso de una muestra, cada valor observado de Y (Yi) será: 
i i i y x ii
ˆY Y e eˆ = + =  +  i 0 1 i iY b b X e= + + 
 
Donde i i ie y ŷ= − mide la desviación de cada valor observado iY con respecto a la línea de 
regresión estimada. 
 
 
 
 
 
 
 
 
 
 
Lo que buscamos es determinar las características de los estimadores b0 y b1 que hacen 
más pequeñas las desviaciones ei: = − −i i 0 1 ie Y b b X 
 
 
•
•
Y
XX xi
Y
iŶ
Yi
i(y Y)−
i i(x ,y ) o 1
ŷ b b x= +
i iˆ(y y )−
iŷ Y−
•
Análisis de Regresión Lineal Simple 
-6- www.grupolamatriz.com 
 
Ecuación de Regresión Lineal Simple Estimada 
Se expresa de la siguiente manera: = +0 1Ŷ b b X 
A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de 
ecuaciones normales: 
 
 + = o 1 i inb b X Y (1) 
 + =  
2
0 i 1 i i ib X b X X Y (2) 
 
Donde b0 y b1 son las incógnitas. 
 La solución de este sistema genera los llamados: “estimadores mínimos cuadráticos” 
que son los estimadores de los parámetros 0 y 1. 
Así tenemos: 
−
=
−
  
 
i i i i
1 2 2
ii
n X Y X . Y
b
n X [ X ]
ó = = XY1 2
X
SP(X, Y) S
b
SC(X) S
 
 
= −0 1b Y b X ó 
−
=
 i i1
0
Y b X
b
n
 
 
Siendo: 
 * = − = −
 
 
i i
i i i i
X Y
SP(X, Y) X Y nXY X Y
n
 
 * = − = −

 
2
2 i2 2
i i
[ X ]
SC(X) X nX X
n
 
 
 * = =
 
− − 
= =
− −
n n
i i
i i i i
i 1 i 1
XY
X Y
X Y nXY X Y
n
S
n 1 n 1
 
 * = =

− − 
= =
− −
2n n22 2 i
i i
2 i 1 i 1
x
[ X ]
X nX X
n
S
n 1 n 1
 
 
 
Análisis de Regresión Lineal Simple 
 
 www.grupolamatriz.com -7- 
Propiedades de la línea de regresión estimada: 
1. 
n
i
i 1
e 0
=
= 
2. 
n
2
i
i 1
e
=
 es un valor mínimo. 
3. El punto (X, Y) pertenece a la línea de regresión estimada. 
4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes. 
5. 
n n
ii
i 1 i 1
y y
= =
=  
6. 
n
i i
i 1
x e 0
=
= 
7. 
n n
ii i i
i 1 i 1
x y x y
= =
=  
8. 
n
i i
i 1
y e 0
=
= 
 
 
COEFICIENTE DE DETERMINACIÓN 
El coeficiente de determinación se define como el cociente entre la variación explicada por 
la regresión y la variación total del modelo. 
Expresa la proporción de la variación total que es explicada por la línea de regresión 
estimada. 
 2 2
SC(Reg.)
r = 0 r 1
SC(Total)
 
El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la recta 
de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión y más útil 
será dicha ecuación de regresión como instrumento de predicción de los valores de Y. 
Si su valor es 0, expresa que el 0 % de la variación total observada en la variableY, es 
explicada por la línea de regresión estimada. 
Si su valor es 1, se expresa que el 100 % de la variación total observada en la variable Y, 
es explicada por la línea de regresión estimada. 
2Coeficiente de Determinación = [Coeficiente de Correlación de Pearson]

Continuar navegando