Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística I Cuadernillo N°12 -2- www.grupolamatriz.com ANÁLISIS DE REGRESIÓN LINEAL SIMPLE INTRODUCCIÓN En esta parte del curso vamos a determinar la relación matemática que existe entre dos variables. Existen dos formas de estudiar la asociación o relación entre dos variables cuantitativas. La primera forma se denomina correlación, que como ya vimos en el capítulo anterior, consiste en estudiar el tipo o sentido y el nivel o grado de relación que presentan dos variables. La medida que indica el tipo o sentido de la relación se denomina Covarianza, y la medida que indica el nivel o grado de relación se denomina Coeficiente de Correlación. La segunda forma se denomina regresión, que consiste en determinar una relación matemática y funcional (denominada línea o ecuación de regresión), que nos permita predecir el valor de una de las variables (denominada variable dependiente), en base al valor de la otra variable (denominada variable independiente o explicativa). La ecuación de regresión será confiable si existe un alto grado de correlación entre las variables indicado por el coeficiente de determinación. REGRESIÓN LINEAL SIMPLE Tiene como objetivo estimar y analizar una ecuación o modelo matemático, que describa la relación funcional existente entre una variable en estudio Y, denominada variable dependiente, y otra variable en estudio X, denominada variable independiente o explicativa. = →y f(x) ecuación o modelo de regresión Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la información proporcionada por la variable explicativa o independiente X, para describir adecuadamente el comportamiento de la variable dependiente Y. Análisis de Regresión Lineal Simple www.grupolamatriz.com -3- Variable dependiente (Y): Es la variable que se desea predecir. Variable independiente (X): Es la variable que proporciona los datos para la predicción de la variable dependiente. Ecuación o Modelo de regresión lineal simple. Expresión matemática que define la relación lineal entre dos variables, una dependiente y la otra independiente. Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico. Se forma sobre el supuesto de linealidad, el que indica que todas las medias de la variable Y para los diferentes valores de Xi, caerán sobre una línea recta, lo que generará la siguiente línea o ecuación de regresión: y.x 0 1 ii .X = + Donde: 0 : Coeficiente de intersección poblacional. (Intercepto de la línea de regresión) Expresa el valor de la media de Y cuando X = 0. 1 : Coeficiente de regresión poblacional. (Pendiente de la línea de regresión) Mide el cambio promedio en Y cuando X aumenta una unidad. Observaciones: Si 1 0 entonces, la media de Y aumenta. Si 1 0 entonces, la media de Y disminuye. Modelo de regresión lineal simple Estadístico. Es el que incluye un componente aleatorio. El término aleatorio residual o del error, expresa el efecto del muestreo aleatorio y el efecto de no haber incluido en el modelo a otras variables explicativas. El valor observado de Y (Yi) será igual al valor medio de Y para cada valor de X ( y xi ), más una desviación i, es decir: i y x iiY = + Por lo tanto: i y x i 0 1 i iiY X= + = + + Análisis de Regresión Lineal Simple -4- www.grupolamatriz.com Donde: Yi = Valor observado. y xi = Valor medio de Y para cada valor de X. i = Término aleatorio residual o del error. SUPUESTOS sobre MODELO ESTADÍSTICO de RLS 1. La relación funcional entre X e Y puede ser expresada por: = + + =i 0 1 i iY X , i 1, 2,...,k Siendo: y x 0 1 ii X = + = + i y x iiY , 2. Los términos aleatorios de error residual i son independientes, y son tales que: i. = = = i ii0 E 0 ii. = 2 2 ii E iii. = i jE[ ] 0 i j iv. La distribución de los errores o residuales se ajusta a la distribución Normal. 3. Los valores de Xi son fijados y medidos sin error. 4. Para cada valor de Xi, los valores de Y tienen una distribución normal: 2 y.x y.xY N( , ) . 5. Las distribuciones de Y para los diferentes valores de X tienen igual variancia, a esto se le denomina HOMOCEDASTICIDAD. 2 2 2 2 y.x y.x y.x1 2 k...... = = = = 6. Los valores de Y, para cada valor de X, son obtenidos de una muestra aleatoria. Análisis de Regresión Lineal Simple www.grupolamatriz.com -5- ESTIMACIÓN DE LOS PARÁMETROS 0 y 1 Para la estimación de los parámetros 0 y 1 solo se requiere el cumplimiento de algunos de los supuestos establecidos anteriormente. El objetivo es determinar las características de los estimadores b0 y b1 para los parámetros 0 y 1, en base a un conjunto de n pares de observaciones o puntos muestrales (Xi, Yi). Es decir, se desea obtener la siguiente ecuación o línea de regresión estimada: i y x 0 1 iiŶ b b Xˆ = = + Donde: b0: coeficiente de intersección muestral (estimador de 0 ) b1: coeficiente de regresión muestral (estimador de 1 ) Para el caso de una muestra, cada valor observado de Y (Yi) será: i i i y x ii ˆY Y e eˆ = + = + i 0 1 i iY b b X e= + + Donde i i ie y ŷ= − mide la desviación de cada valor observado iY con respecto a la línea de regresión estimada. Lo que buscamos es determinar las características de los estimadores b0 y b1 que hacen más pequeñas las desviaciones ei: = − −i i 0 1 ie Y b b X • • Y XX xi Y iŶ Yi i(y Y)− i i(x ,y ) o 1 ŷ b b x= + i iˆ(y y )− iŷ Y− • Análisis de Regresión Lineal Simple -6- www.grupolamatriz.com Ecuación de Regresión Lineal Simple Estimada Se expresa de la siguiente manera: = +0 1Ŷ b b X A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de ecuaciones normales: + = o 1 i inb b X Y (1) + = 2 0 i 1 i i ib X b X X Y (2) Donde b0 y b1 son las incógnitas. La solución de este sistema genera los llamados: “estimadores mínimos cuadráticos” que son los estimadores de los parámetros 0 y 1. Así tenemos: − = − i i i i 1 2 2 ii n X Y X . Y b n X [ X ] ó = = XY1 2 X SP(X, Y) S b SC(X) S = −0 1b Y b X ó − = i i1 0 Y b X b n Siendo: * = − = − i i i i i i X Y SP(X, Y) X Y nXY X Y n * = − = − 2 2 i2 2 i i [ X ] SC(X) X nX X n * = = − − = = − − n n i i i i i i i 1 i 1 XY X Y X Y nXY X Y n S n 1 n 1 * = = − − = = − − 2n n22 2 i i i 2 i 1 i 1 x [ X ] X nX X n S n 1 n 1 Análisis de Regresión Lineal Simple www.grupolamatriz.com -7- Propiedades de la línea de regresión estimada: 1. n i i 1 e 0 = = 2. n 2 i i 1 e = es un valor mínimo. 3. El punto (X, Y) pertenece a la línea de regresión estimada. 4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes. 5. n n ii i 1 i 1 y y = = = 6. n i i i 1 x e 0 = = 7. n n ii i i i 1 i 1 x y x y = = = 8. n i i i 1 y e 0 = = COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación se define como el cociente entre la variación explicada por la regresión y la variación total del modelo. Expresa la proporción de la variación total que es explicada por la línea de regresión estimada. 2 2 SC(Reg.) r = 0 r 1 SC(Total) El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la recta de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión y más útil será dicha ecuación de regresión como instrumento de predicción de los valores de Y. Si su valor es 0, expresa que el 0 % de la variación total observada en la variableY, es explicada por la línea de regresión estimada. Si su valor es 1, se expresa que el 100 % de la variación total observada en la variable Y, es explicada por la línea de regresión estimada. 2Coeficiente de Determinación = [Coeficiente de Correlación de Pearson]
Compartir