Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
X. Análisis de regresión y correlación 10.1. Análisis de regresión El análisis de regresión determina la relación o la dependencia entre una o varias variables independientes con una dependiente y permite realizar la correspondiente predicción. La idea es expresar esta relación mediante una expresión matemática, hallando una ecuación que explique dicha relación entre las variables independientes y la dependiente. El elemento crítico consiste en encontrar un modelo que represente esa relación de mejor manera posible. Por ejemplo en qué manera incide el ingreso familiar sobre el gasto del hogar. Se sabe que el gasto depende del ingreso, sin embargo el análisis de regresión sirve para medir matemáticamente esa dependencia. 10.1.1. Diagrama de dispersión El diagrama de dispersión o gráfica de dispersión o gráfico de burbujas gráfico de bolas se utiliza para mostrar el tipo de relación que existe entre los valores de dos variables de dos variables cuantitativas. Es un gráfico de puntos en base a los cuales se observa el comportamiento de una variable con respecto a otra. Por ejemplo: si se quisiera ver cómo cambia el peso del cuerpo en función de la talla o estatura. Talla Peso 4.47 163.00 5.86 178.00 4.97 170.00 6.80 201.00 4.24 140.00 5.80 183.31 6.30 189.00 4.34 155.33 4.83 158.00 5.06 193.00 10.1.2. Tipos de regresión Regresión lineal simple →Y = a + bX Regresión no lineal simple →Y = a + b2x o también Y=a+bX2 Regresión lineal múltiple →Y = a + b1X1 + b2 X2 + b3X3 +… + bnXn Regresión no lineal múltiple →Y = a + b1X1 + b2 X22 + b3 log(X3) +… + bnXn Cualquier coeficiente ꞵk ó bk de un modelo de regresión pueden variar desde (-∞< ꞵk<∞). Si resulta ꞵk=0 indica que la variable independiente o predictora no tiene influencia sobre la dependiente. Si resulta ꞵk<0 indica que la variable independiente o predictora tiene una influencia negativa sobre la dependiente. Si resulta ꞵk>0 indica que la variable independiente o predictora tiene una influencia positiva sobre la dependiente. Si resulta ꞵ0=0 indica que el modelo o ecuación de regresión atraviesa por el punto (x=0,y=0) o por el origen de un plano o sistema cartesiano 10.1.3. Análisis de regresión simple Y = a + b*X Coeficientes del modelo de regresión lineal simple Un modelo de regresión lineal simple, como este Y = a + b*X = ꞵ0+ꞵ1X, tiene dos parámetros (a y b o ꞵ0 y ꞵ1). Para determinar los valores (a y b), se procede de la siguiente manera: 120.00 140.00 160.00 180.00 200.00 4.00 4.50 5.00 5.50 6.00 6.50 7.00 P es o e n l ib ra s Talla (pies) Diagrama de dispensión Se formula el sistema de ecuaciones Resolviendo el sistema se despejan los valores (a y b) En una ecuación de regresión lineal simple Y = a + b*X. La variable “X” se le identifica como la variable independiente. La variable “Y” se denomina variable dependiente, la cual asume valores en función de la X. El valor “a” expresa el valor que asume la variable Y cuando la X sea cero. El valor “b” indica la cantidad de unidades que incrementa la variable Y por cada unidad que se incremente la variable X. Emple- ados Horas extra Ingreso Marginal I X Y X*Y X2 1 4 22,915.00 91,660 16 247,741 *685 - 85*1,797,686 a= ――――――――――――――= 12*685 – 852 a=16,984.20 12*1,797,686 - 85*247,741 b= ――――――――――――― = 12*685 - 852 b=516.83 2 8 17,890.00 143,120 64 3 5 20,113.00 100,565 25 4 4 19,481.00 77,924 16 5 8 26,351.00 210,808 64 6 7 18,462.00 129,234 49 7 11 23,622.00 259,842 121 8 8 20,553.00 164,424 64 9 4 16,139.00 64,556 16 10 5 18,440.00 92,200 25 11 12 23,126.00 277,512 144 12 9 20,649.00 185,841 81 Total 85 247,741.00 1,797,686 685 La ecuación resultante es Ŷ = a + b*X = 16,984.20 + 516.83X, lo que indica que cada vez que se incremente una hora extra de trabajo el ingreso marginal de la empresa se incrementará en 516.83 pesos. 22 2 )(* xxn xyxxy a 22 )(* * xxn yxxyn b 22 2 )(* xxn xyxxy a 22 )(* * xxn yxxyn b 10.2. El coeficiente de determinación El coeficiente de determinación, mide la bondad del ajuste relativo del modelo o ecuación de regresión. Indica la cantidad de variación de Y que se explica en la ecuación de regresión. Desviación total de Y Es la diferencia entre los valores observados y su promedio. Desviación Total = y - ӯ Desviación no explicada Corresponde al Error o Residual y se define como la diferencia entre los valores observados y los valores calculados a través de la ecuación de regresión: Desviación no explicada = y - ŷ Desviación Explicada Corresponde a la diferencia entre los valores calculados a través de la ecuación de regresión y el valor promedio de los valores observados. Desviación explicada = ŷ - ӯ Desviación Total = Desviación No Explicada + Desviación Explicada Dentro de la teoría de los mínimos cuadrados, elevando al cuadrado cada una de las desviaciones y sumando las correspondientes a los “n valores, se obtienen los siguientes estadísticos: a) SCT o suma de cuadrados total b) SCE o suma del cuadrado del error c) SCR o suma del cuadrado de la regresión )ˆ()ˆ()( yyyyyy 2)( yy 2)ˆ( yy 2)ˆ( yy De lo cual, se cumple la relación: SCT=SCE+SCR El coeficiente de determinación R2 se calcula: Este coeficiente toma valores entre: [0 y 1] Si el valor de R2=0.75, indica que el 75% de las variaciones, son explicadas por las variables utilizadas para calcular el modelo de regresión. I Cantidad de horas extra Ingreso Marginal Ŷ = a + b X (Y-Ŷ)2 (Y - ӯ)2 X Y 1 4 22,915.00 19,052 14,926,473.05 5,152,521.67 2 8 17,890.00 21,119 10,425,441.49 7,590,484.17 3 5 20,113.00 19,568 296,641.71 283,112.67 4 4 19,481.00 19,052 184,452.55 1,355,090.01 5 8 26,351.00 21,119 27,375,443.58 32,557,485.01 6 7 18,462.00 20,602 4,579,660.22 4,765,852.84 7 11 23,622.00 22,669 907,563.56 8,862,032.84 8 8 20,553.00 21,119 320,180.82 8,479.34 9 4 16,139.00 19,052 8,482,776.26 20,304,787.01 10 5 18,440.00 19,568 1,273,177.69 4,862,392.51 11 12 23,126.00 23,186 3,620.41 `6,154,947.51 12 9 20,649.00 21,636 973,530.28 15.34 Total 85 247,741.00 247,741 69,748,961.64 91,897,200.92 R2 = (91,897,200.9 - 69,748,961.64)/ 91,897,200.9 =0.241. Este R2 tan bajo indica que la ecuación de regresión Ŷ = a + b X no expresa muy bien el impacto de la cantidad de horas extra pagadas sobre el ingreso marginal de la empresa. La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3,…). SCT SCR R 2 SCT SCE R 12 - R2= = 2)( yy 2)ˆ( yy 2)( yy 10.3. Análisis de regresión con k variables independientes y una dependiente. Y = b0+ b1X1 + b2X2 + ⋯+ bkXk + ei También se escribe de la siguiente manera: Y = ꞵ0+ ꞵ1X1 + ꞵ2X2 + ⋯+ βkXk + ei Donde las X1, X2,…, Xk son las variables independientes. Yes la variable dependiente, ꞵ0 es el intercepto o término independiente. Y los ꞵ1, ꞵ2,…, βk son los coeficientes de la ecuación o modelo de regresión. Ejemplo: Las ventas (y) de la empresa dependen de cinco variables básicas: Calidad del producto (x1), número de vendedores (x2), horas de publicidad (x3), experiencia de los vendedores (x4), precios del producto (x5). Ŷ=ꞵ0 + ꞵ1X1 + ꞵ2X2 + ꞵ3X3 + ꞵ4X4 + ꞵ5X5 Ŷ =16.4129-0.3916X1+0.2263X2+0.2253X3+0.0909X4-0.4461X5I Y X1 X2 X3 X4 X5 1 8 5 8 5 11 25.20 2 7 6 12 8 9 21.81 3 8 5 7 10 7 28.00 4 8 6 11 10 7 20.25 5 12 1 8 11 4 21.36 6 14 5 12 12 10 22.73 7 10 4 12 8 4 25.58 8 6 1 6 10 7 24.94 9 8 5 6 9 2 24.35 10 5 6 8 8 9 28.71 11 6 5 9 13 7 27.15 12 12 4 6 10 10 20.30 Total 104 Ӯ 8.67 ꞵK= 16.4129 -0.3916 0.2263 0.2253 0.0909 -0.4461 Interpretación de los ꞵk: Las ventas de la empresa incrementarán en -0.3916 unidades $, por cada que aumente la calidad del producto (x1), manteniendo constante las demás variables. Las ventas de la empresa incrementarán en 0.2263 unidades $, por cada vendedor que se incremente (x2), manteniendo constante las demás variables. Las ventas de la empresa incrementarán en 0.2253 unidades $, por cada hora de publicidad (x3) que se aumente, manteniendo constante las demás variables. Las ventas de la empresa incrementarán en 0.0909 unidades $, por cada año de experiencia de los vendedores (x4) que se aumente, manteniendo constante las demás variables. Las ventas de la empresa incrementarán en -0.4461 unidades $, por cada unidad de precios del producto (x5) que se aumente, manteniendo constante las demás variables. 10.4. Análisis de correlación El coeficiente de correlación establece una medida del grado de asociación lineal entre dos variables. En este caso una variable no depende de la otra, sino que comparten un relación presencia conjunta. Por ejemplo la demanda de arroz y la demanda de habichuelas, son dos variables independientes pero que mantienen una conjunción en lo que respecta al consumo de ambas. Esta asociación se mide y se analiza a través del Coeficiente de correlación, el cual se expresa en dos modalidades de acuerdo a los autores. Este indicador puede tomar valores dentro del rango [1,-1], donde el valor de r=0 indica que no hay asociación entre las dos variables, si es r>0 indica una asociación positiva, en este caso las variables crecen o decrecen en un mismo sentido. Un valor de r<0 indica una asociación negativa o que significa que a medida que aumenta una variable, la otra disminuye. 10.4.1. El coeficiente de correlación simple de Pearson Es una prueba que mide la relación estadística entre dos variables continuas que tienen una asociación lineal. Mide la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), Es una medida del grado de asociación lineal entre las variables X e Y. Se representa por r. donde sx, sy son las desviaciones típicas de las variables X e Y respectivamente, y Sxy es la covarianza muestral de X e Y. Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ʃ XY – ƩX *ƩY / n r = ───────────────── ___________ ___________ √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n Ejemplo: horas extra Ingreso Marginal Emple- ados X Y X*Y X 2 Y2 1 4 22,915.00 91,660 16 525,097,225 2 8 17,890.00 143,120 64 320,052,100 3 5 20,113.00 100,565 25 404,532,769 4 4 19,481.00 77,924 16 379,509,361 5 8 26,351.00 210,808 64 694,375,201 6 7 18,462.00 129,234 49 340,845,444 7 11 23,622.00 259,842 121 557,998,884 8 8 20,553.00 164,424 64 422,425,809 9 4 16,139.00 64,556 16 260,467,321 10 5 18,440.00 92,200 25 340,033,600 11 12 23,126.00 277,512 144 534,811,876 12 9 20,649.00 185,841 81 426,381,201 Total 85 247,741 1,797,686 685 5,206,530,791 Media 7.08 20,645.08 Este coeficiente de correlación de r=0.491 indica que existe una baja o pobre relación entre horas extra pagadas y el ingreso marginal. Por lo general se espera que r ≥ 0.80. Si se aplica a la población, el Coeficiente de Pearson poblacional (ρ). 10.4.2. Propiedades del análisis de correlación Esto indica que siempre que haya regresión entre dos variables habrá correlación entre ellas. Pero, no siempre que haya correlación hay regresión. Porque el análisis de correlación es más amplio que el de regresión. 12 x 1,797,686 - 85x247,741 r= = 0.491 12 x 685 - 852 x 12x5,206,530,791 - 247,7412 ρ= - R2= = 2)( yy 2)ˆ( yy 2)( yy Correlación Regresión r está siempre comprendido entre -1 y 1. Si r = 1 ó r = -1 entonces los puntos de la muestra están situados en línea recta (correlación lineal perfecta). Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre ambas variables. Si r es cercano a 0, habrá una asociación lineal muy débil. r no varía cuando en las variables se realiza un cambio de escala o de origen. Esto demuestra que r no tiene dimensión.
Compartir