Logo Studenta

Análisis de regresión y correlación

¡Estudia con miles de materiales!

Vista previa del material en texto

X. Análisis de regresión y correlación 
 
10.1. Análisis de regresión 
 
El análisis de regresión determina la relación o la dependencia entre una o varias variables 
independientes con una dependiente y permite realizar la correspondiente predicción. 
 
La idea es expresar esta relación mediante una expresión matemática, hallando una ecuación 
que explique dicha relación entre las variables independientes y la dependiente. 
 
El elemento crítico consiste en encontrar un modelo que represente esa relación de mejor 
manera posible. 
 
Por ejemplo en qué manera incide el ingreso familiar sobre el gasto del hogar. Se sabe que el 
gasto depende del ingreso, sin embargo el análisis de regresión sirve para medir 
matemáticamente esa dependencia. 
 
10.1.1. Diagrama de dispersión 
 
El diagrama de dispersión o gráfica de dispersión o gráfico de burbujas gráfico de bolas se 
utiliza para mostrar el tipo de relación que existe entre los valores de dos variables de dos 
variables cuantitativas. Es un gráfico de puntos en base a los cuales se observa el 
comportamiento de una variable con respecto a otra. Por ejemplo: si se quisiera ver cómo 
cambia el peso del cuerpo en función de la talla o estatura. 
 
Talla Peso 
 4.47 163.00 
5.86 178.00 
4.97 170.00 
6.80 201.00 
4.24 140.00 
5.80 183.31 
6.30 189.00 
4.34 155.33 
4.83 158.00 
5.06 193.00 
 
 
 
10.1.2. Tipos de regresión 
 
 Regresión lineal simple →Y = a + bX 
 Regresión no lineal simple →Y = a + b2x o también Y=a+bX2 
 Regresión lineal múltiple →Y = a + b1X1 + b2 X2 + b3X3 +… + bnXn 
 Regresión no lineal múltiple →Y = a + b1X1 + b2 X22 + b3 log(X3) +… + bnXn 
 
Cualquier coeficiente ꞵk ó bk de un modelo de regresión pueden variar desde (-∞< ꞵk<∞). 
 
 Si resulta ꞵk=0 indica que la variable independiente o predictora no tiene influencia sobre 
la dependiente. 
 Si resulta ꞵk<0 indica que la variable independiente o predictora tiene una influencia 
negativa sobre la dependiente. 
 Si resulta ꞵk>0 indica que la variable independiente o predictora tiene una influencia 
positiva sobre la dependiente. 
 Si resulta ꞵ0=0 indica que el modelo o ecuación de regresión atraviesa por el punto 
(x=0,y=0) o por el origen de un plano o sistema cartesiano 
 
10.1.3. Análisis de regresión simple 
 
Y = a + b*X 
 
Coeficientes del modelo de regresión lineal simple 
 
Un modelo de regresión lineal simple, como este Y = a + b*X = ꞵ0+ꞵ1X, tiene dos parámetros 
(a y b o ꞵ0 y ꞵ1). 
Para determinar los valores (a y b), se procede de la siguiente manera: 
 
 
 120.00
 140.00
 160.00
 180.00
 200.00
 4.00 4.50 5.00 5.50 6.00 6.50 7.00
P
es
o
 e
n
 l
ib
ra
s
Talla (pies)
Diagrama de dispensión
 Se formula el sistema de ecuaciones 
 
 
 Resolviendo el sistema se despejan los valores (a y b) 
 
 
 
 
En una ecuación de regresión lineal simple Y = a + b*X. 
 La variable “X” se le identifica como la variable independiente. 
 La variable “Y” se denomina variable dependiente, la cual asume valores en función de la 
X. 
 El valor “a” expresa el valor que asume la variable Y cuando la X sea cero. 
 El valor “b” indica la cantidad de unidades que incrementa la variable Y por cada unidad 
que se incremente la variable X. 
 
Emple-
ados 
Horas 
extra 
Ingreso 
Marginal 
 
 
I X Y X*Y X2 
1 4 22,915.00 91,660 16 
 
 
 247,741 *685 - 85*1,797,686 
 a= ――――――――――――――= 
 12*685 – 852 
 
a=16,984.20 
 
 
 12*1,797,686 - 85*247,741 
 b= ――――――――――――― = 
 12*685 - 852 
 
b=516.83 
 
2 8 17,890.00 143,120 64 
3 5 20,113.00 100,565 25 
4 4 19,481.00 77,924 16 
5 8 26,351.00 210,808 64 
6 7 18,462.00 129,234 49 
7 11 23,622.00 259,842 121 
8 8 20,553.00 164,424 64 
9 4 16,139.00 64,556 16 
10 5 18,440.00 92,200 25 
11 12 23,126.00 277,512 144 
12 9 20,649.00 185,841 81 
Total 85 247,741.00 1,797,686 685 
 
La ecuación resultante es Ŷ = a + b*X = 16,984.20 + 516.83X, lo que indica que cada vez 
que se incremente una hora extra de trabajo el ingreso marginal de la empresa se incrementará 
en 516.83 pesos. 
 
 



22
2
)(* xxn
xyxxy
a
 
 



22 )(*
*
xxn
yxxyn
b
 
 



22
2
)(* xxn
xyxxy
a
 
 



22 )(*
*
xxn
yxxyn
b
10.2. El coeficiente de determinación 
 
El coeficiente de determinación, mide la bondad del ajuste relativo del modelo o ecuación de 
regresión. Indica la cantidad de variación de Y que se explica en la ecuación de regresión. 
Desviación total de Y 
 
Es la diferencia entre los valores observados y su promedio. 
 
Desviación Total = y - ӯ 
 
Desviación no explicada 
 
Corresponde al Error o Residual y se define como la diferencia entre los valores observados 
y los valores calculados a través de la ecuación de regresión: 
 
Desviación no explicada = y - ŷ 
 
Desviación Explicada 
 
Corresponde a la diferencia entre los valores calculados a través de la ecuación de regresión 
y el valor promedio de los valores observados. 
Desviación explicada = ŷ - ӯ 
 
Desviación Total = Desviación No Explicada + Desviación Explicada 
 
 
 
Dentro de la teoría de los mínimos cuadrados, elevando al cuadrado cada una de las 
desviaciones y sumando las correspondientes a los “n valores, se obtienen los siguientes 
estadísticos: 
 
a) SCT o suma de cuadrados total 
 
 
b) SCE o suma del cuadrado del error 
 
 
c) SCR o suma del cuadrado de la regresión 
 
 
 
 
)ˆ()ˆ()( yyyyyy 
  2)( yy
  2)ˆ( yy
  2)ˆ( yy
De lo cual, se cumple la relación: 
 
SCT=SCE+SCR 
 
El coeficiente de determinación R2 se calcula: 
 
 
Este coeficiente toma valores entre: [0 y 1] 
 
Si el valor de R2=0.75, indica que el 75% de las variaciones, son explicadas por las variables 
utilizadas para calcular el modelo de regresión. 
I 
Cantidad de 
horas extra 
Ingreso 
Marginal Ŷ = a + b X (Y-Ŷ)2 (Y - ӯ)2 
X Y 
1 4 22,915.00 19,052 14,926,473.05 5,152,521.67 
2 8 17,890.00 21,119 10,425,441.49 7,590,484.17 
3 5 20,113.00 19,568 296,641.71 283,112.67 
4 4 19,481.00 19,052 184,452.55 1,355,090.01 
5 8 26,351.00 21,119 27,375,443.58 32,557,485.01 
6 7 18,462.00 20,602 4,579,660.22 4,765,852.84 
7 11 23,622.00 22,669 907,563.56 8,862,032.84 
8 8 20,553.00 21,119 320,180.82 8,479.34 
9 4 16,139.00 19,052 8,482,776.26 20,304,787.01 
10 5 18,440.00 19,568 1,273,177.69 4,862,392.51 
11 12 23,126.00 23,186 3,620.41 `6,154,947.51 
12 9 20,649.00 21,636 973,530.28 15.34 
Total 85 247,741.00 247,741 69,748,961.64 91,897,200.92 
 
 
 
R2 = (91,897,200.9 - 69,748,961.64)/ 91,897,200.9 =0.241. Este R2 tan bajo indica que la 
ecuación de regresión Ŷ = a + b X no expresa muy bien el impacto de la cantidad de horas 
extra pagadas sobre el ingreso marginal de la empresa. 
 
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la 
variable dependiente (Y) se determina a partir de un conjunto de variables independientes 
llamadas predictores (X1, X2, X3,…). 
 
SCT
SCR
R 2
SCT
SCE
R 12
 
 - 
R2= = 
 
  2)( yy   2)ˆ( yy
  2)( yy
10.3. Análisis de regresión con k variables independientes y una dependiente. 
 
Y = b0+ b1X1 + b2X2 + ⋯+ bkXk + ei 
 
También se escribe de la siguiente manera: 
 
Y = ꞵ0+ ꞵ1X1 + ꞵ2X2 + ⋯+ βkXk + ei 
 
Donde las X1, X2,…, Xk son las variables independientes. Yes la variable dependiente, ꞵ0 es 
el intercepto o término independiente. Y los ꞵ1, ꞵ2,…, βk son los coeficientes de la ecuación 
o modelo de regresión. 
 
Ejemplo: Las ventas (y) de la empresa dependen de cinco variables básicas: Calidad del 
producto (x1), número de vendedores (x2), horas de publicidad (x3), experiencia de los 
vendedores (x4), precios del producto (x5). 
 
Ŷ=ꞵ0 + ꞵ1X1 + ꞵ2X2 + ꞵ3X3 + ꞵ4X4 + ꞵ5X5 
 
Ŷ =16.4129-0.3916X1+0.2263X2+0.2253X3+0.0909X4-0.4461X5I Y X1 X2 X3 X4 X5 
1 8 5 8 5 11 25.20 
2 7 6 12 8 9 21.81 
3 8 5 7 10 7 28.00 
4 8 6 11 10 7 20.25 
5 12 1 8 11 4 21.36 
6 14 5 12 12 10 22.73 
7 10 4 12 8 4 25.58 
8 6 1 6 10 7 24.94 
9 8 5 6 9 2 24.35 
10 5 6 8 8 9 28.71 
11 6 5 9 13 7 27.15 
12 12 4 6 10 10 20.30 
Total 104 
Ӯ 8.67 
ꞵK= 16.4129 -0.3916 0.2263 0.2253 0.0909 -0.4461 
 
Interpretación de los ꞵk: 
 Las ventas de la empresa incrementarán en -0.3916 unidades $, por cada que aumente la 
calidad del producto (x1), manteniendo constante las demás variables. 
 Las ventas de la empresa incrementarán en 0.2263 unidades $, por cada vendedor que 
se incremente (x2), manteniendo constante las demás variables. 
 Las ventas de la empresa incrementarán en 0.2253 unidades $, por cada hora de 
publicidad (x3) que se aumente, manteniendo constante las demás variables. 
 Las ventas de la empresa incrementarán en 0.0909 unidades $, por cada año de 
experiencia de los vendedores (x4) que se aumente, manteniendo constante las demás 
variables. 
 Las ventas de la empresa incrementarán en -0.4461 unidades $, por cada unidad de 
precios del producto (x5) que se aumente, manteniendo constante las demás variables. 
 
10.4. Análisis de correlación 
 
 
El coeficiente de correlación establece una medida del grado de asociación lineal entre dos 
variables. En este caso una variable no depende de la otra, sino que comparten un relación 
presencia conjunta. 
 
Por ejemplo la demanda de arroz y la demanda de habichuelas, son dos variables 
independientes pero que mantienen una conjunción en lo que respecta al consumo de ambas. 
Esta asociación se mide y se analiza a través del Coeficiente de correlación, el cual se expresa 
en dos modalidades de acuerdo a los autores. 
 
Este indicador puede tomar valores dentro del rango [1,-1], donde el valor de r=0 indica que 
no hay asociación entre las dos variables, si es r>0 indica una asociación positiva, en este 
caso las variables crecen o decrecen en un mismo sentido. Un valor de r<0 indica una 
asociación negativa o que significa que a medida que aumenta una variable, la otra 
disminuye. 
 
10.4.1. El coeficiente de correlación simple de Pearson 
 
Es una prueba que mide la relación estadística entre dos variables continuas que tienen una 
asociación lineal. Mide la covarianza estandarizada, y su ecuación difiere dependiendo de 
si se aplica a una muestra, Coeficiente de Pearson muestral (r), 
 
 
 
 
 
Es una medida del grado de asociación lineal entre las variables X e Y. Se representa por r. 
donde sx, sy son las desviaciones típicas de las variables X e Y respectivamente, y Sxy es la 
covarianza muestral de X e Y. 
 
 
 
 
 
 
 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 
 
 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
 
 Ʃ XY – ƩX *ƩY / n 
r = ───────────────── 
 ___________ ___________ 
 √ƩX2 - (ƩX)2/n √ƩY2- (ƩY)2/n 
 
Ejemplo: 
 
 
horas 
extra 
Ingreso 
Marginal 
 
Emple-
ados X Y X*Y X
2 Y2 
1 4 22,915.00 91,660 16 525,097,225 
2 8 17,890.00 143,120 64 320,052,100 
3 5 20,113.00 100,565 25 404,532,769 
4 4 19,481.00 77,924 16 379,509,361 
5 8 26,351.00 210,808 64 694,375,201 
6 7 18,462.00 129,234 49 340,845,444 
7 11 23,622.00 259,842 121 557,998,884 
8 8 20,553.00 164,424 64 422,425,809 
9 4 16,139.00 64,556 16 260,467,321 
10 5 18,440.00 92,200 25 340,033,600 
11 12 23,126.00 277,512 144 534,811,876 
12 9 20,649.00 185,841 81 426,381,201 
Total 85 247,741 1,797,686 685 5,206,530,791 
Media 7.08 20,645.08 
 
 
 
 
 
Este coeficiente de correlación de r=0.491 indica que existe una baja o pobre relación entre 
horas extra pagadas y el ingreso marginal. Por lo general se espera que r ≥ 0.80. 
 
Si se aplica a la población, el Coeficiente de Pearson poblacional (ρ). 
 
 
 
10.4.2. Propiedades del análisis de correlación 
 
 
Esto indica que siempre que haya regresión entre dos variables 
habrá correlación entre ellas. Pero, no siempre que haya 
correlación hay regresión. Porque el análisis de correlación es más 
amplio que el de regresión. 
 
 12 x 1,797,686 - 85x247,741
r= = 0.491
12 x 685 - 852 x 12x5,206,530,791 - 247,7412
ρ=
 
 - 
R2= = 
 
  2)( yy   2)ˆ( yy
  2)( yy
 
 
Correlación 
Regresión 
 r está siempre comprendido entre -1 y 1. 
 Si r = 1 ó r = -1 entonces los puntos de la muestra están situados en línea recta (correlación 
lineal perfecta). 
 Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre ambas variables. 
 Si r es cercano a 0, habrá una asociación lineal muy débil. 
 r no varía cuando en las variables se realiza un cambio de escala o de origen. Esto demuestra 
que r no tiene dimensión.

Continuar navegando