Logo Studenta

Análise de Regressão e Correlação

¡Estudia con miles de materiales!

Vista previa del material en texto

F. de Mendiburu 
1 
Análisis de Regresión y Correlación 
 
El análisis de regresión consiste en emplear métodos que permitan determinar la mejor 
relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis 
de correlación estudia el grado de asociación de dos o más variables. 
 
Analisis de Regresion 
 
Una relacion funcional matemáticamente hablando, está dada por: 
 
Y = f(x1,...,xn; θ1,...,θm) 
 
donde: 
 
Y : Variable respuesta (o dependiente) 
xi : La i-ésima variable independiente (i=1,..,n) 
θj : El j-ésimo parámetro en la función (j=1,..,m) 
f : La función 
 
Para elegir una relación funcional particular como la representativa de la población bajo 
investigación, usualmente se procede: 
 
1) Una consideración analítica del fenómeno que nos ocupa, y 
2) Un examen de diagramas de dispersión. 
 
Una vez decidido el tipo de función matemática que mejor se ajusta (o representa nuestro 
concepto de la relación exacta que existe entre las variables) se presenta el problema de 
elegir una expresión particular de esta familia de funciones; es decir, se ha postulado una 
cierta función como término del verdadero estado en la población y ahora es necesario 
estimar los parámetros de esta función (ajuste de curvas). 
 
Como los valores de los parámetros no se pueden determinar sin errores por que los 
valores observados de la variable dependiente no concuerdan con los valores esperados, 
entonces la ecuación general replanteada, estadísticamente, sería: 
 
Y = f(x1,...xn;θ1,...,θm) + ε 
 
donde ε respresenta el error cometido en el intento de observar la característica en 
estudio, en la cual muchos factores contribuyen al valor que asume ε. 
 
Regresion Lineal Simple 
 
Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es 
una línea recta, se tiene una regresión lineal simple, dada por la ecuación 
 
Y = ßo + ß1X + ε 
 
F. de Mendiburu 
2 
donde: 
 
ßo : El valor de la ordenada donde la línea de regresión se intersecta al eje Y. 
ß1 : El coeficiente de regresión poblacional (pendiente de la línea recta) 
ε : El error. 
 
Suposiciones de la regresión lineal 
 
1. Los valores de la variable independiente X son "fijos". 
2. La variable X se mide sin error (se desprecia el error de medición en X) 
3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de 
X. 
4. Las variancias de las subpoblaciones de Y son todas iguales. 
5. Todas las medias de las subpoblaciones de Y están sobre la misma recta. 
6. Los valores de Y están nomalmente distribuidos y son estadísticamente 
independientes. 
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se 
distribuyen normalmente con media cero y variancia σ². 
 
Terminologia: 
 
Promedios 
 
n
y
y
i∑
= ; 
n
x
xi∑= 
 
Sumas de cuadrados y productos de X e Y. 
 
( )∑ −= yyiSCY
2
; ( )∑ −= xxiSCX
2
 ; ( )( )∑ −−= yxSPXY yx ii 
 
SCY tambien corresponde a la suma de cuadrados total = SC total 
 
Estimación de parámetros 
 
La función de regresión lineal simple es expresado como: 
 
Y = ßo + ß1X + ε 
 
la estimación de parámetros consiste en determinar los parámetros ßo y ß1 a partir de los 
datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra, 
que represente a ßo y ß1, respectivamente. 
 
Empleando el método de los mínimos cuadrados, es decir minimizando la suma de 
cuadrados de los errores, se determinan los valores de bo y b1, así: 
 
 
F. de Mendiburu 
3 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
( )∑ −−∑ == xye iQ i ββ 10
22 
 
xy bbo 1−= 
scx
spxy
b =1 
 
b0 : es el valor que representa (estimador) a ß0 constituye el intercepto cuando X=0; 
b1 : es el valor que representa (estimador) a ß1. 
 
Sus desviaciones estandares respectivas son: 
 
SCXn
CMresidual
Sb
X i
.
.
0
2∑= 
SCX
CMresidual
Sb =1 
 
Luego, la ecuación de regresión es: y = bo + b1X 
 
El coeficiente de regresión (b1) .- pendiente de la recta de regresión, representa la tasa de 
cambio de la respuesta Y al cambio de una unidad en X. 
 
Si b1=0, se dice que no existe relación lineal entre las dos variables. 
 
 
 
 
 
 
 
 
 
 
 
F. de Mendiburu 
4 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fuentes de variación en la regresión lineal 
 
Los cálculos de regresión pueden ser vistos como un proceso de partición de la suma total 
de cuadrados; así, gráficamente se tiene: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
( ) ( ) ( )yyyy
iiii
yy
))
−+−=− 
 
F. de Mendiburu 
5 
 
Se observa que la desviación total para un Yi en particular es igual a la suma de las 
desviaciones explicada e inexplicada, simbolicamente. 
 
Luego: 
 
( ) ( ) ( )∑ −∑ −∑ − += yyyyyy iiii
)) 222
 
 
SC total = SC regresion + SC residual 
 
Suma de Cuadrados del Total (SCT), mide la dispersión (variación total) en los valores 
observados de Y. Este término se utiliza para el cálculo de la variancia de la muestra. 
 
Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresión, SCR) mide la 
variabilidad total en los valores observados de Y en consideración a la relación lineal 
entre X e Y. 
Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la 
dispersión de los valores Y observados respecto a la recta de regresión Y (es la cantidad 
que se minimiza cuando se obtiene la recta de regresión). 
 
Análisis de Variancia para la regresión lineal simple 
 
Cuando cada partición se asocia a una porción correspondiente del total de grados de 
libertad, la técnica es conocida cono analisis de variancia (ANVA), que generalmente se 
presenta en un cuadro de la siguiente forma: 
 
Cuadro del ANVA. 
Fuentes Grados de 
Libertad 
Suma de Cuadrados 
(SC) 
Cuadrados Medios 
(CM) 
Fc 
Regresion 1 b1.SPXY b1.SPXY CM(regresion)/ 
CM(residual) 
Residual: Error n-2 Diferencia SC(residual) / (n-
2) 
 
Total n-1 SC Y 
 
 
La prueba estadística “F” evalua las hipótesis: 
 
Hp: ß1 = 0. No existe una regresión lineal entre X e Y. 
Ha: ß1 ≠ 0. Existe regresion lineal de Y en función de X. 
 
 
F. de Mendiburu 
6 
Para el ejemplo del grafico (año base 1990 = 0) 
 
 
Años (X) 0 1 2 3 4 5 6 7 8 9 
 Madera Aserrada (Y) 489.25 475.24 495.72 585.2 565.78 630.22 624.92 482.27 590.27 834.67
 
 
 Gl SC CM F F0.05 Pr>F 
Regression 1 49223 49223 6,9941 5,31 0,0295
Residual 8 56303 7037.8 
Total 9 105526 
 
Modelo de regresion estimado: 
 
Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X 
 
X = El periodo. 
 
R² = (49223 / 105526) *100% = 46% 
 
Intercepto = 467,42 
Tasa = 24,42 
 
Significa que el crecimiento anual es de 24 mil metros cubicos. 
 
Intervalos de Confianza 
 
Intervalos de confianza para ß1 (tasa) 
 
En muchos casos es de interés conocer entre que valores se encuentra el coeficiente de 
regresión de la población ß1 para un cierto grado de confianza fijada, este procedimiento 
permite hallar los valores llamados límites de confianza, así: 
 
b1 - t0 Sb1 ≤ ß1 ≤ b1 + to Sb1 
 
donde: t0 es el valor "t" tabular al nivel de significación α y n-2 grados de libertad( t0 = 
tα,n-2). 
 
t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23 
 
Limite Inferior = 24,42 – 2,30 (9,23) = 3.12 
Limite Superior = 24,42 + 2,30 (9,23) = 45,72 
 
Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento en 
madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros 
cubicos por año. 
 
 
F. de Mendiburu 
7 
 
 
 
En función del modelo se puede hacer estimaciones para los siguientes años: 
 
2000 711.7 
2001 736.12 
2002 760.55 
 
Estas proyecciones son puntuales, en base al modelo; para año 2000, X=10, resulta una 
producción de 711 mil m3 de madera aserrada. 
 
Para obtener limites de confianza para estos valores predecidos, se debe determinar sus 
desviaciones estandar correspondiente; utilice la siguiente formula: 
 
( )










++=
−
SCXn
CMresidualedichoS
xx01
1Pr_
2
 
 
Limites : Valor Predicho ± (t0.05,n-2 ) (S_predicho) 
 
Para el 2002, los limites de confianza son: 
 
Limite Inferior = 760,55 – 2,30 (111,98) = 502 
Limite Superior = 760,55 + 2,30 (111,98) = 1018 
Esta información significa que para el año 2002, se estima una produccion de madera 
aserrada entre 502 a 1018 miles de m3. 
 
Prueba de Hipotesis 
 
Se plantea los siguientes casos: 
 
a) Cuando ß1 = 0; es decir, si la variable Y no esta relacionada linealmente con la 
variable X. Esto equivale a plantear la hipótesis Hp: ß1=0, y vía una prueba F 
comparar el valor de F calculado (Fc) con el valor F tabular (Fo), donde 
Fc=CMR/CME y Fo=Fα(1,n-2)gl. Si Fc>Fo, se rechaza la hipóteis planteada, 
esto supone un valor ß1 distinto de cero y se concluye que Y se puede expresar 
en terminos de X linealmente. 
b) Cuando ß1 tiene un valor específico distinto de cero ß10; es decir, Hp: ß1=ß10. 
En este caso, para la prueba de esta hipótesis se usa el estadístico t de Student. El 
valor t calculado es hallado mediante la expresión: tc = (b1-ß10)/Sb1 
 
Si tc > tα se rechaza la hipótesis planteada, donde tα es el valor de la tabla al nivel 
α y n-2 gl. 
 
 
F. de Mendiburu 
8 
Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que existe una 
relación lineal significativa del tiempo y la producción de madera aserrada total. 
 
Analisis de Correlacion 
 
El análisis de correlación emplea métodos para medir la significación del grado o 
intensidad de asociación entre dos o más variables. El concepto de correlación está 
estrechamente vinculado al concepto de regresión, pues, para que una ecuación de 
regresión sea razonable los puntos muestrales deben estar ceñidos a la ecuación de 
regresión; además el coeficiente de correlación debe ser: 
 
- grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando 
es bajo, cerca de cero. 
- independiente de las unidades en que se miden las variables. 
 
Coeficiente de correlacion Lineal Simple ( r). 
 
Es un número que indica el grado o intensidad de asociación entre las variables X e Y. Su 
valor varía entre -1 y +1; esto es: 
 
-1 ≤ r ≤ 1. 
 
Si r = -1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable le 
corresponde valores bajos a la otra variable, y viceversa. 
 
Si r=+1, también la asociación es perfecta pero directa. 
 
Si r=0, no existe asociación entre las dos variables. 
 
Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es mayor, y 
cuando se aproxima a cero la asociación disminuye o desaparece. 
 
El coeficiente de correlación está dada por: 
 
SCYSCX
SPXY
r
.
= 
 
Para los datos de la producción de madera aserrada total entre los años 1990 a 1999, 
existe una asociación de 0.68. 
 
( )( )
68.0
5,8286,105525
17,2015
==r 
 
Coeficiente de Determinacion (R²) 
 
 
F. de Mendiburu 
9 
Mide el porcentaje de variación en la variable respuesta, explicada por la variable 
independiente. 
 
De la descomposición de la suma de cuadrados total, se obtuvo: 
 
SCT = SCR + SCE 
 
SCR = Suma de cuadrados de la regresión. 
SCE = Suma de cuadrados residual (error). 
 
dividiendo ambos miembros por la SCT, se tiene: 
 
1 = SCR/SCT + SCE/SCT 
 
de este resultado, se define el coeficiente de determinacion como: 
 
R² = 1 - SCE/SCT = SCR/SCT 
R² = SC regresion / SC total 
 
Como SCR ≤ SCT, se deduce que 0 ≤ R² ≤ 1. 
 
Interpretación de R²: 
 
Se interpreta como una medida de ajuste de los datos observados y proporciona el 
porcentaje de la variación total explicada por la regresión. 
 
R² es un valor positivo, expresado en porcentaje es menor de 100. 
 
Tambien, se puede obtener el R² ajustado que es la relacion entre cuadrados medios, asi: 
 
R² ajustado = 1 – CME / CM Total; 
 
Este valor podria ser negativo en algunos casos. 
 
Lo que se espera que ambos R², resulten similares, para dar una confianza al coeficiente 
de determinación. 
 
Para el ejemplo, resulta: 
 
R² ajustado = 1 – 70378 / (105526 / 9 ) = 0,39 y R² = 1 – 56302,7 / 105525,86 = 0,46

Continuar navegando

Materiales relacionados

31 pag.
C014-Regresion-Lineal-Simple-

User badge image

Contenidos Diversos

18 pag.
22 pag.
Clase 2

User badge image

Central de Apuntes