Logo Studenta

UNIDAD 8

¡Este material tiene más páginas!

Vista previa del material en texto

REGRESIÓN Y CORRELACIÓN
1
Supongamos que existen dos variables X y Y que
pueden estar relacionadas.
Por ejemplo: Se quiere estudiar el tiempo de
reacción para un experimento realizado a distintas
temperaturas ambiente.
Para distintas temperaturas se registran los tiempos
de reacción (Temp en grados Farenheit y Tiempo en seg):
REGRESIÓN Y CORRELACIÓN
2
Temperatura Tiempo de reacción
75 118,7
74 117,4
73 116,0
71 112,5
77 122,8
73 114,4
70 109,9
74 117,7
72 114,7
72 113,1
75 117,6
74 115,3
73 116,1
71 111,6
77 122,9
73 116,3
70 111,4
74 115,4
72 112,4
72 113,5
REGRESIÓN Y CORRELACIÓN
3
X = temperatura ambiente
Y = tiempo de reacción
Para cada valor de X=xi Y tomará diferentes posibles
valores.
Una forma de visualizar los datos es a través del
DIAGRAMA DE DISPERSIÓN
REGRESIÓN Y CORRELACIÓN
4
REGRESIÓN Y CORRELACIÓN
5
Nos preguntamos:
a) Existirá relación entre X y Y?
b) Conociendo X se podrá predecir Y?
c) Será más altos los valores de Y para valores altos o
bajos de X?
Para responder a) ANÁLISIS DE CORRELACIÓN
Para responder b) y c) ANÁLISIS DE REGRESIÓN
REGRESIÓN Y CORRELACIÓN
6
ANÁLISIS DE CORRELACIÓN
CÁLCULO DE 
COEFICIENTES
REGRESIÓN
7
7
ANÁLISIS DE REGRESIÓN
Busca relacionar el valor medio de Y como una función 
de X:
 )x(fY x/y
REGRESIÓN
En el caso planteado se busca explicar Y, una variable 
cuantitativa continua a través de una sola variable: 
MODELO DE REGRESIÓN SIMPLE
Muchas veces es necesario incluir más de una variable 
para explicar Y : MODELO DE REGRESIÓN MÚLTIPLE
8
REGRESIÓN LINEAL
Un primer análisis sería ver si los valores medios de Y
pueden suponerse alineados
MODELO DE REGRESIÓN LINEAL SIMPLE:
: ordenada al origen de la recta.
: pendiente de la recta.
 xY
xX/y 


9
REGRESIÓN LINEAL
Como en toda recta, la pendiente indica
la cantidad de unidades que aumenta o
disminuye Y por cada cambio de una
unidad en X

10
REGRESIÓN LINEAL
Podemos analizar la existencia y tipo de asociación
entre las variables analizando el diagrama de
dispersión
30 40 50 60
0
1
0
2
0
3
0
4
0
5
0
X
Y
30 40 50 60
0
1
0
2
0
3
0
4
0
5
0
X
Y
25 30 35 40 45 50 55
0
1
0
2
0
3
0
4
0
5
0
X
Y
20 30 40 50
0
1
0
2
0
3
0
4
0
5
0
X
Y
a) b)
c) d)
11
REGRESIÓN LINEAL
En un diagrama de dispersión queremos
observar el patrón general de la relación
entre las variables mirándolo desde los
valores menores de X hacia los mayores:
12
REGRESIÓN LINEAL
Si a medida que X aumenta, en promedio también
aumenta Y, se dice que existe una asociación
positiva entre las variables.
Si a medida que X aumenta, en promedio Y
disminuye, se dice que existe una asociación
negativa entre las variables.
Si no puede determinarse alguna de las dos
tendencias anteriores, significa que no hay una
asociación lineal entre las variables.
13
COEFICIENTE DE CORRELACIÓN
14
Un coeficiente que mide la existencia de asociación
lineal entre X e Y es el coeficiente de correlación
lineal, cuya estimación indicamos con r:
1414
  
 

ji
yijy
ji
xix
ji
yijyxix
r
,
2)(
,
2)(
,
))((
COEFICIENTE DE CORRELACIÓN
Propiedades del coeficiente de correlación:
I. -1< r < 1
II. r vale 1 cuando los puntos caen exactamente
sobre una recta con pendiente positiva
(asociación lineal directa, positiva o creciente)
III. r vale -1 cuando los puntos caen exactamente
sobre una recta con pendiente
negativa(asociación lineal inversa , negativa o 
decreciente)
15
COEFICIENTE DE CORRELACIÓN
IV. Cuanto más cercano es el valor de r a 1 o a -1 
más fuerte es el grado de asociación lineal
positiva o negativa, respectivamente.
V. Si r=0 indica que no existen tendencia lineal
positiva ni negativa.
16
COEFICIENTE DE CORRELACIÓN
En los diagramas vistos anteriormente
En a) : r > 0
En b): r < 0
En c): r 0
En d): r 0 


17
AJUSTE DE LA RECTA: el método de 
mínimos cuadrados
18
El experimentador fija valores x1,x2,…,xn para los 
cuales observa valores de la variable aleatoria Y. 
Yij=observación sobre el j-ésimo individuo con x=xi 
i=1,…,I j=1,…,ni
Si el diagrama de dispersión y el coeficiente de 
correlación indican un patrón lineal en los datos, 
se quiere hallar una recta que ajuste a los datos. 
LA RECTA DE MÍNIMOS CUADRADOS
19
Se pretende que la recta ajustada represente las
medias de los valores de Y para cada X, por lo cual los
puntos observados se ubicarán en las proximidades
de la recta, siendo posible que ninguna de las
observaciones quede sobre ella.
LA RECTA DE MÍNIMOS CUADRADOS
20
Para ajustar una recta a los datos se utiliza el método
de mínimos cuadrados:
El método de mínimos cuadrados estima la recta que
hace mínima la suma de los cuadrados de las
distancias verticales de cada punto observado a la
recta. O sea, minimiza la diferencia entre el valor
observado de Y y el que correspondería sobre la recta
para el correspondiente valor de X.
LA RECTA DE MÍNIMOS CUADRADOS
21
LA RECTA DE MÍNIMOS CUADRADOS
22
Se plantea entonces buscar la ecuación de una recta, 
de manera que, si llamamos
 (xi , yij) a las coordenadas de los punto observados
 (xi , ) las coordenadas del punto sobre la recta 
que corresponde a x = xi ( por lo tanto, )
se minimice la suma de los cuadrados de las distancia 
de los yij a los : 
  




I
i
in
j
ixijy
1 1
2
i
ŷ
ixi
y  ˆ
i
ŷ
LA RECTA DE MÍNIMOS CUADRADOS
23
Por lo tanto se deben hallar α y β , números reales
que minimicen la suma anterior, lo cual constituye
un problema de minimización de una función pero
según dos variables. Desarrollándolo resulta que:
LA RECTA DE MÍNIMOS CUADRADOS
24
Siendo: 
xy  ˆ..ˆ 









I
i
xixin
I
i
in
j
yijyxix
1
2)(
1 1
))((
̂
n
I
i
ixin
x

 1 n
I
i
in
j
ijy
y





1 1
..
LA RECTA DE MÍNIMOS CUADRADOS
Si introducimos la siguiente notación:
 
n
2
I
1i
ixinI
1i
2
i
xin
I
1i
in
1j
2xixxxS

















  



















I
1i n
2
I
1i
y
in
1j
y
I
1i
in
1j
2
..yijyyyS
in
1j
ij
2
ij
  
n
I
i
in
j
ijy
I
i
ixin
I
i
in
j
ijyix
I
i
in
j
yijyxixxyS































1 11
1 11 1
..
25
LA RECTA DE MÍNIMOS CUADRADOS
Podemos escribir :
y la recta ajustada: 
Observemos que con la notación anterior:
xy  ˆ..ˆ 
xxS
xyS
̂
xy  ˆˆˆ 
yysxxs
xys
r 
26
LA RECTA DE MÍNIMOS CUADRADOS
Observaciones:
1. La recta de mínimos cuadrados contiene siempre
al punto
2. Cualquier otra recta estimada a partir del mismo
conjunto de datos generará una suma de cuadrados
de residuos mayor que la correspondiente a la recta
de mínimos cuadrados:
para cualquier
otro valor de o .
   






 






 
I
i
i
n
j
i
x
ij
y
I
i
i
n
j
i
x
ij
y
1 1
2
1 1
2ˆˆ 
 
27
 .., yx
LA RECTA DE MÍNIMOS CUADRADOS
28
Ejemplo: Hallemos la recta estimada para el ejemplo
anterior:
873
20
1462
106946
2
2
1
2
1
,
n
xn
xnS
I
i
iiI
i
iixx 










988123
1 11
1 1
,
n
yxn
yxS
I
i
in
j
ij
I
i
ii
I
i
in
j
ijixy 








 






 
 
 
68,1
8.73
988.123
S
Sˆ
xx
xy

332717368148115 ,,,,xˆ..yˆ  
x,,xˆˆŷ 681337  
LA RECTA DE MÍNIMOS CUADRADOS
29
LA RECTA SOLO ES VÁLIDA EN EL RANGO OBSERVADO DE X, 
POR LO TANTO SÓLO DEBE GRAFICARSE ENTRE ESOS 
VALORES
29
69 71 74 76 78
Temp(X)
109,3
112,8
116,4
120,0
123,5
T
ie
m
p
o
(Y
)
Tiempo según Temperatura
INTERPRETACIÓN DE LOS 
COEFICIENTES ESTIMADOS
30
 En la recta de regresión es la ordenada al origen, o 
sea que representa el valor estimado de Y para x=0, 
siempre que x=0 se encuentre dentro del rango
observado, sino, no corresponde su interpretación.
 esla pendiente de la recta, o sea que representa la 
cantidad de unidades que cambia Y cuando X se 
incrementa en una unidad. 
 En el ejemplo: =1,68 indica que por cada cambio de 1 
grado en la temperatura el tiempo de reacción 
aumenta 1,68 seg.
̂
̂
̂
31
Una vez estimada la recta de cuadrados mínimos, 
podemos utilizarla para predecir el valor de Y para un 
x dado dentro de rango observado para X:
donde Yk : valor de Y correspondiente a xk
PREDICCIÓN UTILIZANDO LA RECTA 
ESTIMADA
k
x
k
y  ˆˆˆ 
PREDICCIÓN UTILIZANDO LA RECTA 
ESTIMADA
32
Ejemplo:
Para el ejemplo anterior, predecir el tiempo de
reaccción esperado para una temperatura de 76
grados
3512076681337 ,,,kŷ 
MODELO DE REGRESIÓN LINEAL 
SIMPLE
La recta de mínimos cuadrados puede considerarse
simplemente como el ajuste una recta a un
conjunto de datos. Sin embargo, en los problemas
que nos incumben los datos son una muestra
aleatoria de valores observados correspondientes a
una población, y por lo tanto queremos ajustar la
recta no solamente con un objetivo descriptivo,
sino para hacer inferencias sobre la relación entre
las variables a nivel poblacional.
33
MODELO DE REGRESIÓN LINEAL 
SIMPLE
Observemos que para ajustar la recta no hemos
necesitado ningún supuesto sobre la distribución
de las variables, sin embargo sí lo haremos para
construir intervalos de confianza y realizar test de
hipótesis.
34
MODELO DE REGRESIÓN LINEAL 
SIMPLE
Los valores de y hallados por el método de 
mínimos cuadrados constituyen la estimación de los 
valores que ajustarían una recta a los datos
poblacionales.
̂ ̂
35
MODELO DE REGRESIÓN LINEAL 
SIMPLE
36
Supongamos ahora que las observaciones Yi son
independientes, y provienen de una distribución
normal con varianza σ2
Luego:
donde εij ~ N(0,σ) independientes
Veamos gráficamente qué representa el ajuste lineal
al incorporar los supuestos:
ijixijy  
MODELO DE REGRESIÓN LINEAL 
SIMPLE
37
7/12/07
 
 
 
XI
X1
X2
µI
µ2
µ1
Z
Y
X
µi= α + β Xi
.
.
.
.
..
..
.
.
.
.
ESTAMOS AJUSTANDO UNA RECTA QUE PASE POR EL VALOR MEDIO 
ESPERADO DE Y PARA CADA VALOR DE X:
MODELO DE REGRESIÓN LINEAL 
SIMPLE
38
PLANTEO DEL MODELO DE REGRESIÓN LINEAL 
SIMPLE:
Dados x1,x2,...,xI valores prefijados de una variable X
Yij= valor de Y en la j-ésima unidad correspondiente a
xi
εij ~ N(0,σ) independientes i=1,...,I j=1,...,ni
son los parámetros del modelo
ijixijy  
 y 
39
 Los estimadores de α y β son los estimadores de 
mínimos cuadrados.
 es un estimador de : 
 Los estimadores de los errores son los residuos:
ESTIMADORES DE LOS PARÁMETROS
kk
x
k
Y  ˆˆˆ 
k
Y
k
x
k
YE
k
ˆˆˆ)(ˆˆ  
k
x
k
YE
k
  )(
iyiyiri
ˆˆ 
40
ESTIMADORES DE LOS PARÁMETROS
Cómo estimamos ?
Como es la varianza de los errores sería natural 
estimarla usando los residuos (recordemos que les 
pedimos esperanza 0 en los supuestos):
A la suma de cuadrados del numerador la llamamos Suma de 
cuadrados residual, por lo cual:
2
2
2
1 1
2)ˆ(
2
1
2ˆ
2ˆ










n
I
i
in
j
iyijy
n
I
i
i


resCM2n
resSC2ˆ 


41
 Los estimadores de α y β, son insesgados,o sea, 
 Más aún, bajo el modelo lineal, ~ 
 es un estimador insesgado de , ya
que
 CMres es un estimador insesgado de 
Distribución y Propiedades de los 
estimadores
k
x
k
Y  ˆˆˆ 
  )ˆ( ; )ˆ( EE
k

kk
x
k
xE
k
YE   )ˆˆ()ˆ(
̂ );(
xxs
N 
2
Significación de la Regresión
42
Aunque para estimar el modelo se estiman los dos
parámetros α y β, nos interesa realizar inferencias
sobre la pendiente: si β fuera 0, el modelo no
representaría una regresión significativa ya que
estimaría el valor de Y a través de un valor constante.
Luego , si β=0 no habría variación de la variable de
estudio debida a X.
Significación de la Regresión
43
De manera similar al modelo de ANOVA, podemos
considerar que los valores observados de Y deben su
variación por un lado al valor que toma X y por otro
al error aleatorio.
En efecto, podemos descomponer la suma de
cuadrados total de la siguiente forma:













I
i
in
j
I
i
in
j
I
i
in
j
yiyiyijyyijy
1 1 1 1 1 1
2)..ˆ(2)ˆ(2)..(
Significación de la Regresión
44
El primer sumando es la suma de los residuos que ya definimos
como Suma de Cuadrados residual.
La segunda sumatoria mide la variación de los valores
predichos sobre la recta respecto de la media general. Se la
llama Suma de Cuadrados de la regresión
Observación: recordemos que es un punto de la
recta de mínimos cuadrados, por lo tanto, si β=0, se
esperará que las diferencias sean pequeñas. Por
lo tanto, cuanto mayor sea β en valor absoluto, mayor se
espera que sea la suma de cuadrados de la regresión.
..),( yx
2..)ˆ( yiy 
Significación de la Regresión
45
Luego: SCtotal = Scres + SC reg
Utilizando la misma notación que en ANOVA,
llamamos Cuadrados Medios a las Sumas de
Cuadrados divididas sus grados de libertad.
n-1 n-2 1
Grados de 
libertad
Significación de la Regresión
46
PROPIEDADES:
1. Como ya mencionamos, E(CMres)=σ
2 CMres es un
estimador insesgado para σ2
2. Además se puede demostrar que E(CMreg)=σ
2+ β2Sxx
3. Luego, el estadístico bajo la hipótesis:
H0: β=0, sigue una distribución F1,n-2
resCM
regCMF

TEST DE ANOVA PARA LA 
SIGNIFICACIÓN DE LA REGRESIÓN
47
Yij= valor de Y en la j-ésima unidad correspondiente a
xi i=1,...,I j=1,...,ni
εij ~ N(0,σ) independientes
H0: β=0 H1: β≠0 
Se rechaza H0 si F>Fα,1,n-2
ijixijy  
resCM
regCMF
TEST DE ANOVA PARA LA 
SIGNIFICACIÓN DE LA REGRESIÓN
48
Para el ejemplo del tiempo de reacción:
F0.05,1,18 = 4,41
Con una probabilidad de error del 5% concluimos
que la regresión es significativa.
Fuente de 
variación
Grados de 
libertad
Suma de 
cuadrados
Cuadrados 
Medios
F
Regresión 1 208,306 208,306 227,224
Residuos 18 16,500 0,917
Total 19 1,0346
TEST DE ANOVA PARA LA 
SIGNIFICACIÓN DE LA REGRESIÓN
49
Análisis de regresión lineal 
 
 
 Variable N R² R² Aj ECMP AIC BIC 
Tiempo de reaccion 20 0,93 0,92 1,13 58,91 61,90 
 
 
Coeficientes de regresión y estadísticos asociados 
 
 Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF 
const -7,33 8,15 -24,45 9,79 -0,90 0,3802 
Temperatura 1,68 0,11 1,45 1,91 15,07 <0,0001 216,34 1,00 
 
 
 
Cuadro de Análisis de la Varianza (SC tipo III) 
 F.V. SC gl CM F p-valor 
Modelo. 208,31 1 208,31 227,24 <0,0001 
Temperatura 208,31 1 208,31 227,24 <0,0001 
Error 16,50 18 0,92 
Total 224,81 19 
CON INFOSTAT
INTERVALO DE CONFIANZA PARA LA 
PENDIENTE
50
Recordemos que si el modelo lineal es válido:
~ 
Luego, se puede demostrar que si reemplazamos a σ
por su estimador insesgado:
~ tn-2
Y por lo tanto podemos construir intervalos de 
confianza para β:
̂ );(
xxs
N 
xxSresCM /
ˆ  
INTERVALO DE CONFIANZA PARA LA 
PENDIENTE
51
Y con dicho intervalo podemos testear la 
significación de la regresión utilizando el Intervalo 
de confianza para β, o sea, tenemos otra forma de 
testear:
H0: β=0 H1: β≠0 
Y también hipótesis más generales sobre β
xxS
resCM
n
t
2;2/
ˆ




INTERVALO DE CONFIANZA PARA LA 
PENDIENTE
52
Para el ejemplo:
H0: β=0 H1: β≠0
11,0
xxS
resCM
1,22n;2/t 05,0
ˆ
8,73
917,0


xxS
resCM
n
t
2;2/
ˆ




INTERVALO DE CONFIANZA PARA LA 
PENDIENTE
53
xxS
resCM
n
t
2;2/
ˆ




Lim Inf= 1,68 – 2,1 x 0,11=1,45
Lim Sup= 1,68 + 2,1 x 0,11=1,91
C( 1,45<β<1,91)=0,95
Observar que estos valores están en la tabla de la 
salida de Infostat
54
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
Bajo los supuestos del modelo, se puede mostrar que
~ 
Lo cual nos permitirá construir intervalos deconfianza para μk (valor esperado de Y para x=xk ) , y 
al unir los extremos inferiore/superiores de dichos
intervalos para distintos valores de k, construiremos
una banda de confianza:
k
Ŷ )
2
12;(





























 

xxs
x
k
x
nk
N 
55
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
56
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
También basándonos en la distribución de 
podremos construir intervalos de predicción para el 
valor de Y dado un valor de x. 
Y al repetirlo para distintos valores de x, podremos
construir una banda de predicción
k
ŷ
57
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
69 71 73 75 77
Temp(X)
107,5
111,8
116,2
120,5
124,9
T
ie
m
p
o
(Y
)
Ajuste con Bandas de Confianza y de Predicción
58
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
Cómo las construimos?
Intervalo de confianza para el valor esperado de Y dado x=xk
La longitud de estos intervalos decrece a cero con el aumento 
del tamaño de la muestra.
El intervalo más angosto se observa para y los intervalos se 
van ensanchando a medida que aumenta la distancia al 
promedio




















xxs
x
k
x
resCMk
y
2)(
n
1 
/2 2,-n
 tˆ

x
59
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
Intervalo de predicción para el valor de Y dado x=xk
Queremos hallar L1, L2 tal que P(L1< Yk < L2)=1-α




















xxs
x
k
x
resCMk
y
2)(
n
11 
/2 2,-n
 tˆ

Observando en el gráfico y comparando las fórmulas:
Los intervalos de predicción correspondientes a cada xk son 
más anchos que los de confianza 
El error es mayor al predecir una respuesta individual que al 
estimar la media de una variable respuesta.
60
BANDAS DE CONFIANZA Y DE 
PREDICCIÓN
Para un mismo valor de x, el intervalo de confianza estima un
intervalo para el valor promedio de todos los posibles valores
de Y dado un x. Al construir un intervalo de predicción se está
estimando un intervalo que contenga a esos valores posibles
de Y, o sea, como es esperable, los valores de Y tienen mayor
dispersión que el promedio. En otras palabras, el intervalo de
predicción refleja también la variabilidad individual de Y
alrededor de su media verdadera
61
EJERCICIO RESUELTO CON INFOSTAT
Para evaluar la existencia de relación lineal entre la presión 
sanguínea de las mujeres con sus maridos se extrajo una muestra de 
20 matrimonios de edad entre 25 y 34 años y se obtuvieron los 
siguientes datos:
Matrimonio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X:marido 136 121 128 100 110 116 127 150 180 172 156 98 132 142 138 126 124 137 160 125
Y: Mujer 130 112 128 106 127 100 98 142 143 150 135 115 126 130 132 146 127 128 135 110
A partir de los datos que se presentan en la salida analice:
62
a) Tiene sentido pensar en una relación lineal entre la presión
arterial de la esposa en función de la presión de su esposo?
b) Si se ajusta un modelo lineal, cuál sería?
c) Puede decirse que la regresión es significativa? Justifique de dos 
formas distintas.
d) Construya las bandas de confianza y de predicción al 95%
e) Qué valor de presión se predice con el modelo para la esposa si
su marido tiene una presión igual a 130? 
f) Pueden asumirse válidos los supuestos sobre los residuos?
EJERCICIO RESUELTO CON INFOSTAT
63
EJERCICIO RESUELTO CON INFOSTAT
64
EJERCICIO RESUELTO CON INFOSTAT
65
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
95
110
124
138
153
Y
: 
M
u
je
r
Presión de la esposa según Presión esposo
66
EJERCICIO RESUELTO CON INFOSTAT
67
EJERCICIO RESUELTO CON INFOSTAT
68
EJERCICIO RESUELTO CON INFOSTAT
69
EJERCICIO RESUELTO CON INFOSTAT
70
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
95
110
124
138
153
Y
: 
M
u
je
r
Ajuste Presión
71
EJERCICIO RESUELTO CON INFOSTAT
72
EJERCICIO RESUELTO CON INFOSTAT
73
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
82
105
129
153
176
Y
: 
M
u
je
r
Ajuste con Bandas de Confianza y Predicción
74
Insertar fila
75
76
77
78
EJERCICIO RESUELTO CON INFOSTAT
79
EJERCICIO RESUELTO CON INFOSTAT
-2,3 -1,2 0,0 1,1 2,3
Cuantiles de una Normal(0,1)
-2,3
-1,2
0,0
1,1
2,3
C
u
a
n
ti
le
s
 o
b
s
e
rv
a
d
o
s
 -
 R
E
 (
Y
: 
M
u
je
r)
QQplot de los residuos
80
EJERCICIO RESUELTO CON INFOSTAT
107 118 128 139 150
Predichos
-3,00
-1,50
0,00
1,50
3,00
R
e
s
. 
e
s
tu
d
e
n
ti
z
a
d
o
s
_
Y
: 
M
u
je
r
Gráfico de Residuos

Continuar navegando

Materiales relacionados