Logo Studenta

Regresion Lineal Simple

¡Estudia con miles de materiales!

Vista previa del material en texto

MODELO DE REGRESION LINEAL SIMPLE Y ESTIMACIÓN POR MINIMOS CUADRADOS 
EL MODELO DE REGRESION SE USA PARA FINES DE PREDICCION. 
 
Introducción 
Hemos estudiado un método para obtener la estimación de los parámetros. Otro método de estimación, es el método de 
MÍNIMOS CUADRADOS. 
 
En todas las explicaciones anteriores acerca de inferencia estadística se supuso que: 
 las variables aleatorias Y1, Y2, ...,Yn eran independientes e idénticamente distribuidas, 
 E(Yi) si existe , es constante. 
Es decir E(Yi) =  no depende de otra variable 
Obviamente, este supuesto no es válido en muchos problemas de inferencia. 
 
Ejemplo a) Si Y representa “la distancia de frenado de un auto de marca A”. v = 20 km/h 
 
 v = 80 km/h 
 
 
E (Y) dependerá de la velocidad del auto. 
b) Si Y representa la “ efectividad de un antibiótico”, 
E(Y) depende del tiempo durante el cual haya sido almacenado” 
Estudiaremos los procedimientos inferenciales que pueden usarse cuando una variable Y dependiente tiene un valor esperado 
E(Y) que ES FUNCION de 1 ó más variables no aleatorias x, z, t,... ,designadas variables independientes. 
 (En este contexto los términos “independientes” y “dependiente” se utilizan en sentido matemático. No existe ninguna relación 
con el concepto probabilístico de variables aleatorias independientes.) 
Se pueden utilizar muchos tipos diferentes de funciones matemáticas para representar el modelo de una respuesta 
que sea función de una o más variables independientes. 
Es posible clasificar estos modelos en dos categorías: 
 Modelos determinísticos. 
 Modelos probabilísticos. 
Supongamos que nos interesa relacionar una variable Y con una variable X y que el conocimiento del campo científico 
establece que X e Y están relacionadas por 
Y =  +  x  y  parámetros desconocidos 
Este modelo matemático se denomina modelo matemático determinístico porque no permite ningún error en la predicción de Y 
como función de X. 
 Quiere decir que Y toma el valor  +  20 para x = 20 
Supongamos que se obtiene una muestra de n valores de Y que corresponden a n valores de la variable independiente x y la 
representación de los datos es la siguiente 
i xi yi 
1 x1 y1 
2 x2 y2 
3 x3 y3 
   
n xn yn 
Es evidente en la figura que: el valor esperado de Y puede aumentar como una función lineal de x; pero que un modelo 
determinístico queda lejos de ser una representación adecuada de la realidad. 
Al repetir los experimentos para x = 20, Y varía de manera aleatoria. Esto nos indica que el modelo determinístico no es una 
representación exacta de la relación entre las dos variables. 
Además si se utilizara el modelo para predecir Y cuando x = 20, la predicción tendría un error desconocido. 
 Esto nos conduce a la aplicación de Métodos Estadísticos 
La predicción de Y para un valor dado de x es un proceso inferencial y se requiere conocer las propiedades del error de 
predicción si ésta va a ser de utilidad en la realidad. 
En contraste con los modelos determinísticos los estadísticos usan modelos probabilísticos. 
Por ejemplo, podríamos representar las respuestas de la figura mediante el modelo 
E(Y x) =  +  x (1) 
¿Por qué? 
El diagrama de dispersión indica que, si bien la curva no pasa exactamente por todos los puntos, existe una fuerte evidencia de 
que los puntos están dispersos de manera aleatoria alrededor de una línea recta. Por consiguiente es razonable suponer que la 
media de Y está relacionada con x por la relación lineal indicada. 
Por conveniencia se define Y x como la variable aleatoria Y correspondiente a una valor fijo x, y su media se indica por 
E(Y x). 
Si bien la media de Y es una función lineal de x, el valor real observado de Y no cae de manera exacta sobre la recta. 
La manera apropiada para generalizar este hecho con un “modelo probabilístico lineal” es suponer que el valor esperado de Y es 
una función lineal de x, pero que para un valor fijo de x, el valor real de Y está determinado por el valor medio de Y más un 
término que representa un error aleatorio, por ejemplo 
Y =  +  x +  (2) 
Donde  es el error aleatorio E( ) = 0 y Var () = 2 
Entonces consideramos a Y como una variable aleatoria tal que: 
 Y = componente determinística + componente aleatoria 
 Y = E(Y x) +  
Reiterando, este modelo tiene en cuenta el comportamiento aleatorio de Y representado en la figura y representa una descripción 
más adecuada de la realidad que el modelo determinístico. Además se pueden obtener las propiedades del error de predicción 
para Y en muchos modelos probabilísticos. 
 
MODELOS ESTADÍSTICOS LINEALES 
 
 Aunque haya un sinfín de funciones diferentes que se pueden utilizar como MODELOS del valor medio de la variable 
respuesta Y como función de una ó más variables independientes, nos concentraremos en el conjunto de modelos denominados 
modelos estadísticos lineales. 
 Si Y es la variable de respuesta y x una variable independiente parece razonable utilizar el modelo 
 
E(Y x) =  +  x (1) 
Para valores desconocidos de los parámetros  y  . 
Este modelo recibe el nombre de “modelo de regresión lineal simple” , ya que solo tiene una variable independiente x. 
 
 Si hay más de una variable independiente de interés, digamos x1, x2, ...xk y si el modelo para E(Y) es 
 
E(Y) = 0  + 1 x1 +  2x2 + ... +  k xk 
El modelo se conoce como modelo de regresión lineal múltiple, 
Ya que se consideran x1, x2, ...xk como constantes conocidas, supuestamente son medidas sin error en un experimento. 
 
MODELO DE REGRESIÓN LINEAL SIMPLE 
 
OBJETIVO: Desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable Y, basado en los 
valores de por lo menos una variable x. 
 
 
 
 
MODELO: 
 E(Y x) =  +  x (1) parámetros  y  desconocidos 
Luego Y =  +  x +  (2), con E( )= 0, Var( )= 2 
 
 
 
 
 
 
Supongamos que se obtiene una muestra de n valores de Y: y1, y2, ..., yn, 
que corresponden a n valores de la variable independiente x: x1, x2, ..., xn 
Al utilizar el modelo (1) es posible expresar las n observaciones de la muestra como 
yi =  +  xi + i’ Modelo para una observación 
donde i’ es el error aleatorio cuando Yi toma el valor yi. 
Sea xˆˆŶ  la recta de regresión estimada, cada par de observaciones (xi,yi) debe satisfacer la relación: 
 ii x
ˆˆŷ  ; iŷ es la predicción de Y para x = xi 
ei = yi - iŷ se llama RESIDUO y describe el error en el ajuste del modelo en el punto i de los datos. 
La diferencia entre ei y i se muestra en la figura: 
 
 
La variable por predecir (ó por modelar) Y , es la variable dependiente (ó de respuesta). 
Las variables que se utilizan para predecir (ó modelar) Y se denominan variables independientes (ó 
explicativas ó regresoras) y se denotan con los símbolos X1, X2, X3,... etc. 
 
 
El modelo de REGRESION LINEAL SIMPLE utiliza una variable independiente única X, para predecir los valores de 
una variable dependiente (respuesta) Y.

Continuar navegando