Logo Studenta

Teoría Regresión Lineal - Guadalupe Montes Martin

¡Este material tiene más páginas!

Vista previa del material en texto

REGRESION LINEAL
Regresión Lineal simple:
A menudo se requiere resolver problemas que implican conjuntos de variables de las cuales se sabe 
que tienen alguna relación inherente entre si. Por ejemplo, en una situación industrial, el contenido de 
alquitrán en el flujo de salida de un proceso químico esta relacionado con la temperatura en la entrada. 
Podría ser de interés desarrollar un método de pronostico, es decir, un procedimiento que permita 
estimar el contenido de alquitrán para varios niveles de temperatura de entrada a partir de información 
experimental.
El contenido de alquitrán, es la variable dependiente natural o respuesta. La temperatura en la 
entrada, es la variable independiente, natural o regresora. 
Una forma razonable de relación entre la respuesta Y y el regresor x es la relación lineal,
Y = β0 +β1 x,
β0 es la intersección y β1 es la pendiente
El concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x, cuantificando la
fuerza de esa relación, y empleando métodos que permitan predecir los valores de la respuesta dados los
valores del regresor x.
En muchas aplicaciones habrá mas de un regresor, es decir, mas de una variable independiente que
ayude a explicar a Y. Por ejemplo, si se tratara de explicar las razones para el precio de una casa, donde
Y es el precio, x1 son los metros cuadrados y x2 es la antigüedad de la casa en años.
Y = β0 +β1x 1 +β2x 2 ,
El análisis resultante se denomina regresión múltiple, ya que tenemos más de una variable regresora
REGRESION LINEAL SIMPLE:
La mayoría de los sistemas tienen un componente aleatorio ϵ en la ecuación que relaciona las variables, 
que toma en cuenta consideraciones que no son medibles modelo estadístico para la regresión lineal 
simple. La respuesta Y se relaciona con la variable independiente x a través de la ecuación
Y = β0 +β1x +ϵ
β0 y β1 se conocen como los parámetros del modelo y deben estimarse a partir de los datos
La cantidad ϵ , recibe el nombre de error aleatorio o alteración aleatoria, en la practica nunca se observan los valores 
ϵ reales, por lo que nunca se puede trazar la verdadera recta de regresión, solo es posible dibujar una recta estimada.
La recta de regresión ajustada: ො𝑦 = 𝑏0 + 𝑏1𝑥
ො𝑦 =es el valor estimado, pronosticado o ajustado
Considere los datos experimentales de la siguiente tabla, que se obtuvieron de 33 muestras de desechos tratados
químicamente en un estudio realizado en Virginia Tech. Se registraron los valores de x, la reducción porcentual de los
solidos totales, y de y, el porcentaje de disminución de la demanda de oxigeno químico.
0
10
20
30
40
50
60
0 10 20 30 40 50 60
R
ed
u
cc
ió
n
 d
em
an
d
a 
o
xí
ge
n
o
 y
 (
%
)
Reducción demanda de sólidos x (%)
Gráfico de dispersión de Reducción de la demanda de oxígeno vs. la reducción de demanda 
de sólidos
Recta de regresión 
ajustada
Recta de regresión 
Verdadera
𝜇𝑌/𝑋 = 𝛽0 + 𝛽1𝑥
Observaciones individuales alrededor de la 
verdadera recta de regresión
Supuestos del modelo
• Los errores son normales. N(0, σ2)
• La Varianza es constante. Las 
distribuciones tienen la misma 
varianza σ2
• Los errores asociados a las Yi son 
independientes
Otras observaciones
• La desviación entre una Y individual, 
y el punto sobre la recta, será su 
valor ϵi
• La verdadera recta de regresión pasa 
por las medias 
• Las observaciones reales se 
encuentran sobre la distribución, 
alrededor de las medias
Modelo de los mínimos Cuadrados
Residual: es error en el ajuste del modelo. Dado un conjunto de datos de regresion {(xi, yi); i = 1, 2,..., n} y un
modelo ajustado ො𝑦 = 𝑏0 + 𝑏1𝑥 , el i-esimo residual ei es dado por:
ei = yi − ෝ𝒚 i = 1, 2,. . . , n .
Diferencia entre los residuales ei y los errores del modelo conceptual ϵi.
Debemos calcular β0 y β1, mediante sus estimadores b0 y b1, de manera que la suma de los cuadrados de los 
residuales sea mínima. 
Esta se denomina suma de los cuadrados del error respecto de la recta de regresión y se denota como 
SCE. 
Este procedimiento de minimización para estimar los parámetros se denomina método de mínimos 
cuadrados. 
𝑆𝐶𝐸 = ෍
𝑖=1
𝑛
𝑒𝑖
2 =෍
𝑖=1
𝑛
𝑦𝑖 + ෝ𝑦𝑖
2 =෍
𝑖=1
𝑛
(𝑦𝑖 + 𝑏0 + 𝑏1𝑥)
2=
Al diferenciar la SCE con respecto a b0 y b1, se obtiene
Dada la muestra {(xi, yi)}; i = 1, 2, ... , n}, los estimados b0 y b1 de los mínimos cuadrados de los coeficientes 
de regresión β0 y β1 se calculan mediante las formulas
Estime la recta de regresión para los datos de contaminación de la tabla
Podríamos pronosticar una reducción de 31% en la demanda de oxigeno químico, si los solidos 
totales se redujeran un 30%.
ො𝑦 = 3,8296 + 0,9036 ∗ 30 = 30,94
El parámetro σ 2, refleja una variación aleatoria o una variación del error experimental alrededor de la 
recta de regresión. Si para simplificar ponemos nombres breves a las ecuaciones:
𝑆𝑥𝑥 =෍
𝑖=1
𝑛
(𝑥𝑖− ҧ𝑥)
2
𝑆𝑦𝑦 =෍
𝑖=1
𝑛
(𝑦𝑖− ത𝑦)
2 𝑆𝑥𝑦 = ෍
𝑖=1
𝑛
(𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦)
La suma de los cuadrados del error se puede escribir como sigue: 
𝑏1 =
𝑆𝑥𝑦
𝑆𝑥𝑥
𝑆2 =
𝑆𝐶𝐸
𝑛 − 2
= ෍
𝑖=1
𝑛
(𝑌𝑖 − ෢𝑦𝑖)
2
𝑛 − 2
=
𝑆𝑦𝑦 − 𝑏1𝑆𝑥𝑦
𝑛 − 2
Un estimador insesgado de σ 2 es
SCE = 𝑠𝑌𝑌 − 𝑏1𝑆𝑥𝑦
𝑏1 =
σ𝑖=1
𝑛 (𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦)
σ𝑖=1
𝑛 (𝑥𝑖− ҧ𝑥)
2
el criterio de los mínimos cuadrados 
esta diseñado para brindar la mejor 
recta ajustada que resulte en la 
“cercanía” entre la recta y los puntos 
graficados.
Inferencias sobre los coeficientes de regresión
1. Intervalos de confianza para β0
2. Intervalos de confianza para β1
3. Test de Hipótesis
1. Intervalo de confianza para β1
Suponemos que cada ϵi, i = 1, 2, ..., n, se distribuye de forma normal. Esta suposición implica que Y1, Y2,..., Yn
también están distribuidas normalmente.
2. Intervalo de confianza para β0 en algunos libros lo llaman α
Calcule un intervalo de confianza de 95% para β0 en la recta de regresion μY | x = β0 + β1x con base en los 
datos del ejercicio que venimos desarrollando.
3. Prueba de hipótesis sobre la pendiente
Para probar la hipótesis nula H0 de que β1 = β10, en comparación con una alternativa posible, utilizamos de 
nuevo la distribución t con n – 2 grados de libertad con el fin de establecer una región critica y después basar 
nuestra decisión en el valor de t
Una prueba t importante sobre la pendiente es la prueba de la hipótesis 
H0: β1 = 0 en comparación con H1: β1 ≠ 0.
Cuando no se rechaza la hipótesis nula la conclusión es que no hay relación lineal significativa entre E( y) 
y la variable independiente x.
El rechazo anterior de H0 implica que hay una relación lineal significativa.
c) hipótesis
H0: b = 0 --> b0 = 0
H1: b ≠ 0
Rechazar si 
Tcal < -Ta/2,n-2 ó Tcal > Ta/2, n-2 DOS COLAS
Tcalculado = 18,03
 Ta/2, n-2 2,045
Es 18,0254 > 2,045? si => rechazo H0 entonces x es de valor explicando la variabilidad de Y 
El modelo es el adecuado
1.PREDICCION: La ecuación ො𝑦 = 𝑏0 + 𝑏1𝑥 se puede utilizar para predecir o estimar la respuesta media μY|x0 en x = x0, 
cuando x = x0, se podría emplear para pronosticar un solo valor y0 de la variable Y0
tenemos 95% de confianza en que la reducción 
media poblacional en la demanda de oxigeno 
químico estará entre el 20.1071% y 23.6979%, 
cuando la reducción de solidos sea de 20%.
PREDICCIÓN
2. Intervalo de predicción para cualquier valor único y0 de la variable Y0
El intervalo de la predicción calculado representa un intervalo que tiene una probabilidad 
igual a 1 – α de contener, no un parámetro, sino un valor futuro de y0 de la variable aleatoria 
Y0.
Intervalos de confianza y predicción para los datos de la reducción de la demanda de oxigeno 
químico; las bandas internas indican los limites de confianza para las respuestas medias y las 
externas señalan los limites de predicción para las respuestas futuras.
Límites de confianza para las respuestas medias
Límites depredicción para las respuestas futuras
Gráfica de Regresión 
Lineal con Minitab 17
Una medida de la calidad del ajuste: el coeficiente de 
determinación
R2 se denomina coeficiente de determinación y es una medida de la proporción de la variabilidad 
explicada por el modelo ajustado. Esta ultima representa la variación en los valores de respuesta 
que idealmente serian explicados con el modelo. El valor de la SCE es la variación debida al
error, o la variación no explicada. Resulta claro que si la SCE = 0, toda variación queda explicada. La 
cantidad que representa la variación explicada es STCC – SCE
la suma total de los cuadrados corregida
Advierta que si el ajuste es perfecto, todos los residuales son cero, y asi R2 = 1.0. Pero si la SCE es 
tan solo un poco menor que la STCC, R2 ≈ 0. 
Coeficiente de correlación producto-momento de Pearson, o solo como coeficiente de correlación 
muestral.
Diagramas de dispersión ilustrando distintas posibilidades de correlación
Salida de resultados de MINITAB para la prueba t de los datos del ejemplo. Observe en la salida de 
resultados, que el coeficiente de determinación sugiere que el modelo ajustado a los datos explica el 
91.3% de la variabilidad observada en la respuesta, la reducción en la demanda de oxigeno químico.
La confiabilidad de R2 depende del tamaño del conjunto de los datos de la regresión y del tipo 
de aplicación. Si 0 ≤ R2 ≤ 1, y el limite superior se logra cuando el ajuste a los datos es perfecto, es decir, 
cuando todos los residuales son cero. 
¿Cual es un valor aceptable de R2?. Un químico encargado de establecer una calibración lineal de una pieza 
de equipo de alta precisión seguramente esperaría obtener un valor muy alto de R2 (quizá superior a 0.99); 
mientras que un científico del comportamiento, que trabaja con datos en los que influye la variabilidad de la 
conducta humana, quizá se sentiría afortunado si obtuviera un valor de R2 de hasta 0.70. Un individuo con 
experiencia en el ajuste de modelos tiene la sensibilidad para saber cuando un valor es suficientemente 
grande dada la situación que esta enfrentando. Es evidente que algunos fenómenos científicos se prestan 
mas a un modelamiento mas preciso que otros.
33
REFERENCIAS:
1. Apuntes Lic. Marta Corro.
2. Estadística para administración y economía, 10a. Edición. Anderson, David 
R.,Dennis J. Sweeney y Thomas A. Williams Ed. Cengage Learning
3. Probabilidad y estadística para ingeniería y ciencias, 9ª Edición. Ronald E.
Walpole, Raymond H. Myers, Sharon l. Myers y Keying Ye. Ed. Pearson educación
4. Estadística. Novena edición. Triola, Mario F. Ed. Pearson educación

Continuar navegando

Materiales relacionados

31 pag.
C014-Regresion-Lineal-Simple-

User badge image

Contenidos Diversos

78 pag.
Relaciones y Modelos de Regresión

Osasco Ii Etec

User badge image

Pedro Goya

152 pag.