Logo Studenta

regresión lineal y correlación

¡Este material tiene más páginas!

Vista previa del material en texto

ESTADÍSTICA II
Clase del 11/04/2022
Regresión lineal y correlación
Docentes:
Roberto Emanuel Díaz Ansberck
Víctor Luna
Introducción
En la práctica, es frecuente que se requiera resolver problemas que 
implican conjuntos de variables, de las cuales se sabe que tienen 
alguna relación entre sí. 
Por ejemplo, en una situación industrial quizá se sepa que el numero 
de accidentes de los empleados de la misma está relacionado con la 
cantidad de horas extra trabajadas. Podría ser de interés desarrollar 
un método de pronóstico, es decir, un procedimiento para estimar el 
numero de accidentes, a partir de información experimental. Pero, 
por supuesto, es muy probable que para muchos ejemplos concretos 
en los que las horas extras y el numero de accidentes no sea el 
mismo. 
El numero de accidentes es la variable dependiente natural o 
respuesta. 
El numero de horas extras trabajadas, es la variable independiente 
natural o regresora. Se puede suponer que una forma razonable de 
relación entre la respuesta Y y la regresora x es la relación lineal
Donde 𝛽0 es la intersección u ordenada al 
origen, es decir, el valor de y cuando x=0, y 𝛽1 
es la pendiente de la recta (el cambio en “y” 
por una unidad de cambio en “x”). La relación se 
ilustra en la figura:
“La Regresión lineal estudia la relación 
funcional que vincula (la ó) las variables 
independientes con la dependiente, 
siendo lineal en los coeficientes, y 
proporciona un procedimiento de 
predicción”.
Modelo de Regresión lineal
El modelo de regresión lineal simple se limita el uso 
de los términos análisis de regresión a situaciones 
donde las relaciones entre las variables no son 
deterministas (esto es, no son exactas). Sucede 
que al considerar que existe un componente 
aleatorio en la ecuación que relaciona las variables, 
se toma en cuenta consideraciones que no se miden. 
Es seguro que en la mayoría de aplicaciones de la 
regresión, la ecuación lineal, 𝑌 = 𝛽0 + 𝛽1 𝑥 , es una 
aproximación simplificada de algo desconocido y 
mucho más complejo. 
Ejemplo
El encargado de higiene y seguridad de una planta de 
recuperado de materiales electrónicos esta 
preocupado por la salud de sus empleados, esto 
deviene de acuerdo a unos datos que ha tomado 
donde coloco las horas extras trabajadas por cada 
empleado y los accidentes que tuvo los días que 
cumplió esas horas, así completando la siguiente 
tabla:
Horas 0 1 2 3 4 5 6
Accidentes 3 7 7 9 12 13 12
Ejemplo
Horas 0 1 2 3 4 5 6
Accidentes 3 7 7 9 12 13 12
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
A
c
c
i
d
e
n
t
e
s
Horas extras trabajadas
Dispersograma
Análisis de un dispersograma
Un dispersograma es un grafico donde colocamos puntos 
que representas pares x e y, a partir de la observación de 
todos los puntos se pueden obtener conclusiones.
Puede observarse que, en general, al aumentar “x”, “y” 
disminuye, y que los puntos no están tan dispersos de 
una posible recta a dibujar. 
Así, un modelo de regresión lineal simple puede que 
relacione las variables puestas en juego.
Lo que si sucede es que una recta no se adecuara al 100%, 
por ende abran errores, estos los denominaremos “ε”, 
que llamaremos residuos, que son en realidad errores 
aleatorios. 
Supuestos
• La cantidad “Y” es una variable aleatoria, ya que 
“ε” es aleatoria.
• El valor “x” de la variable regresora no es 
aleatorio, no está sujeta a error, se supone que el 
experimento se puede repetir manteniendo los 
valores de x fijos.
• La cantidad “ε”, sigue una distribución normal: 
ε~𝑁(0; 𝜎 2 )
• Los “ε” son independientes entre sí, entre una 
ejecución y otra del experimento. 
Sobre la base de lo analizado, en el modelo 
probabilístico, “y” es el valor de una variable 
aleatoria “Y” tal que para un valor dado de una 
variable matemática x fija, Y/x, se puede 
demostrar aplicando propiedades de esperanza y 
varianza: 
Observación
El término regresión lineal simple significa que la 
media de las Y para un x fijo, se vincula con x, 
mediante la ecuación de la recta:
Pero se estima como:
Un aspecto importante del análisis de regresión 
es, simplemente, estimar los parámetros 𝛽0 y 𝛽1 
(es decir, estimar los llamados coeficientes de 
regresión). Se supone que los estimados de 𝛽0 y 
𝛽1 se denotan con b0 y b1.
Se espera que la recta estimada esté más cerca de 
la verdadera línea de regresión cuando se 
disponga de una gran cantidad de datos, 
situación que no suele ser fácil de logar. 
Gráficamente se puede mostrar:
Método de mínimos cuadrados
Para encontrar b0 y b1, podemos hacer uso del 
método de los mínimos cuadrados que consiste en 
minimizar la suma de los cuadrados de los residuos 
(SCE) respecto de la recta de regresión. Este método 
permite obtener estimadores insesgados (reducidos 
en error)y de varianza mínima. 
Ejemplo
Horas 0 1 2 3 4 5 6
Accidentes 3 7 7 9 12 13 12
x y xy x^2 Suma x
0 3 0 0 21
1 7 7 1 Suma y
2 7 14 4 63
3 9 27 9 Suma xy
4 12 48 16 233
5 13 65 25 Suma x^2
6 12 72 36 91
b1=1,57142857
b0=4.28571429
Residuos
Es importante destacar el concepto de residuos, 
ei, y los errores del modelo, εi. Los εi no son 
observados y los ei no sólo se observan o 
calculan, y juegan un papel importante en el 
análisis general. 
Ejemplo
Calcule y grafique los residuos de la recta 
estimada en los ejemplos anteriores
Pruebas para b0 y b1
Los coeficientes de regresión 𝛽0 y 𝛽1 pueden 
interpretarse en forma general como: 
𝛽0: valor esperado de la media de Y cuando el x=0 
𝛽1: valor esperado de la media de la cantidad de 
cambio de Y cuando “x” varía (aumenta ó 
disminuye) en una unidad. 
Cuando se pide referirlo a un problema se debe 
especificar quien es “Y” y “x” en el mismo. 
Observación: Una salida de computadora según un software 
estadístico muestra:
Parámetro
Estimación 
por 
Mínimos 
cuadrados
Error 
estándar
Estadístico 
(T obs)
Valor p
Ordenada 1001,69 31,0531 32,2574 0,0000
Pendiente -2,63865 0294487 -8,96015 0,0000
En esta tabla se muestran: ordenada al origen y la 
pendiente, obtenidos por el método de los mínimos 
cuadrados y el error estándar de cada uno de los 
estimadores 
Las dos últimas columnas hacen referencia, 
respectivamente a: 
• H0: 𝛽0 = 0 vs. H1: 𝛽0 ≠ 0 
• H0: 𝛽1 = 0 vs. H1: 𝛽1 ≠ 0 
Ejemplo
1- Plantear un intervalo de confianza al 95% para 
la ordenada, ¿Es significativa?
2- Plantear una prueba de hipótesis para la 
significatividad de la pendiente.
Correlación
La correlación estudia el grado de asociación lineal 
entre las variables X e Y. 
El análisis de correlación intenta medir la intensidad 
de las relaciones entre las dos variables por medio 
de un solo número denominado coeficiente de 
correlación. Se supone que tanto X como Y son 
variables aleatorias normales con sus medias y 
varianzas respectivas, de tal forma que la 
distribución conjunta f(x,y) es una distribución 
normal bivariada. 
Coeficiente de correlación lineal
El coeficiente de correlación lineal para una 
población de valores, es el parámetro simbolizado con ρ, 
y es un valor entre -1 y 1, que indica la fuerza de la 
relación lineal entre dos variables cuantitativas. O sea:
−1 ≤ 𝜌 ≤ 1 
- Si ρ= 0 → X e Y no están relacionadas linealmente, o sea, 
no están correlacionadas 
- Si ρ= ∓ 1 → X e Y tienen una relación lineal perfecta con 
pendiente negativa ó positiva, o sea tienen una 
correlación muy fuerte
- Según valores de ρ se suele apreciar asociación lineal 
“buena”, “débil”, entre X e Y
Coeficiente de correlación lineal
• ρ: coeficiente de correlación poblacional.
• r: estimador de ρ.
• Con “r” se pueden realizar inferencias para “ρ” para 
realizar una prueba de hipótesis sobre:
▫ H0: ρ = 0 vs. H1: ρ≠ 0 
• Se demuestra que es adecuado utilizar la distribución:
Ejemplo
Horas Accidentes Sumas
x y xy x^2 y^2 x y^2
0 3 0 0 9 21 645
1 7 7 1 49 y
2 7 14 4 49 63
3 9 27 9 81 xy
4 12 48 16 144 233
5 13 65 25 169 x^2
6 12 72 36 144 91
r=0,94151308
Ejemplo
Realice una pruebade hipótesis para el coeficiente 
de correlación, suponiendo que no hay relación 
lineal.
¡Muchas gracias por su atención!
Nos vemos el miércoles con un práctico 
áulico

Continuar navegando