Logo Studenta

Ayudantía N10

¡Este material tiene más páginas!

Vista previa del material en texto

Ayudantía N°10
14 de Junio 
Regresión Lineal
Es un análisis estadístico que nos permite ver si existe una relación entre dos variables 
continuas de las que se cree que una variable tiene influencia sobre los valores de la otra. 
Se evalúa una causalidad.
Se busca una línea recta que mejor explique la relación entre estas dos variables, además 
también se busca evaluar qué tan buena es la línea de ajuste para predecir el 
comportamiento entre variables.
Una de las variables es independiente (X) y la otra dependiente (Y). Es decir, la variable X 
puede controlar en algún grado a la variable Y, pero esta última no tiene ninguna 
determinancia en la variable X.
Ecuación de la regresión lineal
Intercepto y coeficiente de X
Línea de mejor ajuste
En la realidad los puntos tienden a presentar una mayor dispersión. Es por 
esto que la ecuación de regresión busca el mejor ajuste para los datos con 
los que se está trabajando.
Para buscar la mejor línea de ajuste lo que se realiza es llevar a cabo la 
ecuación de regresión Y=bX + a.
Predicciones y Residuales
Cuando obtenemos la ecuación de la regresión, entonces podemos realizar predicciones 
sobre los números esperados, es decir, para tal valor de X se esperaría tal valor de Y. 
Para esto reemplazamos en la ecuación el valor de X por alguno que queramos examinar.
La diferencia que existe entre el valor observado y el esperado, es decir entre el valor Y 
esperado por la línea de mejor ajuste versus el observado que cae fuera de la línea se 
denomina residual. 
Mientras más puntos caigan cerca de la recta, mejor será el ajuste de la regresión. 
Mientras que más lejos el ajuste será menor o no habrá.
Coeficiente de determinación r²
Nos permite evaluar qué tan bueno es el ajuste obtenido. Para obtener el mejor ajuste 
posible, se espera que la suma del cuadrado de los residuales sea lo mínimo posible.
Tal como la V de Cramer, el valor de r² varía entre 0 y 1. Si el valor de r² se acerca a 1 el 
ajuste del modelo será muy bueno. Mientras que si el valor se acerca a 0 el ajuste no será 
para nada bueno. Al mismo tiempo, se considera a r² como "una medida de proporción de 
la variación total en y explicada por la regresión" (Drennan y González 2019: 248).
Por ejemplo, si tenemos un r² = 0.542 podemos decir que un 54,2% de la variación 
observada en la variable Y se explica por la variable X.
Significancia y estadístico F
Con el análisis del estadístico F obtenemos un nivel de significancia para nuestro modelo 
de regresión lineal. Con esto evaluamos qué tan probable es que la relación observada se 
deba al azar o no.
Obtenemos entonces el valor de F y un p-value. 
Análisis de residuales
● los residuales reflejan variación que la regresión lineal no es capaz 
de explicar con las variables analizadas.
● por esta razón, se necesita explorar si hay otras variables que 
podrían influir en la explicación de esta variación.
● es posible incluir los residuales obtenidos como una variable más 
y compararla con otros factores para realizar otro análisis de 
regresión.
Regresión lineal en
Gráfico de dispersión:
ggplot(data=data, aes(x=largo, y=peso))+ geom_point()
Regresión lineal:
regresion <- lm(formula= Variable dependiente ~ Variable independiente, data=data1 )
summary(regresion)
Línea de regresión en el gráfico:
ggplot(data=data1, aes(x=largo, y=peso))+ geom_point()+stat_smooth(method=lm, level=0.90)
Cómo se dice:
“En base a los resultados obtenidos podemos observar que la relación lineal explica 
significativamente que la variación observada en la variable dependiente, en este 
caso las azadas, está dada por la variable independiente, es decir área de sitio. 
Esto lo observamos en base al valor F=13.81 con un p-valor= 0.003. Además, vemos 
que r² es igual a 0.53, es decir, un 53.3% de la variación en el número de azadas se 
explica por el área de sitio.”

Otros materiales