Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Ayudantía N°10 14 de Junio Regresión Lineal Es un análisis estadístico que nos permite ver si existe una relación entre dos variables continuas de las que se cree que una variable tiene influencia sobre los valores de la otra. Se evalúa una causalidad. Se busca una línea recta que mejor explique la relación entre estas dos variables, además también se busca evaluar qué tan buena es la línea de ajuste para predecir el comportamiento entre variables. Una de las variables es independiente (X) y la otra dependiente (Y). Es decir, la variable X puede controlar en algún grado a la variable Y, pero esta última no tiene ninguna determinancia en la variable X. Ecuación de la regresión lineal Intercepto y coeficiente de X Línea de mejor ajuste En la realidad los puntos tienden a presentar una mayor dispersión. Es por esto que la ecuación de regresión busca el mejor ajuste para los datos con los que se está trabajando. Para buscar la mejor línea de ajuste lo que se realiza es llevar a cabo la ecuación de regresión Y=bX + a. Predicciones y Residuales Cuando obtenemos la ecuación de la regresión, entonces podemos realizar predicciones sobre los números esperados, es decir, para tal valor de X se esperaría tal valor de Y. Para esto reemplazamos en la ecuación el valor de X por alguno que queramos examinar. La diferencia que existe entre el valor observado y el esperado, es decir entre el valor Y esperado por la línea de mejor ajuste versus el observado que cae fuera de la línea se denomina residual. Mientras más puntos caigan cerca de la recta, mejor será el ajuste de la regresión. Mientras que más lejos el ajuste será menor o no habrá. Coeficiente de determinación r² Nos permite evaluar qué tan bueno es el ajuste obtenido. Para obtener el mejor ajuste posible, se espera que la suma del cuadrado de los residuales sea lo mínimo posible. Tal como la V de Cramer, el valor de r² varía entre 0 y 1. Si el valor de r² se acerca a 1 el ajuste del modelo será muy bueno. Mientras que si el valor se acerca a 0 el ajuste no será para nada bueno. Al mismo tiempo, se considera a r² como "una medida de proporción de la variación total en y explicada por la regresión" (Drennan y González 2019: 248). Por ejemplo, si tenemos un r² = 0.542 podemos decir que un 54,2% de la variación observada en la variable Y se explica por la variable X. Significancia y estadístico F Con el análisis del estadístico F obtenemos un nivel de significancia para nuestro modelo de regresión lineal. Con esto evaluamos qué tan probable es que la relación observada se deba al azar o no. Obtenemos entonces el valor de F y un p-value. Análisis de residuales ● los residuales reflejan variación que la regresión lineal no es capaz de explicar con las variables analizadas. ● por esta razón, se necesita explorar si hay otras variables que podrían influir en la explicación de esta variación. ● es posible incluir los residuales obtenidos como una variable más y compararla con otros factores para realizar otro análisis de regresión. Regresión lineal en Gráfico de dispersión: ggplot(data=data, aes(x=largo, y=peso))+ geom_point() Regresión lineal: regresion <- lm(formula= Variable dependiente ~ Variable independiente, data=data1 ) summary(regresion) Línea de regresión en el gráfico: ggplot(data=data1, aes(x=largo, y=peso))+ geom_point()+stat_smooth(method=lm, level=0.90) Cómo se dice: “En base a los resultados obtenidos podemos observar que la relación lineal explica significativamente que la variación observada en la variable dependiente, en este caso las azadas, está dada por la variable independiente, es decir área de sitio. Esto lo observamos en base al valor F=13.81 con un p-valor= 0.003. Además, vemos que r² es igual a 0.53, es decir, un 53.3% de la variación en el número de azadas se explica por el área de sitio.”
Compartir