Ayudantía N10

•

Outros

0

Estudios Generales

15.9.2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Otros

100.944 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Ayudantía N°10
14 de Junio
Regresión Lineal
Es un análisis estadístico que nos permite ver si existe una relación entre dos variables
continuas de las que se cree que una variable tiene influencia sobre los valores de la otra.
Se evalúa una causalidad.
Se busca una línea recta que mejor explique la relación entre estas dos variables, además
también se busca evaluar qué tan buena es la línea de ajuste para predecir el
comportamiento entre variables.
Una de las variables es independiente (X) y la otra dependiente (Y). Es decir, la variable X
puede controlar en algún grado a la variable Y, pero esta última no tiene ninguna
determinancia en la variable X.
Ecuación de la regresión lineal
Intercepto y coeficiente de X
Línea de mejor ajuste
En la realidad los puntos tienden a presentar una mayor dispersión. Es por
esto que la ecuación de regresión busca el mejor ajuste para los datos con
los que se está trabajando.
Para buscar la mejor línea de ajuste lo que se realiza es llevar a cabo la
ecuación de regresión Y=bX + a.
Predicciones y Residuales
Cuando obtenemos la ecuación de la regresión, entonces podemos realizar predicciones
sobre los números esperados, es decir, para tal valor de X se esperaría tal valor de Y.
Para esto reemplazamos en la ecuación el valor de X por alguno que queramos examinar.
La diferencia que existe entre el valor observado y el esperado, es decir entre el valor Y
esperado por la línea de mejor ajuste versus el observado que cae fuera de la línea se
denomina residual.
Mientras más puntos caigan cerca de la recta, mejor será el ajuste de la regresión.
Mientras que más lejos el ajuste será menor o no habrá.
Coeficiente de determinación r²
Nos permite evaluar qué tan bueno es el ajuste obtenido. Para obtener el mejor ajuste
posible, se espera que la suma del cuadrado de los residuales sea lo mínimo posible.
Tal como la V de Cramer, el valor de r² varía entre 0 y 1. Si el valor de r² se acerca a 1 el
ajuste del modelo será muy bueno. Mientras que si el valor se acerca a 0 el ajuste no será
para nada bueno. Al mismo tiempo, se considera a r² como "una medida de proporción de
la variación total en y explicada por la regresión" (Drennan y González 2019: 248).
Por ejemplo, si tenemos un r² = 0.542 podemos decir que un 54,2% de la variación
observada en la variable Y se explica por la variable X.
Significancia y estadístico F
Con el análisis del estadístico F obtenemos un nivel de significancia para nuestro modelo
de regresión lineal. Con esto evaluamos qué tan probable es que la relación observada se
deba al azar o no.
Obtenemos entonces el valor de F y un p-value.
Análisis de residuales
● los residuales reflejan variación que la regresión lineal no es capaz
de explicar con las variables analizadas.
● por esta razón, se necesita explorar si hay otras variables que
podrían influir en la explicación de esta variación.
● es posible incluir los residuales obtenidos como una variable más
y compararla con otros factores para realizar otro análisis de
regresión.
Regresión lineal en
Gráfico de dispersión:
ggplot(data=data, aes(x=largo, y=peso))+ geom_point()
Regresión lineal:
regresion <- lm(formula= Variable dependiente ~ Variable independiente, data=data1 )
summary(regresion)
Línea de regresión en el gráfico:
ggplot(data=data1, aes(x=largo, y=peso))+ geom_point()+stat_smooth(method=lm, level=0.90)
Cómo se dice:
“En base a los resultados obtenidos podemos observar que la relación lineal explica
significativamente que la variación observada en la variable dependiente, en este
caso las azadas, está dada por la variable independiente, es decir área de sitio.
Esto lo observamos en base al valor F=13.81 con un p-valor= 0.003. Además, vemos
que r² es igual a 0.53, es decir, un 53.3% de la variación en el número de azadas se
explica por el área de sitio.”