Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN I Profesores del curso UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Facultad de Economía y Planificación Departamento Académico de Estadística e Informática Análisis de Regresión Lineal Simple 2021-I OBJETIVOS Formular modelos de regresión lineal simple. Usando variables dentro del contexto de su especialidad. Identificar los supuestos del modelo de regresión lineal simple. Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal simple. Realizar estimaciones adecuadas de la variable de interés del campo de su especialidad en base a resultados obtenidos del análisis de regresión. Métodos Estadísticos para la Investigación I 2021-I Sabías que… Se efectuó un experimento para evaluar el efecto del zinc en el peso de cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios por grupo al final de la semana están expresados como porcentajes sobre los pesos iniciales. Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la semana a) Estime la línea de regresión lineal simple. b) Interprete los coeficientes de regresión. c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada. d) Calcule e interprete el coeficiente de determinación. Ingesta de zinc 0 2 4 8 12 16 30 Peso medio (en %) 100 92 95 90 98 85 67 Métodos Estadísticos para la Investigación I 2021-I Logro de la sesión: Al final de la sesión el estudiante analiza y resuelve problemas de una variable dependiente y una independiente en situaciones reales aplicadas a su especialidad, haciendo uso de la regresión lineal simple, prueba de hipótesis estimación y predicción. LA REGRESIÓN LINEAL SIMPLE Tiene como propósito predecir o estimar una variable dependiente (Y) a partir de otra variable llamada independiente (X) a través de un modelo matemático. El modelo poblacional de la regresión lineal simple es el siguiente: 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜀𝑖 Los parámetros del modelo β0 y β1 son estimados por el método de mínimos cuadrados ordinarios (MCO), buscando minimizar la siguiente expresión: El modelo de regresión estimado es: 𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖 Métodos Estadísticos para la Investigación I 2021-I 2 2 0 1 1 1 n n i i i i i Y X LA REGRESIÓN LINEAL SIMPLE SUPUESTOS 1) Se asume que la variable independiente X es fija (no aleatoria). 2) La variable dependienteY es aleatoria. 3) Para cada valor de X existe una distribución normal de la variableY: 4) El error tiene distribución normal con media 0 y varianza constante el cual se puede expresar de la siguiente forma: 5) Esta expresión indica que no hay dependencia entre las observaciones y tampoco entre los valores de ɛi con los valores de Xi 2|~ ,ii Y XY N 2 2~ 0,i N Métodos Estadísticos para la Investigación I 2021-I Ejemplo de Aplicación 1 Conforme los quesos maduran, ocurren varios procesos químicos que determinan el sabor del producto final. En un estudio en queso cheddar, 10 muestras de queso fueron analizadas en su composición química. Además, una medida subjetiva del sabor fue obtenida combinando los puntajes asignados por varios sujetos que probaron el queso. Los datos se dan a continuación: Muestra 1 2 3 4 5 6 7 8 9 10 Sabor (Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7 AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328 Métodos Estadísticos para la Investigación I 2021-I Ejemplo de Aplicación 1 Las variables son: Sabor: puntaje subjetivo del sabor, obtenido combinando los puntajes de varios sujetos. AA : logaritmo natural de la concentración de ácido acético. ( AA= ln(ConcentÁcido Acético)) El objetivo de este estudio es evaluar el efecto de la variable AA (variable independiente o predictora) en el sabor del queso (variable dependiente o respuesta). Se pide, elaborar el gráfico de dispersión entre las variables Sabor y AA. Métodos Estadísticos para la Investigación I 2021-I Ejemplo de Aplicación 1 En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el logaritmo de la concentración del ácido acético. El gráfico muestra una aparente relación de dependencia entre ambas variables en el sentido de que a mayor concentración de ácido acético, mayor será la calificación del sabor. Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN a) Determine la ecuación de regresión lineal estimada Muestra Sabor (Y) AA (X) Y2 X2 XY 1 12.3 4.54 151.29 20.64 55.88 2 47.9 5.76 2294.41 33.17 275.86 3 37.3 5.89 1391.29 34.72 219.77 4 21 5.24 441.00 27.48 110.08 5 0.7 4.48 0.49 20.04 3.13 6 40.9 6.37 1672.81 40.51 260.33 7 18 5.25 324.00 27.53 94.45 8 15.2 5.30 231.04 28.07 80.53 9 16.8 5.37 282.24 28.79 90.15 10 0.7 5.33 0.49 28.39 3.73 Total 210.8 53.52 6789.06 289.34 1193.91 Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN Donde calculamos: El modelo de regresión estimado es: 𝑌 = 21.08 𝑋 = 5.3517 𝑋𝑖 2 = 289.34 𝑌𝑖 2 = 6789.06 𝑋𝑖 𝑌𝑖 = 1193.91 𝑏1 = ሻ𝑆𝑃(𝑋𝑌 ሻ𝑆𝐶(𝑋 = σ𝑖=1 𝑛 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 σ𝑖=1 𝑛 𝑋𝑖 2 − 𝑛𝑋 2 = ሻ1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517 289.34 − 10 ∗ 5.3517 2 = 22.44 𝑏0 = 𝑌 − 𝑏1𝑋 = 21.08 − 22.44 ∗ (5.3517ሻ = −99.03 �̰� = −99.03 + 22.44𝑋 Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN b) Analice el siguiente gráfico e interprete. 6.56.05.55.04.5 50 40 30 20 10 0 S 1 0.4246 R-cuad. 62.9% R-cuad.(ajustado) 58.3% AA (X) S a b o r( Y ) Gráfica de línea ajustada Sabor(Y) = - 99.03 + 22.44 AA (X) Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN El intercepto En este caso el intercepto, -99.03, correspondería al puntaje estimado del sabor de un queso cuando el logaritmo natural de la concentración de ácido acético es igual a cero. Dado que en la estimación de este modelo se utilizaron valores AA de 4.477 hasta 6.365, esta interpretación no tiene validez. El coeficiente de regresión El coeficiente de regresión, 22.44 es siempre interpretable y en este caso indica que por cada incremento unitario en el logaritmo natural de la concentración de ácido acético, se estima un incremento en el puntaje del sabor de 22.44 puntos. Métodos Estadísticos para la Investigación I 2021-I EL ANÁLISIS DE VARIANZA Cuando se obtiene la ecuación de regresión, todavía no se puede afirmar estadísticamente que exista una dependencia lineal de la variable Y respecto a la variable X. Por lo tanto, es necesario proceder con una prueba hipótesis de la pendiente de la ecuación de regresión y esto se logra utilizando un procedimiento matemático conocido como el Análisis de Varianza (ANVA). El ANVA permite evaluar si existe dependencia lineal o no de la variable dependiente (Y) respecto a la variable independiente (X). Métodos Estadísticos para la Investigación I 2021-I EL ANÁLISIS DE VARIANZA Fuentes de variación Gl SC CM Fc Regresión 1 b1 SP(XY) Error n – 2 SC(Y) – b SP(XY) Total n - 1 SC(Y) =SC(Total) Métodos Estadísticos para la Investigación I 2021-I 𝑆𝐶(𝑌ሻ = 𝑖=1 𝑛 𝑌2𝑖 − (σ𝑌𝑖ሻ 2 𝑛 𝑆𝑃(𝑋𝑌ሻ = 𝑖=1 𝑛 𝑋𝑖𝑌𝑖 − (σ𝑋𝑖ሻ( σ𝑌𝑖ሻ 𝑛 SC(Reg) = b1 SP(XY) SC(Error) = SC(Y) – b1 SP(XY) SC(Total) = SC(Y) 𝑏1 = መ𝛽1 = 𝑆𝑃 𝑋𝑌 𝑆𝑃 𝑋 𝑆𝐶(𝑋ሻ = 𝑖=1 𝑛 𝑋2𝑖 − (σ𝑋𝑖ሻ 2 𝑛 Análisis de Variancia – Prueba de hipótesis El procedimento es: P1) P2) Nivel de significancia: P3) Estadístico de Prueba: P4) Regla de decisión: Rechazar Ho si: Fc > F (1-α,GLReg,GLError) Graficar Decisión: Rechazar H0 o no rechazar H0. P6) Conclusión 0 1 1 1 : 0 : 0 H No existe dependencia lineal de Y respecto a X H Existe dependencia lineal de Y respecto a X r² = COEFICIENTE DE DETERMINACIÓN Mide el porcentaje de la variabilidad de la respuesta que esexplicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente expresión: ( ) ( ) SC Reg SC Total Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN Valide el modelo de regresión estimado en el ejemplo 3, siendo las variables Y = sabor y X = AA a un nivel de significación del 5% Solución: 𝑆𝐶 (Totalሻ = 𝑆𝐶(𝑌ሻ = 𝑖=1 𝑛 𝑌𝑖 2 − 𝑛𝑌 2 = 6789.06 − 10 21.08 2 = 2345.40 𝑆𝐶 (Regresionሻ = 𝑏1𝑆𝑃(𝑋𝑌ሻ = 22.44 ሻ1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517 = 1475.92 𝑆𝐶 (Errorሻ = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ − 𝑆𝐶(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛ሻ = 2345.40 − 1475.92 = 869.48 Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN Prueba de Hipótesis P1) P2) P3) P4) P5) Conclusión: A un nivel de significación del 5% se rechaza H0. Luego se puede afirmar que el sabor del queso depende linealmente del logaritmo natural de la concentración de ácido acético. Fuentes de Variación GL SC CM 𝐹𝑐 Regresión 1 1475.92 1475.92 13.58 Error 8 869.48 108.685 Total 9 2345.40 𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 ≠ 0 𝛼 = 0.05 𝐹𝑐 = 13.58 ∼ 𝐹 1,8 𝐶𝑜𝑚𝑜 𝐹𝑐 = 13.58 > 𝐹tab = 𝐹 0.95,1.8 = 5.318, se rechaza la H0 Métodos Estadísticos para la Investigación I 2021-I APLICACIÓN Para el ejemplo tratado en esta sección el coeficiente de determinación es: 𝑟2 = ሻ𝑆𝐶(𝑅𝑒𝑔 ሻ𝑆𝐶(𝑇𝑜𝑡𝑎𝑙 = 𝑟2 = 1475.92 2345.40 = 0.63 ó 63% El 63% de la variabilidad del sabor es explicado por el logaritmo natural de la concentración de ácido acético. Métodos Estadísticos para la Investigación I 2021-I ESTIMACIÓN Y PREDICCIÓN Estimación puntual: Estimación por intervalo: 0 1 ˆ i iY b b X 2 0 0 (1 , 2) 2 ( )1ˆ( / ) * ( )n x X IC Y X x Y t CME n SC X 2 0 0 (1 , 2) 2 ( )1ˆ( / ) * 1 ( )n x X IP Y X x Y t CME n SC X INTERVALO DE PREDICCIÓN INTERVALO DE CONFIANZA Interpretación como predicción de un valor individual o como estimación de valor medio Métodos Estadísticos para la Investigación I 2021-I Ejemplo: Encontrar un intervalo de predicción de un valor individual y un intervalo de confianza para el valor medio a un 95% para evaluar el sabor del queso cuando el logaritmo de ácido acético es 5.2. 𝑥0 = 5.2 �̰� = −99.03 + 22.44𝑋 𝐶𝑀𝐸 = 108.685 𝑛 = 10 𝑆𝐶(𝑋ሻ = 𝑖=1 𝑛 𝑋𝑖 2 − 𝑛𝑋 2 = 289.34 − 10 ∗ 5.3517 2 = 2.933 𝑡 1− 𝛼 2 ,𝑛−2 = 𝑡 1− 0.05 2 ,10−2 = 𝑡 0.975,8 = 2.306 Métodos Estadísticos para la Investigación I 2021-I Ejemplo: Intervalo de predicción de un valor individual a un 95% Como los puntajes son positivos el intervalo de predicción sería: IP(Y/X=5.2)=[0, 42.96] Interpretación Con un nivel de predicción del 95%, se puede decir que el sabor del queso, cuando el logaritmo natural de la concentración de ácido acético es de 5.2, está entre 0 y 42.96 unidades. 𝐼𝑃( Τ𝑌 𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685 1 + 1 10 + 5.2−5.3517 2 2.933 = (−7.65,42.96) Métodos Estadísticos para la Investigación I 2021-I Ejemplo: Intervalo de confianza del valor medio a un 95% Interpretación Con un nivel de confianza del 95%, se puede decir que el sabor medio del queso, cuando el logaritmo natural de la concentración de ácido acético es de 5.2, está contenido entre 5.94 y 29.38 unidades. 𝐼𝐶( Τ𝑌 𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685 1 10 + 5.2−5.3517 2 2.933 = (5.94,29.38) Métodos Estadísticos para la Investigación I 2021-I Aplicación Se efectuó un experimento para evaluar el efecto del zinc en el peso de cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios por grupo al final de la semana están expresados como porcentajes sobre los pesos iniciales. Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la semana Ingesta de zinc 0 2 4 8 12 16 30 Peso medio (en %) 100 92 95 90 98 85 67 Métodos Estadísticos para la Investigación I 2021-I a) Estime la línea de regresión lineal simple. b) Interprete los coeficientes de regresión. c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada. Use un nivel de significancia de 0.01 d) Calcule e interprete el coeficiente de determinación. Métodos Estadísticos para la Investigación I 2021-I REPORTE MINITAB Regression Analysis: y versus x Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 595.8 595.77 19.87 0.007 x 1 595.8 595.77 19.87 0.007 Error 5 149.9 29.99 Total 6 745.7 Model Summary S R-sq R-sq(adj) R-sq(pred) 5.47614 79.89% 75.87% 45.87% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 99.47 3.04 32.77 0.000 x -0.962 0.216 -4.46 0.007 1.00 Regression Equation y = 99.47 - 0.962 x Métodos Estadísticos para la Investigación I 2021-I
Compartir