Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Unidad Temática 3: Estadística Analítica Unidad 9 Regresión Lineal Simple Tema 15 Estadística Analítica CORRELACIÓN LINEAL SIMPLE • “Indica la fuerza y la dirección de una relación lineal proporcional entre dos variables cuantitativas. Es decir, si los valores de una de ellas varían sistemáticamente con respecto a los de la otra”. • Aporta información de variables concomitantes, permitiendo expresar si existe una relación funcional entre ambas variables, el tipo de relación existente y llegar a conocer con que precisión se relacionan entre sí. “Los métodos de regresión se usan para determinar la mejor relación funcional entre las variables” (Ostle, 1970). REGRESIÓN LINEAL SIMPLE Regresión Lineal OBJETIVOS Permite determinar si dos variables se asocian entre sí y en que sentido se da dicha asociación. Si los valores de una variable pueden ser utilizados con el objeto de poder predecir los valores de la otra variable. Con el propósito de cubrir estos objetivos, tendremos que echar mano a algún tipo de función matemática: Función Lineal Correlación Lineal • Relación entre consumo de alimento balanceado y peso corporal en pollos. Tomado: Steel & Torrie, (1992) Cap. 10 . i Xi = Peso (lb) Yi = Consumo 1 4,6 87,1 2 5,1 93,1 3 4,8 89,8 4 4,4 91,4 5 5,9 99,5 6 4,7 92,1 7 5,1 95,5 8 5,2 99,3 9 4,9 93,4 10 5,1 94,4 85 90 95 100 105 4 4,5 5 5,5 6 Eje de Y = Consumo Eje de X = Peso Diagrama de dispersión X Y MÉTODO DE AJUSTE DE LA RELACIÓN ▪ Reconocida la dispersión que se configura en los datos observados, tendremos que buscar algún modelo o función que se ajuste a la variación observada. Para ello podemos echar mano al: ajuste por función lineal, cuadrática, logarítmica, etc. ▪ Con los datos que tienen un comportamiento aleatorio como los observados en el ejemplo del consumo de los pollos, estimaremos un modelo de ajuste por el Método de Regresión Lineal o ajuste de curvas, para ello utilizaremos el Método de los Mínimos Cuadrados. MÉTODO DE LOS MÍNIMOS CUADRADOS ▪ “Minimiza la suma de los cuadrados de las desviaciones de los puntos observados con respecto a la recta”. ▪ …en la Recta ajustada, Y = a + bX, donde “a” y “b” se denominan coeficientes de regresión, la recta se llama recta de regresión, y la función es la ecuación de regresión. Ŷ = β0 + β1X ▪ Para estimar los coeficientes de regresión, echaremos mano a la suma de los productos cruzados de las desviaciones de las observaciones respecto de sus medias. CALCULO DE LOS COEFICIENTES 21 x xy ▪ Cálculo del coeficiente , pendiente de la recta (1): n YYXXxy ))(( ▪ Cálculo de la suma de productos (covariancia): ▪ Cálculo de la suma de cuadrados de la variable Xi, o variancia de X: n XXx 22 )( CALCULOS Eje de Y = Consumo de balanceado Eje de X = Peso corporal pollos i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy) 1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624 2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058 3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804 4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644 5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464 6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144 7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304 8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584 9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144 10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984 n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812 818,0 536,161,135 812,11 R CALCULO DE LOS COEFICIENTES 69,7 536,1 812,11 1 ▪ Cálculo del coeficiente , pendiente de la recta: ▪ Cálculo de la ordenada al origen: XY 10 01 XY XY 10 26,55 98,4*69,756,93 0 0 • Tablas: Cálculos Recta de regresión por Y-estimado i Peso Xi Consumo (lbs) Yi Ŷ 1 4,6 87,1 90,634 2 5,1 93,1 94,479 3 4,8 89,8 92,172 4 4,4 91,4 89,096 5 5,9 99,5 100,631 6 4,7 92,1 91,403 7 5,1 95,5 94,479 8 5,2 99,3 95,248 9 4,9 93,4 92,941 10 5,1 94,4 94,479 n = 10 X = 4,98 Y = 93,56 iXY 10 ˆ iXY 69,726,55 ˆ • Gráfico: Diagrama de dispersión 85 90 95 100 105 4 4,5 5 5,5 6 85 90 95 100 105 4 4,5 5 5,5 6 Ŷ = 55,26 + 7,69X Y = a + bX Ŷ = 0 + 1 X Modelo lineal ajustado Recta de regresión: es una línea recta que pasa a través de los puntos que minimiza la suma de los cuadrados de las diferencias entre los datos reales y los puntos ajustados. MÉTODO DE LOS MÍNIMOS CUADRADOS ▪ El modelo de Regresión incluye un termino error aleatorio que lo llamaremos “e”: Yi = 0 + 1Xi + ei ei = yi – (0 + 1Xi) Consumo de alimento en gallinas 85.0 90.0 95.0 100.0 4.5 5.0 5.5 6.0 Peso (libras) C o n s u m o a li m ( g ) REGRESIÓN LINEAL SIMPLE El ajuste de los parámetros de la ecuación de la recta de regresión fue el primer paso del análisis de los datos, ahora debemos indagar sobre su significación estadística de la siguiente manera: • ¿Cuán bueno es el ajuste de la recta? Esto equivale a estimar con que grado de certidumbre puedo predecir Y en función de X. •¿El valor de 1 es realmente distinto de cero? Lo cual equivale a preguntarse si el valor obtenido se debe simplemente a un error de muestreo o que Y cambia en función de X. •¿Qué grado de confianza puedo otorgarle a una estimación de un valor desconocido de Y a partir de X usando los parámetros de la regresión ajustada? 85 90 95 100 105 4 4,5 5 5,5 6 85 90 95 100 105 4 4,5 5 5,5 6 85 90 95 100 105 4 4,5 5 5,5 6 Cuanto mayor sea la diferencia entre los valores observados y estimados, peor será el ajuste del modelo y menor la confianza de las estimaciones realizadas Cómo definimos cuál de todos es el mejor modelo Y = 55,263 + 7,69 X Y = 55,263 + 7,69 XY = 55,263 + 7,69 X El poder predictivo del modelo estará dado por la mayor o menor proporción de variabilidad total explicada por el modelo. YYYYYY ii ˆˆ Debemos descomponer la variabilidad total en explicada y residual. Al ser todos desvíos, la suma da 0, por lo que se transforman en cuadrados. 222 ˆˆ YYYYYY ii SC Total SC Explicada SC Residual Cálculos que se hicieron para estimar R Eje de Y = Consumo de balanceado Eje de X = Peso corporal pollos i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy) 1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624 2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058 3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804 4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644 5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464 6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144 7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304 8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584 9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144 10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984 n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812 818,0 536,161,135 812,11 R Valores observados Valores estimados Residuales SC Residual Desviaciones explicadas SC Explicada Xi Yi Ŷ (Yi – Ŷ) (Yi – Ŷ) 2 (Ŷ - ỹ) (Ŷ - ỹ)2 4,6 87,10 90,634 3,534 12,5 -2,926 8,6 5,1 93,10 94,479 1,379 1,9 0,919 0,8 4,8 89,80 92,172 2,372 5,6 -1,388 1,9 4,4 91,40 89,096 -2,304 5,3 -4,464 19,9 5,9 99,50 100,631 1,131 1,3 7,071 50,0 4,7 92,10 91,403 -0,697 0,5 -2,157 4,7 5,1 95,50 94,479 -1,021 1,0 0,919 0,8 5,2 99,30 95,248 -4,052 16,4 1,688 2,8 4,9 93,40 92,941 -0,459 0,2 -0,619 0,4 5,1 94,40 94,479 0,079 0,0 0,919 0,8 4,98 93,56 935,562 0 44,8 0 90,8 TotalSC resiónRegSC R 2 Res SCExpSC ExplicadaSC R 2 8,448,90 8,902 R %67 o 67,02 R 22 2 2 ˆˆ ˆ YYYY YY R i Coeficiente de determinación: Expresa la parte proporcional de la varianza total de la variable dependiente que es explicada por la variable independiente ajustada de acuerdo a la regresión. El 67% de la variabilidad del consumo de alimento puede explicarse por las variaciones en el peso de los animales. El 33% restante es variación residual. REGRESIÓN LINEAL SIMPLE •¿El valor de b es realmentedistinto de cero? Lo cual equivale a preguntarse si el valor obtenido de la “pendiente de la recta” se debe simplemente a un error de muestreo o por el contrario a que “Yi” cambia en función de “Xi”. Por lo tanto necesitamos confrontar la hipótesis nula de que b es igual a cero contra la alternativa que es distinta de cero. Ho) b = 0 H1 ) b ǂ 0 REGRESIÓN LINEAL SIMPLE El estadístico de prueba adecuado para la hipótesis nula será: 1 01 S t Si el t calculado a partir de los datos de la muestra es mayor que el valor de tabla para t(n-2) se rechaza la hipótesis nula y se concluye que b es distinto de cero, por lo que hay una pendiente. Ahora tendremos que investigar el error estándar de 1 n i i residual XX S S 1 2 2 )( 1 2 )ˆ( 2 2 n YY S ii res Variancia de los residuales 91,1 536,1 210 8,44 1 S REGRESIÓN LINEAL SIMPLE Cálculo del Error Estándar de la pendiente: En el ejemplo de los pollos, tenemos el siguiente resultado para la prueba de hipótesis de la significación estadística de 1 y su intervalo de confianza: )05.0(306.2034 91,1 069,7 p,t Conclusión: se rechaza la hipótesis nula, por lo que se confirma que la pendiente de la recta es distinta de cero. Intervalo de confianza para b IC= ß1 ± t . Sß1 •¿Qué grado de confianza puedo otorgarle a una estimación de un valor desconocido de Y a partir de X usando los parámetros de la regresión ajustada? Ŷ = 55,26 + 7,69X Ŷ = 55,26 + 7,69 (5)= 93,71 Intervalo de Confianza para Ŷ IC Ŷ = Ŷ ± t . S Ŷ donde S Ŷ = Sres √ 1 .+ (Xi – X) 2 . n Σ(Xi – X) 2 REGRESIÓN LINEAL CON INFOSTAT REGRESIÓN LINEAL CON INFOSTAT REGRESIÓN LINEAL CON INFOSTAT REGRESIÓN LINEAL CON INFOSTAT REGRESIÓN LINEAL CON INFOSTAT Regresión Lineal Conceptos importantes a ESTUDIAR y APRENDER 1. Variables independiente y dependiente. 2. Diagrama de dispersión 3. Función o modelo lineal 4. Función de Regresión Lineal Simple 5. Cálculo del error, el método de los mínimos cuadrados 6. Coeficiente de regresión o pendiente de la recta (1) 7. Ordenada al origen (0) 8. Concepto de la Recta de Regresión 9. Coeficiente de Determinación.
Compartir