Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
REGRESION Y CORRELACION LINEAL SIMPLE (JL Pérez Miranda) Una de las técnicas mas usadas en la investigación en ciencias administrativas, ciencias biológicas, ciencias de la salud, sociales, la economía y el medio ambiente, es el análisis de regresión y correlación. REGRESION. Es un método útil para averiguar la forma probable de relación entre dos o mas variables. CORRELACION. Es un método que indica el grado de asociación entre dos o más variables. El propósito del investigador al efectuar estos análisis posiblemente sea su interés por estudiar relaciones tales como: Presión Sanguínea y Edad de las personas Tipo de Alimentación y Nivel de Colesterol La Estatura y el Peso de los niños Uso de Insecticidas y Desaparición de Especies Dosis de Fertilizante y Rendimiento óptimo de maíz Producción de leche en función de alfalfa consumida por el ganado Tipo de empaques y Total de Ventas Tabaquismo y Cáncer pulmonar OBJETIVO DE LA REGRESION Por lo general es predecir o estimar el valor de una variable, correspondiente al valor dado de otra variable. SIR FRANCIS GALTON (1822-1911) fue quien aclaró esta idea en sus investigaciones sobre la herencia en chícharos y después en la estatura humana. Describió una tendencia del hijo adulto que tiene padres altos a no ser tan altos como sus padres e hijos de padres de estatura pequeña a no ser tan pequeños como ellos, esto es, que regresa o tienden a la estatura promedio de la población general. Este mismo investigador fue quien utilizó primero la palabra correlación en el año de 1888. Sir Francis Galton (Duddeston, 1822 - Haslemere, 1911) Antropólogo y geógrafo inglés. Estudió medicina en el hospital de Birmingham, en Londres y en Cambridge. Terminados los estudios en 1844, emprendió (como su primo el gran Charles Darwin, y también como muchos estudiosos ingleses de la época) una larga serie de viajes: así, entre 1845 y 1846 estuvo en Sudáfrica, y en 1850 exploró el Damaraland en el sudoeste africano. Su contribución a la teoría de la herencia (leyes de la regresión filial y de la herencia ancestral) gozó de mucha popularidad en su tiempo, pero pronto se vería superada por el desarrollo de la genética de Mendel y Weismann. En cambio, sus estudios de estadística, dedicados sobre todo a la investigación de las correlaciones de los caracteres cuantitativos, conservan todavía un cierto valor. EL MODELO DE REGRESION Es importante que el investigador comprenda la naturaleza de la población de interés, tanto como para ser capaz de construir un modelo que la represente, como para determinar si puede ajustarse a un modelo matemático preestablecido. Se tiene la población real o hipotética y se representa por una muestra: Los modelos de regresión tienen 4 tipos de usos fundamentales: Descripción y Explicación Predicción Control Calibración. SUPUESTOS QUE FUNDAMENTAN AL MODELO DE LA REGRESION LINEAL SIMPLE. En el modelo de regresión lineal simple interesa encontrar la forma de relación entre dos variables X y Y. Por lo general a X se le conoce como variable independiente y a Y se le conoce como variable dependiente Supuesto l. Los valores de la variable independiente X son “fijos”, esto es, están bajo el control del investigador 2. La variable X se mide sin error 3. Para cada valor de X existe una subpoblación de Y. Dichas subpoblaciones deben tener una distribución normal 4. Las varianzas de las subpoblaciones de Y son todas iguales. Supuesto conocido como supuesto de homogeneidad de varianza 5. Todas las medias de las subpoblaciones de Y están sobre la misma recta. Este se conoce como supuesto de linealidad, y se expresa como: μ y/x = α + β X donde: μ y/x = media de la subpoblación de Y para un valor particular de X. α y β = coeficientes de regresión. 6. Los valores de Y son estadísticamente independientes. Estas suposiciones pueden resumirse por la ecuación que se conoce como modelo de regresión: y = α + β x + e donde: y = valor típico de una de las subpoblaciones de y α= ordenada al origen β= pendiente de la recta e = y – (α + β x) término de error. Los errores están independientes y normalmente distribuidos. Ejemplo: A continuación aparecen 15 lecturas sobre el volumen de tráfico y la concentración de monóxido de carbono en un punto de muestreo de la calidad del aire de una ciudad determinada. Se desea conocer el modelo de regresión que mejor se ajusta a la relación entre las variables X y Y VOLUMEN DEL TRAFICO (Automóviles por hora) (X) CO (ppm) (Y) X² Y² XY 100 110 125 150 175 190 200 225 250 275 300 325 350 375 400 8.8 9.0 9.5 10.0 10.5 10.5 10.5 10.6 11.0 12.1 12.1 12.5 13.0 13.2 14.5 10,000 12,100 15,625 22,500 30,625 36,100 40,000 50,625 62,500 75,625 90,000 122,500 105,625 140,625 160,000 77.44 81.00 90.25 100.00 110.25 110.25 110.25 112.36 121.00 146.41 146.41 156.25 169.00 174.24 210.25 880.00 990.00 1,187.50 1,500.00 1,837.50 1,995.00 2,100.00 2,385.00 2,750.00 3,327.50 3,630.00 4,062.50 4,550.00 4,950.00 5,800.00 3,550 167.80 974,450 1,915.36 41,945.00 LA RECTA DE LOS MINIMOS CUADRADOS El método que por lo común se emplea para obtener la recta que pase por entre los puntos, a la distancia mínima posible, es decir, la que debe ajustarse a los puntos se conoce como: Método de los Mínimos Cuadrados y a la recta resultante: Recta de los Mínimos Cuadrados y = a + b x donde: a = ordenada al origen, donde la recta corta al eje vertical b = pendiente de la recta. Ahora se requiere calcular a y b numéricamente para obtener la ecuación de la recta, con esta ecuación se pueden escoger dos puntos y a través de ellos trazar la recta de mínimos cuadrados. Para generar la ecuación, se procede a establecer las ecuaciones normales y al resolver como ecuaciones simultáneas se obtienen los valores de a y b. Σ yi = n a + b Σ xi Σxi yi = a Σ xi + b Σ xi² 167.8 = 15 a + 3,550 b 41,945.0 = 3550 a + 974,450 b Se considera a esta la recta de regresión encontrada como la mejor en este sentido: La suma de las desviaciones verticales al cuadrado de los puntos (yi) respecto de la recta de los mínimos cuadrados, es menor que la suma de las desviaciones verticales al cuadrado de los puntos ( yi ) respecto a cualquier otra recta. EVALUACION DE LA ECUACION DE REGRESION Esta evaluación es para determinar si la ecuación describe adecuadamente la relación entre las dos variables, y si puede emplearse eficientemente para predicción y estimación. El coeficiente de determinación Una manera de evaluar la ecuación de regresión es comparar la dispersión de los puntos alrededor de la recta de regresión con la dispersión alrededor de la recta promedio y. Si se observa la dispersión alrededor de la recta promedio, es obvio, que la dispersión es menor para la recta de regresión, pero esto no es suficiente para decir que esta es la mejor, se debe contar con una medida que sea objetiva y es cuando surge el llamado coeficiente de determinación Antes de calcular tomemos un punto observado , donde su distancia vertical hasta la recta y, le llamaremos desviación total ( yi – ). La distancia de la recta de regresión a la recta , se denomina desviación explicada (yc – ). Finalmente la distancia vertical del punto hasta la recta de regresión es la desviación inexplicada ( – yc ). Por lo que simbólicamente se tiene: ( – ) = (yc – ) + ( – yc ) Desviación Total = Desviación explicada + Desviación inexplicada Si se elevan al cuadrado estas desviaciones tenemos Ʃ ( – ) ² = Ʃ (yc – ) ² + Ʃ ( – yc ) ² Suma Total de= Suma explicada de Suma inexplicada de Cuadrados Cuadrados Cuadrados Estas desviaciones al cuadrado o sumas de cuadrados se pueden considerar como medidas de dispersión o variabilidad. Esta relación puede escribirse aún en otra forma como: SC TOTAL = SC EXPLICADA + SC INEXPLICADA SC TOTAL = Ʃ ( yi – ) ² = = = 38.237 SC EXPLICADA = Ʃ (yc – ) ² = b² [ = 0.00028 ( ) = 37.599 SC INEXPLICADA = SC TOTAL - SC EXPLICADA = 38.237 - 37.599 = 0.638 Coeficiente de Determinación R² - SC EXPLICADA SC TOTAL R² - 37.599 - 0.98 38.237 R² Mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de y. Toma valores de: 0 ≤ R² ≤ 1 PRUEBA DE HIPOTESIS PARA β 1.- Hipótesis estadísticas Hipótesis Nula: β = 0 Hipótesis alterna β ≠ 0 2.- Cálculos: puede emplearse Z, sin embargo generalmente se desconoce σ y debe emplearse Donde Sb es una estimación de σb y t es una distribución t de Student con n-2 g.l. La t de tablas con α = 0.01 y 13 gl. en una prueba bilateral es 3.0123 3.- Decisión: Como t calculada de 27,49 es mucho mayor que t de tablas de 3.0123 se concluye que la pendiente de la recta de regresión no es cero, y esto es evidencia de relación lineal significativa entre X y Y. EL MODELO DE CORRELACION Para ver si el valor de r de Pearson es de magnitud suficiente como para indicar que las dos variables de interés están correlacionadas, se efectúa una prueba de hipótesis: 1.- Hipótesis estadísticas Ho: ρ = 0 no existe correlación lineal entre X y Y Ha: ρ ≠ 0 existe correlación lineal entre X e Y 2.- Cálculo de la Estadística de Prueba 3.- Decisión: Dado que t calculada de 25.24 es mayor a t de tablas de 3.0123 se rechaza Ho. Se concluye que existe correlación lineal entre X y Y de manera significativa. b S b t b - = 49 . 27 0006046 . 0 01662 . 0 9 0000003654 . 0 0 01662 . 0 = = - = t 24 . 25 98 . 0 1 13 99 . 0 1 2 2 = - = - - = r n r t
Compartir