Vista previa del material en texto
14 Introducción al Análisis de Correlación y de Regresión Lineal 14-1 Correlación y Regresión lineal Se dan situaciones donde el análisis involucra considerar la relación de dos o más variables….. 14-2 Ejemplos Un analista financiero podría estar interesado en la relación entre el comportamiento de los precios de las acciones y la política de dividendos de las compañías del mercado de valores. Un gerente de ventas puede estar interesado en examinar la relación entre las ventas y el gasto en publicidad. El gerente de créditos de un banco podría estar interesado en la relación entre el precio de una casa y diversos factores, como su área, antigüedad, etc. El análisis de correlación y el de regresión lineal son técnicas estadísticas de aplicación difundida para estas situaciones. 14-3 Objetivos Calcular e interpretar la correlación entre dos variables. Determinar si la correlación es significativa. Calcular e interpretar la ecuación de regresión lineal simple para un conjunto de datos. Entender los supuestos detrás del análisis de regresión. Determinar si el modelo de regresión es significativo. Continua…. 14-4 Objetivos Calcular e interpretar intervalos de confianza para coeficientes de regresión. Reconocer aplicaciones de análisis de regresión para situaciones de predicción y descripción. Reconocer algunos problemas portenciales si el análisis de regresión es usado incorrectamente. 14-5 (continuación) Gráficos de Dispersión Un gráfico de dispersión (o diagrama de dispersión) es usado para mostrar la relación entre dos variables cuantitativas. La relación lineal puede ser: Positiva – cuando “x” crece, “y” crece Cuando la inversión en publicidad crece, las ventas crecen. Negativa – cuando “x” crece, “y” decrece Cuando el gasto crece, el ingreso neto decrece. 14-6 Gráficos de Dispersión: Ejemplo 14-7 y x y x y y x x Relaciones lineales Relaciones curvilíneas Gráficos de Dispersión: Ejemplo 14-8 y x y x y y x x Relaciones fuertes Relaciones débiles (continuación) Gráficos de Dispersión: Ejemplo 14-9 y x y x No hay relación (continuación) Coeficiente de Correlación La correlación mide la intensidad de la asociación lineal (relación lineal) entre dos variables. Enfocada solamente en la intensidad de la relación. No implica relaciones de causa-efecto. El coeficiente de correlación muestral r es una medida de la intensidad de la relación lineal entre dos variables, basado en observaciones muestrales. Se tiene una correlación espuria cuando existe una asociación lineal entre variables aparentemente no relacionadas. Ejemplo, la correlación entre las ventas de las compañías y el número de hijos que tienen los empleados. 14-10 Características de r No tiene unidad de medida. Varía entre -1 y 1. La cercanía a -1 indica fuerte relación lineal negativa. La cercanía a 1 indica fuerte relación lineal positiva. La cercanía a 0 indica débil relación lineal. +1 ó -1 son correlaciones perfectas donde todos los datos (puntos) caen sobre una línea recta. 14-11 Ejemplos de Valores Aproximados de r 14-12 r = +.3 r = +1 y x y x y x y x y x r = -1 r = -.6 r = 0 Calculando el Coeficiente de Correlación 14-13 Donde: r = Coeficiente de correlación muestral n = Tamaño muestral x = Valor de una variable (eje horizontal) y = Valor de la otra variable (eje vertical) Coeficiente de correlación muestral: O el equivalente algebraico: Correlación: Ejemplo 14-14 Altura del árbol Diámetro del tronco y x xy y2 x2 35 8 280 1225 64 49 9 441 2401 81 27 7 189 729 49 33 6 198 1089 36 60 13 780 3600 169 21 7 147 441 49 45 11 495 2025 121 51 12 612 2601 144 =321 =73 =3142 =14111 =713 Correlación: Ejemplo 14-15 Diámetro del tronco, x Altura del árbol, y (continuación) r = 0.886 → Asociación lineal positiva relativamente fuerte entre x e y Gráfico de dispersión Correlación: Usando Excel 14-16 Pasos en Excel para calular la correlación Datos / Análisis de datos / Coeficiente de correlation: Correlación entre altura del árbol y diámetro del tronco Prueba de Significancia para la Correlación Hipótesis H0: ρ = 0 (No hay correlación) HA: ρ ≠ 0 (Existe correlación) Estadístico de prueba (con n – 2 grados de libertad) 14-17 La letra griega ρ (rho) representa el coeficiente de correlación poblacional Supuestos: La medida de los datos es de intervalo o de razón x e y están normalmente distribuidos Se pierde 1 grado de libertad por cada media muestral Prueba de Significancia para la Correlación 14-18 ¿Es significativa la relación lineal entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05? H0: ρ = 0 (No hay correlación) H1: ρ ≠ 0 (Existe correlación) =0.05 , gl = 8 - 2 = 6 (continuación) Prueba de Significancia para la Correlación 14-19 Rechazar H0 Rechazar H0 a/2=0.025 -tα/2 No rechazar H0 0 tα/2 a/2=0.025 -2.4469 2.4469 g.l. = 8-2 = 6 Estadístico de prueba: Región de rechazo: Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0 Conclusión: Hay suficiente evidencia para concluir que existe relación lineal significativa entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05. (continuación) Prueba de Significancia para la Correlación La prueba t para la determinación de si la correlación poblacional es significativamente diferente de cero requiere de los siguientes dos supuestos: La data es de intervalo o de ratio. Las dos variables (x e y) se distribuyen según una distribución normal bivariada (la distribución conjunta es normal). Sin embargo, respecto del supuesto de normalidad, la prueba es robusta; esto es, las inferencias son correctas, aún cuando se tenga algunas desviaciones respecto de la distribución mormal. 14-20 Advertencia La correlación entre dos variables no implica ninguna relación de causa-efecto. El cálculo de una alta correlación positiva entre años de experiencia y ventas en los vendedores de una empresa no es una prueba estadística que los años de experiencia tenga como consecuencia mayores ventas, solo significa que marchan en forma conjunta. Para un período determinado se podría calcular una alta correlación entre el salario promedio de los ingenieros del Ecuador y el precio de las uvas en Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está ante lo que se denomina correlación espúrea. La correlación también se puede dar por los efectos de un factor común que incide sobre las dos variables en cuestión. Por ejemplo las mayores ventas de los vendedores de mayor experiencia podría ser debido a que los vendedores de más edad se les asigna los mejores territorios. Relaciones de causa-efecto requieren de construcción de modelos vinculados al fenómeno que se analiza. 14-21 image1.png oleObject1.bin image2.wmf å å å - - - - = ] ) y y ( ][ ) x x ( [ ) y y )( x x ( r 2 2 oleObject2.bin image3.wmf å å å å å å å - - - = ] ) y ( ) y ( n ][ ) x ( ) x ( n [ y x xy n r 2 2 2 2 image4.wmf oleObject3.bin Chart1 8 9 7 6 13 7 11 12 35 49 27 33 60 21 45 51 Sheet1 Tree Height Trunk Diameter y x 35 8 49 9 27 7 33 6 60 13 21 7 45 11 51 12 Sheet1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Sheet2 Sheet3 image5.emf 0 10 20 30 40 50 60 70 02468101214 oleObject4.bin image6.wmf 0.886 ] (321) ][8(14111) (73) [8(713) (73)(321) 8(3142) ] y) ( ) y ][n( x) ( ) x [n( y x xy n r 2 2 2 2 2 2 = - - - = - - - = å å å å å å å image7.png oleObject5.binimage8.wmf 2 n r 1 r t 2 - - = oleObject6.bin image9.wmf 4.68 2 8 .886 0 1 0.886 2 n r 1 r t 2 2 = - - = - - = oleObject7.bin image10.wmf 4.68 2 8 .886 0 1 0.886 2 n r 1 r t 2 2 = - - = - - =