Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
REGRESIÓN Y CORRELACIÓN La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación. En forma más específica, el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber qué es y cómo se relacionan entre si dos o más variables en una población. El análisis de correlación produce un número que resume el grado de asociación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potencialmente importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos Coeficiente de Correlación lineal de Pearson El estimador muestral más utilizado para evaluar la asociación lineal entre dos variables X e Y es el coeficiente de correlación de Pearson (r). Se trata de un índice que mide si los puntos tienen tendencia a disponerse en una línea recta. Puede tomar valores entre -1 y +1. Es un método estadístico paramétrico, ya que utiliza la media, la varianza,…y por tanto, requiere criterios de normalidad para las variables analizadas. Regresión Lineal Simple: La regresión está dirigida a describir como es la relación entre dos variables X e Y, de tal manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a partir de los de X. Cuando la asociación entre ambas variables es fuerte, la regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas. La regresión supone que hay una variable fija, controlada por el investigador (es la variable independiente o predictora), y otra que no está controlada (variable respuesta o dependiente). La correlación supone que ninguna es fija: las dos variables están fuera del control de investigador. En este tema se presentan el coeficiente de correlación y la regresión lineal simple como las dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas X e Y. Gráficamente el diagrama de dispersión o nube de puntos permite obtener información sobre el tipo de relación existente entre X e Y, además de ayudarnos a detectar posibles valores atípicos o extremos. EJEMPLO DE ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE Cierta universidad desea determinar si los promedios puntuales en notas de los estudiantes, pueden explicar el número de ofertas laborales que reciben después de graduarse. Para el efecto se cuenta con la siguiente información: Estudiantes: 1 2 3 4 5 6 7 8 9 10 Punteos (x): 3.25 2.35 1.02 0.36 3.69 2.65 2.15 1.25 3.88 3.37 Ofertas (y): 3 3 1 0 5 4 2 2 6 2 Con la información antes detallada se le solicita resuelva los siguientes incisos: 1. Diagrama de dispersión o esparcimiento 2. Ecuación de regresión lineal simple 3. Error estándar de estimación 4. ¿Cuántas ofertas laborales tendrá un estudiante cuyo promedio es de 4.88? 5. Estimación de intervalo con el 68% de confianza 6. Índices o coeficientes de correlación y determinación DIAGRAMA DE DISPERSIÓN O ESPARCIMIENTO FUENTE: DEPARTAMENTO DE ESTADÍSTICA Estudiantes Punteos (x) Ofertas Laborales (y) xy x2 y2 1 3.25 3 9.75 10.5625 9 2 2.35 3 7.05 5.5225 9 3 1.02 1 1.02 1.0404 1 4 0.36 0 0 0.1296 0 5 3.69 5 18.45 13.6161 25 6 2.65 4 10.6 7.0225 16 7 2.15 2 4.3 4.6225 4 8 1.25 2 2.5 1.5625 4 9 3.88 6 23.28 15.0544 36 10 3.37 2 6.74 11.3569 4 Σ 23.97 28 83.69 70.4899 108 0 1 2 3 4 5 6 7 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O FE R TA S PUNTEOS PUNTEOS Y OFERTAS LABORALES DE LOS ESTUDIANTES GRADUANDOS DE LA UNIVERSIDAD DE SALAMANCA ECUACIÓN DE REGRESIÓN SIMPLE LINEAL Fórmula: Yc= a + bx a= (Σy * Σx2) – (Σx * Σxy) (28 * 70.4899) – (23.97 * 83.69) = (N * Σx2) – (Σx)2 (10 * 70.4899) – (23.97)2 1973.7172 – 2006.0493 = - 32.3321 = -0.24806 aprox. -0.25 704.899 – 574.5609 130.3381 b= N (Σxy) – (Σx * Σy) = 10(83.69) – (23.97 * 28) (N * Σx2) – (Σx)2 (10 * 70.4899) – (23.97)2 836.9 – 671.16 = 165.74 = 1.27161 aprox. 1.27 704.899 – 574.5609 130.3381 Yc= a + bx Yc= -0.25 + 1.27x ERROR ESTÁNDAR DE ESTIMACIÓN Fórmula: S= Σy2 – aΣy – b Σxy = 108 – (-0.25) (28) – (1.27) (83.69) = N 10 S= 108 + 7 – 106.2863 = 8.7137 = 0.93347 10 10 S= 0.93 ofertas laborales ¿Cuántas ofertas laborales tendrá un estudiante cuyo promedio es de 4.88? Yc= a + bx = Yc= -0.25 + 1.27 (4.88) = 5.9476 aprox. 6 ofertas laborales Estimaciones de intervalos existentes 68% = I = Yc + S 95% = I = Yc + 2S 99% = I = Yc + 3S Estimación de intervalo con el 68% de confianza I = Yc + S = 6 + 0.93 = 6 – 0.93 = 5.07 6 + 0.93 = 6.93 [De 5.07 a 6.93 ofertas laborales] Índices o coeficientes de correlación y determinación Coeficiente de correlación NΣxy – (Σx) (Σy) 10(83.69) – (23.97) (28) r = [NΣx2 – (Σx)2] [NΣy2 – (Σy)2] [10(70.4899) – (23.97)2] [10(108) - (28)2] r = 836.9 – 671.16 = 165. 74 = 165.74 [704.899 – 574.5609] [1080 - 784] [130.3381] [296] 196.41811 r = 0.84381 aprox. 0.84 Análisis: La correlación existente entre los promedios puntuales y las ofertas laborales recibidas por los graduandos de la universidad es alta y positiva. Coeficiente de Determinación (Es el grado influencia que tiene la variable independiente sobre la dependiente) C.D. = (r)2 * 100 = (0.84381)2 * 100 = 71.20% Análisis: Los promedios puntuales inciden de manera medianamente alta en las ofertas laborales recibidas por los graduandos de la universidad. De una determinada empresa se conocen los siguientes datos, referidos al volumen de Ventas (en millones de quetzales) y al gasto en publicidad (en miles de quetzales) de los últimos 6 años. Volumen de ventas (millones Q.) Gastos Publicidad (miles Q.) 10 16 15 32 20 48 22 56 30 64 32 80 Con la información antes detallada se le solicita resuelva los siguientes incisos: 1. Diagrama de dispersión o esparcimiento 2. Ecuación de regresión lineal simple 3. Error estándar de estimación 4. ¿Cuántos millones de quetzales en ventas se obtendrán con una inversión en publicidad de 90? 5. Estimación de intervalo con el 95% de confianza 6. Índices o coeficientes de correlación y determinación
Compartir