Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA II Clase del 11/04/2022 Regresión lineal y correlación Docentes: Roberto Emanuel Díaz Ansberck Víctor Luna Introducción En la práctica, es frecuente que se requiera resolver problemas que implican conjuntos de variables, de las cuales se sabe que tienen alguna relación entre sí. Por ejemplo, en una situación industrial quizá se sepa que el numero de accidentes de los empleados de la misma está relacionado con la cantidad de horas extra trabajadas. Podría ser de interés desarrollar un método de pronóstico, es decir, un procedimiento para estimar el numero de accidentes, a partir de información experimental. Pero, por supuesto, es muy probable que para muchos ejemplos concretos en los que las horas extras y el numero de accidentes no sea el mismo. El numero de accidentes es la variable dependiente natural o respuesta. El numero de horas extras trabajadas, es la variable independiente natural o regresora. Se puede suponer que una forma razonable de relación entre la respuesta Y y la regresora x es la relación lineal Donde 𝛽0 es la intersección u ordenada al origen, es decir, el valor de y cuando x=0, y 𝛽1 es la pendiente de la recta (el cambio en “y” por una unidad de cambio en “x”). La relación se ilustra en la figura: “La Regresión lineal estudia la relación funcional que vincula (la ó) las variables independientes con la dependiente, siendo lineal en los coeficientes, y proporciona un procedimiento de predicción”. Modelo de Regresión lineal El modelo de regresión lineal simple se limita el uso de los términos análisis de regresión a situaciones donde las relaciones entre las variables no son deterministas (esto es, no son exactas). Sucede que al considerar que existe un componente aleatorio en la ecuación que relaciona las variables, se toma en cuenta consideraciones que no se miden. Es seguro que en la mayoría de aplicaciones de la regresión, la ecuación lineal, 𝑌 = 𝛽0 + 𝛽1 𝑥 , es una aproximación simplificada de algo desconocido y mucho más complejo. Ejemplo El encargado de higiene y seguridad de una planta de recuperado de materiales electrónicos esta preocupado por la salud de sus empleados, esto deviene de acuerdo a unos datos que ha tomado donde coloco las horas extras trabajadas por cada empleado y los accidentes que tuvo los días que cumplió esas horas, así completando la siguiente tabla: Horas 0 1 2 3 4 5 6 Accidentes 3 7 7 9 12 13 12 Ejemplo Horas 0 1 2 3 4 5 6 Accidentes 3 7 7 9 12 13 12 0 2 4 6 8 10 12 14 0 1 2 3 4 5 6 7 A c c i d e n t e s Horas extras trabajadas Dispersograma Análisis de un dispersograma Un dispersograma es un grafico donde colocamos puntos que representas pares x e y, a partir de la observación de todos los puntos se pueden obtener conclusiones. Puede observarse que, en general, al aumentar “x”, “y” disminuye, y que los puntos no están tan dispersos de una posible recta a dibujar. Así, un modelo de regresión lineal simple puede que relacione las variables puestas en juego. Lo que si sucede es que una recta no se adecuara al 100%, por ende abran errores, estos los denominaremos “ε”, que llamaremos residuos, que son en realidad errores aleatorios. Supuestos • La cantidad “Y” es una variable aleatoria, ya que “ε” es aleatoria. • El valor “x” de la variable regresora no es aleatorio, no está sujeta a error, se supone que el experimento se puede repetir manteniendo los valores de x fijos. • La cantidad “ε”, sigue una distribución normal: ε~𝑁(0; 𝜎 2 ) • Los “ε” son independientes entre sí, entre una ejecución y otra del experimento. Sobre la base de lo analizado, en el modelo probabilístico, “y” es el valor de una variable aleatoria “Y” tal que para un valor dado de una variable matemática x fija, Y/x, se puede demostrar aplicando propiedades de esperanza y varianza: Observación El término regresión lineal simple significa que la media de las Y para un x fijo, se vincula con x, mediante la ecuación de la recta: Pero se estima como: Un aspecto importante del análisis de regresión es, simplemente, estimar los parámetros 𝛽0 y 𝛽1 (es decir, estimar los llamados coeficientes de regresión). Se supone que los estimados de 𝛽0 y 𝛽1 se denotan con b0 y b1. Se espera que la recta estimada esté más cerca de la verdadera línea de regresión cuando se disponga de una gran cantidad de datos, situación que no suele ser fácil de logar. Gráficamente se puede mostrar: Método de mínimos cuadrados Para encontrar b0 y b1, podemos hacer uso del método de los mínimos cuadrados que consiste en minimizar la suma de los cuadrados de los residuos (SCE) respecto de la recta de regresión. Este método permite obtener estimadores insesgados (reducidos en error)y de varianza mínima. Ejemplo Horas 0 1 2 3 4 5 6 Accidentes 3 7 7 9 12 13 12 x y xy x^2 Suma x 0 3 0 0 21 1 7 7 1 Suma y 2 7 14 4 63 3 9 27 9 Suma xy 4 12 48 16 233 5 13 65 25 Suma x^2 6 12 72 36 91 b1=1,57142857 b0=4.28571429 Residuos Es importante destacar el concepto de residuos, ei, y los errores del modelo, εi. Los εi no son observados y los ei no sólo se observan o calculan, y juegan un papel importante en el análisis general. Ejemplo Calcule y grafique los residuos de la recta estimada en los ejemplos anteriores Pruebas para b0 y b1 Los coeficientes de regresión 𝛽0 y 𝛽1 pueden interpretarse en forma general como: 𝛽0: valor esperado de la media de Y cuando el x=0 𝛽1: valor esperado de la media de la cantidad de cambio de Y cuando “x” varía (aumenta ó disminuye) en una unidad. Cuando se pide referirlo a un problema se debe especificar quien es “Y” y “x” en el mismo. Observación: Una salida de computadora según un software estadístico muestra: Parámetro Estimación por Mínimos cuadrados Error estándar Estadístico (T obs) Valor p Ordenada 1001,69 31,0531 32,2574 0,0000 Pendiente -2,63865 0294487 -8,96015 0,0000 En esta tabla se muestran: ordenada al origen y la pendiente, obtenidos por el método de los mínimos cuadrados y el error estándar de cada uno de los estimadores Las dos últimas columnas hacen referencia, respectivamente a: • H0: 𝛽0 = 0 vs. H1: 𝛽0 ≠ 0 • H0: 𝛽1 = 0 vs. H1: 𝛽1 ≠ 0 Ejemplo 1- Plantear un intervalo de confianza al 95% para la ordenada, ¿Es significativa? 2- Plantear una prueba de hipótesis para la significatividad de la pendiente. Correlación La correlación estudia el grado de asociación lineal entre las variables X e Y. El análisis de correlación intenta medir la intensidad de las relaciones entre las dos variables por medio de un solo número denominado coeficiente de correlación. Se supone que tanto X como Y son variables aleatorias normales con sus medias y varianzas respectivas, de tal forma que la distribución conjunta f(x,y) es una distribución normal bivariada. Coeficiente de correlación lineal El coeficiente de correlación lineal para una población de valores, es el parámetro simbolizado con ρ, y es un valor entre -1 y 1, que indica la fuerza de la relación lineal entre dos variables cuantitativas. O sea: −1 ≤ 𝜌 ≤ 1 - Si ρ= 0 → X e Y no están relacionadas linealmente, o sea, no están correlacionadas - Si ρ= ∓ 1 → X e Y tienen una relación lineal perfecta con pendiente negativa ó positiva, o sea tienen una correlación muy fuerte - Según valores de ρ se suele apreciar asociación lineal “buena”, “débil”, entre X e Y Coeficiente de correlación lineal • ρ: coeficiente de correlación poblacional. • r: estimador de ρ. • Con “r” se pueden realizar inferencias para “ρ” para realizar una prueba de hipótesis sobre: ▫ H0: ρ = 0 vs. H1: ρ≠ 0 • Se demuestra que es adecuado utilizar la distribución: Ejemplo Horas Accidentes Sumas x y xy x^2 y^2 x y^2 0 3 0 0 9 21 645 1 7 7 1 49 y 2 7 14 4 49 63 3 9 27 9 81 xy 4 12 48 16 144 233 5 13 65 25 169 x^2 6 12 72 36 144 91 r=0,94151308 Ejemplo Realice una pruebade hipótesis para el coeficiente de correlación, suponiendo que no hay relación lineal. ¡Muchas gracias por su atención! Nos vemos el miércoles con un práctico áulico
Compartir