Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
REGRESION LINEAL Regresión Lineal simple: A menudo se requiere resolver problemas que implican conjuntos de variables de las cuales se sabe que tienen alguna relación inherente entre si. Por ejemplo, en una situación industrial, el contenido de alquitrán en el flujo de salida de un proceso químico esta relacionado con la temperatura en la entrada. Podría ser de interés desarrollar un método de pronostico, es decir, un procedimiento que permita estimar el contenido de alquitrán para varios niveles de temperatura de entrada a partir de información experimental. El contenido de alquitrán, es la variable dependiente natural o respuesta. La temperatura en la entrada, es la variable independiente, natural o regresora. Una forma razonable de relación entre la respuesta Y y el regresor x es la relación lineal, Y = β0 +β1 x, β0 es la intersección y β1 es la pendiente El concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x, cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los valores de la respuesta dados los valores del regresor x. En muchas aplicaciones habrá mas de un regresor, es decir, mas de una variable independiente que ayude a explicar a Y. Por ejemplo, si se tratara de explicar las razones para el precio de una casa, donde Y es el precio, x1 son los metros cuadrados y x2 es la antigüedad de la casa en años. Y = β0 +β1x 1 +β2x 2 , El análisis resultante se denomina regresión múltiple, ya que tenemos más de una variable regresora REGRESION LINEAL SIMPLE: La mayoría de los sistemas tienen un componente aleatorio ϵ en la ecuación que relaciona las variables, que toma en cuenta consideraciones que no son medibles modelo estadístico para la regresión lineal simple. La respuesta Y se relaciona con la variable independiente x a través de la ecuación Y = β0 +β1x +ϵ β0 y β1 se conocen como los parámetros del modelo y deben estimarse a partir de los datos La cantidad ϵ , recibe el nombre de error aleatorio o alteración aleatoria, en la practica nunca se observan los valores ϵ reales, por lo que nunca se puede trazar la verdadera recta de regresión, solo es posible dibujar una recta estimada. La recta de regresión ajustada: ො𝑦 = 𝑏0 + 𝑏1𝑥 ො𝑦 =es el valor estimado, pronosticado o ajustado Considere los datos experimentales de la siguiente tabla, que se obtuvieron de 33 muestras de desechos tratados químicamente en un estudio realizado en Virginia Tech. Se registraron los valores de x, la reducción porcentual de los solidos totales, y de y, el porcentaje de disminución de la demanda de oxigeno químico. 0 10 20 30 40 50 60 0 10 20 30 40 50 60 R ed u cc ió n d em an d a o xí ge n o y ( % ) Reducción demanda de sólidos x (%) Gráfico de dispersión de Reducción de la demanda de oxígeno vs. la reducción de demanda de sólidos Recta de regresión ajustada Recta de regresión Verdadera 𝜇𝑌/𝑋 = 𝛽0 + 𝛽1𝑥 Observaciones individuales alrededor de la verdadera recta de regresión Supuestos del modelo • Los errores son normales. N(0, σ2) • La Varianza es constante. Las distribuciones tienen la misma varianza σ2 • Los errores asociados a las Yi son independientes Otras observaciones • La desviación entre una Y individual, y el punto sobre la recta, será su valor ϵi • La verdadera recta de regresión pasa por las medias • Las observaciones reales se encuentran sobre la distribución, alrededor de las medias Modelo de los mínimos Cuadrados Residual: es error en el ajuste del modelo. Dado un conjunto de datos de regresion {(xi, yi); i = 1, 2,..., n} y un modelo ajustado ො𝑦 = 𝑏0 + 𝑏1𝑥 , el i-esimo residual ei es dado por: ei = yi − ෝ𝒚 i = 1, 2,. . . , n . Diferencia entre los residuales ei y los errores del modelo conceptual ϵi. Debemos calcular β0 y β1, mediante sus estimadores b0 y b1, de manera que la suma de los cuadrados de los residuales sea mínima. Esta se denomina suma de los cuadrados del error respecto de la recta de regresión y se denota como SCE. Este procedimiento de minimización para estimar los parámetros se denomina método de mínimos cuadrados. 𝑆𝐶𝐸 = 𝑖=1 𝑛 𝑒𝑖 2 = 𝑖=1 𝑛 𝑦𝑖 + ෝ𝑦𝑖 2 = 𝑖=1 𝑛 (𝑦𝑖 + 𝑏0 + 𝑏1𝑥) 2= Al diferenciar la SCE con respecto a b0 y b1, se obtiene Dada la muestra {(xi, yi)}; i = 1, 2, ... , n}, los estimados b0 y b1 de los mínimos cuadrados de los coeficientes de regresión β0 y β1 se calculan mediante las formulas Estime la recta de regresión para los datos de contaminación de la tabla Podríamos pronosticar una reducción de 31% en la demanda de oxigeno químico, si los solidos totales se redujeran un 30%. ො𝑦 = 3,8296 + 0,9036 ∗ 30 = 30,94 El parámetro σ 2, refleja una variación aleatoria o una variación del error experimental alrededor de la recta de regresión. Si para simplificar ponemos nombres breves a las ecuaciones: 𝑆𝑥𝑥 = 𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 𝑆𝑦𝑦 = 𝑖=1 𝑛 (𝑦𝑖− ത𝑦) 2 𝑆𝑥𝑦 = 𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦) La suma de los cuadrados del error se puede escribir como sigue: 𝑏1 = 𝑆𝑥𝑦 𝑆𝑥𝑥 𝑆2 = 𝑆𝐶𝐸 𝑛 − 2 = 𝑖=1 𝑛 (𝑌𝑖 − 𝑦𝑖) 2 𝑛 − 2 = 𝑆𝑦𝑦 − 𝑏1𝑆𝑥𝑦 𝑛 − 2 Un estimador insesgado de σ 2 es SCE = 𝑠𝑌𝑌 − 𝑏1𝑆𝑥𝑦 𝑏1 = σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦) σ𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 el criterio de los mínimos cuadrados esta diseñado para brindar la mejor recta ajustada que resulte en la “cercanía” entre la recta y los puntos graficados. Inferencias sobre los coeficientes de regresión 1. Intervalos de confianza para β0 2. Intervalos de confianza para β1 3. Test de Hipótesis 1. Intervalo de confianza para β1 Suponemos que cada ϵi, i = 1, 2, ..., n, se distribuye de forma normal. Esta suposición implica que Y1, Y2,..., Yn también están distribuidas normalmente. 2. Intervalo de confianza para β0 en algunos libros lo llaman α Calcule un intervalo de confianza de 95% para β0 en la recta de regresion μY | x = β0 + β1x con base en los datos del ejercicio que venimos desarrollando. 3. Prueba de hipótesis sobre la pendiente Para probar la hipótesis nula H0 de que β1 = β10, en comparación con una alternativa posible, utilizamos de nuevo la distribución t con n – 2 grados de libertad con el fin de establecer una región critica y después basar nuestra decisión en el valor de t Una prueba t importante sobre la pendiente es la prueba de la hipótesis H0: β1 = 0 en comparación con H1: β1 ≠ 0. Cuando no se rechaza la hipótesis nula la conclusión es que no hay relación lineal significativa entre E( y) y la variable independiente x. El rechazo anterior de H0 implica que hay una relación lineal significativa. c) hipótesis H0: b = 0 --> b0 = 0 H1: b ≠ 0 Rechazar si Tcal < -Ta/2,n-2 ó Tcal > Ta/2, n-2 DOS COLAS Tcalculado = 18,03 Ta/2, n-2 2,045 Es 18,0254 > 2,045? si => rechazo H0 entonces x es de valor explicando la variabilidad de Y El modelo es el adecuado 1.PREDICCION: La ecuación ො𝑦 = 𝑏0 + 𝑏1𝑥 se puede utilizar para predecir o estimar la respuesta media μY|x0 en x = x0, cuando x = x0, se podría emplear para pronosticar un solo valor y0 de la variable Y0 tenemos 95% de confianza en que la reducción media poblacional en la demanda de oxigeno químico estará entre el 20.1071% y 23.6979%, cuando la reducción de solidos sea de 20%. PREDICCIÓN 2. Intervalo de predicción para cualquier valor único y0 de la variable Y0 El intervalo de la predicción calculado representa un intervalo que tiene una probabilidad igual a 1 – α de contener, no un parámetro, sino un valor futuro de y0 de la variable aleatoria Y0. Intervalos de confianza y predicción para los datos de la reducción de la demanda de oxigeno químico; las bandas internas indican los limites de confianza para las respuestas medias y las externas señalan los limites de predicción para las respuestas futuras. Límites de confianza para las respuestas medias Límites depredicción para las respuestas futuras Gráfica de Regresión Lineal con Minitab 17 Una medida de la calidad del ajuste: el coeficiente de determinación R2 se denomina coeficiente de determinación y es una medida de la proporción de la variabilidad explicada por el modelo ajustado. Esta ultima representa la variación en los valores de respuesta que idealmente serian explicados con el modelo. El valor de la SCE es la variación debida al error, o la variación no explicada. Resulta claro que si la SCE = 0, toda variación queda explicada. La cantidad que representa la variación explicada es STCC – SCE la suma total de los cuadrados corregida Advierta que si el ajuste es perfecto, todos los residuales son cero, y asi R2 = 1.0. Pero si la SCE es tan solo un poco menor que la STCC, R2 ≈ 0. Coeficiente de correlación producto-momento de Pearson, o solo como coeficiente de correlación muestral. Diagramas de dispersión ilustrando distintas posibilidades de correlación Salida de resultados de MINITAB para la prueba t de los datos del ejemplo. Observe en la salida de resultados, que el coeficiente de determinación sugiere que el modelo ajustado a los datos explica el 91.3% de la variabilidad observada en la respuesta, la reducción en la demanda de oxigeno químico. La confiabilidad de R2 depende del tamaño del conjunto de los datos de la regresión y del tipo de aplicación. Si 0 ≤ R2 ≤ 1, y el limite superior se logra cuando el ajuste a los datos es perfecto, es decir, cuando todos los residuales son cero. ¿Cual es un valor aceptable de R2?. Un químico encargado de establecer una calibración lineal de una pieza de equipo de alta precisión seguramente esperaría obtener un valor muy alto de R2 (quizá superior a 0.99); mientras que un científico del comportamiento, que trabaja con datos en los que influye la variabilidad de la conducta humana, quizá se sentiría afortunado si obtuviera un valor de R2 de hasta 0.70. Un individuo con experiencia en el ajuste de modelos tiene la sensibilidad para saber cuando un valor es suficientemente grande dada la situación que esta enfrentando. Es evidente que algunos fenómenos científicos se prestan mas a un modelamiento mas preciso que otros. 33 REFERENCIAS: 1. Apuntes Lic. Marta Corro. 2. Estadística para administración y economía, 10a. Edición. Anderson, David R.,Dennis J. Sweeney y Thomas A. Williams Ed. Cengage Learning 3. Probabilidad y estadística para ingeniería y ciencias, 9ª Edición. Ronald E. Walpole, Raymond H. Myers, Sharon l. Myers y Keying Ye. Ed. Pearson educación 4. Estadística. Novena edición. Triola, Mario F. Ed. Pearson educación
Compartir