Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
REGRESIÓN Y CORRELACIÓN 1 Supongamos que existen dos variables X y Y que pueden estar relacionadas. Por ejemplo: Se quiere estudiar el tiempo de reacción para un experimento realizado a distintas temperaturas ambiente. Para distintas temperaturas se registran los tiempos de reacción (Temp en grados Farenheit y Tiempo en seg): REGRESIÓN Y CORRELACIÓN 2 Temperatura Tiempo de reacción 75 118,7 74 117,4 73 116,0 71 112,5 77 122,8 73 114,4 70 109,9 74 117,7 72 114,7 72 113,1 75 117,6 74 115,3 73 116,1 71 111,6 77 122,9 73 116,3 70 111,4 74 115,4 72 112,4 72 113,5 REGRESIÓN Y CORRELACIÓN 3 X = temperatura ambiente Y = tiempo de reacción Para cada valor de X=xi Y tomará diferentes posibles valores. Una forma de visualizar los datos es a través del DIAGRAMA DE DISPERSIÓN REGRESIÓN Y CORRELACIÓN 4 REGRESIÓN Y CORRELACIÓN 5 Nos preguntamos: a) Existirá relación entre X y Y? b) Conociendo X se podrá predecir Y? c) Será más altos los valores de Y para valores altos o bajos de X? Para responder a) ANÁLISIS DE CORRELACIÓN Para responder b) y c) ANÁLISIS DE REGRESIÓN REGRESIÓN Y CORRELACIÓN 6 ANÁLISIS DE CORRELACIÓN CÁLCULO DE COEFICIENTES REGRESIÓN 7 7 ANÁLISIS DE REGRESIÓN Busca relacionar el valor medio de Y como una función de X: )x(fY x/y REGRESIÓN En el caso planteado se busca explicar Y, una variable cuantitativa continua a través de una sola variable: MODELO DE REGRESIÓN SIMPLE Muchas veces es necesario incluir más de una variable para explicar Y : MODELO DE REGRESIÓN MÚLTIPLE 8 REGRESIÓN LINEAL Un primer análisis sería ver si los valores medios de Y pueden suponerse alineados MODELO DE REGRESIÓN LINEAL SIMPLE: : ordenada al origen de la recta. : pendiente de la recta. xY xX/y 9 REGRESIÓN LINEAL Como en toda recta, la pendiente indica la cantidad de unidades que aumenta o disminuye Y por cada cambio de una unidad en X 10 REGRESIÓN LINEAL Podemos analizar la existencia y tipo de asociación entre las variables analizando el diagrama de dispersión 30 40 50 60 0 1 0 2 0 3 0 4 0 5 0 X Y 30 40 50 60 0 1 0 2 0 3 0 4 0 5 0 X Y 25 30 35 40 45 50 55 0 1 0 2 0 3 0 4 0 5 0 X Y 20 30 40 50 0 1 0 2 0 3 0 4 0 5 0 X Y a) b) c) d) 11 REGRESIÓN LINEAL En un diagrama de dispersión queremos observar el patrón general de la relación entre las variables mirándolo desde los valores menores de X hacia los mayores: 12 REGRESIÓN LINEAL Si a medida que X aumenta, en promedio también aumenta Y, se dice que existe una asociación positiva entre las variables. Si a medida que X aumenta, en promedio Y disminuye, se dice que existe una asociación negativa entre las variables. Si no puede determinarse alguna de las dos tendencias anteriores, significa que no hay una asociación lineal entre las variables. 13 COEFICIENTE DE CORRELACIÓN 14 Un coeficiente que mide la existencia de asociación lineal entre X e Y es el coeficiente de correlación lineal, cuya estimación indicamos con r: 1414 ji yijy ji xix ji yijyxix r , 2)( , 2)( , ))(( COEFICIENTE DE CORRELACIÓN Propiedades del coeficiente de correlación: I. -1< r < 1 II. r vale 1 cuando los puntos caen exactamente sobre una recta con pendiente positiva (asociación lineal directa, positiva o creciente) III. r vale -1 cuando los puntos caen exactamente sobre una recta con pendiente negativa(asociación lineal inversa , negativa o decreciente) 15 COEFICIENTE DE CORRELACIÓN IV. Cuanto más cercano es el valor de r a 1 o a -1 más fuerte es el grado de asociación lineal positiva o negativa, respectivamente. V. Si r=0 indica que no existen tendencia lineal positiva ni negativa. 16 COEFICIENTE DE CORRELACIÓN En los diagramas vistos anteriormente En a) : r > 0 En b): r < 0 En c): r 0 En d): r 0 17 AJUSTE DE LA RECTA: el método de mínimos cuadrados 18 El experimentador fija valores x1,x2,…,xn para los cuales observa valores de la variable aleatoria Y. Yij=observación sobre el j-ésimo individuo con x=xi i=1,…,I j=1,…,ni Si el diagrama de dispersión y el coeficiente de correlación indican un patrón lineal en los datos, se quiere hallar una recta que ajuste a los datos. LA RECTA DE MÍNIMOS CUADRADOS 19 Se pretende que la recta ajustada represente las medias de los valores de Y para cada X, por lo cual los puntos observados se ubicarán en las proximidades de la recta, siendo posible que ninguna de las observaciones quede sobre ella. LA RECTA DE MÍNIMOS CUADRADOS 20 Para ajustar una recta a los datos se utiliza el método de mínimos cuadrados: El método de mínimos cuadrados estima la recta que hace mínima la suma de los cuadrados de las distancias verticales de cada punto observado a la recta. O sea, minimiza la diferencia entre el valor observado de Y y el que correspondería sobre la recta para el correspondiente valor de X. LA RECTA DE MÍNIMOS CUADRADOS 21 LA RECTA DE MÍNIMOS CUADRADOS 22 Se plantea entonces buscar la ecuación de una recta, de manera que, si llamamos (xi , yij) a las coordenadas de los punto observados (xi , ) las coordenadas del punto sobre la recta que corresponde a x = xi ( por lo tanto, ) se minimice la suma de los cuadrados de las distancia de los yij a los : I i in j ixijy 1 1 2 i ŷ ixi y ˆ i ŷ LA RECTA DE MÍNIMOS CUADRADOS 23 Por lo tanto se deben hallar α y β , números reales que minimicen la suma anterior, lo cual constituye un problema de minimización de una función pero según dos variables. Desarrollándolo resulta que: LA RECTA DE MÍNIMOS CUADRADOS 24 Siendo: xy ˆ..ˆ I i xixin I i in j yijyxix 1 2)( 1 1 ))(( ̂ n I i ixin x 1 n I i in j ijy y 1 1 .. LA RECTA DE MÍNIMOS CUADRADOS Si introducimos la siguiente notación: n 2 I 1i ixinI 1i 2 i xin I 1i in 1j 2xixxxS I 1i n 2 I 1i y in 1j y I 1i in 1j 2 ..yijyyyS in 1j ij 2 ij n I i in j ijy I i ixin I i in j ijyix I i in j yijyxixxyS 1 11 1 11 1 .. 25 LA RECTA DE MÍNIMOS CUADRADOS Podemos escribir : y la recta ajustada: Observemos que con la notación anterior: xy ˆ..ˆ xxS xyS ̂ xy ˆˆˆ yysxxs xys r 26 LA RECTA DE MÍNIMOS CUADRADOS Observaciones: 1. La recta de mínimos cuadrados contiene siempre al punto 2. Cualquier otra recta estimada a partir del mismo conjunto de datos generará una suma de cuadrados de residuos mayor que la correspondiente a la recta de mínimos cuadrados: para cualquier otro valor de o . I i i n j i x ij y I i i n j i x ij y 1 1 2 1 1 2ˆˆ 27 .., yx LA RECTA DE MÍNIMOS CUADRADOS 28 Ejemplo: Hallemos la recta estimada para el ejemplo anterior: 873 20 1462 106946 2 2 1 2 1 , n xn xnS I i iiI i iixx 988123 1 11 1 1 , n yxn yxS I i in j ij I i ii I i in j ijixy 68,1 8.73 988.123 S Sˆ xx xy 332717368148115 ,,,,xˆ..yˆ x,,xˆˆŷ 681337 LA RECTA DE MÍNIMOS CUADRADOS 29 LA RECTA SOLO ES VÁLIDA EN EL RANGO OBSERVADO DE X, POR LO TANTO SÓLO DEBE GRAFICARSE ENTRE ESOS VALORES 29 69 71 74 76 78 Temp(X) 109,3 112,8 116,4 120,0 123,5 T ie m p o (Y ) Tiempo según Temperatura INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS 30 En la recta de regresión es la ordenada al origen, o sea que representa el valor estimado de Y para x=0, siempre que x=0 se encuentre dentro del rango observado, sino, no corresponde su interpretación. esla pendiente de la recta, o sea que representa la cantidad de unidades que cambia Y cuando X se incrementa en una unidad. En el ejemplo: =1,68 indica que por cada cambio de 1 grado en la temperatura el tiempo de reacción aumenta 1,68 seg. ̂ ̂ ̂ 31 Una vez estimada la recta de cuadrados mínimos, podemos utilizarla para predecir el valor de Y para un x dado dentro de rango observado para X: donde Yk : valor de Y correspondiente a xk PREDICCIÓN UTILIZANDO LA RECTA ESTIMADA k x k y ˆˆˆ PREDICCIÓN UTILIZANDO LA RECTA ESTIMADA 32 Ejemplo: Para el ejemplo anterior, predecir el tiempo de reaccción esperado para una temperatura de 76 grados 3512076681337 ,,,kŷ MODELO DE REGRESIÓN LINEAL SIMPLE La recta de mínimos cuadrados puede considerarse simplemente como el ajuste una recta a un conjunto de datos. Sin embargo, en los problemas que nos incumben los datos son una muestra aleatoria de valores observados correspondientes a una población, y por lo tanto queremos ajustar la recta no solamente con un objetivo descriptivo, sino para hacer inferencias sobre la relación entre las variables a nivel poblacional. 33 MODELO DE REGRESIÓN LINEAL SIMPLE Observemos que para ajustar la recta no hemos necesitado ningún supuesto sobre la distribución de las variables, sin embargo sí lo haremos para construir intervalos de confianza y realizar test de hipótesis. 34 MODELO DE REGRESIÓN LINEAL SIMPLE Los valores de y hallados por el método de mínimos cuadrados constituyen la estimación de los valores que ajustarían una recta a los datos poblacionales. ̂ ̂ 35 MODELO DE REGRESIÓN LINEAL SIMPLE 36 Supongamos ahora que las observaciones Yi son independientes, y provienen de una distribución normal con varianza σ2 Luego: donde εij ~ N(0,σ) independientes Veamos gráficamente qué representa el ajuste lineal al incorporar los supuestos: ijixijy MODELO DE REGRESIÓN LINEAL SIMPLE 37 7/12/07 XI X1 X2 µI µ2 µ1 Z Y X µi= α + β Xi . . . . .. .. . . . . ESTAMOS AJUSTANDO UNA RECTA QUE PASE POR EL VALOR MEDIO ESPERADO DE Y PARA CADA VALOR DE X: MODELO DE REGRESIÓN LINEAL SIMPLE 38 PLANTEO DEL MODELO DE REGRESIÓN LINEAL SIMPLE: Dados x1,x2,...,xI valores prefijados de una variable X Yij= valor de Y en la j-ésima unidad correspondiente a xi εij ~ N(0,σ) independientes i=1,...,I j=1,...,ni son los parámetros del modelo ijixijy y 39 Los estimadores de α y β son los estimadores de mínimos cuadrados. es un estimador de : Los estimadores de los errores son los residuos: ESTIMADORES DE LOS PARÁMETROS kk x k Y ˆˆˆ k Y k x k YE k ˆˆˆ)(ˆˆ k x k YE k )( iyiyiri ˆˆ 40 ESTIMADORES DE LOS PARÁMETROS Cómo estimamos ? Como es la varianza de los errores sería natural estimarla usando los residuos (recordemos que les pedimos esperanza 0 en los supuestos): A la suma de cuadrados del numerador la llamamos Suma de cuadrados residual, por lo cual: 2 2 2 1 1 2)ˆ( 2 1 2ˆ 2ˆ n I i in j iyijy n I i i resCM2n resSC2ˆ 41 Los estimadores de α y β, son insesgados,o sea, Más aún, bajo el modelo lineal, ~ es un estimador insesgado de , ya que CMres es un estimador insesgado de Distribución y Propiedades de los estimadores k x k Y ˆˆˆ )ˆ( ; )ˆ( EE k kk x k xE k YE )ˆˆ()ˆ( ̂ );( xxs N 2 Significación de la Regresión 42 Aunque para estimar el modelo se estiman los dos parámetros α y β, nos interesa realizar inferencias sobre la pendiente: si β fuera 0, el modelo no representaría una regresión significativa ya que estimaría el valor de Y a través de un valor constante. Luego , si β=0 no habría variación de la variable de estudio debida a X. Significación de la Regresión 43 De manera similar al modelo de ANOVA, podemos considerar que los valores observados de Y deben su variación por un lado al valor que toma X y por otro al error aleatorio. En efecto, podemos descomponer la suma de cuadrados total de la siguiente forma: I i in j I i in j I i in j yiyiyijyyijy 1 1 1 1 1 1 2)..ˆ(2)ˆ(2)..( Significación de la Regresión 44 El primer sumando es la suma de los residuos que ya definimos como Suma de Cuadrados residual. La segunda sumatoria mide la variación de los valores predichos sobre la recta respecto de la media general. Se la llama Suma de Cuadrados de la regresión Observación: recordemos que es un punto de la recta de mínimos cuadrados, por lo tanto, si β=0, se esperará que las diferencias sean pequeñas. Por lo tanto, cuanto mayor sea β en valor absoluto, mayor se espera que sea la suma de cuadrados de la regresión. ..),( yx 2..)ˆ( yiy Significación de la Regresión 45 Luego: SCtotal = Scres + SC reg Utilizando la misma notación que en ANOVA, llamamos Cuadrados Medios a las Sumas de Cuadrados divididas sus grados de libertad. n-1 n-2 1 Grados de libertad Significación de la Regresión 46 PROPIEDADES: 1. Como ya mencionamos, E(CMres)=σ 2 CMres es un estimador insesgado para σ2 2. Además se puede demostrar que E(CMreg)=σ 2+ β2Sxx 3. Luego, el estadístico bajo la hipótesis: H0: β=0, sigue una distribución F1,n-2 resCM regCMF TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN 47 Yij= valor de Y en la j-ésima unidad correspondiente a xi i=1,...,I j=1,...,ni εij ~ N(0,σ) independientes H0: β=0 H1: β≠0 Se rechaza H0 si F>Fα,1,n-2 ijixijy resCM regCMF TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN 48 Para el ejemplo del tiempo de reacción: F0.05,1,18 = 4,41 Con una probabilidad de error del 5% concluimos que la regresión es significativa. Fuente de variación Grados de libertad Suma de cuadrados Cuadrados Medios F Regresión 1 208,306 208,306 227,224 Residuos 18 16,500 0,917 Total 19 1,0346 TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN 49 Análisis de regresión lineal Variable N R² R² Aj ECMP AIC BIC Tiempo de reaccion 20 0,93 0,92 1,13 58,91 61,90 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF const -7,33 8,15 -24,45 9,79 -0,90 0,3802 Temperatura 1,68 0,11 1,45 1,91 15,07 <0,0001 216,34 1,00 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 208,31 1 208,31 227,24 <0,0001 Temperatura 208,31 1 208,31 227,24 <0,0001 Error 16,50 18 0,92 Total 224,81 19 CON INFOSTAT INTERVALO DE CONFIANZA PARA LA PENDIENTE 50 Recordemos que si el modelo lineal es válido: ~ Luego, se puede demostrar que si reemplazamos a σ por su estimador insesgado: ~ tn-2 Y por lo tanto podemos construir intervalos de confianza para β: ̂ );( xxs N xxSresCM / ˆ INTERVALO DE CONFIANZA PARA LA PENDIENTE 51 Y con dicho intervalo podemos testear la significación de la regresión utilizando el Intervalo de confianza para β, o sea, tenemos otra forma de testear: H0: β=0 H1: β≠0 Y también hipótesis más generales sobre β xxS resCM n t 2;2/ ˆ INTERVALO DE CONFIANZA PARA LA PENDIENTE 52 Para el ejemplo: H0: β=0 H1: β≠0 11,0 xxS resCM 1,22n;2/t 05,0 ˆ 8,73 917,0 xxS resCM n t 2;2/ ˆ INTERVALO DE CONFIANZA PARA LA PENDIENTE 53 xxS resCM n t 2;2/ ˆ Lim Inf= 1,68 – 2,1 x 0,11=1,45 Lim Sup= 1,68 + 2,1 x 0,11=1,91 C( 1,45<β<1,91)=0,95 Observar que estos valores están en la tabla de la salida de Infostat 54 BANDAS DE CONFIANZA Y DE PREDICCIÓN Bajo los supuestos del modelo, se puede mostrar que ~ Lo cual nos permitirá construir intervalos deconfianza para μk (valor esperado de Y para x=xk ) , y al unir los extremos inferiore/superiores de dichos intervalos para distintos valores de k, construiremos una banda de confianza: k Ŷ ) 2 12;( xxs x k x nk N 55 BANDAS DE CONFIANZA Y DE PREDICCIÓN 56 BANDAS DE CONFIANZA Y DE PREDICCIÓN También basándonos en la distribución de podremos construir intervalos de predicción para el valor de Y dado un valor de x. Y al repetirlo para distintos valores de x, podremos construir una banda de predicción k ŷ 57 BANDAS DE CONFIANZA Y DE PREDICCIÓN 69 71 73 75 77 Temp(X) 107,5 111,8 116,2 120,5 124,9 T ie m p o (Y ) Ajuste con Bandas de Confianza y de Predicción 58 BANDAS DE CONFIANZA Y DE PREDICCIÓN Cómo las construimos? Intervalo de confianza para el valor esperado de Y dado x=xk La longitud de estos intervalos decrece a cero con el aumento del tamaño de la muestra. El intervalo más angosto se observa para y los intervalos se van ensanchando a medida que aumenta la distancia al promedio xxs x k x resCMk y 2)( n 1 /2 2,-n tˆ x 59 BANDAS DE CONFIANZA Y DE PREDICCIÓN Intervalo de predicción para el valor de Y dado x=xk Queremos hallar L1, L2 tal que P(L1< Yk < L2)=1-α xxs x k x resCMk y 2)( n 11 /2 2,-n tˆ Observando en el gráfico y comparando las fórmulas: Los intervalos de predicción correspondientes a cada xk son más anchos que los de confianza El error es mayor al predecir una respuesta individual que al estimar la media de una variable respuesta. 60 BANDAS DE CONFIANZA Y DE PREDICCIÓN Para un mismo valor de x, el intervalo de confianza estima un intervalo para el valor promedio de todos los posibles valores de Y dado un x. Al construir un intervalo de predicción se está estimando un intervalo que contenga a esos valores posibles de Y, o sea, como es esperable, los valores de Y tienen mayor dispersión que el promedio. En otras palabras, el intervalo de predicción refleja también la variabilidad individual de Y alrededor de su media verdadera 61 EJERCICIO RESUELTO CON INFOSTAT Para evaluar la existencia de relación lineal entre la presión sanguínea de las mujeres con sus maridos se extrajo una muestra de 20 matrimonios de edad entre 25 y 34 años y se obtuvieron los siguientes datos: Matrimonio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X:marido 136 121 128 100 110 116 127 150 180 172 156 98 132 142 138 126 124 137 160 125 Y: Mujer 130 112 128 106 127 100 98 142 143 150 135 115 126 130 132 146 127 128 135 110 A partir de los datos que se presentan en la salida analice: 62 a) Tiene sentido pensar en una relación lineal entre la presión arterial de la esposa en función de la presión de su esposo? b) Si se ajusta un modelo lineal, cuál sería? c) Puede decirse que la regresión es significativa? Justifique de dos formas distintas. d) Construya las bandas de confianza y de predicción al 95% e) Qué valor de presión se predice con el modelo para la esposa si su marido tiene una presión igual a 130? f) Pueden asumirse válidos los supuestos sobre los residuos? EJERCICIO RESUELTO CON INFOSTAT 63 EJERCICIO RESUELTO CON INFOSTAT 64 EJERCICIO RESUELTO CON INFOSTAT 65 EJERCICIO RESUELTO CON INFOSTAT 94 116 139 162 184 X:marido 95 110 124 138 153 Y : M u je r Presión de la esposa según Presión esposo 66 EJERCICIO RESUELTO CON INFOSTAT 67 EJERCICIO RESUELTO CON INFOSTAT 68 EJERCICIO RESUELTO CON INFOSTAT 69 EJERCICIO RESUELTO CON INFOSTAT 70 EJERCICIO RESUELTO CON INFOSTAT 94 116 139 162 184 X:marido 95 110 124 138 153 Y : M u je r Ajuste Presión 71 EJERCICIO RESUELTO CON INFOSTAT 72 EJERCICIO RESUELTO CON INFOSTAT 73 EJERCICIO RESUELTO CON INFOSTAT 94 116 139 162 184 X:marido 82 105 129 153 176 Y : M u je r Ajuste con Bandas de Confianza y Predicción 74 Insertar fila 75 76 77 78 EJERCICIO RESUELTO CON INFOSTAT 79 EJERCICIO RESUELTO CON INFOSTAT -2,3 -1,2 0,0 1,1 2,3 Cuantiles de una Normal(0,1) -2,3 -1,2 0,0 1,1 2,3 C u a n ti le s o b s e rv a d o s - R E ( Y : M u je r) QQplot de los residuos 80 EJERCICIO RESUELTO CON INFOSTAT 107 118 128 139 150 Predichos -3,00 -1,50 0,00 1,50 3,00 R e s . e s tu d e n ti z a d o s _ Y : M u je r Gráfico de Residuos
Compartir