Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/323227561 MODELOS DE REGRESIÓN Y SUS APLICACIONES Technical Report · February 2018 CITATIONS 0 READS 57,466 1 author: Carlos N. Bouza University of Havana 485 PUBLICATIONS 938 CITATIONS SEE PROFILE All content following this page was uploaded by Carlos N. Bouza on 16 February 2018. The user has requested enhancement of the downloaded file. https://www.researchgate.net/publication/323227561_MODELOS_DE_REGRESION_Y_SUS_APLICACIONES?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_2&_esc=publicationCoverPdf https://www.researchgate.net/publication/323227561_MODELOS_DE_REGRESION_Y_SUS_APLICACIONES?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_3&_esc=publicationCoverPdf https://www.researchgate.net/?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_1&_esc=publicationCoverPdf https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_4&_esc=publicationCoverPdf https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_5&_esc=publicationCoverPdf https://www.researchgate.net/institution/University-of-Havana?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_6&_esc=publicationCoverPdf https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_7&_esc=publicationCoverPdf https://www.researchgate.net/profile/Carlos-Bouza?enrichId=rgreq-33eb6bd70792bdaedfb424099ecc9758-XXX&enrichSource=Y292ZXJQYWdlOzMyMzIyNzU2MTtBUzo1OTQ3MTA3ODc4MDUxODRAMTUxODgwMTUwOTIzOQ%3D%3D&el=1_x_10&_esc=publicationCoverPdf 1 MODELOS DE REGRESIÓN Y SUS APLICACIONES Carlos N. Bouza-Herrera Reporte Técnico 2018-62.02 DOI: 2 Facultad de Matemática y Computación Universidad de La Habana ___- Serie de Reportes Técnicos MODELOS CUANTITATIVOS PARA APLICACIONES EN ESTUDIOS DE SALUD HUMANA Y EL MEDIO-AMBIENTE Comité Editorial Editor: Carlos Bouza Agustin Santiago, Universidad Autónoma de Guerrero, Alberto Fernández, Universidad de La Habana Gemayqzel Bouza, Universidad de La Habana José Betancourt, Universidad de Camagüey Jose F. García, Universidad Juárez Autónoma de Tabasco Lourdes Sandoval, Benemérita Universidad Autónoma de Puebla Marcos Negreiros, Universidade Ceará María Amparo León, Universidad de Pinar del Río María del M. Rueda, Universidad de Granada Purificación Galindo, Universidad de Salamanca Sergio Hernández, Universidad Veracruzana Sira Allende, Universidad de La Habana Valentín Martinez, Universidade da Coruña, Vivian Sistachs, Universidad de La Habana Yanet Rodriguez, Universidad Central de Las Villas 3 MODELOS DE REGRESIÓN Y SUS APLICAICONES 1. Ideas y Conceptos Es común el interés de estudiar la existencia de relaciones entre variables. Por ejemplo, podemos preguntarnos si hay alguna relación entre las el consumo de electricidad, las horas de trabajo, la eficiencia de las calderas y el tiempo de vida de los engranajes de las máquinas del taller. La primera aproximación seria representa pares de variables en un plano. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún tipo de relación entre las variables. Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay entre ambas variables es definido por el coeficiente de correlación lineal simple Este es estimado por Propiedades que debemos apuntar son: 1. Su valor siempre está entre -1 y 1. 2. Si la relación es directa, la banda en que están las observaciones crece al movernos de izquierda a derecha, r>0. 3. Si la relación es inversa, la banda en que están las observaciones disminuye al movernos de izquierda a derecha, r<0. 4. Si la relación es directa y muy fuerte, la banda en que están las observaciones crece al movernos de izquierda a derecha y esta es casi un segmento de recta, r es aproximadamente 1. 5. Si la relación es inversa y muy fuerte, la banda en que están las observaciones disminuye al movernos de izquierda a derecha y esta es casi un segmento de recta, r es aproximadamente -1. 6. Si la relación es muy débil r es aproximadamente cero. Note que hay que tener en consideración que un valor de cero no indica necesariamente que no exista correlación, ya que las variables pueden presentar una relación no lineal. yx xy yxz n zz S SS S r i n t zz yyxx xy , )( , 2 4 El hacer un gráfico donde se reflejen las dos variables da una idea de cómo se correlacionan ellas. Este gráfico se conoce como diagrama de dispersión. Un ejemplo es el gráfico siguiente: Figura Un Diagrama de Dispersión Veamos algunos ejemplos en los que se puede determinar la fuerza de la correlación. Dependencia funcional lineal perfecta: r = 1. Relación lineal directa y fuerte: r1 http://www.itl.nist.gov/div898/handbook/pmd/section4/plots/mspt1_f.gif 5 Relación lineal inversa y fuerte: r-1 Observaciones “casi “independientes: r0 Figura Diagramas de Dispersión que tipifican relaciones Se deseará, generalmente, realizar un contraste de hipótesis, basado en la distribución de X y Y para decidir sobre la significación del coeficiente de correlación. Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En este caso la distribución usada es la normal. Lo más común es desear establecer la significación estadística de si r es estadísticamente diferente de cero. Es decir plantear H0: =0 vs H1: 0 La distribución de r es complicada aun si las variables se distribuyan normal teniéndose que la distribución de este no es normal. Para hacer las pruebas se debe hacer la transformación Existe una relación cuadrática: r0. 6 𝑧 = 1 2 𝑙𝑛 ( 1 + 𝑟 1 − 𝑟 ) Y se tiene que Entonces, para establecer si hay independencia entre X y Y, hacemos una prueba basada en la normal y se acepta H1 si, al fijar el percentil de orden p de la normal estándar |r|>Zp(n-3)-1. Note que si aceptamos que =0 esto implica la independencia de las variables solo si la distribución es normal. En otro caso solo se puede afirmar que están incorrelacionadas. 2. La Regresión Como Modelo El análisis de regresión es una técnica usada para modelar la relación entre variables. Se desea establecer como una o varias variables dependientes se comportan respecto a una o más variables independientes. Mediante esta técnica podemos obtener información sobre como una variable de interés Y, variable dependiente, varia cuando una de las independientes lo hace. Es común considerar que la relación entre Y y X es descrita por una función. En diversos problemas de la física se aceptan tales modelos. Por ejemplo la extensión de un muelle es descrita en función de la fuerza F y esta es proporcional a una constante A. Es decir que cada vez que se aplique una fuerza Fi debe observarse 𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 Sin embargo al hacer la medición de Ext no se obtienen el resultado que el modelo predice. Entonces al valorar lamedición se considera que en verdad se observa 𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 + 𝜀𝑖 Estamos introduciendo en el estudio de la medición un error experimental para cada observación. Comúnmente se acepta que los errores son independientes y que su suma es cero. Eso puede ser soportado por un adecuado diseño del proceso de obtención de los datos. Desde el punto de vista formal el análisis de regresión se dedica a estimar la esperanza condicional de Y para dadas las independientes. Esto es como varia el promedio de Y a fijar valores de las independientes. Hay entonces un objetivo fijado que es la determinación de 3 1 , 1 1 ln 2 1 n N http://en.wikipedia.org/wiki/Dependent_variable http://en.wikipedia.org/wiki/Dependent_variable http://en.wikipedia.org/wiki/Independent_variable 7 una función llamada función de regresión. En ocasiones el interés del investigador es también analizar la variación de Y respecto a esta función lo que plantea un problema que es descrito por una distribución de probabilidad. Dada la variopinta de problemas que aborda el análisis de regresión se han determinado varios tipos de modelos, y con ello diversas técnicas y teorías. Así se distinguen la regresión lineal; la regresión no-lineal; la regresión para datos categóricos. Estos son llamados métodos paramétricos. En estos modelos la función de regresión es definida a partir de la existencia de un número finito de parámetros que deben ser estimados a partir de los datos. Este es el más comúnmente de los enfoques usados. En el enfoque paramétrico se considera que se tiene: Un vector de parámetros desconocidos B de dimensión k1. Un vector de variables independientes, X de dimensión k1. La variable dependiente Y. Esta puede ser un vector en cuyo caso se plantea un problema particular que es la Regresión Multivariada. La función de regresión es una ecuación que liga Y con X y B. En algunos problemas se trabaja con problemas de dimensión infinita y se utiliza el llamado enfoque no No-paramétrico. En este la función de regresión pertenece a un cierto conjunto de funciones, que no tiene por qué especificarse en términos de parámetros. Los métodos van a depender de como los datos fueron obtenidos. No es lo mismo lo que ocurre en un proceso industrial, donde se pueden controlar una serie de efectos, que en un estudio biológico, donde hay variaciones no controladas modeladas por errores, como son los efectos ambientales. Otro enfoque es el uso de métodos que no reaccionan fuertemente ante las violaciones. Este es el enfoque robusto de la regresión. Si no conocemos como se generaron los datos deberemos hacer asunciones sobre el generador de los mismos. En ocasiones nuestras hipótesis se pueden contrastar en otras no. Si las violaciones de estas asunciones son poco importantes las condiciones de optimalidad, que se derivan en los modelos, se mantienen aproximadamente inalterables. Esta es la base de los conceptos de robustez estadística. Dada la amplia aplicación de la regresión los especialistas de distintas disciplinas han dado nombre diferentes a los términos. Similarmente ocurre con los softwares que implementan el ajuste de la ecuación de regresión. Mencionaremos algunos de ellos X= variable controlada, predictora independiente, explicativa. Y= variable respuesta, predicción, dependiente, regresando. Y=f(X)+= función de regresión, de suavizado, ecuación de regresión http://en.wikipedia.org/wiki/Linear_regression http://en.wikipedia.org/wiki/Linear_regression http://en.wikipedia.org/wiki/Nonparametric_regression http://en.wikipedia.org/wiki/Function_(mathematics) 8 Al buscar una ecuación de regresión el experto usa su conocimiento para fijarla. En pocas ocasiones esta es conocida. De hecho el modelar conlleva a que el experto proponga ecuaciones, las determine y las compare, para determinar cuáles son adecuadas y, ocasionalmente, cual es la mejor. Ejemplo: La inversión hecha en poner a punto fábricas de helados en miles de pesos en una provincia y el valor de estas al precio del mercado se evalúa tras 10 años. Hay una serie de factores no controlados que se modelan por un error aleatorio . Se espera que este error al ser promediado se obtenga un equilibrio (E ()=0). Un modelo para describir este problema financiero estará dado por fijar Y = B0 + B1X + ε Se hacen mediciones y se obtienen los dados en la tabla siguiente: Inversión Valor actual 160 126 180 103 200 82 220 75 240 82 260 40 280 20 Tabla. Valor inversión y actual de fábricas de helados en una provincia en miles de pesos El diagrama de dispersión es Figura. Diagrama de Dispersión. Valor inversión y actual de fábricas de helados en una provincia en miles de pesos y x 160 280 20 126 9 Puede valorarse que la relación es caracterizada por una línea recta. Nunca podremos hallar una que pase por todos los puntos pero podemos considerar adecuada la brindada en la figura siguiente Figura. Ajuste lineal de Valor inversión y actual de fábricas de helados en una provincia en miles de pesos Es común que hay algunos forma enmarca que caractericen los datos. Tal es el caso de los datos en la figura próxima de un estudio de todas las fábricas tras 10 años de uso. Figura. Modelos alternativos para Valor inversión y actual de fábricas de helados en miles de pesos en la población total. 3. Usos de la regresión y x y Fitted values 160 280 20 126 10 No siempre es sencillo hacer el gráfico y por tanto debemos buscar métodos matemáticos que determinen el lugar geométrico que caracteriza una función aceptable. El análisis de Regresión es muy usado para hacer predicciones. Actualmente sus conceptos aparecen dentro de campos modernos como las redes neuronales el aprendizaje, como en los problemas de “machine learning”. Cuando el objetivo es determinar la ecuación de regresión, o el hacer predicciones, se desea obtener un valor aceptable de Y al observar valores de las variables independientes, o de una proporción específica, de todas las observaciones futuras de Y, para una cierta combinación de valores de las variables controladas. Estas predicciones pueden hacerse para una combinación cualquiera de las variables independientes que se encuentre en el rango de las observadas para hacer el ajuste. Otro uso de la regresión es el de calibrar es decir relacionar como un sistema de medición se relaciona con otro. Es de particular importancia su uso para optimizar. En tales problemas, la ecuación determinada es usada para buscar combinaciones de los valores de la variable independientes que minimicen, o maximicen, el valor de Y. Este problema plantea toda una disciplina denominada Superficies de Respuesta El análisis de regresión es también muy usado para comprender como variables independientes se relacionan con la variable dependiente. Esto permite evaluar que formas son aceptables para describir estas relaciones. Por ello estos modelos aparecen como una herramienta para inferir sobre relaciones de causa-efecto. En estos casos se desea determinar una función de regresión. Los valores de ella, obtenidos por valores de las variables independientes dentro del rango de observación, permiten hacer interpolaciones. 4. La Regresión Lineal Simple Cuando el coeficiente de regresión lineal entre dos variables sea “cercano” a +1 o a –1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos. Esta recta permitirá establecer el lugar geométrico que describe la relación y puede ser utilizada para predecir o estimar los valores que tomaría de Y al fijar X. Consideremos que solo tenemos dos variables X y Y . La relación entre ellas es hipotéticamente descrita por la ecuación de una línea recta. Entonces elmodelo 𝑓(𝑋, �⃗� ) = 𝑌 = 𝐵𝑜 + 𝐵1𝑋 es considerado por el especialista como aceptable. B0 es la ordenada (valor de Y) cuando X=0 B1 es la pendiente (cambio de Y al aumentar X en una unidad) http://en.wikipedia.org/wiki/Machine_learning 11 Al considerar el problema de la estimación que determinar una esperanza condicional se tiene que el modelo es justificado al considerar que 𝐸(𝑌|𝑋) = 𝐵𝑜 + 𝐵1𝑋 Lo que sugiere el uso del modelo probabilístico 𝑌𝑑𝑎𝑑𝑜 𝑋 = 𝐵𝑜 + 𝐵1𝑋 + 𝜀 Y es denominada variable dependiente y X independiente. Se supone que: • Los valores de X son fijos y son medidos sin error. • La variable Y es aleatoria • Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y) • Las variancias de las subpoblaciones Y son todas iguales. • Todas las medias de las subpoblaciones de Y están sobre la recta. • Los valores de Y están normalmente distribuidos y son estadísticamente independientes Esto equivale a decir que si observamos una muestra aleatoria de n pares (X, Y)i, i=1,…,n, {(Yi, Xi ) , i=1,...,n }, y que 𝑌𝑖 = 𝐵𝑜 + 𝐵1𝑋𝑖 + 𝜀𝑖 Donde E(i )=0, V(i )=2 para todo i=1,..,n Cov (i ,j)=0 , para todo ij Lo que se desea es hallar la ecuación de una recta que se ajuste óptimamente a los datos. En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión y la varianza de los errores. El método de los mínimos cuadrados es el que usualmente se utiliza para hacer este ajuste y elegir la recta de regresión. La recta obtenida es aquella que minimiza las distancias verticales de las observaciones a la recta. Este método, llamado de los MC ordinarios (MCO), nos plantea el problema de optimización (𝑏0, 𝑏1) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0,𝐵1) {∑(𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖) 2 =∑𝜀𝑖 2 𝑛 𝑖=1 𝑛 𝑖=1 } O sea que se tienen que resolver el sistema de ecuaciones 𝜕{∑ (𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖) 2𝑛 𝑖=1 } 𝜕𝐵0 = 0 http://www.monografias.com/trabajos11/travent/travent.shtml 12 𝜕{∑ (𝑌𝑖 − 𝐵𝑜 + 𝐵1𝑋𝑖) 2𝑛 𝑖=1 } 𝜕𝐵1 = 0 Su solución es XBY n X B n Y B S S n n X X n n Y Y n X X B n i i n i i X XY n i i i n i n i i i n i i i n i 1 1 1 1 0 22 1 1 11 1 1 ˆˆˆ 1 1ˆ Estos estimadores son conocidos como “mínimo cuadráticos” Como no se ha hecho ninguna hipótesis sobre la distribución de las variables aleatorias, esta solución es óptima para cualquier distribución. Para valorar si el ajuste es adecuado se calcula la fracción de la varianza total explicada por la ecuación. Esta es 𝑅2 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (�̂�) 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌) = 𝑉(�̂�0 + �̂�1𝑋) 𝑆𝑌 2 R2 es conocido como coeficiente de determinación, y se encuentra en el intervalo (0,1). Valores altos de R2 señalan que la ecuación ajustada es una buena representación de la relación existente entre Y y X. Note que: I. En este modelo R2 es igual al coeficiente de correlación entre las variables. II. 1− R2 indica el porcentaje de la variación que es explicada por el modelo de regresión ajustado. III. En muchas ocasiones se expresa este coeficiente como un por ciento. O sea se reporta 100R2. Los datos pueden ser generados por varios modelos alternativos. El modelo más popular es el llamado modelo en el que se asume que: i) X no es una variable aleatoria. ii) Para cada valor xi de X existe una variable aleatoria. Y|X =xi cuya media está dada por el modelo. 13 iii) Todas las variables Y|X=xi son normales, independientes y con igual varianza. Esto es ejemplificado en el siguiente gráfico. Gráfico de una Recta de regresión bajo el Modelo Note que la distribución es la misma excepto respecto a la esperanza Asumimos que para cada valor de X, Y no está determinada, sino que E(Y|X)=B0 +B1X=|X Ejemplo. Medimos el nivel de contaminación de un lago y el uso de detergentes en una barriada que desagua en este. El ajuste de un modelo de regresión simple nos dice que: Nivel de contaminación al no usar detergentes (X=0). B1 incremento de la contaminación al aumentar 1 %Kg del detergente. Si B1= 0 entonces el uso de detergentes no afecta el nivel de contaminación. (las variables son independientes). B1 indica que están correlacionadas y su magnitud mide la fuerza y sentido de esta asociación mutua Al considerar que tenemos una muestra de n pares {(Xi ,Yi), i=1,...,n} y dada la aleatoriedad de cada Y, generada por la de , la teoría estadística permite: i) Estimar los coeficientes (parámetros) Bj, j=0,1, del modelo usando 14 XBY n X B n Y B S S n n X X n n Y Y n X X B n i i n i i X XY n i i i n i n i i i n i i i n i 1 1 1 1 0 22 1 1 11 1 1 ˆˆˆ 1 1ˆ ii) Ajustar un modelo de predicción �̂� = 0B̂ + 1B̂ X Esta es la llamada ecuación de regresión lineal simple la que es utilizada para hacer predicciones de Y iii) Estimar los errores (residuos) 𝜀̂ = 𝑟 = 𝑌 − �̂� y su varianza 2 mediante 𝑆𝑒 2 = ∑ �̂�𝑖 2𝑛 𝑖=1 𝑛−2 = 𝑆𝑦 2−�̂�1𝑆𝑥 2 𝑛−2 , 1 2 1 1 2 n n Y Y S n i i i n i Y iv) Deducir que �̂� es un estimador insesgado de Y. La varianza de las variables Y|xi es: 2 11 2 102 0 / /1 )|( nXX nXX n XYV i n ii n i i n i A su raíz cuadrada se le llama error estándar de la estimación. v) Derivar que �̂�0 es un estimador insesgado de B0 y su varianza es: 15 2 11 2 12 0 / /1 )ˆ( nXX nX n BV i n ii n i i n i vi) Derivar que �̂�1 es un estimador insesgado de B1 y su varianza es: 2 11 2 1 / 1 )ˆ( nXX BV i n ii n i vii) Demostrar que, como la distribución muestral de los errores es una N(0, 2) y que la distribución de Y es una N(B0 +B1X, 2) . viii) Derivar que los estimadores máximos verosímiles, dado que la función de verosimilitud es 𝑀𝑎𝑥(𝐵0,𝐵1)𝐿(𝐵0, 𝐵1, 𝜎 2) =∏( 𝜎2 2𝜋 ) −1/2 𝑒𝑥𝑝 { (𝑌𝑖 − 𝐵0 + 𝐵1𝑋𝑖) 2 𝜎2 } 𝑛 𝑖=1 Esto determina las mismas expresiones que las obtenidas al utilizar el criterio Mínimo cuadrático y deducir que poseen una distribución normal. Este último resultado permite hacer tanto la estimación por intervalos como el hacer pruebas de hipótesis usando los estimadores presentados. Para ello se utiliza la distribución T(n-2) y se trabaja con el estadístico normalizado usando la estimación del error típico. Los intervalos de confianza son: 𝐼𝐶(𝐸(𝑌|𝑋)) = x e x e nS S ntB nS S ntBBIC )2/1,2(ˆ,)2/1,2(ˆ)ˆ( 111 2 2 02 2 00 1 1 )2/1,2(ˆ,1 1 )2/1,2(ˆ)ˆ( x e x e S X n SntB S X n SntBBIC 16 = (�̂� − )2/1,2( nt Se √ 1 𝑛 (1 + (𝑋𝑖 − �̅�)2 𝑆𝑥2 ) , �̂� + )2/1,2( nt Se √ 1 𝑛 (1 + (𝑋𝑖 − �̅�)2 𝑆𝑥2 )) Note que IC(E(YX)) es de amplitud mínima si XX i . Para hacer una predicción el investigador fija un valor X*(Min{X1,…,XN}, Max{X1,…,XN}) y la respuesta será 𝑌∗ = 0B̂ + B̂1X ∗ Entonces se puede hacer una estimación por intervalos de confianza para una predicción utilizando 𝐼𝐶(𝐸(𝑌∗|𝑋∗)) = = (𝑌∗ − )2/1,2( nt Se √ 1 𝑛 (1 + (𝑋∗ − �̅�) 2 𝑆𝑥2 ) , 𝑌∗ + )2/1,2( nt Se √ 1 𝑛 (1 + (𝑋∗ − �̅�) 2 𝑆𝑥2 ) ) De estos resultados se derivan las pruebas de hipótesisnecesarias. Note que al hacer la prueba de hipótesis B1=0 se está haciendo el contraste del coeficiente de correlación =0 pues el �̂�1 = 𝑟 𝑆𝑥 𝑆𝑌 . Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y. por tanto se distribuyen como una Ji-cuadrado. Se puede establecer entonces el siguiente resultado: 𝑆𝑒 2 𝜎2 𝑠𝑒 𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑦𝑒 2 )2( n Ejemplo. Se quiere estudiar la asociación entre los niveles de contaminación de un río y la producción de leche en una vaquería que desagua en este. En una muestra de días se utilizan distintos niveles de detergentes usados en la limpieza de la vaquería midiéndose el incremento de la polución. 17 Variable X: Kg. De detergente usado (variable no aleatoria) Variable Y: incremento en la contaminación X Y 1,8 100 2,2 98 3,5 110 4,0 110 4,3 112 5,0 120 La "salida" de un paquete estadístico es: Coeficientes(a) Modelo Coef. no estand. Coeficientes estand. t Sig. Intervalo de confianza para B al 95% B Error típ. Beta Límite inferior Límite superior B Error típ. 1 (Constante) - 12,511 2,122 -5,895 ,004 - 18,403 - 6,619 kgDet ,147 ,020 ,967 7,546 ,002 ,093 ,202 a Variable dependiente: nivelcont Entonces �̂� = −12,511 + 0,147𝑋 Resumen del modelo(b) Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Cambio en R cuadrado Cambio en F gl1 gl2 1 ,967(a) ,934 ,918 ,35575 a Variables predictoras: (Constante), kgDet b Variable dependiente: nivelcont Esta ecuación es muy buena pues R2>0,90. Sin embargo esta lleva a contradicción pues si no se añade detergente el nivel de contaminación aparece como negativo. Hay alguna deficiencia en el experimento. Una solución es establecer restricciones en el problema de optimización. En este caso sería B00. Este es un problema complicado pues uno de optimización con restricciones. 18 La estimación del B1 es distinta de 0, esto indica que hay correlación entre X y Y. Sin embargo la normalidad es dudable y si son aceptables las inferencias. En Microsoft Excel, se tiene la función LINEST que permite hacer el ajuste de la regresión lineal. Esta brinda la opción de calcular Intervalos de Confianza. Ejemplo. Se mide el número de horas en que estuvo funcionando una maquinaria y la producción total sin defectos. Los datos obtenidos fueron 2,00 15,50 4,50 29,00 5,00 32,50 7,00 36,50 2,00 18,50 3,50 22,00 6,00 30,00 11,00 45,50 ,50 10,50 8,50 42,00 Usando SPSS se obtuvo como salida Resumen del modelo(b) Model o R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,976(a) ,953 ,947 2,64030 a Variables predictoras: (Constante), horas b Variable dependiente: prod.total Por lo que el modelo representa un muy buen ajuste. Coeficientes(a) http://en.wikipedia.org/wiki/Microsoft_Excel 19 Model o Coeficientes no estandarizados Coeficiente s estandariza dos t Sig. Intervalo de confianza para B al 95% B Error típ. Beta Límite inferior Límite superior 1 (Constante ) 10,846 1,597 6,791 ,000 7,163 14,530 horas 3,471 ,272 ,976 12,745 ,000 2,843 4,099 ,976 a Variable dependiente: prod.total De ahí que �̂� = 10,846 + 3,471𝑋 Además se acepta que todos los coeficientes son distintos de cero. 20 Por otra parte 𝑆𝑒 = √ ∑ 𝜀�̂� 2𝑛 𝑖=1 𝑛 − 2 = 4,72 Si queremos usar un valor redondeado y fijamos B1=3 . Hacemos la prueba de hipótesis usando el hecho de que el estadístico de prueba es 𝑡𝐵1 = �̂�1 − 3 𝑆𝑒 √(n − 2)SX 2/n = 3,471 − 3 4,72 √8 × 376/10 = 1,73 Regresión Residuo tipificado 210-1-2 F re c u e n c ia 3 2 1 0 Histograma Variable dependiente: prod.total Media =0 Desviación típica =0,943 N =10 21 Como t(8 0,95)=2,896 acepto esta hipótesis. Podemos entonces usar El IC para B1 es Por tanto la normalidad también es dudable y las inferencias no pueden ser aceptadas como concluyentes. Otro ejemplo es el que presentamos a continuación Ejemplo. Se evalúa en varias fábricas el número de mantenimientos preventivos planificados y el por ciento de artículos producidos con defectos. Los resultados fueron % de artículos defectuosos Numero de MPP 1,00 9,00 1,00 11,00 2,00 9,00 3,00 6,00 5,00 6,00 6,00 8,00 7,00 7,00 10,00 4,00 12,00 4,00 12,00 2,00 13,00 1,00 Usando SPSS se obtiene Resumen del modelo(b) Model o R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,914(a) ,835 ,816 1,96838 a Variables predictoras: (Constante), MPP b Variable dependiente: porRECH El modelo no es muy bueno, pero puede ser aceptado pues R2>0,8. Coeficientes(a) Model o Coeficientes no Coeficientes estandarizado s t Sig. Intervalo de confianza para B al 95% 10,484,2 3768 10 72,4306,2471,3, 3768 10 72,4306,2471,3)ˆ( 1 BIC 22 estandarizado s B Error típ. Beta Límite inferio r Límite superio r 1 (Constante ) 14,75 0 1,355 10,88 8 ,00 0 11,686 17,815 MPP -1,347 ,200 -,914 -6,737 ,00 0 -1,799 -,895 a Variable dependiente: porRECH Entonces �̂� = 14,75 − 1,347𝑋 Como el histograma se ajusta a la correspondiente normal las inferencias son válidas. Cuando las hipótesis fijadas anteriormente no son aceptables no podemos utilizar los métodos asociados a la normalidad. Al ajustar la recta de regresión a las observaciones tennos una medida que no depende de estas hipótesis. La valoración del ajuste es realizado utilizando el coeficiente de determinación. Este es definido de varias formas: 𝑅2 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (�̂�) 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌) = 𝑆𝐶𝑟 𝑆𝐶𝑇 = 𝑉(�̂�0 + �̂�1𝑋) 𝑆𝑌 2 = ∑ (�̂�𝑖 − 𝑌𝑖) 2𝑛 𝑖=1 ∑ (𝑌𝑖 − �̅�)2 𝑛 𝑖=1 = Regresión Residuo tipificado 210-1-2 F re c u e n c ia 3 2 1 0 Histograma Variable dependiente: porRECH Media =-8,12E-16 Desviación típica =0,949 N =11 815,17686,11)ˆ( 1 BIC 895,0799,1)ˆ( 0 BIC 23 Como SCr < SCT, se verifica que 0 < R2 < 1. Este coeficiente mide la proporción de variabilidad total de la variable dependiente Y explicada por el modelo de regresión. Note que el coeficiente de correlación lineal muestral (o coeficiente de correlación de Pearson) ya definido se relaciona con R2 mediante: 𝑟 = ∑ (𝑌𝑖 − �̅�) 𝑛 𝑖=1 (𝑋𝑖 − �̅�) √∑ (𝑌𝑖 − �̅�)2 𝑛 𝑖=1 ∑ (𝑋𝑖 − �̅�)2 𝑛 𝑖=1 = 𝑆𝑋𝑌 𝑆𝑋𝑆𝑌 = 𝑠𝑖𝑔𝑛𝑜(𝑏1)𝑅 Para el ajuste de la regresión lineal pueden hallarse "applets" en los enlaces: http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html http://www.unalmed.edu.co/~estadist/regression/regresion.htm http://kitchen.stat.vt.edu/~sundar/java/applets/ http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html http://www.stat.wvu.edu/SRS/Modules/ 5. Regresión Múltiple 5.1 El modelo Si hay más de una variable relacionada con la variable dependiente Y. Así, si estudiamos los efectos del escurrimiento de las aguas hacia una laguna y el área fertilizad (en logaritmo) podemos querer modelar la salinización en términos del logaritmo de esta. Sean Y= Logssp=Logaritmo salinización porcentual X1=LAT=Lavado adiabático temporal X2=Logarea=Logaritmo del área fertilizada. Podemos ajustar los modelos de regresión simple: Y = ß0 + ß1X1 + Y = ß0 + ß2X2 + Las variables independientes pueden estar ocultando algunos efectos. En realidad la ganancia en salinización es función de las dos variables y analizar los modelos por separado puede ser no lo mejor. Podemos ajustar una regresión y ver si este es un buen ajuste y después hacerlo con la otra variable. Es recomendable analizar el efecto combinadode ambas. Por ejemplo podemos tener un gráfico como el de la figura siguiente http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html 24 Figura: Plano para el caso Y=LOGSP, X1=LAT, X2=LOGAREA Modelemos el caso en que tenemos un vector de variables independientes 𝑋 = (𝑋1, … , 𝑋𝑝) 𝑇 ∈ 𝑝 Ahora hay p+1 parámetros (𝐵1, … , 𝐵𝑝, 𝜎 2) = (�⃗� , 𝜎2) Usaremos indistintamente 𝐴 = 𝐴 podemos denotar la función de regresión como η(X;B) = XT B. Se define como error ahora a (B)=Y-XTB Se supone que existe un valor del espacio paramétrico B* , (= espacio paramétrico), tal que E[(B*)Xª=(X1ª ,…,Xp ª)]=0 lo que significa que (X1ª ,…,Xp ª) permite hacer la mejor predicción. O sea que la mejor predicción de Y será η(Xª;ª ) = XªT* Las formulaciones van a ser muy variadas. El investigador debe escoger . Son posibles diversas representaciones para un mismo conjunto de variables explicativas. Si el número de variables explicativas es p>2 la representación gráfica no es factible. El modelo de regresión se generaliza del problema de hallar la mejor recta a determinar el mejor hiperplano que ajusta a los datos en el espacio correspondiente. http://en.wikipedia.org/wiki/Errors_and_residuals_in_statistics 25 La idea de los Mínimos Cuadráticos es que la ecuación de regresión lineal se obtiene como una proyección ortogonal. Tomemos F como el espacio L2 de las variables aleatorias cuyos cuadrados poseen una integral finita (el caso más general es considerar la medida de Lebesgue) y G como el subespacio lineal de F generado por YF donde (𝑋1, … , 𝑋𝑝) ∈ 𝐹 𝑝. Entonces η es una proyección ortogonal de Y sobre G. Tenemos que 𝐸(𝑌|𝑋 ) = pero 𝑌 ↦ 𝐸(𝑌|𝑋 ) es una proyección, por lo que η proyecta Y sobre G. Construyendo el producto escalar en F: si las variables aleatorios , y 〈𝑋 , 𝑌〉2 ≔ 𝐸(𝑋 , 𝑌). Este es un producto escalar pues si ‖𝑋 ‖ 2 2 = 0. entonces si X = 0, si usamos la medida de Lebesgue esto debe cumplirse solo “ casi dondequiera”, siendo ‖𝑋 ‖ 2 2 : = 〈𝑋 , 𝑋 〉2 la norma correspondiente a este. Todo esto permite deducir que es ortogonal para cualquier Xj y esto lleva a que sea válido en todo el subespacio G. Así se implica que η es una proyección de Y sobre G que es, ortogonal respecto al producto escalar predefinido. Podemos entonces fijar que (𝑋 , �⃗� ) = 𝑚𝑖𝑛𝑓∈𝐺‖𝑌 − 𝑓‖2 2 Tomando una muestra de tamaño n>p, tenemos n observaciones de Xj, junto con el vector Y=Ynx1 de n observaciones de Y. La estimación corresponde a la de los coeficientes de esa proyección ortogonal. Sea el producto escalar para cada par de muestras de tamaño n, �⃗⃗� , �⃗� ∈ 𝐹𝑛 de variables aleatorias U y V. definamos 〈�⃗⃗� , �⃗� 〉2 ≔ �⃗⃗� �⃗� . El producto ‖∙‖ ≔ √〈∙,∙〉 está definido en Fn y no en F. La linealidad de B como función de Y, es expresada por su estructura y es la razón para llamar el modelo de regresión lineal. Otros modelos serán no lineales y recurrirán del uso de métodos non lineales para hacer la estimación. Un primer objetivo en el estudio del modelo lineal es el de estimar los parámetros del mismo. De la expresión matemática del modelo de regresión lineal general se deduce que para i = 1,2,...,n se verifica la siguiente igualdad 𝑌 =∑𝐵𝑗𝑋𝑗 + 𝜀 𝑘 𝑗=0 donde es el error aleatorio o perturbación de la observación i-ésima. Para este modelo los estimadores mínimos cuadráticos se obtienen al resolver el problema de optimización (𝑏0, … , 𝑏𝑘) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0,…,𝐵𝑘) {𝑄 =∑ 𝑛 𝑖=1 (𝑌𝑖 −∑𝐵𝑗𝑋𝑗 𝑘 𝑗=0 ) 2 } Para ello se aplica la diferenciación parcial de Q respecto a cada parámetro obteniendo el sistema 𝜕𝑄 𝜕𝐵𝑗 = 0, 𝑗 = 0,1, … , 𝑘 26 Estas ecuaciones determinan las p=k+1 ecuaciones normales ∑ 𝑛 𝑖=1 𝑌𝑖 = 𝑛𝑏0 + 𝑏1∑𝑋𝑖1 𝑛 𝑖=1 +⋯+ 𝑏𝑘∑𝑋𝑖𝑘 𝑛 𝑖=1 ∑ 𝑛 𝑖=1 𝑋𝑖1𝑌𝑖 = 𝑏0∑𝑋𝑖1 𝑛 𝑖=1 + 𝑏1∑𝑋𝑖1 2 + 𝑏2∑𝑋𝑖1𝑋𝑖2 + 𝑛 𝑖=1 𝑛 𝑖=1 …+ 𝑏𝑘∑𝑋𝑖1𝑋𝑖𝑘 𝑛 𝑖=1 ∑ 𝑛 𝑖=1 𝑋𝑖2𝑌𝑖 = 𝑏0∑𝑋𝑖2 𝑛 𝑖=1 + 𝑏1∑𝑋𝑖1𝑋𝑖2 + 𝑏2∑𝑋𝑖2 2 + 𝑛 𝑖=1 𝑛 𝑖=1 …+ 𝑏𝑘∑𝑋𝑖𝑘 𝑋𝑖2 𝑛 𝑖=1 ⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮ ∑ 𝑛 𝑖=1 𝑋𝑖𝑘𝑌𝑖 = 𝑏0∑𝑋𝑖𝑘 𝑛 𝑖=1 + 𝑏1∑𝑋𝑖1𝑋𝑖𝑘 +⋯+ 𝑏2∑𝑋𝑖2𝑋𝑖𝑘 + 𝑛 𝑖=1 𝑛 𝑖=1 …+ 𝑏𝑘∑ 𝑋𝑖𝑘 2 𝑛 𝑖=1 Su solución provee el estimador mínimo cuadrático (𝑏0, … , 𝑏𝑘). Es conveniente describir el modelo de regresión lineal general en forma matricial cuando tenemos n observaciones. Fijando p=k+1 y Xj1=1 para todo i=-1,..,n, el modelo de regresión lineal p-variado se puede escribir como: ( 𝑌1 𝑌2 ⋮ 𝑌𝑛 ) = ( 1 𝑋11 𝑋12⋯𝑋1𝑘 1 𝑋21 𝑋22⋯𝑋2𝑘 ⋮ ⋮ ⋮ ⋮⋮ ⋮ 1 𝑋𝑛1 𝑋𝑛2⋯𝑋𝑛𝑘 )( 𝐵0 𝐵1 ⋮ 𝐵𝑘 )+ ( 1 2 ⋮ 𝑛 ) Denotaremos los vectores y matrices envueltos en este modelo como ( 𝑌1 𝑌2 ⋮ 𝑌𝑛 ) = �⃗� ( 1 𝑋11 𝑋12⋯𝑋1𝑘 1 𝑋21 𝑋22⋯𝑋2𝑘 ⋮ ⋮ ⋮ ⋮⋮ ⋮ 1 𝑋𝑛1 𝑋𝑛2⋯𝑋𝑛𝑘 ) = 𝑋𝑛×𝑘, ( 1 2 ⋮ 𝑛 ) = 𝜀 Y es el vector n-dimensional (matriz n × 1) de la variable respuesta o dependiente generado por el fenómeno. Xnxk es llamada matriz de diseño. La fila i-ésima de la matriz se corresponde con los datos de las k variables independientes en la observación i-ésima, i = 1,2,..., n determinando el vector Xi+. La columna j-ésima de la matriz X+j se corresponde con los datos de las variables regresora k-ésima Xj, j = 1,2,...,k. La información acerca de la variable j -ésima en la muestra está contenida en este vector. B es el vector p=k+1 dimensional, (matriz p× 1) de la ecuación de regresión. es el vector n-dimensional (matriz n × 1) de las perturbaciones aleatorias. Que la matriz 𝑋𝑛×𝑝(𝑋𝑛×𝑝 𝑇 �⃗� )𝑋𝑛×𝑝 𝑇 sea simétrica e idempotente es incesantemente requerida tanto para la computación como para probar los teoremas. http://en.wikipedia.org/wiki/Idempotent 27 Determinar el lugar geométrico que caracteriza la función de regresión es el problema de minimización de la suma de los residuos al cuadrado. O sea resolver el problema mínimo cuadrático. Este es �⃗� ̂ = �⃗� = 𝐴𝑟𝑔𝑀𝑖𝑛�⃗� ‖𝑋𝑛×𝑝�⃗� − �⃗� ‖ 2 Por tanto 〈𝑋𝑛×𝑝, 𝑏⃗⃗ ⃗〉 = 𝑋𝑛×𝑝 𝑇 (𝑋𝑛×𝑝�⃗� − �⃗� ) = 0 Lo que nos lleva al sistema de ecuaciones normales 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝�⃗� = 𝑋𝑛×𝑝 𝑇 �⃗� Si 𝑋𝑛×𝑝 es de rango completo ( 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝 es inversible) y podremos computar el estimador explícitamente al calcular: �⃗� = (𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝) −1 (𝑋𝑛×𝑝 𝑇 �⃗� ) Note que 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝 = ( 𝑛 ∑𝑋𝑖1 𝑛 𝑖=1 ∑𝑋𝑖2⋯ 𝑛 𝑖=1 ∑𝑋𝑖𝑘 𝑛 𝑖=1 ∑𝑋𝑖1 ∑𝑋𝑖𝑡 2 ∑𝑋𝑖1𝑋𝑖2⋯ 𝑛 𝑖=1 ∑𝑋𝑖1𝑋𝑖𝑘 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 ⋮ ⋮ ⋯ ⋮ ∑𝑋𝑖𝑘 ∑𝑋𝑖𝑘𝑋𝑖1 ∑𝑋𝑖𝑘𝑋𝑖2⋯ 𝑛 𝑖=1 ∑𝑋𝑖𝑘 2 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 ) 𝑘×𝑘 𝑋𝑛×𝑝 𝑇 �⃗� = ( ∑𝑌𝑖 𝑛 𝑖=1 ∑𝑋𝑖1𝑌𝑖 𝑛 𝑖=1 ⋮ ∑𝑋𝑖𝑘𝑌𝑖 𝑛 𝑖=1 ) (𝑘+1)×1 Pueden obtenerse los estimadores utilizando álgebra matricial. Planteando: 𝑚𝑖𝑛(𝜀 𝑇𝜀 ) = 𝑚𝑖𝑛 [(�⃗� − 𝑋𝑛×𝑝�⃗� ̂ ) 𝑇 (�⃗� − 𝑋𝑛×𝑝�⃗� ̂ )] = 𝑚𝑖𝑛 (�⃗� 𝑇�⃗� − �⃗� 𝑇𝑋𝑛×𝑝�⃗� ̂ − �⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝�⃗� ̂ ) Los productos matriciales �⃗� 𝑇𝑋𝑛×𝑝�⃗� ̂ y �⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 �⃗� son iguales a un escalar y, dado que el orden de cada una de ellas es (1x1), tenemos dos expresiones equivalentes del mismo escalar. Así que 𝑚𝑖𝑛(𝜀 𝑇𝜀 ) = 𝑚𝑖𝑛 (�⃗� 𝑇�⃗� − 2�⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝�⃗� ̂ ) 28 Para obtener la minimización hallamos las derivadas parciales 𝜕 (�⃗� 𝑇�⃗� − 2�⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 �⃗� + �⃗� ̂𝑇𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝�⃗� ̂ ) 𝜕�⃗� ̂ = 0⃗ Y −𝑋𝑛×𝑝 𝑇 �⃗� + 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝�⃗� ̂ = 0⃗Por lo que temeos que la expresión matricial del estimador mínimo cuadrático es �⃗� ̂ = (𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝) −1 𝑋𝑛×𝑝 𝑇 �⃗� 5.2.Estimador Máximo Verosímil Si la distribución es normal podemos utilizar el método máximo verosímil. En nuestro caso, se asume que los errores tienen una distribución normal estándar. Entonces O sea que cada error tiene por distribución 𝜀𝑖~𝑁(0, 𝜎 2) por lo que 𝑓(𝜀𝑖) = 1 √2𝜋 𝑒𝑥𝑝 (− 𝜀𝑖 2 2𝜎2 ) Dada la independencia 𝜀 ~𝑁(0⃗ , 𝜎2𝐼) El logaritmo de la función de verosimilitud es 𝐿∗ = 𝐿𝑛(𝐿) = − 𝑛 2 ln(2𝜋) − 𝑛 2 ln 𝜎2 − 1 2𝜎2 (�⃗� − 𝑋𝑛×𝑝�⃗� ̂ ) 𝑇 (�⃗� − 𝑋𝑛×𝑝�⃗� ̂ ) Como se ve maximizar L* respecto al vector de parámetros implica minimizar el último de los sumandos en la expresión anterior. Este el mismo problema de optimación que s platea obtener el estimador de Mínimos Cuadrados Ordinarios revisado anteriormente. Así que el estimador Máximo Verosímil coincide con el estimador de Mínimos Cuadrados Ordinarios. Dada la normalidad asintótica de los estimadores máximo verosímiles se deduce la normilla de �⃗� ̂ . Las inferencias s e harán utilizando este hecho. La respuesta estimada por el modelo para la i-ésima observación es: ippiii XbXbXbbY 22110 ˆ El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha. Así que el residuo para la observación i , i-ésimo residuo, es iii YYe ˆ , ippiiii XbXbXbbYe 22110 . Ejemplo. Un modelo bivariado es presentado en la figura siguiente 29 Figura. El plano del modelo Al tomar la muestra se genera el plano muestral: Figura. El plano del ajuste del modelo Note que 𝐼 𝑛 − 𝑋𝑛×𝑘(𝑋𝑛×𝑘 𝑇 �⃗� )𝑋𝑛×𝑘 𝑇 es simétrica e idempotente de rango n − p-1. Este es un ejemplo del uso de los resultado referidos al teorema espectral de dimensión finita del álgebra lineal que establece que “ cualquier matriz real simétrica M puede ser diagonalizada mediante una matriz ortogonal G”, (GTMG es diagonal). Si M es además idempotente, entonces las entradas en la diagonal de GTMG son números idempotentes. X 2 Y X 1 E(Y) = 0 + 1 X 1i + 2 X 2i 0 Y i = 0 + 1 X 1i + 2 X 2i + i Response Plane (X 1i ,X 2i ) (Observed Y) i Modelo de Regresión Múltiple Un modelo con dos variables observación Plano de respuesta Y El modelo bivariado muestral X 2 Y X 1 0 Y i = 0 + 1 X 1i + 2 X 2i + i Response Plane (X 1i ,X 2i ) (Observed Y) ^ i Y i = 0 + 1 X 1i + 2 X 2i ^^^ ^ ^ ^^^ ^ observado http://en.wikipedia.org/wiki/Spectral_theorem http://en.wikipedia.org/wiki/Linear_algebra http://en.wikipedia.org/wiki/Linear_algebra http://en.wikipedia.org/wiki/Orthogonal_matrix 30 Un caso particular es el caso polinomial. Un ejemplo es el polinomio de tercer grado Y = AX 3 + BX 2 + CX + D + Este puede ser expresado como: y = ß0 + ß1X1+ ß2X2 + ß3X3 + Donde X1 = X1, X2 = X2, X3 = X3 . O sea que la regresión polinomial no es sino un caso particular de la regresión múltiple. Podemos buscar una superficie a partir de un polinomio de un cierto grado de las variables. Siguiendo el ejemplo con dos variables podemos buscar el ajuste para el modelo de segundo grado Y = ß0 + ß1X1+ ß2X1 2 + ß3X2 + ß4X2 2 + ß4X1X2 + Su gráfico será del tipo representado en la figura siguiente. Figura.: Superficie para el ajuste de Y = ß0 + ß1X1+ ß2X1 2 + ß3X2 + ß4X2 2 + ß4X1X2 + Y=LOGSP, X1=LAT, X2=LOGAREA 31 En ocasiones es conveniente trabajar con el modelo centrado por la media de la varible de respuesta. En este caso se tendrá 𝑌𝑖 − �̅� =∑𝐵𝑗(𝑋𝑖𝑗 − �̅�𝑗) + 𝜀𝑖 𝑝 𝑗=1 Ejemplo Estamos interesados en evaluar el por ciento de piezas defectuosas producidos por una maquinaría. Deseamos evaluar el efecto del espesor de las planchas acero s (mm) y la dureza del metal C. Tenemos los datos siguientes: %PD S C 1 1 2 4 8 8 1 3 1 3 5 7 2 6 4 4 10 6 El software que implemente la estimación B nos dará una salida como la siguiente • • Parameter Estimates Parameter Standard T for H0: • Variable DF Estimate Error Param=0 Prob>|T| • INTERCEP 1 0.0640 0.2599 0.246 0.8214 • S 1 0.2049 0.0588 3.656 0.0399 • C 1 0.2805 0.0686 4.089 0.0264 • Entonces �̂� = 0,064 + 0,2049𝑆 + 0,2805𝐶 En el estudio del modelo de regresión lineal generalmente se asume que se verifican las siguientes hipótesis: 1. La función de regresión es lineal, 𝐸(𝑌𝑖|𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝑘) = ∑ 𝐵𝑗𝑋𝑖𝑗 𝑝 𝑗=1 , 𝑖 = 1, . . , 𝑛. 2. La varianza es constante (homocedasticidad), 𝑉(𝑌𝑖|𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝑘) = 𝜎 2 , 𝑖 = 1, . . , 𝑛 3. La distribución de cada Yi es normal, 𝑌𝑖~𝑁(∑ 𝐵𝑗𝑋𝑖𝑗 𝑝 𝑗=1 , 𝜎2) 4. Las observaciones Yi son independientes 5. n > k + 1=p. En caso contrario no se dispone de información suficiente para estimar los parámetros del modelo. 6. Las variables regresoras X1,X2,...,Xk son linealmente independientes. Las primeras 4 condiciones pueden ser fijadas en términos de los errores como sigue 1´. 𝐸(𝑖) = 0, 𝑖 = 1, . . , 𝑛. 32 2´. 𝑉(𝐸(𝑖)) = 𝜎2 , 𝑖 = 1, . . , 𝑛 3´. 𝜀𝑖~𝑁(∑ 𝐵𝑗𝑋𝑖𝑗 𝑝 𝑗=1 , 𝜎2) 4´. Los errores i son independientes En el caso de normalidad la condición 5 establece la independencia en cuyo caso Cov(Yi, Yi*)=0 para todo ii* o sea 𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑖∗) = { 𝜎2 𝑠𝑖 𝑖 = 𝑖∗ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 El siguiente teorema justifica la utilización de los estimadores mínimos cuadráticos, ya que, en este contexto, indica que estos estimadores son los “mejores” (los más eficaces) dentro de la clase de los estimadores lineales insesgados. Teorema (Gauss-Markov). En la estimación del modelo de regresión lineal si entre las perturbaciones (errores) no son correlacionados, son de igual varianza e independientes de las variables explicativas. Entonces los estimadores mínimo-cuadráticos son “óptimos” o de mínima varianza dentro de la clase de los estimadores centrados que son funciones lineales de las observaciones, Yi. 5.3. Un estudio geométrico En el estudio del modelo de regresión lineal múltiple con k variables regresoras, a partir de una muestra de n observaciones, se considera el subespacio vectorial de n generado por los vectores (columnas de la matriz de diseño). El problema de ajustar un modelo de regresión lineal múltiple se puede interpretar geométricamente como el problema de encontrar en este subespacio vectorial el vector (vector de predicciones) lo más próximo al vector de la variable respuesta. Esto es, encontrar el vector que minimice el módulo del vector de residuos la resolución de este problema viene dada por el vector proyección ortogonal del vector en el subespacio considerado. Tomemos ahora la representación �⃗� ̂ = 𝐻�⃗� La proyección de Y en el subespacio se ilustra en la figura siguiente 33 Figura La proyección 𝐻�⃗� H se denomina la matriz de proyección (hat matrix) en el subespacio . Dado que �⃗� ̂ = 𝑋𝑛×𝑘�⃗� = 𝑋𝑛×𝑘(𝑋𝑛×𝑘 𝑇 𝑋𝑛×𝑘) −1(𝑋𝑛×𝑘 𝑇 �⃗� ) = 𝐻�⃗� Por tanto la matriz de proyección sobre el subespacio es 𝐻 = 𝑋𝑛×𝑘(𝑋𝑛×𝑘 𝑇 𝑋𝑛×𝑘) −1𝑋𝑛×𝑘 𝑇 Trabajando con resultados del Algebra Lineal se deriva que: 1. El estimador por mínimos cuadrados b viene dado por las coordenadas del vector de predicciones �⃗� ̂ en el subespacio respecto a la base {1⃗ , 𝑋 +1, … , 𝑋 +𝑘} . 2. Los residuos verifican las siguientes p=k+1 restricciones 𝜀 1⃗ y 𝜀 𝑋 +𝑗, 𝑗 = 1,…, 𝑘 . Es decir ∑ 𝜀𝑖 = 0, ∑ 𝜀𝑖𝑋𝑖𝑗 = 0, 𝑗 = 1,… , 𝑘 𝑛 𝑖=1 𝑛 𝑖=1 Note que esto fija que los residuos tienen n –(k-1)=n-p grados de libertad 34 El estimador del vector B por el método de mínimos cuadrados es b. Bajo la hipótesis de normalidad, la función de verosimilitud lleva a una expresión igual a la minimizada por el método de los mínimos cuadráticos. 5.4. Inferencias Si se cumple la normalidad de los errores el estimador b verifica las siguientes propiedades: 1. El estimador b es insesgado (E(b)=B) 2. La matriz de varianzas-covarianzas del estimador b es 𝑄 = ( 𝜎11 𝜎12 ⋯𝜎1𝑘 𝜎21 𝜎22 ⋯𝜎2 ⋮ ⋮ ⋯ ⋮ 𝜎𝑘1 𝜎𝑘2 ⋯𝜎𝑘𝑘) , 𝜎𝑡ℎ = 𝐸(𝑏𝑡 − 𝐵𝑡)(𝑏ℎ − 𝐵ℎ) siendo qii el elemento i-ésimo de la matriz (𝑋𝑛×𝑘 𝑇 𝑋𝑛×𝑘) −1. 3. El estimador b tiene distribución normal multivariada de orden k + 1, (�⃗� ~𝑁𝑘+1(�⃗� , 𝜎 2(𝑋𝑛×𝑘 𝑇 𝑋𝑛×𝑘) −1)). 4. El estimador bi del parámetro Bi tiene la distribución normal 𝑏𝑖~𝑁 (𝐵𝑖, 𝜎 2𝑞𝑖𝑖), 𝑖 = 0,1, … , 𝑘. Note que: i. Los estimadores bt y bh no están incorrelacionados pues en general th 0. por tanto, no son independientes. ii. Podemos expresar ii =2qii =V(bi) donde qii es el correspondiente elemento de (𝑋𝑛×𝑘 𝑇 𝑋𝑛×𝑘) −1 En el modelo el parámetro Bj indica la influencia de la j-ésima variable regresora en la variable respuesta Y. representa el incremento que se produce en la variable respuesta por un crecimiento unitario en la variable regresora. Aceptar que el valor de Bj =0 lleva a aceptar que la correspondiente Xj no está relacionada linealmente con la variable Y. Una hipótesis básica del modelo es que 𝑉(𝐸(𝑖)) = 𝜎2 , 𝑖 = 1, . . , 𝑛. Este parámetro tambien debe ser estimado. El estimador es la llamada varianza residual. Esta es la suma de residuos al cuadrado dividida por sus grados de libertad. Es decir que 𝑆𝑟 2 = ∑ (𝑌𝑖−�̂�𝑖) 2𝑛 𝑖=1 𝑛−(𝑘+1) = �⃗� 𝑇�⃗� −�⃗� �⃗� 𝑛−𝑘−1 = Este es insesgado. Como solo dos reales lo son (0 y 1) 𝐼 𝑛 − 𝑋𝑛×𝑘(𝑋𝑛×𝑘 𝑇 �⃗� )𝑋𝑛×𝑘 𝑇 después de diagonalizada tiene n −k-1 “ceros” y p “unos” en su diagonal. En esto se basa la 35 prueba de que la suma de cuadrado de los residuos tiene una distribución Chi-cuadrado con n-k-1 grados de libertad. La significación estadística de Bi se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error típico 𝑏𝑖/ 𝑆𝑟√𝑞𝑖𝑖 Comparándole con el cuantil correspondiente de una distribución T de Student se establece si Bi=0 o no. Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Definición. El coeficiente de correlación parcial entre Xi y Xj es una medida de la relación lineal entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos debidos al resto de las variables del conjunto . Al coeficiente de correlación parcial entre X1 y X2 se le denotará por r12·3...k· Para ilustrar tomemos y el coeficiente de correlación parcial entre las variables X1 y X2. Para ello, se procede de la siguiente forma, 1. Se calcula la regresión lineal de X1 respecto de X3 y X4 𝑋1 = 𝐴0 + 𝐴3𝑋3 + 𝐴4𝑋4 + 𝜀1.34 𝜀1.34 = Residuo del ajuste lineal realizado. 2. Se calcula la regresión lineal de X2 respecto de X3 y X4 𝑋2 = 𝐵0 + 𝐵3𝑋3 + 𝐵4𝑋4 + 𝜀2.34 𝜀2.34 = Residuo del ajuste lineal realizado. 36 3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación lineal simple entre las variables 𝜀1.34 𝑦 𝜀2.34, Note que el coeficiente de correlación lineal se define siempre para un conjunto de variables y solo si este se especifica se puede interpretar. Ahora si trabajamos con el conjunto de variables podremos relacionar los coeficientes de correlación lineal simple y el coeficiente de correlación parcial mediante el coeficiente de correlación parcial entre la variable independiente Y con una variable regresora Xi , controlando el resto de variables regresoras. Para ello se utiliza el estadístico del contraste individual de la t-Student respecto a la variable Xi y que se definió anteriormente como t̂i = bi √V(𝑏i) = 𝑏i Sr√qii obteniéndose la siguiente relación donde C = es el conjunto de índices de todas las variables regresoras excepto el índice i. Estas fórmulas ponen de manifiesto la complejidad numérica para determinar los estimadores. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (tal es el caso de las singulares). En dos situaciones no se puede hacer los cálculos si: 1. El número de observaciones, es menor o igual que el número de variables independientes. 2. Una variable independiente es combinación lineal de otra(s) o es constante (colinealidad). 37 Note que, manteniendo las hipótesis de independencia, homocedasticidad, normalidad y linealidad, se calculan expresiones para el error estándar de cada coeficiente estimado. Esto per mite desarrollar expresiones para los intervalos de confianza y el contraste de hipótesis de modo análogo al caso de la regresión simple. El uso de la Máxima Verosimilitud plantea un problema de optimización que puede ser muy complejo excepto cuando los errores se distribuyen N(0,2 ). En este caso se obtienen los mismos resultados. Son muchos los libros en los que se pueden encontrar el desarrollo teóricos de dichas expresiones utilizando tanto el método de los mínimos cuadráticos como el asociado al criterio de Máxima Verosimilitud. Por ello es necesario utilizar algún software para hacerlos Ejemplo Dada una muestra hipotética de 20 motores han recogido los siguientes datos: gasto de combustible (en mg/100 ml), edad del motor (en años), consumo aceite (en mgr/semestrales) y nivel de uso (cuantificado como 0: poco, 1: normal y 2: intenso), realizar el ajuste a un modelo lineal entre el gasto en combustible y las demás variables. Los resultados de la salida del SPSS son Resumen del modelo(b) Model o R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,701(a) ,492 ,390 58,41817 a Variables predictoras: (Constante), uso, aceite, edad b Variable dependiente: gcomb Este modelo puede ser evaluado como aceptable dado que el valor de R2 0,5 puede considerarse moderado. En general son buenos modelos con valores cercanos a 1. Coeficientes(a) Model o Coeficientes no estandarizados Coeficientes estandarizad os t Sig. Intervalo de confianza para B al 95% B Error típ. Beta Límite inferio r Límite superio r B Error típ. 1 (Constant e) 108,02 3 62,17 1 1,738 ,103 - 24,49 2 240,53 8 edad 2,319 1,061 ,464 2,186 ,045 ,058 4,581 aceite 2,250 ,726 ,597 3,099 ,007 ,703 3,798 38 uso -9,677 20,26 3 -,098 -,478 ,640 - 52,86 7 33,513 a Variable dependiente: gcomb El modelo es entonces �̂� = 108,023 + 2,319𝐸 + 2,25𝐴 − 9,677𝑈 . En este modelo B3 puede ser considerado no importante. El hecho de que dude que B00 da una idea de que el modelo debe ser mejorado. El gráfico de Y nos da una idea de que la distribución es normal Regresión Residuo tipificado 210-1-2 F re c u e n c ia 5 4 3 2 1 0 Histograma Variable dependiente: gcomb Media =2,75E-16 Desviación típica =0,913 N =19 39 De la distribución de bi se ha deducido su normalidad por lo que sigue una N(0,1) entonces 𝑏𝑖 − 𝐵 𝑖 𝑆𝑟√𝑞𝑖𝑖 ~𝑇(𝑛 − 𝑘 − 1) Cuando la normalidad no es aceptable se utiliza el coeficientede determinación para valorar la conveniencia de aceptar o no la ecuación ajustada. Este no depende de la distribución. Por ello en los ejemplos podemos aceptar o no el ajuste usando R2. 6. VALIDEZ DEL MODELO 6.1. Análisis de varianza Si tuviéramos el modelo 𝑌 = 𝐵0 + 𝐵1𝑋1 + 𝐵2𝑋2 + 𝜀 Es de interés establecer si es válido que H0: β1 = 0 and β2 = 0 comparándole con H1: β1 ≠ 0 o β2 ≠ 0 (o ambos). En general nos enfrentamos con q2 restricciones. Una solución simple es aplicar la prueba T-Student 2 veces pero en tal caso la probabilidad de rechazar la hipótesis nula es mayor que . Una solución es acudir a una prueba del tipo Bonferroni. Otra es aplicar una prueba T-Student para los dos parámetros al mismo tiempo. Dada la normalidad podremos usar el estadístico F dado por 𝐹 = 𝑡1 2 + 𝑡2 2 − 2�̂� 𝑡1 ,𝑡2 𝑡1 𝑡2 2 (1 − �̂� 𝑡1 ,𝑡2 2 ) Este será grande si 𝑡1 2 𝑜 𝑡2 2 lo son. Para la regresión con k variables regresoras tenemos cero es no un menos al: 0: 1 10 j k H H La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está linealmente relacionada con la respuesta. Ahora, el test F de la regresión múltiple docima la hipótesis de que todos los coeficientes de regresión (con excepción del intercepto) son cero, 40 hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan más las hipótesis individuales para cada parámetro asociado a cada variable explicatoria. Para hallar la descomposición usemos la igualdad �⃗� 𝑇�⃗� = ∑𝑌𝑖 2 = (�⃗� ∓ �⃗̂� ) 𝑇 (�⃗� ∓ �⃗̂� ) = (�⃗̂� + 𝜀 ̂ ) 𝑇 (�⃗̂� + 𝜀 ̂ ) = �⃗̂� 𝑇 �⃗̂� + 𝑛 𝑖=1 𝜀 ̂𝑇𝜀 ̂ Al centrar esta expresión tenemos que ∑(𝑌𝑖 − �̅�) 2 𝑛 𝑖=1 = �⃗� 𝑇�⃗� − 𝑛�̅�2 = �⃗̂� 𝑇 �⃗̂� − 𝑛�̅�2 + 𝜀 ̂𝑇𝜀 ̂ = ∑(𝑌�̂� − �̅�) 2 +∑𝜀�̂� 2 𝑛 𝑖=1 𝑛 𝑖=1 De esta igualdad se construye la tabla análisis de varianza. De esta tabla se deduce el contraste acerca de la influencia “conjunta” del modelo de regresión en la variable respuesta. Denotamos 𝑆𝐶𝑇 =∑(𝑌𝑖 − �̅�) 2 𝑛 𝑖=1 = �⃗� 𝑇�⃗� − 𝑛�̅�2 𝑆𝐶𝑅𝑒𝑔 =∑(𝑌�̂� − �̅�) 2 = �⃗� 𝑇𝑋𝑛×𝑝 𝑇 �⃗� 𝑛 𝑖=1 − 𝑛�̅�2 𝑆𝐶𝑅 =∑𝜀�̂� 2 𝑛 𝑖=1 = �⃗̂� 𝑇 �⃗̂� − �⃗� 𝑇𝑋𝑛×𝑝 𝑇 �⃗� Tabla de análisis de varianza para la regresión Fuente de variación Grados de libertad SC= Suma de Cuadrados CM= Cuadrados Medios F Modelo k-1 𝑆𝐶𝑅𝑒𝑔 𝑀𝐶𝑅𝑒𝑔 = 𝑆𝐶𝑅𝑒𝑔 𝑘 − 1 𝑀𝐶𝑅𝑒𝑔 𝑀𝐶𝑅 Residuo n-k 𝑆𝐶𝑅 𝑀𝐶𝑅 = 𝑆𝐶𝑅 𝑛 − 𝑘 Total 1n SCT El estimador de la varianza 2 de nuestro modelo está dado por la media cuadrática residual 41 𝑆𝑟 2 = 𝑆𝐶𝑅 𝑛 − 𝑘 El contraste individual de los coeficientes de la regresión se puede contrastar usando la T- Student. La influencia individual de una variable se deduce de la distribución del estimador pero también puede hacerse por medio de una tabla análisis de varianza, al analizar el incremento que se produce en la suma de cuadrados explicada por el modelo, al introducir esta variable. Para ello se ajusta el modelo de regresión completo, con las k variables regresoras y se calcula la suma de cuadrados explicada por el modelo y se ajusta el modelo de regresión donde se excluye la variable Xi. Note que podemos particionar la matriz de diseño como X = {X1, … . , Xq} donde esta corresponde a la representación B⃗⃗ = (B⃗⃗ 1, … , B⃗⃗ q ) T , X h tiene las filas correspondientes a B⃗⃗ h, h = 1,… , q . Entonces E(Y⃗⃗ ) = XB⃗⃗ = ∑XhB⃗⃗ h q h=1 Bajo la hipótesis de ortogonalidad de las Xh �⃗� 𝑇𝑋𝑛×𝑝 𝑇 �⃗� = ∑𝑏ℎ 𝑇 𝑋ℎ 𝑇�⃗� 𝑞 ℎ=1 Es claro que SCR(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk) Esta es el incremento en la suma de cuadrados al incluir como última variable Xj. La significación de aporte es realizada al computar la prueba F-parcial F(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk) = SCReg(Bj|B0, B1, … , Bj−1, Bj+1, … , Bk) CMr ~𝐹(1, 𝑛 − 𝑘) Este contraste proporciona exactamente el mismo resultado que el contraste individual de la t, ambos dan origen al mismo p- valor. Este método puede utilizarse para hace pruebas de hipótesis para un subconjunto de variables Ejemplo. Se hace el ajuste del modelo de regresión 𝑌 = 𝐵0 + ∑ 𝐵𝑗𝑋𝑗 + 𝜀 2 𝑗=1 y se obtiene a partir de los datos la salida Análisis De la regresión La ecuación Producción =1566,1+7,6vitaminas+8,6pienso Predictor Coef. Error standard T P- valor Constante 1566,1 61,6 25,4 0,000 Vitaminas 7,6 0,6 12,3 0,000 42 Pienso 8,6 2,4 3,52 0,004 S=16,4 R-cuad=0,927 R-cuad ajust=0,916 Análisis de La varianza Fuente G.l. Sc Mc F Regresión Residuos 2 44157 22079 82,5 Vitaminas 13 3479 268 Total 15 47636 Fuente G.L. SC- SECUENCIAL Vitaminas 1 40841 Pienso 1 3316 Veamos el aporte de la variable X2 𝑆𝐶𝑅(𝐵2|𝐵0, 𝐵1) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵1, 𝐵2|𝐵0 ) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵0, 𝐵1) Ajustando Y = B0 + B1X1 + ε tenemos Análisis de la regresión La ecuación Producción =1652,4+7,6vitaminas predictor Coef. Error standard T p- valor Constante 1652,4 63,6 26,0 0,000 Vitaminas 7,6 0,6 12,7 0,000 S=16,4 R-Cuad=0,903 R-cuad ajust=0,887 Análisis de varianza Fuente Regresión g.l. SC MC F p- valor Residuos 1 40840,8 40840,8 82,5 0,000 Vitaminas 14 6795,5 268 485,4 Total 15 47636,3 Fuente g.l. SC- secuencial Vitaminas 1 40841 Pienso 1 3316 Como 𝑆𝐶𝑅(𝐵2|𝐵0, 𝐵1 ) = 44157,0 − 40840,8 = 3316,2 43 𝐹(𝐵2|𝐵0, 𝐵1) = 𝑆𝐶𝑅𝑒𝑔(𝐵𝑗|𝐵0, 𝐵1) 𝐶𝑀𝑟 = 3316,2 268 ≅ 12,37~𝐹(1,13) Así que al ser 𝐹(0,99; 1,13) = 8,86 su aporte es significativamente grande. En un modelo de regresión múltiple al hacer los contrastes sobre la influencia individual de cada una de las variables regresoras y el contraste sobre la influencia conjunta del modelo de regresión ajustado, pueden darse las siguientes situaciones: Caso 1. Todas las variables regresoras influyen significativamente en la respuesta. Caso 2. Solo influyen algunas variables regresoras. Caso 3. Las variables regresoras son muy dependientes entre sí. Entonces, conjuntamente influyen, pero los coeficientes individuales tienen varianzas muy altas en relación con el valor de las estimaciones que son no significativas. Caso 4. Las variables son muy dependientes pero con una fuerte correlación negativa. Es poco frecuente. Caso 6. Ninguna de las variables regresoras influye en la variable respuesta o la influencia no la detecta la muestra tomada. 6.2. Introducción de variables indicadoras en la regresión Las variables explicativas que hemos considerado hasta este momento se midieron sobre una escala cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para incluir asimismo, variables explicativas cualitativas. Estas van a establecer categorías disjuntas. Por ejemplo, podríamos preguntarnos si el nivel de estrés puede ser explicado además por la dependencia del sexo. Como las variables explicativas en un análisis de regresión deben tomar valores numéricos les asignamos 1 a los hombres y 0 a las mujeres. Estos números no representan mediciones reales; sencillamente identifican las categorías de la variable aleatoria nominal. Estos valores no tienen significado cuantitativo, una variable explicativa de esta clase se denomina variable indicadora o variable muda (en inglés dummy variable). Podemos modelar esto al considera que la variable, X1 determina una ecuación para cada categoría. Una para la situación 1 (localización A), y otra para la situación 2 (localizaciónB). Ejemplo. Sea una ecuación de regresión con dos categorías y el modelo donde 𝑋1 = 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑡𝑟𝑒𝑠, 𝑋2 = { 1 𝑠𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒 0 𝑠𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟 Un gráfico será como el dado en la figura siguiente )1)(()1( 2132112220 XXXXXXY 44 En general podemos definir variables cualitativas al tener c clases al determinaran c-1 variables indicadoras. Ejemplo. Se analiza el efecto de los trastornos del dormir en el estrés de trabajadores en una acería. Se toma en consideración el sexo. Los datos obtenidos son: stress dormir tr. sexo 17 151 1 26 92 1 21 175 1 30 31 1 22 104 1 0 277 1 12 210 1 19 120 1 4 290 1 16 238 0 28 164 0 15 272 0 11 295 0 38 68 0 31 85 0 21 224 0 20 166 0 13 305 0 30 124 0 14 246 0 La salida del software es 45 SUMMARY OUTPUT Regression Statistics Multiple R 0.95993655 R Square 0.92147818 Adjusted R Square 0.91224031 Standard Error 2.78630562 Observations 20 ANOVA df SS MS F Significance F Regression 2 1548.820517 774.4103 99.75016 4.04966E-10 Residual 17 131.979483 7.763499 Total 19 1680.8 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 33.8698658 1.562588138 21.67549 8E-14 30.57308841 37.16664321 dormir trastornos -0.10608882 0.007799653 -13.6017 1.45E-10 -0.122544675 -0.089632969 sexo 8.76797549 1.286421264 6.815789 3.01E-06 6.053860079 11.4820909 La regresión ajustada a la respuesta del sexo es: 21 77.81061.87.33 XXY Por tanto para los hombres tenemos: 11061.)77.887.33(ˆ XY Por su parte para las mujeres es 11061.87.33ˆ XY . 6.3. El problema de la colinealidad Entre los supuestos a verificar está la presencia de colinealidad. La colinealidad ocurre cuando dos o más variables independientes se relacionan entre sí, dando la misma información sobre la variación observada en Y. Esta se en la inestabilidad de los coeficientes estimados y sus errores estándares o excesivamente grandes. Este es uno de los problemas más complejos en el análisis de regresión. Si en un modelo de Regresión Lineal Múltiple alguna variable independiente es combinación lineal de otras, el modelo no tiene solución, pues en tal caso, la matriz 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝 es singular por ser su determinante es cero. Este fenómeno se conoce con el nombre se le denomina colinealidad. Si hay colinealidad tenderemos que para alguna variable Xj existe otra Xt, tj, tales que Xj=B1+B2Xt, B1 y B2 constantes. Definición. Se dice que existe colinealidad en un modelo de regresión múltiple si alguno de los coeficientes de correlación simple o múltiple entre algunas de las variables independientes es 1. En las ciencias no experimentales como son los de índole económica, sociológica y a veces las biológicas las variables independientes tienden a estar correlacionadas entre ellas. 46 No debe existir multicolinealidad entre las variables explicativas o independientes. La multicolinealidad originalmente implicaba la existencia de una relación lineal "perfecta o exacta" entre algunas o la totalidad de las variables independientes de un modelo de regresión. En la actualidad el término multicolinealidad se utiliza en un sentido más amplio para incluir el caso de multicolinealidad perfecta, así como también aquella situación en donde las variables X están intercorrelacionadas, pero no en forma perfecta. Por ello se usa el termino de cuasi-colinealidad, en la que algunos coeficientes de correlación simple o múltiple son altos, su módulo cercano a 1. En tales casos |𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝| ≅ 0 . Esto crea problemas con la precisión en la estimación de los coeficientes, debido a problemas de índole numérica. Note que como la matriz de varianzas de los estimadores es proporcional 𝑋𝑛×𝑝 𝑇 𝑋𝑛×𝑝 si hay colinealidad los errores estándar de los coeficientes son muy grandes Los efectos de la colinealidad son: A medida que aumenta la colinealidad, las varianzas de los coeficientes de regresión aumentan y cuando es perfecta son infinitas. Debido a que los errores de los coeficientes de regresión no son eficientes, los intervalos de confianza para los parámetros, tienden a ser más amplios y la información muestral puede ser compatible con un conjunto diverso de hipótesis, por consiguiente, la posibilidad de aceptar una hipótesis falsa aumenta. En casos de alta colinealidad se tiende a aceptar con mayor facilidad la hipótesis nula de respecto a que un coeficiente de regresión sea cero. En casos de alta colinealidad es posible encontrar, que uno o más coeficientes de regresión sean individualmente no significativos en términos estadísticos con base en la prueba t. No obstante, puede sr que el R2 sea alto. Son indicadores de multicolinealidad: Hay correlaciones significativas entre pares de variables independientes en el modelo. Pruebas t no significativas para los parámetros individuales cuando la prueba F global del modelo es significativa. Hay signos opuestos (a lo esperado) en los parámetros estimados. La existencia de colinealidad es fácilmente detectada pues todos los algoritmos la detectan y reportan que no pueden hace la estimación. Esta es medida por varios estadísticos. Lo más popular está asociado a los coeficientes de determinación de cada variable independiente. Esto es calcular Otros estadísticos son el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos como 47 Una regla aceptada es que hay problemas de colinealidad si 𝐹𝐼𝑉𝑗 > 10𝑅𝑗 2 > 0,90 Esto es que Tj< 0,1. Otro estadístico que permite detectar la significación de la colinealidad es: 𝐹𝑖 = (𝑛 − 𝑘)𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘 2 (𝑘 − 1)(1 − 𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘 2 ) ~𝐹(𝑘 − 1, 𝑛 − 𝑘) 𝑅𝑋1,…,,𝑋𝑖−1,𝑋𝑖+1,…,𝑋𝑘 2 es el coeficiente de determinación en la regresión de la variable Xi en las restantes variables independientes. Si Fi<F (1-, k-1, n-k), la variable Xi no es colineal con las restantes X; si es mayor, lo es colineal y debe eliminarse del modelo. Sin embargo al eliminar una variable del modelo podemos cometer el sesgo o error de especificación. Notas: Puede existir colinealidad con FIV bajos, Puede haber colinealidad que no impliquen a todas las variables independientes y que, por tanto, no son bien detectadas por FIV. Para detectar colinealidad lo más adecuado es utilizar el llamado análisis de componentes principales de las variables independientes. Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media) o, incluso, eliminar alguna de las variables colineales. En este mismo sentido hay que tener en cuenta que las variables producto introducidas para estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos términos de interacción. Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero (toma valores muy próximos para todas las observaciones) existe casi-colinealidad. 48 Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable, por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene una varianza 100 veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el problema de la colinealidad. También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días. Ejemplo. Se estudia el contenido de alquitrán, nicotinay monóxido de carbono en una marca de cigarrillos que se va a poner a la venta. Sea Monóxido de carbono=Y Alquitrán= X1, Contenido de Nicotina= X2, Peso del Cigarrillo= X3 El modelo considerado fue 3322110 XXXY Se hicieron 25 mediciones y las salidas de SPSS son: Por tanto el modelo puede considerarse adecuado Resumen del modelob .958a .919 .907 1.4457 Modelo 1 R R cuadrado R cuadrado corregida Error típ. de la estimación Variables predic toras: (Constante), Peso, Alquitrán, Nicotinaa. Variable dependiente: COb. ANOVAb 495.258 3 165.086 78.984 .000a 43.893 21 2.090 539.150 24 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig. Variables predic toras: (Constante), Peso, Alquitrán, Nicotinaa. Variable dependiente: COb. 49 Parece que el alquitrán no es importante. CO Alquitrán Nicotina Peso Figura: Gráficos da las variables independientes vs Y Coeficientesa 3.202 3.462 .925 .365 .963 .242 1.151 3.974 .001 -2.632 3.901 -.197 -.675 .507 -.130 3.885 -.002 -.034 .974 (Constante) Alquitrán Nicotina Peso Modelo 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizad os t Sig. Variable dependiente: COa. 50 Las correlaciones son diferentes de cero es aceptable. Parece alquitrán y nicotina son colineales. La multicolinealidad, incluye únicamente las relaciones lineales entre las variables independientes y no considera las no lineales 7. LA BONDAD DEL AJUSTE Cuando determinamos una ecuación de regresión debemos establecer cuan bueno es el ajuste. La primera medida analizada es R2 . Esta no depende de ninguna hipótesis. Bajo ciertas hipótesis podemos establecer si los modelos de la regresión son significativos. Las pruebas de significación, que se realizan bajo hipótesis de normalidad, utilizan las pruebas T-Student y F-Fisher para establecer la significación de los parámetros. Los resultados de estas pruebas son engañosos cuando alguna de las hipótesis que les soportan es violada. Así, si el tamaño de la muestra es pequeño, no es válido apoyarse en el Teorema Central del Límite. La significación estadística de cada variable regresora se obtiene al dividir el coeficiente estimado por su error típico. Este se compara con el cuantil correspondiente de una distribución T( n-k-1) grados de libertad. La bondad de ajuste del modelo se puede valorar el peso de la varianza residual calculando el coeficiente de determinación R2 . Cuando se satisfacen las hipótesis de normalidad independencia y homocedasticidad puede utilizarse una prueba F la partición de la suma de cuadrados total. Partiendo de que 𝑌𝑖 − �̅� = 𝑌𝑖 ∓ �̂�𝑖 − �̅� se obtiene que ∑ 𝑛 𝑖=1 (𝑌𝑖 − �̅�) 2 +∑ 𝑛 𝑖=1 (𝑌𝑖 − �̂�𝑖) 2 + 2∑ 𝑛 𝑖=1 (𝑌𝑖 − �̂�𝑖)(�̂�𝑖 − �̅�) Corre lacionesa 1 .957** .926** .464* . .000 .000 .019 .957** 1 .977** .491* .000 . .000 .013 .926** .977** 1 .500* .000 .000 . .011 .464* .491* .500* 1 .019 .013 .011 . Correlación de Pearson Sig. (bilateral) Correlación de Pearson Sig. (bilateral) Correlación de Pearson Sig. (bilateral) Correlación de Pearson Sig. (bilateral) CO Alquitrán Nicotina Peso CO Alquitrán Nicotina Peso La correlación es significativa al nivel 0,01 (bilateral).**. La correlación es significante al nivel 0,05 (bilateral).*. N por lista = 25a. 51 Dada la ortogonalidad de los vectores se tiene que los productos cruzados se anulan y se puede descomponer la variabilidad de la variable respuesta 𝑆𝐶𝑇 =∑ 𝑛 𝑖=1 (𝑌𝑖 − �̅�) 2 en la variabilidad explicada por la regresión 𝑆𝐶𝑟𝑒𝑔 =∑ 𝑛 𝑖=1 (�̂�𝑖 − �̅�) 2 y en la variabilidad residual o no explicada por el modelo ajustado 𝑆𝐶𝑟𝑒𝑠 =∑ 𝑛 𝑖=1 (𝑌𝑖 − �̂�𝑖) 2 Esto nos permite escribir la relación 𝑆𝐶𝑇 = 𝑆𝐶𝑟𝑒𝑔 + 𝑆𝐶𝑟𝑒𝑠. Cada término (Suma de cuadrados) refleja la variabilidad medida por una cierta fuente. Podemos utilizar este hecho y hacer la tabla siguiente. (p=k+1): Tabla del modelo de regresión lineal Fuente de Variación Suma de Cuadrados Grados de Libertad Varianzas estimadas (Medias cuadráticas) Regresión SCreg p-1 MCreg=S2 reg = Screg/1 Residual SCres n - p MCres=Sr 2 =SCres/(n-p) Total SCT n - 1 MCT=SY 2 =SCT/n-1 Si el modelo es aceptable para todo i=1,..,n, se espera que 𝑟𝑖 = 𝑌𝑖−�̂�𝑖 ≅ 0. Entonces se espera que SCres0. Dada las hipótesis probabilísticas esta suma de cuadrados se asocia a la distribución 2(n-p) se distribuye Chi cuadrado y SCreg a una 2(p-1) . De ahí que Freg=S2 reg/Sr 2 se distribuye F(p-1, n-p) bajo H0: el modelo es un buen ajuste B1 =B2 -...=Bk =0 vs. H1: j tal que Bj En este caso se compara la variabilidad explicada por el modelo contra residual. La prueba F unilateral (prueba de una cola) permite establecer si H0 es cierta. Si H0 es cierta ninguna de las variables independientes influye significativamente en la respuesta Y por lo que el modelo no es un buen ajuste. Este modelo genera el mismo resultado para las hipótesis 52 H0(j): Bj=0 vs. H1: Bj El contraste individual permitirá contrastar la influencia individual de la variable Xj se deduce de la distribución del estimador bj. El hecho de contar con muchas variables exige que además del contraste F global se realicen pruebas parciales para establecer si añadir nuevas variables lo mejoran. Así, sí se adiciona una nueva variable explicativa X*, la proporción de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo: SCReg(X∗|X1, … , Xk) = SCReg(X1, … , Xk, X ∗) − SCReg(X1, … , Xk) Todas estas inferencias pueden hacerse a partir de la tabla de Análisis de varianza (análisis de varianza). Se hará uso de la suma de cuadrados explicada por el modelo al introducir la variable regresora Xj. Así que se ajusta el modelo de regresión completo, sin esa variable regresora. La suma de cuadrados explicada por el modelo es ajustada con las k-1 restantes. Es decir, se ajusta el modelo de regresión con k - 1 variables, exceptuando Xj, y se calcula la nueva suma de cuadrados explicada por este modelo (SCres(j)). La suma de cuadrados incrementada debida a Xj es ∆𝑆𝐶𝑟𝑒𝑠(𝑗) = 𝑆𝐶𝑟𝑒𝑠 − 𝑆𝐶𝑟𝑒𝑠(𝑗)0 En la práctica lo que se hace es la prueba H0(j): Bj=0 vs. H1: Bj Como estadístico de prueba se utiliza 𝐹(𝑗) = ∆𝑆𝐶𝑟𝑒𝑠(𝑗) 𝑆𝐶𝑟𝑒𝑠 Si H0(j) se cumple F(j) sigue una distribución F(1, n-p ) Note que bajo H0(j) tenemos que SCres(j)0 por tanto el p - valor del contraste el siguiente 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝐹(1, 𝑛 − 𝑝) ≥ 𝐹(𝑗)), 𝑗 = 1,… , 𝑘 Este contraste proporciona el mismo resultado que el contraste individual de la T-Student. Este método presenta la ventaja adicional de poder utilizarse para contrastar la influencia de un subconjunto de m variables explicativas, con m < k. Sí el valor crítico calculado de la probabilidad (p-valor) de la prueba es grande (p> ) se acepta H0 . O sea que el modelo de regresión describe el comportamiento de Y. Veamos un ejemplo ilustrativo. Ejemplo. Análisis de un modelo de regresión bivariado 53 Resumen del modelo(b) Model o R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,609(a) ,370 ,351 9,08929 a Variables predictoras: (Constante), indeMC, edad b Variable dependiente: eficiencia El modelo no es adecuado si consideramos que el coeficiente de determinación debe ser al menos igual a 0,75. ANÁLISIS DE VARIANZA(b) Modelo Suma de cuadrados gl Media cuadrática F Sig. 1 Regresión 3158,071 2 1579,035 19,113 ,000(a) Residual 5369,988 65 82,615 Total 8528,059 67 a Variables predictoras: (Constante), indeMC, edad b Variable dependiente: eficiencia Aceptando
Compartir