Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia 2.- Un aprovechamiento del Análisis de Varianza en el análisis de regresión El aprovechamiento del análisis de varianza está basado en la partición de la suma de cuadrados y de los grados de libertad asociados con la variable respuesta y. 22 23 24 25 26 27 0 1 2 3 4 5 6 7 yy j − jj ŷy − yŷ j − De la figura vemos que la variación de una observación respecto de su media yyi − puede descomponerse en dos componentes, una componente que representa la desviación de la observación respecto de la línea de regresión, dada por , y la otra, una desviación del valor ajustado respecto del promedio, dado por ii ŷy − yŷi − , es decir, )yŷ()ŷy(yy iiii −+−=− Puede ser mostrado que ∑∑∑ === −+−=− n 1i 2 i n 1i 2 ii n 1i 2 i )yŷ()ŷy()yy( (2.1) ∑ = − n 1i 2 i )yy( es llamada suma total de cuadrados corregida, denotada por SCT ∑ = − n 1i 2 ii )ŷy( llamada suma de cuadrados del error, denotada por SCE ∑ = − n 1i 2 i )yŷ( llamada suma de cuadrados debida a la regresión, denotada por SCR De (2.1) podemos ver que SCT = SCR + SCE (2.2) Como formulas de cálculo alternativas podemos usar las siguientes: 16 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia 2 n 1i 2 i ynySCT −= ∑ = ∑ = −= n 1i 2 i 2 i )xx(ˆSCR β por (2.2) SCE=SCT – SCR Correspondiente a la partición de la SCT hay una partición asociada a los grados de libertad (g. de l.), en efecto, hay n-1 g. de l. asociado con la SCT, puesto que hay 1 g. de l. perdido al emplear y como estimador de la media poblacional µ . La SCE tiene n-2 g. de . asociada con ella puesto que se han ocupado 2 grados de libertad en la estimación de los parámetros oβ y . Por diferencia tenemos que SCR tiene 1 grado de libertad. 1β Por otra parte, la división de la suma de cuadrados por sus respectivos grados de libertad recibe el nombre de cuadrados medios, así: 1 SCR llamada cuadrado medio debida a la regresión es denotada por CMR. 2n SCE − llamada cuadrado medio del error es denotada por CME. Como mencionamos anteriormente el cuadrado medio del error es un estimador insesgado de la varianza poblacional , es decir, 2σ [ ] 2CMEE σ= . Además puede ser mostrado que [ ] ∑ = −+= n 1i 2 i1 2 )xx(CMRE βσ Observar que si entonces 01 =β [ ] 2CMRE σ= , luego un contraste para probar si haciendo uso de la técnica del análisis de varianza sería comparar CMR con CME. 01 =β Si CMR y CME son del mismo orden de magnitud entonces podemos pensar que 01 =β Si CMR es substancialmente mayor que CME entonces podemos pensar que . Este es el principio básico del test de análisis de varianza para la hipótesis 01 ≠β 0:H 0:H 11 10 ≠ = β β cuyo estadístico de prueba está dado por el valor CME CMRF = 17 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia el cuál bajo tiene distribución F con 1 grados de libertad al numerador y n-2 grados de libertad al denominador. La hipótesis será rechazada si el valor-p dado por: 0H 0H Valor-p = P(F > Fc ) < 0.1 donde Fc es el valor del estadístico de prueba evaluado por los datos. Todos los resultados recién obtenidos pueden ser ordenados en una tabla, llamada tabla de análisis de varianza, o tabla ANOVA, cuyo formato es: Fuente de variación g. de l. S C C M F Regresión Error 1 n-2 SCR SCE CMR CME CME CMRF = Total n-1 SCT Ejemplo 4 : Considere nuevamente los datos del ejemplo 1, para ejercitar la técnica del análisis de varianza. Desarrollando el ejemplo con excel se tiene: Un primer paso es dibujar el diagrama de dispersión para así tener una idea clara sobre que modelo debemos ajustar. Diagrama Dispersión y = -10.595x + 342.15 R2 = 0.9875 100 120 140 160 180 200 220 240 260 280 300 5.0 10.0 15.0 20.0 25.0 Precio C an tid ad Una vez que hemos dibujado el diagrama de dispersión y hemos trazado la tendencia sobre los puntos hacemos el análisis de regresión haciendo uso de la opción Análisis de Datos. 18 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.993746364 Coeficiente de determinación R^2 0.987531836 R^2 ajustado 0.985453809 Error típico 6.064997907 Observaciones 8 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 17480.7948 17480.7948 475.22564 6.0855E-07 Residuos 6 220.705198 36.7841996 Total 7 17701.5 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 342.1501104 6.70106947 51.0590305 3.78658E-09 325.753172 358.547049 Precio -10.59522376 0.48602678 -21.799671 6.08553E-07 -11.7844893 -9.4059582 Discuta la salida en clases, reconociendo previamente los elementos que le son familiares. 2.1 Medida de la bondad del ajuste. En todo lo visto hasta el momento nos hemos preocupado de la estimación de los parámetros del modelo, de realizar inferencias respecto de los parámetros y también de realizar predicciones de nuevas observaciones. Obviamente tales predicciones dependen por un lado de la precisión con que realiza y por otro lado del modelo ajustado. Este último hecho puede ser observado a partir del grado de asociación lineal que existe entre las variables x e y, la cual puede ser medida por el coeficiente de determinación, el que denotaremos por 2R . Se sabe que la variación total de los valores observados alrededor de la media está dada por SCT, en que SCT = SCR + SCE o SCT SCE SCT SCR1 += Observe que SCT mide la variación de los cuando la variable x no es tomada en cuenta, en cambio, SCE mide la variación de los cuando un modelo de regresión que utiliza la variable independiente x es empleada, luego una medida del efecto de x en la reducción de la variación en y está dada por: iy iy SCT SCE1 SCT SCR −= el cual se conoce con el nombre de coeficiente de determinación. Así 19 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia SCT SCR SCT SCE1R 2 =−= 1R0 2 ≤≤ 2R puede ser interpretado como la reducción proporcional en la variación total asociada con el uso de la variable independiente x, así, mientras mayor sea el valor de 2R , mayor es la reducción de la variación total por la incorporación de la variable independiente x. Ejercicios: 1) En ocasiones se desea predecir el gasto general basados en el nivel de producción. A continuación se muestran registros de gastos generales y unidades producidas en diferentes plantas: Gastos generales: 191 170 272 155 280 173 234 116 153 178 Unidades produc: 40 42 53 35 56 39 48 30 37 40 a) Desarrolle una ecuación para predecir los gastos. b) Pronostique los gastos generales cuando se producen 50 unidades. 2) Se han obtenido datos acerca de la producción mensual (en miles de unidades) de un cierto tipo de medicamento y sus costos promedios de fabricación en US$: Producción 13 19 17 20 23 10 18 Costos promedios 36 28 32 25 19 40 31 a) Escriba una ecuación que permita predecir los costos de producción. b) Si se producen 11000 unidades ¿Cuál es el valor del costo de fabricación? 3) Una compañía de seguros desea determinar el grado de relación que existe entre el ingreso familiar y el monto del seguro de vida del jefe familiar, para ello registró los siguientes datos. Ingreso 45 20 40 47 30 25 20 15 35 40 55 55 60 15 30 35 45 Seguro 70 50 60 50 9055 35 40 65 75 105 110 120 30 40 65 80 a) Encuentre el mejor modelo predictor. b) Determine los errores y haga la gráfica. 20 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia 3.0 REGRESIÓN MÚLTIPLE Suponga que tenemos una variable respuesta y, la cual puede ser explicada por k variables independientes Xi a través del modelo iikk2i21i10i x...xxy εββββ +++++= (3.1) Modelo llamado de primer orden puesto que es lineal en los parámetros y lineal en las variables independientes. Sea 1x , entonces el modelo (3.1) puede ser reescrito como 0i ≡ iikk2i21i10i0i x...xxxy εββββ +++++= (3.2) Los iε son variables aleatorias que satisfacen los siguientes supuestos: i) cualquiera sea el valor de x dado. [ ] 0E =ε ii) cualquiera sea el valor de x dado. 22 )( εεσ = iii) ( ) 0, ji =εεσ para ji xx ≠ Además las variables independientes en el modelo 3.2 deben ser no correlacionadas. Suponiendo que para todo x, la función respuesta para el modelo está dada por: [ ] 0E i =ε [ ] ikk2i21i10i x...xxyE ββββ ++++= la cual es representada por un hiperplano. Los parámetros , j=1,...,k , indican el cambio en la respuesta media jβ [ ]yE por una unidad de incremento en la variable independiente , cuando todas las otras variables independientes incluidas en el modelo se mantienen constante. jX El modelo (3.1) define un modelo lineal general si los son variables aleatorias independientes, distribuidas normal con iε 0 i =εµ y con i=1,...,k. 2 i 2 )( σεσ = El modelo (3.2) puede ser escrito matricialmente de la siguiente forma: εβ += XY (3.3) donde 21 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia 1nxn 2 1 y y y Y ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = M nxpnk2n1n k22221 k11211 xxx1 xxx1 xxx1 X ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = L MLMMM L L 1 1 0 pxk ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = β β β β M 1nxn 2 1 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = ε ε ε ε M con p=k+1. Para encontrar los estimadores de jβ̂ jβ empleamos el método de los mínimos cuadrados ordinarios, que consiste en minimizar la suma de cuadrados de los errores dada por SCE= ( ) ( )ββ XYXY −− ' . Derivando SCE respecto los p parámetros de regresión kβββ ,...,, 10 se obtienen las ecuaciones normales dadas por: ( ) Y'XˆX'X =β en que 'X es la matriz transpuesta de X y β̂ es el vector px1 de estimadores del vector β . De las ecuaciones normales resulta que los estimadores mínimos cuadrados del vector de parámetros β está dado por: ( ) Y'XX'Xˆ 1−=β Estos estimadores tienen las propiedades ya mencionadas en los modelos de una variable independiente, es decir, son insesgados y de varianza mínima. Si denotamos por Ŷ al vector de valores ajustados, entonces β= ˆXŶ y luego el vector de los residuos muestrales será β−=−= ˆXYŶYe . Para emplear la técnica de análisis de varianza usamos las siguientes formulas de cálculo: Y'11'Y n 1Y'YSCT −= donde ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 1 1 M Y'11'Y n 1Y'X'ˆSCR −β= SCE = SCT-SCR La tabla de análisis de varianza para el modelo de regresión múltiple está dada por: 22 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia TABLA ANOVA Fuente de Variación g. de l. Suma Cuadrad. Cuad. Medios F Modelo o regresión Error p-1 n-p SCR SCE CMR CME CME CMRF = Total n-1 SCT La hipótesis a contrastar es ahora: 0sonlostodosNo:H 0...:H j1 k210 β βββ ==== La hipótesis será rechazada si el valor-p dado por: 0H Valor-p = P(F > Fc ) < 0.1 donde Fc es el valor del estadístico de prueba evaluado por los datos. El coeficiente de determinación múltiple está dado por SCT SCE 1 SCT SCR R 2 −== y mide la reducción proporcional de la variación total en Y asociada con el uso del conjunto de variables independientes . k1 X,...,X Se debe tener presente que el valor de 2R aumenta conforme se agregan más variables al modelo, es decir, el valor de 2R puede adoptar un valor muy cercano a 1 aunque el modelo no contribuya con información a la predicción de y. De hecho, 2R es igual a 1 cuando el número de términos del modelo es igual al número de datos. En un modelo de regresión múltiple se debe observar el coeficiente de determinación ajustado, puesto que es un valor más estable al incorporar varias variables independientes al modelo, este valor es dado por la expresión: )R1( pn 1n1ajustR 22 −⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − −=− Ejemplo 5: Los datos que a continuación se muestran corresponden al efecto que tiene el tamaño de una cuadrilla de trabajadores (X1) y el nivel de bonificación pagada (X2) sobre el puntaje de productividad de la cuadrilla Y. X1 4 4 4 4 6 6 6 6 X2 2 2 3 3 2 2 3 3 Y 42 39 48 51 49 53 61 60 23 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia a) Escriba las matrices correspondiente al modelo lineal εβ += XY b) Encuentre la matriz β̂ c) Escriba la tabla Anova d) Calcule e interprete el coeficiente de determinación múltiple. Solución: a) ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 361 361 261 261 341 341 241 241 X ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 60 61 53 49 51 48 39 42 Y ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 2 1 0 β β β β ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 8 7 6 5 4 3 2 1 ε ε ε ε ε ε ε ε ε Operando con las matrices tenemos ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 5210020 10020840 20408 X'X ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ − − −− =− 128 64 128 0 128 160 128 0 128 16 128 80 128 160 128 80 128 816 )X'X( 1 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1026 2058 403 Y'X De esta forma ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 250.9 375.5 375.0 β̂ Así, nuestro modelo ajustado es 21 25.9375.5375.0ˆ XXY ++= La gráfica correspondiente a los puntos y la superficie ajustada la podemos ver en la siguiente figura. 24 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia Gráfico Ejemplo 5 Veamos ahora la salida excel para analizar este problema: Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.97878661 Coeficiente de determinación R^2 0.95802322 R^2 ajustado 0.94123251 Error típico 1.87749834 Observaciones 8 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 2 402.25 201.125 57.0567376 0.00036101 Residuos 5 17.625 3.525 Total 7 419.875 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 0.375 4.74045093 0.0791064 0.94001642 -11.8106971 12.5606971 X1 5.375 0.6637959 8.09736845 0.00046571 3.6686611 7.0813389 X2 9.25 1.3275918 6.96750309 0.00093658 5.8373222 12.6626778 El valor del 2R ajustado es 0.941233, así la variación de la variable puntaje de productividad de la cuadrilla es explicada en un 94,1% por el uso de las variables tamaño de una cuadrilla de trabajadores (X1) y el nivel de bonificación pagada (X2) en el modelo. 25 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia 3.1.- Intervalos de confianza y Pruebas de hipótesis para los Parámetros del Modelo 3.1.1.- Matriz de Varianzas y covarianzas de un vector aleatorio. Sea 1Y('Y = ... un vector de variables aleatorias, en que cada v.a. , i=1,..., n , tiene varianza y además dos variables aleatorias cualesquiera y tienen covarianza 2Y )Yn iY )Y( i 2σ iY jY ( )ji Y;Yσ . De esta forma la matriz de varianzas y covarianzas del vector aleatorio Y ,denotada por )Y(2σ está dada por: ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = )Y()Y,Y()Y,Y( )Y,Y()Y()Y,Y( )Y,Y()Y,Y()Y( )Y( n 2 n2n1 n22 2 21 n1211 2 2 σσσ σσσ σσσ σ L MMMM L L recordar que )Y,Y()Y,Y( ijji σσ = j,i∀ por lo que la matriz de varianzas y covarianzas es simétrica. Por otra parte, como el vector ( ) Y'XX'Xˆ 1−=β el cual es un estimador insesgado del vector de parámetros, se tiene que la matriz de varianzas y covarianzas de β̂ es calculada mediante la expresión ( ) 212 X'X)ˆ( σβσ −= . Así si denotamos la matriz 1)X'X( − como ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ =− kk1k0k k11110 k00100 1 ccc ccc ccc )X'X( L MOMM L L entonces se tiene que j=0,1, ....,k 2jjj 2 c)ˆ( σβσ = y 2ijji c),( σββσ = j,i∀ Cuando la varianza de los errores es desconocida, entonces el estimador de 2σ )ˆ(2 βσ está dado por ( ) CMEX'X)ˆ(S)ˆ(ˆ 122 −== ββσ , de esta forma CMEc)ˆ(S jjj 2 =β j=0,1, ....,k y CMEc),(ˆ ijji =ββσ j,i∀ Ahora bien, dado un nivel de confianza del )%1(100 α− , podemos encontrar el intervalo de confianza para el parámetro jβ utilizando la variable aleatoria 26 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia )ˆ(S ˆ T j jj β ββ − = con CMEc)ˆ(S jjj =β De esta forma el intervalo de confianza del )%1(100 α− para el parámetro está dado por jβ ; )ˆ(Stˆ( joj ββ − ))ˆ(Stˆ joj ββ + donde es un valor tal que 0t ( ) α−=≤≤− 1tTtP 00 para n-p grados de libertad Ahora, para realizar una prueba de hipótesis respecto de algún parámetro procedemos de la forma siguiente: i) Formular la hipótesis 0:H 0:H j1 j0 ≠ = β β ii) Calcular el valor de la estadística de prueba )ˆ(S ˆ T j j β β = iii) Calcular el valor-p, donde valor-p =2P(T > |tc |) iv) Concluir. 3.2 Intervalos de confianza para [ ]jYE Sean los valores observados correspondientes a las variables independientes . jk2j1j x,...,x,x k21 X,...,X,X Definamos ahora el vector jX mediante j'X = x1( ji xj2 . . . xjk) de modo que la respuesta media correspondiente al vector jX es: [ ] β= jj 'XYE De esta forma, la respuesta media estimada es β= ˆ'XŶ jj , el cual es un estimador insesgado de [ ]jYE , puesto que [ ] [ ]jj YEŶE = . La varianza del estimador es dada por jŶ j2jj 2 X)ˆ('X)Ŷ( βσ=σ donde ( ) 212 X'X)ˆ( σβσ −= 27 Apunte de clases preparado por el profesor Sr. Rosamel Sáez Espinoza para su uso en docencia El estimador de la varianza , es )Ŷ( j 2σ j2jj 2 j 2 X)ˆ(S'X)Ŷ(S)Ŷ(ˆ β==σ con ( ) CMEX'X)ˆ(S 12 −=β Luego, el intervalo de confianza del )%1(100 α− para el [ ]jYE está dado por ; )Ŷ(StŶ( joj − )Ŷ(StŶ joj + donde es un valor tal que 0t ( ) α−=≤≤− 1tTtP 00 para n-p grados de libertad. 3.3 Intervalo de Predicción para una nueva observación NY Sea NX un valor específico de la variable X , donde N'X = x1( Ni xN2 . . . xNk). Los límites de predicción correspondiente al valor específico NX para un nivel de confianza del están dados por: )%1(100 α− ; )Ŷ(StŶ( Noj − )Ŷ(StŶ Noj + donde es un valor tal que 0t ( ) α−=≤≤− 1tTtP 00 para n-p grados de libertad. Y ( )CMEX)X'X('X1)Ŷ(S N1NN2 −+= 28
Compartir