Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Autónoma de Nuevo León Facultad de IngenieríaMecánica y Eléctrica Regresión lineal simple, múltiple y no lineal. Ing. Sergio DavidMadrigal Espinoza, Dr. Diseño de experimentos 29 de enero de 2021 1 / 74 Contenido Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k 2 / 74 Modelos estadísticos Un modelo es una representación de la realidad. Desde un punto de vista matemático, un modelo estadístico es un ecuación en la que existe una variable que depende o que es una función de otras entre las que se encuentran variables aleatorias. 3 / 74 Modelos de Regresión El análisis de regresión es una técnica estadística utilizada para representar la relación que existe entre diferentes variables. Son numerosas sus aplicaciones y las hay en casi cualquier campo, incluyendo en ingeniería, ciencias físicas y químicas, economía, administración, ciencias biológicas y de la vida y en las ciencias sociales. 4 / 74 Ejemplo Por ejemplo, para investigar la relación que existe entre el número de horas que un alumno estudia y sus calificaciones, se selecciona una muestra aleatoria de 10 alumnos. Los resultados se muestran en la figura 1. 5 / 74 ● ● ● ● ● ● ● ● ● ● 5 10 15 40 50 60 70 80 90 horas ca lif Figura 1: Calificaciones y horas de estudio 6 / 74 La figura 1 muestra que existe una relación aproximadamente lineal entre las calificaciones y las horas de estudio. Esto significa que una recta podría ser un buen modelo para describir esta relación, como se muestra en la figura 2. 7 / 74 ● ● ● ● ● ● ● ● ● ● 5 10 15 40 50 60 70 80 90 horas ca lif Figura 2: Recta de regresión lineal 8 / 74 Contenido Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k 9 / 74 El modelo de regresión lineal simple El modelo de regresión lineal simple es: yi = β0 + β1xi + εi, para i = 1, . . . ,n. Este modelo contiene la variable explicada yi, la variable explicativa xi, y una fuente de variación, εi, que se distribuye de manera normal e independiente, con media cero y varianza σ2, εi ∼ NID(0, σ2). 10 / 74 Estimadores de mínimos cuadrados Los parámetros del modelo lineal (β0 y β1) se estiman utilizando el método de mínimos cuadrados. Éste consiste en estimar los parámetros de tal forma que se minimice la suma de las desviaciones cuadradas: n∑ i=1 ε̂2i = n∑ i=1 (yi − (β̂0 + β̂1xi))2. 11 / 74 Coeficientes β̂0 y β̂1 Los estimadores de mínimos cuadrados de β0 y β1 son: β̂0 = ȳ − β̂1x̄, (1) β̂1 = ∑n i=1 yi(xi − x̄)∑n i=1(xi − x̄)2 , (2) donde x̄ y ȳ son las medias de x y y, respectivamente. A partir de los estimadores, se obtiene el modelo ajustado de la siguiente manera: ŷi = β̂0 + β̂1xi. 12 / 74 Deducción de β0 El objetivo es minimizar la suma de las desviaciones cuadradas. Por tanto, el primer paso es derivar esta cantidad respecto a β0: n∑ i=1 ε̂2i = n∑ i=1 (yi − (β̂0 + β̂1xi))2, ∂ ∑n i=1 ε̂ 2 i ∂β̂0 = ∂ ∑n i=1(yi − (β̂0 + β̂1xi)) 2 ∂β̂0 , = n∑ i=1 2(yi − (β̂0 + β̂1xi))(−1). 13 / 74 Deducción de β0 Ahora se iguala a cero y se simplifica: −2 n∑ i=1 (yi − (β̂0 + β̂1xi)) = 0, n∑ i=1 yi − n∑ i=1 β̂0 − n∑ i=1 β̂1xi = 0, n∑ i=1 yi − nβ̂0 − β̂1 n∑ i=1 xi = 0. 14 / 74 Deducción de β0 Finalmente, se despeja β0: nβ̂0 = n∑ i=1 yi − β̂1 n∑ i=1 xi, β̂0 = ∑n i=1 yi n − β̂1 ∑n i=1 xi n , β̂0 = ȳ − β̂1x̄. 15 / 74 Ejemplo Para investigar la relación que existe entre el número de horas que un alumno estudia y sus calificaciones, se selecciona una muestra aleatoria de 10 alumnos: Horas 8 5 11 13 10 5 18 15 2 8 Calif. 56 44 79 72 70 54 94 85 33 65 Estos son los datos correspondientes a la figura 1. ¿Cuál es la recta que mejor se ajusta a estos datos? 16 / 74 Solución Encontrar la recta que mejor se ajusta, implica estimar los parámetros β0 y β1 que minimizan la suma de las desviaciones cuadradas. Esto puede realizarse con la calculadora o con GNU R: β̂0 = 30.33, β̂1 = 3.67. 17 / 74 Solución Por lo tanto, la recta ajustada es ĉalif = 30.33 + 3.67horas, el valor del intercepto, 30.33, indica la calificación de quien estudió cero horas, mientras que el valor de la pendiente, 3.67, indica el aumento en la calificación por estudiar una hora más. 18 / 74 Solución con GNU R > horas <- c(8, 5, 11, 13, 10, 5, 18, 15, 2, 8) > calif <- c(56, 44, 79, 72, 70, 54, 94, 85, 33, 65) > calif.lm <- lm(calif ~ horas) > calif.lm$coef (Intercept) horas 30.330435 3.670481 19 / 74 Solución con GNU R > plot(horas, calif, pch = 19, col = 'blue') > abline(calif.lm) # Para añadir la recta ● ● ● ● ● ● ● ● ● ● 5 10 15 40 50 60 70 80 90 horas ca lif 20 / 74 Ejemplo Los datos siguientes, muestran las puntuaciones medias en Matemáticas de los estudiantes del último curso de secundaria en los años comprendidos entre 1980 y 1989, con exclusión de 1983: Año 1980 1981 1982 1984 1985 1986 1987 1988 1989 Media 466 466 467 471 475 475 476 476 476 a) estime la recta de regresión, b) estime la puntuación media faltante (1983), c) ¿cómo serán las medias para el año 1993? 21 / 74 Solución a) m̂edia = −2232.11 + 1.3625año b) m̂edia1983 = −2232.11 + 1.3625(1983) = 469.73 c) m̂edia1993 = −2232.11 + 1.3625(1993) = 483.35 22 / 74 Solución con GNU R > año <- c(1980, 1981, 1982, 1984, 1985, 1986, 1987, 1988, 1989) > media <- c(466, 466, 467, 471, 475, 475, 476, 476, 476) > media.lm <- lm(media ~ año) > media.lm Call: lm(formula = media ~ año) Coefficients: (Intercept) año -2232.108 1.363 23 / 74 Solución con GNU R > plot(año, media, pch = 19, col = 'blue') > abline(media.lm) ● ● ● ● ● ● ● ● ● 1980 1982 1984 1986 1988 46 6 47 0 47 4 año m ed ia 24 / 74 Universidad Autónoma de Nuevo León Facultad de Ingenierı́a Mecánica y Eléctrica Actividad 6 del curso de Diseño de experimentos Alumno: Matrı́cula En el siguiente cuadro se muestran los tiempos de supervivencia (TS), en dı́as, de los pacientes de transplante de corazón de una clı́nica especializada, ası́ como sus puntuaciones en una prueba de incompatibilidad (PI) previa al transplante y las edades al momento de éste. TS PI Edad 1 624 1.32 51.0 2 1350 0.87 54.1 3 64 1.89 54.6 4 46 0.61 42.5 5 1024 1.13 43.4 6 280 1.12 49.5 7 10 2.76 55.3 8 60 0.69 64.5 9 836 1.58 45.0 10 136 1.62 52.0 11 730 0.96 58.4 12 39 1.38 42.8 1. 60 puntos Estime los modelos TS vs. PI y TS vs. Edad. En cada caso, encuentre el coeficiente de correlación. 2. 30 puntos ¿Cuál es el coeficiente de determinación R2 de cada modelo? 3. 10 puntos ¿Cuál es el factor que mejor explica los tiempos de supervivencia? Pregunta: 1 2 3 Total Puntos: 60 30 10 100 Calificación: Coeficiente de correlación muestral r El coeficiente de correlación muestral r, es un número real en el intervalo [−1, 1], empleado para medir la relación entre dos variables. Se calcula como sigue: r = ∑n i=1 yi(xi − x̄)√∑n i=1(xi − x̄)2 ∑n i=1(yi − ȳ)2 . 26 / 74 Interpretacion del coeficiente r 1) Si −1 < r < 0, se deduce que valores bajos y altos de x, se corresponden con valores altos y bajos de y, respectivamente. 2) Si r ≈ 0, se concluye que no hay relación entre x y y. 3) Si 0 < r < 1, se deduce que valores bajos y altos de x, se corresponden con valores bajos y altos de y, respectivamente. 27 / 74 Coeficiente de determinación R2 Suponga que y podría ser explicada por w o por x. Para determinar cuál de estas dos variables explica mejor a y, se calcula el coeficiente de determinación R2 de w y x respecto de y. La variable con mayor R2 es la que mejor explica a y. Este coeficiente se calcula así: R2 = r2 28 / 74 Ejemplo Se estudia la dureza de diez planchas de acero. Los factores involucrados son: contenido de cobre ( %)y temperatura de fundición (F). Los resultados se muestran en el siguiente cuadro. (a) ¿Cuál es la relación entre contenido de cobre y dureza? (b) ¿Cuál es la relación entre temperatura de fundición y dureza? (c) ¿Cuál es el factor que explica mejor a y? 29 / 74 dureza cobre temp 1 79.20 0.02 1050.00 2 64.00 0.03 1200.00 3 55.70 0.03 1250.00 4 56.30 0.04 1300.00 5 58.60 0.10 1300.00 6 49.80 0.09 1450.00 7 51.10 0.12 1400.00 8 61.10 0.09 1200.00 9 70.40 0.15 1100.00 10 84.30 0.16 1000.00 30 / 74 Solución con GNU R (a) rcobre = 0.2090. R2cobre = 0.0437. (b) rtemp = −0.9600. R2temp = 0.9217. (c) R2cobre = 0.0437 y R 2 temp = 0.9217, por lo tanto, la temperatura explica mejor a la dureza. 31 / 74 Solución con GNU R > dureza <- c(79.2, 64.0, 55.7, 56.3, 58.6, 49.8, 51.1, 61.1, 70.4, 84.3) > cobre <- c(0.02, 0.03, 0.03, 0.04, 0.10, 0.09, 0.12, 0.09, 0.15, 0.16) > temp <- c(1050, 1200, 1250, 1300, 1300, 1450, 1400, 1200, 1100, 1000) (a) > cor(cobre,dureza) [1] 0.2089882 (b) > cor(temp,dureza) [1] -0.960039 (c) > cor(cobre,dureza)^2 [1] 0.04367608 > cor(temp,dureza)^2 [1] 0.9216748 32 / 74 Ejemplo Los siguientes datos, relacionan los precios de venta (y) de diez casas de un barrio residencial, con la superficie habitable (Pies2), el tamaño de la parcela (acres) y el número de baños. precios superficie parcela baños 1 170.00 1300.00 0.25 1.00 2 177.00 1450.00 0.30 1.50 3 191.00 1600.00 0.30 2.00 4 194.00 1850.00 0.45 2.00 5 202.00 2100.00 0.40 2.00 6 210.00 2000.00 0.40 2.50 7 214.00 2100.00 0.50 2.00 8 228.00 2400.00 0.50 2.50 9 240.00 2700.00 0.50 2.50 10 252.00 2600.00 0.70 3.00 33 / 74 (a) Estime los modelos precios vs. superficie, precios vs. parcela y precios vs. baños. En cada caso, encuentre el coeficiente de correlación. (b) ¿Cuál es el factor que mejor explica los precios? 34 / 74 Solución con GNU R a.1) ̂precios = 98.10 + 0.0546sup. rsup. = 0.9714. R2sup. = 0.9436. a.2) ̂precios = 128.25 + 185parcela. rparcela = 0.9187. R2parcela = 0.8440. a.3) ̂precios = 117.5 + 43baños. rbaños = 0.9207. R2baños = 0.8477. b) R2sup. = 0.9436, R2parcela = 0.8440 y R2baños = 0.8477. Por lo tanto, la superficie es el factor que mejor explica los precios. 35 / 74 Solución con GNU R Ingresar los datos: > precios <- c(170, 177, 191, 194, 202, 210, 214, 228, 240, 252) > superficie <- c(1300, 1450, 1600, 1850, 2100, 2000, 2100, 2400, 2700, 2600) > parcela <- c(0.25, 0.30, 0.30, 0.45, 0.40, 0.40, 0.50, 0.50, 0.50, 0.70) > baños <- c(1, 1.5, 2, 2, 2, 2.5, 2, 2.5, 2.5, 3) 36 / 74 Solución con GNU R a.1) > lm(precios~superficie)$coef (Intercept) superficie 98.10254491 0.05457585 > cor(superficie, precios) [1] 0.9714009 a.2) > lm(precios~parcela)$coef (Intercept) parcela 128.25 185.00 > cor(parcela, precios) [1] 0.91872 a.3) > lm(precios~baños)$coef (Intercept) baños 117.5 43.0 > cor(baños, precios) [1] 0.9206967 b) > cor(superficie, precios)^2 [1] 0.9436197 > cor(parcela, precios)^2 [1] 0.8440464 > cor(baños, precios)^2 [1] 0.8476824 37 / 74 Contenido Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k 38 / 74 El modelo de regresión lineal múltiple Hasta el momento, nos hemos ocupado de la relación que existe entre una variable explicada y y una variable explicativa x. Sin embargo, la variable y podría ser explicada por un conjunto de variables x1, x2, . . . , xk. La relación existente entre la variable explicada y las variables explicativas sería yi = β0 + β1xi,1 + β2xi,2 + · · · + βkxi,k + µi (3) A la ecuación (3) se le conoce como el modelo de regresión lineal múltiple. 39 / 74 En términos matriciales, la ecuación (3) se vería de la siguiente manera y = Xβ + µ o bien... y1 y2 ... yn = 1 x1,1 x1,2 · · · x1,k 1 x2,1 x2,2 · · · x2,k ... 1 xn,1 xn,2 · · · xn,k β0 β1 ... βk + µ1 µ2 ... µn 40 / 74 Estimación El estimador de β que minimiza la suma de las desviaciones cuadradas µ̂′µ̂ es: β̂ = (X′X)−1X′y. De acuerdo con el teorema de Gauss-Markov, el estimador β̂ es el mejor estimador lineal insesgado de β. 41 / 74 Deducción Al derivar µ̂′µ̂ respecto a β̂ se tiene que, µ̂′µ̂ = (y − Xβ̂)′(y − Xβ̂), ∂µ̂′µ̂ ∂β̂ = ∂(y − Xβ̂)′(y − Xβ̂) ∂β̂ , = −2(y − Xβ̂)′X, al igualar a cero y despejar se obtiene, β̂ = (X′X)−1X′y. 42 / 74 Deducción informal Una manera informal de deducir β̂ consiste en suponer que y = Xβ̂. Luego, y = Xβ̂, X′y = X′Xβ̂, (X′X)−1X′y = (X′X)−1X′Xβ̂, y por tanto, β̂ = (X′X)−1X′y. 43 / 74 Universidad Autónoma de Nuevo León Facultad de Ingenierı́a Mecánica y Eléctrica Actividad 7 del curso de Diseño de experimentos Alumno: Matrı́cula Los datos siguientes, son las puntuaciones que diez estudiantes ob- tuvieron en un examen, sus IQ, y el número de horas que pasaron estudiando para cada examen: IQ Horas Calificación 112 5 79 126 13 97 100 3 51 114 7 65 112 11 82 121 9 93 110 8 81 103 4 38 111 6 60 124 2 86 1. 40 puntos Escriba un código en GNU R para crear el modelo de regresión lineal asociado a este diseño. 2. 40 puntos ¿Cuál es el modelo ajustado que resulta de esta regresión? 3. 20 puntos Prediga la puntuación de un estudiante con un IQ de 108 que estudió seis horas para el examen. Pregunta: 1 2 3 Total Puntos: 40 40 20 100 Calificación: Ejemplo Utilice la regresión lineal múltiple para determinar la relación entre los precios de las casas como una función de los factores: superficie, parcela y número de baños. 45 / 74 Solución con GNU R > precios <- c(170, 177, 191, 194, 202, 210, 214, 228, 240, 252) > superficie <- c(1300, 1450, 1600, 1850, 2100, 2000, 2100, 2400, 2700, 2600) > parcela <- c(0.25, 0.30, 0.30, 0.45, 0.40, 0.40, 0.50, 0.50, 0.50, 0.70) > baños <- c(1, 1.5, 2, 2, 2, 2.5, 2, 2.5, 2.5, 3) > precios.lm <- lm(precios ~ superficie + parcela + baños) 46 / 74 > precios.lm Call: lm(formula = precios ~ superficie + parcela + baños) Coefficients: (Intercept) superficie parcela baños 100.98518 0.03294 43.64585 10.39446 47 / 74 > summary(precios.lm) Call: lm(formula = precios ~ superficie + parcela + baños) Residuals: Min 1Q Median 3Q Max -8.3623 -0.4100 0.6789 3.1293 4.8809 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.010e+02 7.862e+00 12.844 1.37e-05 *** superficie 3.295e-02 9.069e-03 3.633 0.0109 * parcela 4.365e+01 2.938e+01 1.485 0.1880 baños 1.039e+01 6.863e+00 1.515 0.1807 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.27 on 6 degrees of freedom Multiple R-squared: 0.9737, Adjusted R-squared: 0.9605 F-statistic: 73.92 on 3 and 6 DF, p-value: 3.959e-05 48 / 74 Ejemplo Se realiza un experimento químico en el que se observa la cantidad obtenida de producto de una substancia variando los factores temperatura y presión: Experimento Temperatura Presión Producto ( %) 1 140 210 68 2 150 220 82 3 160 210 74 4 130 230 80 ¿Cómo se modelaría el porcentaje obtenido de producto como una función lineal de la temperatura y la presión? 49 / 74 Solución Se tendría el modelo lineal y = Xβ + µ donde: 68 82 74 80 = 1 140 210 1 150 220 1 160 210 1 130 230 β0 β1 β2 + µ1 µ2 µ3 µ4 50 / 74 Para encontrar los valores de β que minimizan µ′µ, se utiliza la fórmula β̂ = (X′X)−1X′y. Así, se tiene: β0 β1 β2 = −169.533 0.393 0.866 51 / 74 Solución con GNU R > temperatura <- c(140, 150, 160, 130) > presion <- c(210, 220, 210, 230) > producto <- c(68, 82, 74, 80) > producto.lm <- lm(producto ~ temperatura + presion) 52 / 74 > producto.lm Call: lm(formula = producto ~ temperatura + presion) Coefficients: (Intercept) temperatura presion -169.5333 0.3933 0.8667 53/ 74 > summary(producto.lm) Call: lm(formula = producto ~ temperatura + presion) Residuals: 1 2 3 4 0.4667 1.8667 -1.4000 -0.9333 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -169.5333 62.7645 -2.701 0.226 temperatura 0.3933 0.1548 2.541 0.239 presion 0.8667 0.2087 4.153 0.150 Residual standard error: 2.556 on 1 degrees of freedom Multiple R-squared: 0.9456, Adjusted R-squared: 0.8367 F-statistic: 8.684 on 2 and 1 DF, p-value: 0.2333 54 / 74 Análisis de regresión de diseños 2k Un diseño 2k puede ser visto como un modelo de regresión lineal. Para este propósito, los signos negativos que denotan los niveles bajos de cada factor, se deben tratar como unidades negativas (-1). De la misma manera, los niveles altos de los factores, se deben tratar como unidades positivas (1). Los coeficientes del modelo resultante, serán equivalentes a la mitad del efecto principal de cada factor o en su caso, de cada interacción. 55 / 74 Ejemplo Mediante regresión lineal, encuentre los efectos principales de cada factor, así como el de cada interacción de factores, del siguiente diseño factorial: A B C D IF - - - - 45 + - - - 71 - + - - 48 + + - - 64 - - + - 68 + - + - 60 - + + - 80 + + + - 65 - - - + 43 + - - + 100 - + - + 45 + + - + 104 - - + + 75 + - + + 86 - + + + 70 + + + + 96 56 / 74 Solución con GNU R > y <- c(45, 71, 48, 64, 68, 60, 80, 65, 43, 100, + 45, 104, 75, 86, 70, 96) > mm <- c(-1, 1) > X <- expand.grid(A = mm, B = mm, C = mm, D = mm) > A <- X$A; B <- X$B; C <- X$C; D <- X$D > y.lm <- lm(y ~ A * B * C * D) 57 / 74 > round(2 * y.lm$coef, 2) (Intercept) A B C D 140.00 21.50 3.00 10.00 14.75 A:B A:C B:C A:D B:D 0.00 -18.00 2.50 16.75 -0.25 C:D A:B:C A:B:D A:C:D B:C:D -1.25 2.00 4.25 -1.75 -2.75 A:B:C:D 1.25 58 / 74 Contenido Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k 59 / 74 Universidad Autónoma de Nuevo León Facultad de Ingenierı́a Mecánica y Eléctrica Actividad 8 del curso de Diseño de experimentos Alumno: Matrı́cula Bajo ciertas suposiciones, es posible deducir el siguiente modelo para una reacción quı́mica consecutiva con la concentración del producto intermedio y, el tiempo de reacción x y las constantes de velocidad β1 y β2. y = β1 β1 − β2 ( e−β2 x − e−β1 x ) Se tienen los siguientes datos experimentales: x 10 20 30 40 50 60 y 0.20 0.52 0.69 0.64 0.57 0.48 1. 40 puntos Escriba un código en GNU R para estimar los parámetros del modelo de regresión no lineal. Utilice 0.05 y 0.01 como estimaciones iniciales de los parámetros β1 y β2, respectivamente. 2. 40 puntos ¿Cuál es el contenido del objeto y.nls? 3. 20 puntos Prediga la concentración para un tiempo de 100. Pregunta: 1 2 3 Total Puntos: 40 40 20 100 Calificación: Ejemplo La demanda bioquímica de oxígeno (DBO) se utiliza como un medida de la contaminación producida por los productos domésticos e industriales. Se acaban de tomar seis muestras, que se dejan incubar en diferentes botellas con agua pura y durante varios días. Los resultados se muestran en la siguiente tabla: 61 / 74 Muestra DBO (mg/L) Incubación (días) 1 109 1 2 149 2 3 149 3 4 191 5 5 213 7 6 224 10 Encuentre los parámetros del modelo y = β1(1 − e−β2x) donde y representa el DBO y x son los días de incubación. Por experiencia, se sabe que los valores de β1 y β2 deben ser del orden de 100 y 1, respectivamente. 62 / 74 Solución con GNU R > y <- c(109, 149, 149, 191, 213, 224) > x <- c(1, 2, 3, 5, 7, 10) > y.nls <- nls(y ~ b1 * (1 - exp(-b2 * x)), + start = list(b1 = 100, b2 = 1)) > y.nls Nonlinear regression model model: y ~ b1 * (1 - exp(-b2 * x)) data: parent.frame() b1 b2 213.8094 0.5472 residual sum-of-squares: 1168 Number of iterations to convergence: 7 Achieved convergence tolerance: 2.438e-06 63 / 74 Ejemplo El modelo de cinética química, de Michaelis-Menten, es utilizado para relacionar la velocidad inicial de una reacción enzimática con la concentración x del sustrato: y = θ1x x + θ2 + ε. Estime θ1 y θ2 para los siguientes datos: 64 / 74 Concentración (ppm) Velocidad 0.02 47 76 0.06 97 107 0.11 123 139 0.22 152 159 0.56 191 201 1.10 200 207 65 / 74 Solución Este problema no ofrece valores iniciales para los estimadores. Sin embargo, este modelo puede ser «linealizado» así: 1 y ≈ x + θ2 θ1x , = 1 θ1 + θ2 θ1 · 1 x , definiendo y′ = 1/y, x′ = 1/x, β0 = 1/θ1 y β1 = θ2/θ1, se tiene: y′ ≈ β0 + β1x′, que es un modelo de regresión lineal simple. 66 / 74 Los estimadores del modelo lineal son: > v1 <- c(47, 97, 123, 152, 191, 200) > v2 <- c(76, 107, 139, 159, 201, 207) > y <- c(v1, v2); yp <- 1 / y > k <- c(0.02, 0.06, 0.11, 0.22, 0.56, 1.10) > x <- c(k, k); xp <- 1 / x > yp.lm <- lm(yp ~ xp) > coef(yp.lm) (Intercept) xp 0.005107182 0.000247221 por lo tanto, θ̂1 ≈ 1/0.0051 = 195.8027, θ̂2 ≈ θ̂1 · β̂1 = 195.8027(2e − 04) = 0.0484. 67 / 74 Los estimadores θ̂1 y θ̂2, pueden ser utilizados como valores iniciales de nls: > y.nls <- nls(y ~ z1 * x / (x + z2), + start = list(z1=195.8027, z2=0.0484)) > y.nls Nonlinear regression model model: y ~ z1 * x/(x + z2) data: parent.frame() z1 z2 212.68356 0.06412 residual sum-of-squares: 1195 Number of iterations to convergence: 5 Achieved convergence tolerance: 9.881e-06 68 / 74 Contenido Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k 69 / 74 Uso de ANOVA en diseños 2k Es posible utilizar el análisis de varianza en diseños 2k, siempre y cuando haya más de una réplica. 70 / 74 Ejemplo de diseño 22 con réplicas Se estudia el rendimiento de un proceso químico. Los factores considerados concentración del reactivo (factor A) y cantidad de catalizador (factor B). El nivel bajo (-) del factor A es 15 porciente y su nivel alto (+) es de 25 porciento. Los niveles del factor B son una y dos libras (- y +, respectivamente). Se hacen tres réplicas con cada combinación de los niveles. Los resultados se muestran en el siguiente cuadro: 71 / 74 Factor Replica A B I II III - - 28 25 27 + - 36 32 32 - + 18 19 23 + + 31 30 29 72 / 74 > y1 <- c(28, 36, 18, 31) > y2 <- c(25, 32, 19, 30) > y3 <- c(27, 32, 23, 29) > y <- c(y1, y2, y3) > mm <- c(-1,1) > d <- expand.grid(A=mm, B=mm) > A <- factor(rep(d$A,3)) > B <- factor(rep(d$B,3)) > y.aov <- aov(y ~ A * B) 73 / 74 > summary(y.aov) Df Sum Sq Mean Sq F value Pr(>F) A 1 208.33 208.33 53.191 8.44e-05 *** B 1 75.00 75.00 19.149 0.00236 ** A:B 1 8.33 8.33 2.128 0.18278 Residuals 8 31.33 3.92 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 74 / 74 Modelos estadísticos El modelo de regresión lineal simple Los coeficientes de correlación y determinación El modelo de regresión lineal múltiple Análisis de regresión de diseños 2k Regresión no lineal Uso de ANOVA en diseños 2k
Compartir