Regresão Linear e Modelos Estatísticos

•
Outros

Desafío México Veintitrés
6/5/2023
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Diversos

24.230 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Universidad Autónoma de Nuevo León
Facultad de IngenieríaMecánica y Eléctrica
Regresión lineal simple, múltiple y no
lineal.
Ing. Sergio DavidMadrigal Espinoza, Dr.
Diseño de experimentos
29 de enero de 2021
1 / 74
Contenido
Modelos estadísticos
El modelo de regresión lineal simple
Los coeficientes de correlación y determinación
El modelo de regresión lineal múltiple
Análisis de regresión de diseños 2k
Regresión no lineal
Uso de ANOVA en diseños 2k
2 / 74
Modelos estadísticos
Un modelo es una representación de la realidad. Desde un
punto de vista matemático, un modelo estadístico es un
ecuación en la que existe una variable que depende o que es
una función de otras entre las que se encuentran variables
aleatorias.
3 / 74
Modelos de Regresión
El análisis de regresión es una técnica estadística utilizada
para representar la relación que existe entre diferentes
variables. Son numerosas sus aplicaciones y las hay en casi
cualquier campo, incluyendo en ingeniería, ciencias físicas y
químicas, economía, administración, ciencias biológicas y de la
vida y en las ciencias sociales.
4 / 74
Ejemplo
Por ejemplo, para investigar la relación que existe entre el
número de horas que un alumno estudia y sus calificaciones,
se selecciona una muestra aleatoria de 10 alumnos. Los
resultados se muestran en la figura 1.
5 / 74
●
●
●
●
●
●
●
●
●
●
5 10 15
40
50
60
70
80
90
horas
ca
lif
Figura 1: Calificaciones y horas de estudio
6 / 74
La figura 1 muestra que existe una relación aproximadamente
lineal entre las calificaciones y las horas de estudio. Esto
significa que una recta podría ser un buen modelo para
describir esta relación, como se muestra en la figura 2.
7 / 74
●
●
●
●
●
●
●
●
●
●
5 10 15
40
50
60
70
80
90
horas
ca
lif
Figura 2: Recta de regresión lineal
8 / 74
Contenido
Modelos estadísticos
El modelo de regresión lineal simple
Los coeficientes de correlación y determinación
El modelo de regresión lineal múltiple
Análisis de regresión de diseños 2k
Regresión no lineal
Uso de ANOVA en diseños 2k
9 / 74
El modelo de regresión lineal simple
El modelo de regresión lineal simple es:
yi = β0 + β1xi + εi, para i = 1, . . . ,n.
Este modelo contiene la variable explicada yi, la variable
explicativa xi, y una fuente de variación, εi, que se distribuye
de manera normal e independiente, con media cero y varianza
σ2, εi ∼ NID(0, σ2).
10 / 74
Estimadores de mínimos cuadrados
Los parámetros del modelo lineal (β0 y β1) se estiman
utilizando el método de mínimos cuadrados. Éste consiste en
estimar los parámetros de tal forma que se minimice la suma de
las desviaciones cuadradas:
n∑
i=1
ε̂2i =
n∑
i=1
(yi − (β̂0 + β̂1xi))2.
11 / 74
Coeficientes β̂0 y β̂1
Los estimadores de mínimos cuadrados de β0 y β1 son:
β̂0 = ȳ − β̂1x̄, (1)
β̂1 =
∑n
i=1 yi(xi − x̄)∑n
i=1(xi − x̄)2
, (2)
donde x̄ y ȳ son las medias de x y y, respectivamente. A partir
de los estimadores, se obtiene el modelo ajustado de la
siguiente manera:
ŷi = β̂0 + β̂1xi.
12 / 74
Deducción de β0
El objetivo es minimizar la suma de las desviaciones
cuadradas. Por tanto, el primer paso es derivar esta cantidad
respecto a β0:
n∑
i=1
ε̂2i =
n∑
i=1
(yi − (β̂0 + β̂1xi))2,
∂
∑n
i=1 ε̂
2
i
∂β̂0
=
∂
∑n
i=1(yi − (β̂0 + β̂1xi))
2
∂β̂0
,
=
n∑
i=1
2(yi − (β̂0 + β̂1xi))(−1).
13 / 74
Deducción de β0
Ahora se iguala a cero y se simplifica:
−2
n∑
i=1
(yi − (β̂0 + β̂1xi)) = 0,
n∑
i=1
yi −
n∑
i=1
β̂0 −
n∑
i=1
β̂1xi = 0,
n∑
i=1
yi − nβ̂0 − β̂1
n∑
i=1
xi = 0.
14 / 74
Deducción de β0
Finalmente, se despeja β0:
nβ̂0 =
n∑
i=1
yi − β̂1
n∑
i=1
xi,
β̂0 =
∑n
i=1 yi
n
− β̂1
∑n
i=1 xi
n
,
β̂0 = ȳ − β̂1x̄.
15 / 74
Ejemplo
Para investigar la relación que existe entre el número de horas
que un alumno estudia y sus calificaciones, se selecciona una
muestra aleatoria de 10 alumnos:
Horas 8 5 11 13 10 5 18 15 2 8
Calif. 56 44 79 72 70 54 94 85 33 65
Estos son los datos correspondientes a la figura 1. ¿Cuál es la
recta que mejor se ajusta a estos datos?
16 / 74
Solución
Encontrar la recta que mejor se ajusta, implica estimar los
parámetros β0 y β1 que minimizan la suma de las desviaciones
cuadradas. Esto puede realizarse con la calculadora o con
GNU R:
β̂0 = 30.33,
β̂1 = 3.67.
17 / 74
Solución
Por lo tanto, la recta ajustada es
ĉalif = 30.33 + 3.67horas,
el valor del intercepto, 30.33, indica la calificación de quien
estudió cero horas, mientras que el valor de la pendiente, 3.67,
indica el aumento en la calificación por estudiar una hora más.
18 / 74
Solución con GNU R
> horas <- c(8, 5, 11, 13, 10, 5, 18, 15, 2, 8)
> calif <- c(56, 44, 79, 72, 70, 54, 94, 85, 33, 65)
> calif.lm <- lm(calif ~ horas)
> calif.lm$coef
(Intercept) horas
30.330435 3.670481
19 / 74
Solución con GNU R
> plot(horas, calif, pch = 19, col = 'blue')
> abline(calif.lm) # Para añadir la recta
●
●
●
●
●
●
●
●
●
●
5 10 15
40
50
60
70
80
90
horas
ca
lif
20 / 74
Ejemplo
Los datos siguientes, muestran las puntuaciones medias en
Matemáticas de los estudiantes del último curso de secundaria
en los años comprendidos entre 1980 y 1989, con exclusión de
1983:
Año 1980 1981 1982 1984 1985 1986 1987 1988 1989
Media 466 466 467 471 475 475 476 476 476
a) estime la recta de regresión,
b) estime la puntuación media faltante (1983),
c) ¿cómo serán las medias para el año 1993?
21 / 74
Solución
a)
m̂edia = −2232.11 + 1.3625año
b)
m̂edia1983 = −2232.11 + 1.3625(1983) = 469.73
c)
m̂edia1993 = −2232.11 + 1.3625(1993) = 483.35
22 / 74
Solución con GNU R
> año <- c(1980, 1981, 1982, 1984, 1985, 1986, 1987, 1988, 1989)
> media <- c(466, 466, 467, 471, 475, 475, 476, 476, 476)
> media.lm <- lm(media ~ año)
> media.lm
Call:
lm(formula = media ~ año)
Coefficients:
(Intercept) año
-2232.108 1.363
23 / 74
Solución con GNU R
> plot(año, media, pch = 19, col = 'blue')
> abline(media.lm)
● ●
●
●
● ●
● ● ●
1980 1982 1984 1986 1988
46
6
47
0
47
4
año
m
ed
ia
24 / 74
Universidad Autónoma de Nuevo León
Facultad de Ingenierı́a Mecánica y Eléctrica
Actividad 6 del curso de Diseño de experimentos
Alumno: Matrı́cula
En el siguiente cuadro se muestran los tiempos de supervivencia
(TS), en dı́as, de los pacientes de transplante de corazón de una
clı́nica especializada, ası́ como sus puntuaciones en una prueba de
incompatibilidad (PI) previa al transplante y las edades al momento
de éste.
TS PI Edad
1 624 1.32 51.0
2 1350 0.87 54.1
3 64 1.89 54.6
4 46 0.61 42.5
5 1024 1.13 43.4
6 280 1.12 49.5
7 10 2.76 55.3
8 60 0.69 64.5
9 836 1.58 45.0
10 136 1.62 52.0
11 730 0.96 58.4
12 39 1.38 42.8
1. 60 puntos Estime los modelos TS vs. PI y TS vs. Edad. En
cada caso, encuentre el coeficiente de correlación.
2. 30 puntos ¿Cuál es el coeficiente de determinación R2 de cada
modelo?
3. 10 puntos ¿Cuál es el factor que mejor explica los tiempos de
supervivencia?
Pregunta: 1 2 3 Total
Puntos: 60 30 10 100
Calificación:
Coeficiente de correlación muestral r
El coeficiente de correlación muestral r, es un número real en el
intervalo [−1, 1], empleado para medir la relación entre dos
variables. Se calcula como sigue:
r =
∑n
i=1 yi(xi − x̄)√∑n
i=1(xi − x̄)2
∑n
i=1(yi − ȳ)2
.
26 / 74
Interpretacion del coeficiente r
1) Si −1 < r < 0, se deduce que valores bajos y altos de x, se
corresponden con valores altos y bajos de y,
respectivamente.
2) Si r ≈ 0, se concluye que no hay relación entre x y y.
3) Si 0 < r < 1, se deduce que valores bajos y altos de x, se
corresponden con valores bajos y altos de y,
respectivamente.
27 / 74
Coeficiente de determinación R2
Suponga que y podría ser explicada por w o por x. Para
determinar cuál de estas dos variables explica mejor a y, se
calcula el coeficiente de determinación R2 de w y x respecto de y.
La variable con mayor R2 es la que mejor explica a y. Este
coeficiente se calcula así:
R2 = r2
28 / 74
Ejemplo
Se estudia la dureza de diez planchas de acero. Los factores
involucrados son: contenido de cobre ( %)y temperatura de
fundición (F). Los resultados se muestran en el siguiente
cuadro.
(a) ¿Cuál es la relación entre contenido de cobre y dureza?
(b) ¿Cuál es la relación entre temperatura de fundición y
dureza?
(c) ¿Cuál es el factor que explica mejor a y?
29 / 74
dureza cobre temp
1 79.20 0.02 1050.00
2 64.00 0.03 1200.00
3 55.70 0.03 1250.00
4 56.30 0.04 1300.00
5 58.60 0.10 1300.00
6 49.80 0.09 1450.00
7 51.10 0.12 1400.00
8 61.10 0.09 1200.00
9 70.40 0.15 1100.00
10 84.30 0.16 1000.00
30 / 74
Solución con GNU R
(a)
rcobre = 0.2090.
R2cobre = 0.0437.
(b)
rtemp = −0.9600.
R2temp = 0.9217.
(c) R2cobre = 0.0437 y R
2
temp = 0.9217, por lo tanto, la
temperatura explica mejor a la dureza.
31 / 74
Solución con GNU R
> dureza <- c(79.2, 64.0, 55.7, 56.3, 58.6, 49.8, 51.1, 61.1, 70.4, 84.3)
> cobre <- c(0.02, 0.03, 0.03, 0.04, 0.10, 0.09, 0.12, 0.09, 0.15, 0.16)
> temp <- c(1050, 1200, 1250, 1300, 1300, 1450, 1400, 1200, 1100, 1000)
(a) > cor(cobre,dureza)
[1] 0.2089882
(b) > cor(temp,dureza)
[1] -0.960039
(c) > cor(cobre,dureza)^2
[1] 0.04367608
> cor(temp,dureza)^2
[1] 0.9216748
32 / 74
Ejemplo
Los siguientes datos, relacionan los precios de venta (y) de diez casas de un
barrio residencial, con la superficie habitable (Pies2), el tamaño de la parcela
(acres) y el número de baños.
precios superficie parcela baños
1 170.00 1300.00 0.25 1.00
2 177.00 1450.00 0.30 1.50
3 191.00 1600.00 0.30 2.00
4 194.00 1850.00 0.45 2.00
5 202.00 2100.00 0.40 2.00
6 210.00 2000.00 0.40 2.50
7 214.00 2100.00 0.50 2.00
8 228.00 2400.00 0.50 2.50
9 240.00 2700.00 0.50 2.50
10 252.00 2600.00 0.70 3.00
33 / 74
(a) Estime los modelos precios vs. superficie, precios vs.
parcela y precios vs. baños. En cada caso, encuentre el
coeficiente de correlación.
(b) ¿Cuál es el factor que mejor explica los precios?
34 / 74
Solución con GNU R
a.1)
̂precios = 98.10 + 0.0546sup.
rsup. = 0.9714.
R2sup. = 0.9436.
a.2)
̂precios = 128.25 + 185parcela.
rparcela = 0.9187.
R2parcela = 0.8440.
a.3)
̂precios = 117.5 + 43baños.
rbaños = 0.9207.
R2baños = 0.8477.
b)
R2sup. = 0.9436, R2parcela = 0.8440 y
R2baños = 0.8477. Por lo tanto, la superficie
es el factor que mejor explica los precios.
35 / 74
Solución con GNU R
Ingresar los datos:
> precios <- c(170, 177, 191, 194, 202, 210, 214, 228, 240, 252)
> superficie <- c(1300, 1450, 1600, 1850, 2100, 2000, 2100, 2400, 2700, 2600)
> parcela <- c(0.25, 0.30, 0.30, 0.45, 0.40, 0.40, 0.50, 0.50, 0.50, 0.70)
> baños <- c(1, 1.5, 2, 2, 2, 2.5, 2, 2.5, 2.5, 3)
36 / 74
Solución con GNU R
a.1)
> lm(precios~superficie)$coef
(Intercept) superficie
98.10254491 0.05457585
> cor(superficie, precios)
[1] 0.9714009
a.2)
> lm(precios~parcela)$coef
(Intercept) parcela
128.25 185.00
> cor(parcela, precios)
[1] 0.91872
a.3)
> lm(precios~baños)$coef
(Intercept) baños
117.5 43.0
> cor(baños, precios)
[1] 0.9206967
b)
> cor(superficie, precios)^2
[1] 0.9436197
> cor(parcela, precios)^2
[1] 0.8440464
> cor(baños, precios)^2
[1] 0.8476824
37 / 74
Contenido
Modelos estadísticos
El modelo de regresión lineal simple
Los coeficientes de correlación y determinación
El modelo de regresión lineal múltiple
Análisis de regresión de diseños 2k
Regresión no lineal
Uso de ANOVA en diseños 2k
38 / 74
El modelo de regresión lineal múltiple
Hasta el momento, nos hemos ocupado de la relación que
existe entre una variable explicada y y una variable explicativa
x. Sin embargo, la variable y podría ser explicada por un
conjunto de variables x1, x2, . . . , xk. La relación existente entre
la variable explicada y las variables explicativas sería
yi = β0 + β1xi,1 + β2xi,2 + · · · + βkxi,k + µi (3)
A la ecuación (3) se le conoce como el modelo de regresión lineal
múltiple.
39 / 74
En términos matriciales, la ecuación (3) se vería de la siguiente
manera
y = Xβ + µ
o bien...
y1
y2
...
yn
 =

1 x1,1 x1,2 · · · x1,k
1 x2,1 x2,2 · · · x2,k
...
1 xn,1 xn,2 · · · xn,k


β0
β1
...
βk
 +

µ1
µ2
...
µn

40 / 74
Estimación
El estimador de β que minimiza la suma de las desviaciones
cuadradas µ̂′µ̂ es:
β̂ = (X′X)−1X′y.
De acuerdo con el teorema de Gauss-Markov, el estimador β̂ es
el mejor estimador lineal insesgado de β.
41 / 74
Deducción
Al derivar µ̂′µ̂ respecto a β̂ se tiene que,
µ̂′µ̂ = (y − Xβ̂)′(y − Xβ̂),
∂µ̂′µ̂
∂β̂
=
∂(y − Xβ̂)′(y − Xβ̂)
∂β̂
,
= −2(y − Xβ̂)′X,
al igualar a cero y despejar se obtiene,
β̂ = (X′X)−1X′y.
42 / 74
Deducción informal
Una manera informal de deducir β̂ consiste en suponer que
y = Xβ̂. Luego,
y = Xβ̂,
X′y = X′Xβ̂,
(X′X)−1X′y = (X′X)−1X′Xβ̂,
y por tanto,
β̂ = (X′X)−1X′y.
43 / 74
Universidad Autónoma de Nuevo León
Facultad de Ingenierı́a Mecánica y Eléctrica
Actividad 7 del curso de Diseño de experimentos
Alumno: Matrı́cula
Los datos siguientes, son las puntuaciones que diez estudiantes ob-
tuvieron en un examen, sus IQ, y el número de horas que pasaron
estudiando para cada examen:
IQ Horas Calificación
112 5 79
126 13 97
100 3 51
114 7 65
112 11 82
121 9 93
110 8 81
103 4 38
111 6 60
124 2 86
1. 40 puntos Escriba un código en GNU R para crear el modelo
de regresión lineal asociado a este diseño.
2. 40 puntos ¿Cuál es el modelo ajustado que resulta de esta
regresión?
3. 20 puntos Prediga la puntuación de un estudiante con un IQ
de 108 que estudió seis horas para el examen.
Pregunta: 1 2 3 Total
Puntos: 40 40 20 100
Calificación:
Ejemplo
Utilice la regresión lineal múltiple para determinar la relación
entre los precios de las casas como una función de los factores:
superficie, parcela y número de baños.
45 / 74
Solución con GNU R
> precios <- c(170, 177, 191, 194, 202, 210, 214, 228, 240, 252)
> superficie <- c(1300, 1450, 1600, 1850, 2100, 2000, 2100, 2400, 2700, 2600)
> parcela <- c(0.25, 0.30, 0.30, 0.45, 0.40, 0.40, 0.50, 0.50, 0.50, 0.70)
> baños <- c(1, 1.5, 2, 2, 2, 2.5, 2, 2.5, 2.5, 3)
> precios.lm <- lm(precios ~ superficie + parcela + baños)
46 / 74
> precios.lm
Call:
lm(formula = precios ~ superficie + parcela + baños)
Coefficients:
(Intercept) superficie parcela baños
100.98518 0.03294 43.64585 10.39446
47 / 74
> summary(precios.lm)
Call:
lm(formula = precios ~ superficie + parcela + baños)
Residuals:
Min 1Q Median 3Q Max
-8.3623 -0.4100 0.6789 3.1293 4.8809
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.010e+02 7.862e+00 12.844 1.37e-05 ***
superficie 3.295e-02 9.069e-03 3.633 0.0109 *
parcela 4.365e+01 2.938e+01 1.485 0.1880
baños 1.039e+01 6.863e+00 1.515 0.1807
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.27 on 6 degrees of freedom
Multiple R-squared: 0.9737, Adjusted R-squared: 0.9605
F-statistic: 73.92 on 3 and 6 DF, p-value: 3.959e-05
48 / 74
Ejemplo
Se realiza un experimento químico en el que se observa la cantidad obtenida
de producto de una substancia variando los factores temperatura y presión:
Experimento Temperatura Presión Producto ( %)
1 140 210 68
2 150 220 82
3 160 210 74
4 130 230 80
¿Cómo se modelaría el porcentaje obtenido de producto como una función
lineal de la temperatura y la presión?
49 / 74
Solución
Se tendría el modelo lineal y = Xβ + µ donde:
68
82
74
80
 =

1 140 210
1 150 220
1 160 210
1 130 230


β0
β1
β2
 +

µ1
µ2
µ3
µ4

50 / 74
Para encontrar los valores de β que minimizan µ′µ, se utiliza la
fórmula β̂ = (X′X)−1X′y. Así, se tiene:
β0
β1
β2
 =

−169.533
0.393
0.866

51 / 74
Solución con GNU R
> temperatura <- c(140, 150, 160, 130)
> presion <- c(210, 220, 210, 230)
> producto <- c(68, 82, 74, 80)
> producto.lm <- lm(producto ~ temperatura + presion)
52 / 74
> producto.lm
Call:
lm(formula = producto ~ temperatura + presion)
Coefficients:
(Intercept) temperatura presion
-169.5333 0.3933 0.8667
53/ 74
> summary(producto.lm)
Call:
lm(formula = producto ~ temperatura + presion)
Residuals:
1 2 3 4
0.4667 1.8667 -1.4000 -0.9333
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -169.5333 62.7645 -2.701 0.226
temperatura 0.3933 0.1548 2.541 0.239
presion 0.8667 0.2087 4.153 0.150
Residual standard error: 2.556 on 1 degrees of freedom
Multiple R-squared: 0.9456, Adjusted R-squared: 0.8367
F-statistic: 8.684 on 2 and 1 DF, p-value: 0.2333
54 / 74
Análisis de regresión de diseños 2k
Un diseño 2k puede ser visto como un modelo de regresión
lineal. Para este propósito, los signos negativos que denotan
los niveles bajos de cada factor, se deben tratar como unidades
negativas (-1). De la misma manera, los niveles altos de los
factores, se deben tratar como unidades positivas (1). Los
coeficientes del modelo resultante, serán equivalentes a la
mitad del efecto principal de cada factor o en su caso, de cada
interacción.
55 / 74
Ejemplo
Mediante regresión lineal,
encuentre los efectos
principales de cada factor, así
como el de cada interacción de
factores, del siguiente diseño
factorial:
A B C D IF
- - - - 45
+ - - - 71
- + - - 48
+ + - - 64
- - + - 68
+ - + - 60
- + + - 80
+ + + - 65
- - - + 43
+ - - + 100
- + - + 45
+ + - + 104
- - + + 75
+ - + + 86
- + + + 70
+ + + + 96
56 / 74
Solución con GNU R
> y <- c(45, 71, 48, 64, 68, 60, 80, 65, 43, 100,
+ 45, 104, 75, 86, 70, 96)
> mm <- c(-1, 1)
> X <- expand.grid(A = mm, B = mm, C = mm, D = mm)
> A <- X$A; B <- X$B; C <- X$C; D <- X$D
> y.lm <- lm(y ~ A * B * C * D)
57 / 74
> round(2 * y.lm$coef, 2)
(Intercept) A B C D
140.00 21.50 3.00 10.00 14.75
A:B A:C B:C A:D B:D
0.00 -18.00 2.50 16.75 -0.25
C:D A:B:C A:B:D A:C:D B:C:D
-1.25 2.00 4.25 -1.75 -2.75
A:B:C:D
1.25
58 / 74
Contenido
Modelos estadísticos
El modelo de regresión lineal simple
Los coeficientes de correlación y determinación
El modelo de regresión lineal múltiple
Análisis de regresión de diseños 2k
Regresión no lineal
Uso de ANOVA en diseños 2k
59 / 74
Universidad Autónoma de Nuevo León
Facultad de Ingenierı́a Mecánica y Eléctrica
Actividad 8 del curso de Diseño de experimentos
Alumno: Matrı́cula
Bajo ciertas suposiciones, es posible deducir el siguiente modelo para
una reacción quı́mica consecutiva con la concentración del producto
intermedio y, el tiempo de reacción x y las constantes de velocidad
β1 y β2.
y =
β1
β1 − β2
(
e−β2 x − e−β1 x
)
Se tienen los siguientes datos experimentales:
x 10 20 30 40 50 60
y 0.20 0.52 0.69 0.64 0.57 0.48
1. 40 puntos Escriba un código en GNU R para estimar los
parámetros del modelo de regresión no lineal. Utilice 0.05 y
0.01 como estimaciones iniciales de los parámetros β1 y β2,
respectivamente.
2. 40 puntos ¿Cuál es el contenido del objeto y.nls?
3. 20 puntos Prediga la concentración para un tiempo de 100.
Pregunta: 1 2 3 Total
Puntos: 40 40 20 100
Calificación:
Ejemplo
La demanda bioquímica de oxígeno (DBO) se utiliza como un
medida de la contaminación producida por los productos
domésticos e industriales. Se acaban de tomar seis muestras,
que se dejan incubar en diferentes botellas con agua pura y
durante varios días. Los resultados se muestran en la siguiente
tabla:
61 / 74
Muestra DBO (mg/L) Incubación (días)
1 109 1
2 149 2
3 149 3
4 191 5
5 213 7
6 224 10
Encuentre los parámetros del modelo
y = β1(1 − e−β2x)
donde y representa el DBO y x son los días de incubación. Por
experiencia, se sabe que los valores de β1 y β2 deben ser del
orden de 100 y 1, respectivamente.
62 / 74
Solución con GNU R
> y <- c(109, 149, 149, 191, 213, 224)
> x <- c(1, 2, 3, 5, 7, 10)
> y.nls <- nls(y ~ b1 * (1 - exp(-b2 * x)),
+ start = list(b1 = 100, b2 = 1))
> y.nls
Nonlinear regression model
model: y ~ b1 * (1 - exp(-b2 * x))
data: parent.frame()
b1 b2
213.8094 0.5472
residual sum-of-squares: 1168
Number of iterations to convergence: 7
Achieved convergence tolerance: 2.438e-06
63 / 74
Ejemplo
El modelo de cinética química, de Michaelis-Menten, es
utilizado para relacionar la velocidad inicial de una reacción
enzimática con la concentración x del sustrato:
y =
θ1x
x + θ2
+ ε.
Estime θ1 y θ2 para los siguientes datos:
64 / 74
Concentración (ppm) Velocidad
0.02 47 76
0.06 97 107
0.11 123 139
0.22 152 159
0.56 191 201
1.10 200 207
65 / 74
Solución
Este problema no ofrece valores iniciales para los estimadores.
Sin embargo, este modelo puede ser «linealizado» así:
1
y
≈
x + θ2
θ1x
,
=
1
θ1
+
θ2
θ1
·
1
x
,
definiendo y′ = 1/y, x′ = 1/x, β0 = 1/θ1 y β1 = θ2/θ1, se tiene:
y′ ≈ β0 + β1x′,
que es un modelo de regresión lineal simple.
66 / 74
Los estimadores del modelo lineal son:
> v1 <- c(47, 97, 123, 152, 191, 200)
> v2 <- c(76, 107, 139, 159, 201, 207)
> y <- c(v1, v2); yp <- 1 / y
> k <- c(0.02, 0.06, 0.11, 0.22, 0.56, 1.10)
> x <- c(k, k); xp <- 1 / x
> yp.lm <- lm(yp ~ xp)
> coef(yp.lm)
(Intercept) xp
0.005107182 0.000247221
por lo tanto,
θ̂1 ≈ 1/0.0051 = 195.8027,
θ̂2 ≈ θ̂1 · β̂1 = 195.8027(2e − 04) = 0.0484.
67 / 74
Los estimadores θ̂1 y θ̂2, pueden ser utilizados como valores
iniciales de nls:
> y.nls <- nls(y ~ z1 * x / (x + z2),
+ start = list(z1=195.8027, z2=0.0484))
> y.nls
Nonlinear regression model
model: y ~ z1 * x/(x + z2)
data: parent.frame()
z1 z2
212.68356 0.06412
residual sum-of-squares: 1195
Number of iterations to convergence: 5
Achieved convergence tolerance: 9.881e-06
68 / 74
Contenido
Modelos estadísticos
El modelo de regresión lineal simple
Los coeficientes de correlación y determinación
El modelo de regresión lineal múltiple
Análisis de regresión de diseños 2k
Regresión no lineal
Uso de ANOVA en diseños 2k
69 / 74
Uso de ANOVA en diseños 2k
Es posible utilizar el análisis de varianza en diseños 2k,
siempre y cuando haya más de una réplica.
70 / 74
Ejemplo de diseño 22 con réplicas
Se estudia el rendimiento de un proceso químico. Los factores
considerados concentración del reactivo (factor A) y cantidad
de catalizador (factor B). El nivel bajo (-) del factor A es 15
porciente y su nivel alto (+) es de 25 porciento. Los niveles del
factor B son una y dos libras (- y +, respectivamente). Se hacen
tres réplicas con cada combinación de los niveles. Los
resultados se muestran en el siguiente cuadro:
71 / 74
Factor Replica
A B I II III
- - 28 25 27
+ - 36 32 32
- + 18 19 23
+ + 31 30 29
72 / 74
> y1 <- c(28, 36, 18, 31)
> y2 <- c(25, 32, 19, 30)
> y3 <- c(27, 32, 23, 29)
> y <- c(y1, y2, y3)
> mm <- c(-1,1)
> d <- expand.grid(A=mm, B=mm)
> A <- factor(rep(d$A,3))
> B <- factor(rep(d$B,3))
> y.aov <- aov(y ~ A * B)
73 / 74
> summary(y.aov)
Df Sum Sq Mean Sq F value Pr(>F)
A 1 208.33 208.33 53.191 8.44e-05 ***
B 1 75.00 75.00 19.149 0.00236 **
A:B 1 8.33 8.33 2.128 0.18278
Residuals 8 31.33 3.92
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
74 / 74
	Modelos estadísticos
	El modelo de regresión lineal simple
	Los coeficientes de correlación y determinación
	El modelo de regresión lineal múltiple
	Análisis de regresión de diseños 2k
	Regresión no lineal
	Uso de ANOVA en diseños 2k