Logo Studenta

Clase 19 - Inferencia Estadística

¡Este material tiene más páginas!

Vista previa del material en texto

Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 40
Bibliograf́ıa para esta clase
Para test
Lock, cap. 6 (sec. 6.7)
Wasserman, cap 10 (sec. 10.1 y 10.2 sin power function)
Para Regresión Lineal
ISLR (https://www.statlearning.com/), cap 3 (sec. 3.1.1)
2 / 40
Test de hipótesis
3 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta:
¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2?
↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida:
¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0 4 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1)i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.:
Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.:
X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.:
Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.:
Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0
→ justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)
=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)
=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|) 8 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2.
⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemosnada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Ejemplo divorcio (tarea)
Se entrevistó a 1029 hombres y 1039 mujeres a los que se les
preguntó si consideraban al divorcio moralmente aceptable. En
esta muestra, 738 hombres y 696 mujeres respondieron que śı.
1 ¿proporcionan estos datos evidencia a nivel 5 % de que
hombres y mujeres tienen distinta opinión sobre el divorcio?
2 ¿proporcionan estos datos evidencia a nivel 5 % de que la
proporción de hombres que consideran al divorcio moralmente
aceptable es mayor que la de las mujeres? ¿puede responder
este ı́tem sin hacer más cuentas? es decir, sin calcular ningún
otro test.
3 Calcule e interprete un IC de nivel 0.95 para p1 − p2.
En R:
prop.test(x = c(738, 696), n = c(1029, 1039),
alternative = "two.sided", correct = FALSE)
10 / 40
Ejemplo divorcio (tarea)
Se entrevistó a 1029 hombres y 1039 mujeres a los que se les
preguntó si consideraban al divorcio moralmente aceptable. En
esta muestra, 738 hombres y 696 mujeres respondieron que śı.
1 ¿proporcionan estos datos evidencia a nivel 5 % de que
hombres y mujeres tienen distinta opinión sobre el divorcio?
2 ¿proporcionan estos datos evidencia a nivel 5 % de que la
proporción de hombres que consideran al divorcio moralmente
aceptable es mayor que la de las mujeres? ¿puede responder
este ı́tem sin hacer más cuentas? es decir, sin calcular ningún
otro test.
3 Calcule e interprete un IC de nivel 0.95 para p1 − p2.
En R:
prop.test(x = c(738, 696), n = c(1029, 1039),
alternative = "two.sided", correct = FALSE)
10 / 40
Regresión Lineal
11 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y
→ la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.:
sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
ObjetivosPredecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp
→ las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.:
TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir
→ predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar
→ entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecirY en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión:
Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación:
Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión linealel más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Preguntas importantes
1 ¿Existe alguna relación (o asociación) entre el presupuesto
invertido en publicidad y las ventas?
17 / 40
Preguntas importantes
1 ¿Existe alguna relación (o asociación) entre el presupuesto
invertido en publicidad y las ventas?
17 / 40
Preguntas importantes
2 ¿Cuán fuerte es esa asociación si la hay?
18 / 40
Preguntas importantes
2 ¿Cuán fuerte es esa asociación si la hay?
18 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Regresión Lineal Simple
Regresión Lineal
→ sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple
→ una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X
(Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
22 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
22 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1
→ parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación:asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo:
β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1,
σ2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2
→ ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1. 24 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi
⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues
β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientesE(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i
⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) =
β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i
⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1
→ para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → empecemos por acá
σ2
29 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómomedimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimadores de ḿınimos cuadrados
Los estimadores de ḿınimos cuadrados (EMC) de (β0, β1) son los
(β̂0, β̂1) que minimizan
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
31 / 40
Estimadores de ḿınimos cuadrados
Los estimadores de ḿınimos cuadrados (EMC) de (β0, β1) son los
(β̂0, β̂1) que minimizan
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
31 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados (EMC)
Estimadores de ḿınimos cuadrados:
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
(Idea de la dem. en esta sección de “Rice, J. A.,
Mathematical statistics and data analysis”)
33 / 40
https://campusvirtual.utdt.edu/mod/folder/view.php?id=222782
Estimadores de ḿınimos cuadrados (EMC)
Estimadores de ḿınimos cuadrados:
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
(Idea de la dem. en esta sección de “Rice, J. A.,
Mathematical statistics and data analysis”)
33 / 40
https://campusvirtual.utdt.edu/mod/folder/view.php?id=222782
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué.
Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta

Continuar navegando