Clase 19 - Inferencia Estadística

Estadística

•
SIN SIGLA

tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5563 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 40
Bibliograf́ıa para esta clase
Para test
Lock, cap. 6 (sec. 6.7)
Wasserman, cap 10 (sec. 10.1 y 10.2 sin power function)
Para Regresión Lineal
ISLR (https://www.statlearning.com/), cap 3 (sec. 3.1.1)
2 / 40
Test de hipótesis
3 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta:
¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2?
↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida:
¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0
4 / 40
Ejemplo divorcio
Queremos saber si la proporción de hombres que considera al
divorcio moralmente aceptable es distinta de las de las mujeres.
Para ello de entrevista a n1 hombres y n2 mujeres y se les
pregunta su opinión sobre el divorcio.
Parámetro/s de interés:
p1 = proporción (poblacional) de hombres que considera al
divorcio moralmente aceptable
p2 = proporción (poblacional) de mujeres que considera al
divorcio moralmente aceptable
Pregunta: ¿ p1 ̸= p2? ↔ ¿ p1 − p2 ̸= 0?
Verdadero parámetro de interés: δ = p1 − p2
Pregunta traducida: ¿δ ̸= 0?
Queremos un test para las hipótesis:
H0 : δ = 0 vs. H1 : δ ̸= 0 4 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1)i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.:
Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.:
X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.:
Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.:
Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Datos en el ejemplo
muestra A: X1, . . . , Xn1 i.i.d.
Def.: Xi = I(el i-ésimo hombre de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n1
Dist.: X1, . . . , Xn1 ∼ Be(p1) i.i.d.
muestra B: Y1, . . . , Yn2 i.i.d.
Def.: Yi = I(la i-ésima mujer de la muestra considera al
divorcio moralmente aceptable), 1 ≤ i ≤ n2
Dist.: Y1, . . . , Yn2 ∼ Be(p2) i.i.d.
las muestras A y B son independientes entre śı.
5 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0
→ justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para las hipótesis
H0 : δ = 0 (p1 = p2) vs.
a) H1 : δ > 0 (p1 > p2); b) H1 : δ < 0 (p1 < p2); c) H1 : δ ̸= 0 (p1 ̸= p2)
tendrá...
Estad́ıstico:
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
≈ N (0, 1) bajo H0 → justificar
↑
¿cómo se compara con el Pivote?
6 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)
=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Estructura del estad́ıstico
T =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
=
δ̂
ŜE(δ̂)
=
δ̂ − 0
ŜE(δ̂)
donde
δ̂ = p̂1 − p̂2
7 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|)
8 / 40
Test asintótico para p1 − p2
Sean
X1, . . . , Xn1 ∼ Be(p1) i.i.d., n1 grande
Y1, . . . , Yn2 ∼ Be(p2) i.i.d., , n2 grande
{Xi}1≤i≤n1 e {Yi}1≤i≤n2 independientes
δ = p1 − p2.
Un test para H0 : δ = 0 vs.
a) H1 : δ > 0 b) δ < 0 c) H1 : δ ̸= 0
tendrá...
Estad́ıstico: T = p̂1−p̂2√
p̂1(1−p̂1)
n1
+
p̂2(1−p̂2)
n2
≈ N (0, 1) bajo H0
RR de nivel asintótico α:
a) R = {T > zα} b) R = {T < −zα} c) R = {|T | > zα/2}
p-valor:
a) P(Z ≥ Tobs) b) P(Z ≤ Tobs) c) P(|Z| ≥ |Tobs|) 8 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2.
⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemos nada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Implementación en R
¿Qué información necesitamos para calcular el p-valor?
p− valor = P(Z ≥ Tobs), P(Z ≤ Tobs) ó P(|Z| ≥ |Tobs|)
Tobs =
p̂1 − p̂2√
p̂1(1−p̂1)
n1
+ p̂2(1−p̂2)n2
pero p̂i =
xi
ni
con xi = cant. éxitos en muestra i, i = 1, 2. ⇒
necesitamos
(x1, x2) y (n1, n2)
H1
prop.test(x = c(x1, x2), n = c(n1, n2), alternative
=, correct = FALSE, conf.level = 1-alfa)
en alternative ponemos “two.sided”, “greater” o “less”
¿por qué no ponemosnada en el argumento “mu”?
ponemos “correct = FALSE” para que nos dé igual
9 / 40
Ejemplo divorcio (tarea)
Se entrevistó a 1029 hombres y 1039 mujeres a los que se les
preguntó si consideraban al divorcio moralmente aceptable. En
esta muestra, 738 hombres y 696 mujeres respondieron que śı.
1 ¿proporcionan estos datos evidencia a nivel 5 % de que
hombres y mujeres tienen distinta opinión sobre el divorcio?
2 ¿proporcionan estos datos evidencia a nivel 5 % de que la
proporción de hombres que consideran al divorcio moralmente
aceptable es mayor que la de las mujeres? ¿puede responder
este ı́tem sin hacer más cuentas? es decir, sin calcular ningún
otro test.
3 Calcule e interprete un IC de nivel 0.95 para p1 − p2.
En R:
prop.test(x = c(738, 696), n = c(1029, 1039),
alternative = "two.sided", correct = FALSE)
10 / 40
Ejemplo divorcio (tarea)
Se entrevistó a 1029 hombres y 1039 mujeres a los que se les
preguntó si consideraban al divorcio moralmente aceptable. En
esta muestra, 738 hombres y 696 mujeres respondieron que śı.
1 ¿proporcionan estos datos evidencia a nivel 5 % de que
hombres y mujeres tienen distinta opinión sobre el divorcio?
2 ¿proporcionan estos datos evidencia a nivel 5 % de que la
proporción de hombres que consideran al divorcio moralmente
aceptable es mayor que la de las mujeres? ¿puede responder
este ı́tem sin hacer más cuentas? es decir, sin calcular ningún
otro test.
3 Calcule e interprete un IC de nivel 0.95 para p1 − p2.
En R:
prop.test(x = c(738, 696), n = c(1029, 1039),
alternative = "two.sided", correct = FALSE)
10 / 40
Regresión Lineal
11 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Nos contrata el gerente de ventas de Nike
para que lo ayudemos a diseñar una estrategia
de marketing para incrementar las ventas.
Para eso, nos
da un conjunto de datos con información sobre
200 mercados con las siguientes variables:
sales: ventas totales (en miles de unidades vendidas)
TV: inversión en publicidad en TV (en miles de dólares)
radio: inversión en publicidad en radio (en miles de dólares)
newspaper: inversión en publicidad en diario (en miles de
dólares)
12 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Ejemplo
Objetivo del cliente: aumentar las ventas.
Nuestro objetivo: estudiar la relación entre el presupuesto
invertido en publicidad en los distintos medios y las ventas.
↑
queremos un modelo que nos ayude a predecir las ventas en
función de la inversión en publicidad en cada medio.
13 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y
→ la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.:
sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
ObjetivosPredecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp
→ las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.:
TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir
→ predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar
→ entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecirY en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión:
Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación:
Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Modelo de aprendizaje supervisado
Modelo en el cual tenemos
Variale de respuesta: Y → la que queremos predecir
(Ej.: sales)
(variable dependiete / outcome)
Variables explicativas: X1, . . . Xp → las que usamos para
predecir la Y
(Ej.: TV, radio, newspaper)
(variables predictoras o independientes / covariables / features)
Objetivos
Predecir → predecir Y en función de (X1, . . . , Xp)
Explicar → entender la relación entre Y y (X1, . . . , Xp)
Tipos
Regresión: Y es cuantitativa (numérica)
(Ej.: Y = ventas)
Clasificación: Y es cualitativa (categórica)
(Ej.: Y = tipo de cáncer, I(default))
14 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión lineal
el más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Tipo de modelos de aprendizaje supervisado
Regresión (Y cuantitativa)
↑
Modelo de regresión linealel más sencillo
útil en muchas situaciones y fácil de interpretar
base para entender modelos de IA o maching learning más
sofisticados
Clasificación (Y cualitativa)
↑
Modelo de regresión loǵıstica
uno de los más sencillos
extensión del modelo de regresión lineal
base para construir redes neuronales (TD VI: IA).
15 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Gráficos
Paso 1: graficar los datos → para
detectar errores
anticipar posibles resultados
evaluar si se satisfacen los supuestos
16 / 40
Preguntas importantes
1 ¿Existe alguna relación (o asociación) entre el presupuesto
invertido en publicidad y las ventas?
17 / 40
Preguntas importantes
1 ¿Existe alguna relación (o asociación) entre el presupuesto
invertido en publicidad y las ventas?
17 / 40
Preguntas importantes
2 ¿Cuán fuerte es esa asociación si la hay?
18 / 40
Preguntas importantes
2 ¿Cuán fuerte es esa asociación si la hay?
18 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Preguntas importantes
1 ¿Qué medios están asociados con las ventas?
2 ¿Cuán alta es la asociación entre cada medio y las ventas?
19 / 40
Regresión Lineal Simple
Regresión Lineal
→ sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple
→ una única covariable X (Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X
(Ej.: X =
TV)
20 / 40
Regresión Lineal Simple
Regresión Lineal → sirve para entender la relación entre
Variable de respuesta: Y
(Ej.: Y = sales)
Covariables (variables explicativas): X1, . . . , Xp
(Ej.: X1 = TV, X2 = radio, X3 = newspaper)
Regresión Lineal Simple → una única covariable X (Ej.: X =
TV)
20 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
21 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
22 / 40
Ejemplo
Datos: (X1, Y1), . . . , (Xn, Yn) donde, para 1 ≤ i ≤ n
Xi = presupuesto invertido en TV.
Yi = ventas totales.
Gráfico:
22 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1
→ parámetros del modelo
23 / 40
Modelo en el ejemplo
Y = β0 + β1X + ϵ
donde
(X,Y ) = inversión en TV y ventas en un mercado elegido al
azar de la población
ϵ = término del error
engloba a todos los otros factores que influyen en las ventas
es una v.a. no observada
β0 y β1 → parámetros del modelo
23 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación:asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo:
β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1,
σ2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2
→ ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1.
24 / 40
Modelo en base a las observaciones
Yi = β0 + β1Xi + ϵi 1 ≤ i ≤ n
Simplificación: asumiremos las x′is fijas.
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Suposiciones:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Parámetros del modelo: β0, β1, σ
2 → ¿para qué los
estimamos?
Estimaremos β0 y β1 para predecir (o explicar) a Y en base a
X
Estimaremos σ2 para cuantificar la incertidumbre de la
estimación de β0 y β1. 24 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi
⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues
β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
ϵ1, . . . , ϵn independientesE(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
Obs.: los supuestos son sobre las ϵi ⇒ debemos entender qué son
ϵi = Yi − (β0 + β1xi)
⇒ las ϵi son no observadas pues β0 y β1 son desconocidas.
25 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Interpretación de los supuestos
Errores del modelo: ϵi = Yi − (β0 + β1xi)
Recta de regresión: m(x) = β0 + β1x
modela la relación entre X e Y
desconocida
Supongamos que la conocemos
Supuestos:
ϵ1, . . . , ϵn independientes
E(ϵi) = 0 ∀i
V(ϵi) = σ2 ∀i
26 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes
⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i
⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) =
β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i
⇔ V(Yi) = σ2 ∀i
27 / 40
Supuestos en términos de las Yi
Modelo:
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Supuestos:
1 ϵ1, . . . , ϵn independientes ⇔ Y1, . . . , Yn independientes
2 E(ϵi) = 0 ∀i ⇔ E(Yi) = β0 + β1xi ∀i
(el modelo lineal es en el fondo un modelo para la relación
entre x y E(Y ))
3 V(ϵi) = σ2 ∀i ⇔ V(Yi) = σ2 ∀i
27 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1
→ para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → para predecir (o explicar) a Y en base a X
σ2 → para cuantificar la incertidumbre de la estimación de β0
y β1.
28 / 40
Estimación de los parámetros
Yi = β0 + β1xi + ϵi, 1 ≤ i ≤ n
Necesitamos estimar...
β0 y β1 → empecemos por acá
σ2
29 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómomedimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimación por ḿınimos cuadrados
Idea: hallar la recta que más se acerque a los puntos (xi, yi)
observados.
↑
¿cómo medimos la distancia de una recta a un conjunto de
puntos?
1 calculamos las distancias verticales de cada punto a la recta.
2 Las elevamos al cuadrado
3 las sumamos
Dada una recta y = b0 + b1x, medimos su distancia al conjunto de
puntos (xi, yi)1≤i≤n con
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
Objetivo: hallar (β̂0, β̂1) que minimicen L(b0, b1)
30 / 40
Estimadores de ḿınimos cuadrados
Los estimadores de ḿınimos cuadrados (EMC) de (β0, β1) son los
(β̂0, β̂1) que minimizan
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
31 / 40
Estimadores de ḿınimos cuadrados
Los estimadores de ḿınimos cuadrados (EMC) de (β0, β1) son los
(β̂0, β̂1) que minimizan
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
31 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados
L(b0, b1) =
n∑
i=1
[Yi − (b0 + b1xi)]2
(β̂0, β̂1) resuelven el sistema de ecuaciones...
∂
∂b0
L(b0, b1) = 0
∂
∂b1
L(b0, b1) = 0
Es decir, el sistema de ecuaciones...
n∑
i=1
[Yi − (b0 + b1xi)] = 0
n∑
i=1
[(Yi − (b0 + b1xi)]xi = 0
Ecuaciones normales
32 / 40
Estimadores de ḿınimos cuadrados (EMC)
Estimadores de ḿınimos cuadrados:
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
(Idea de la dem. en esta sección de “Rice, J. A.,
Mathematical statistics and data analysis”)
33 / 40
https://campusvirtual.utdt.edu/mod/folder/view.php?id=222782
Estimadores de ḿınimos cuadrados (EMC)
Estimadores de ḿınimos cuadrados:
β̂0 = Y n − β̂1xn
β̂1 =
∑n
i=1(xi − xn)(Yi − Y n)∑n
i=1(xi − xn)2
(Idea de la dem. en esta sección de “Rice, J. A.,
Mathematical statistics and data analysis”)
33 / 40
https://campusvirtual.utdt.edu/mod/folder/view.php?id=222782
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué.
Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta que más se acerca a los puntos observados
sirve para “predecir” el valor de Y para una x dada → ¿xq?
34 / 40
Rectas de regresión y de cuadrados ḿınimos
Dijimos que estimar a (β0, β1) nos serv́ıa para predecir Y en base a
X, veamos por qué. Para eso, definamos...
Recta de regresión:
m(x) = β0 + β1x
describe la “verdadera” relación entre X e Y
desconocida
Recta de ḿınimos cuadrados:
m̂(x) = β̂0 + β̂1x
estimación de la recta de regresión
la recta