Logo Studenta

Tema10_RegMultiple_EDB_2016-II

¡Este material tiene más páginas!

Vista previa del material en texto

1 ESTADÍSTICA BÁSICA 
2 ESTADÍSTICA BÁSICA 
10. Regresión Múltiple 
3 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
4 ESTADÍSTICA BÁSICA 
1-La recta de regresión 
𝑥 
𝑦 
Buscamos una recta muy concreta llamada 
RECTA DE REGRESIÓN 
Es la recta que, dado el valor 
de X proporciona la mejor 
predicción de Y 
𝑦� = 𝛽0 + 𝛽1𝑥 
Predicción de 𝑦 
Factor, o 
variable 
explicativa, 
5 ESTADÍSTICA BÁSICA 
EN ESTE TEMA vamos a suponer que nuestros datos son una muestra de una 
población. Podemos pensar entonces que existirá una recta de regresión para toda 
la población, que será desconocida. Nosotros intentamos ‘estimarla’ con nuestra 
muestra. 
Población Muestra 
𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 
Recta con coeficientes ‘poblacionales’. Son los 
que obtendríamos si tuviésemos toda la 
población de pares (𝑥,𝑦), posiblemente infinitos. 
𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 
𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 
𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 
Recta con coeficientes muestrales. Se interpretan 
como estimaciones de los poblacionales. Son los 
que obtenemos con la muestra. Por tanto, tienen 
variabilidad muestral. 
6 ESTADÍSTICA BÁSICA 
 
 
X 
𝑦 
ix
Valor observado 
Valor previsto 
por la recta 
valor observado 
La recta de regresión 
La recta de regresión es la recta 
que, dado el valor de 𝑋 , me da 
la mejor predicción de 𝑌 
Error de predicción 
𝑒𝑖 
𝑦� = �̂�0 + �̂�1𝑥 
𝑦𝑖 = �̂�0 + �̂�1𝑥𝑖 + 𝑒𝑖 
𝑦𝑖 = 𝑦�𝑖 + 𝑒𝑖 
𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 
( , )i ix y
𝑦�𝑖 
𝑦𝑖 
𝑒𝑖 = 𝑦𝑖 − 𝑦�𝑖 
7 ESTADÍSTICA BÁSICA 
Población Muestra 
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝑢𝑖 
𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 
𝑦𝑖 = �̂�0 + �̂�1𝑥𝑖 + 𝑒𝑖 
𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 
En la recta poblacional (desconocida), la 
distancia de la recta a cada punto (error 
de predicción) se denota por 𝑢𝑖 y se 
denomina término de error o 
perturbación: 
𝑢𝑖 = 𝑦𝑖 − (𝛽0+𝛽1𝑥𝑖) 
En la recta que obtenemos con la 
muestra, la distancia de la recta a cada 
punto (error de predicción) se denota por 
𝑒𝑖y se denomina residuo: 
𝑒𝑖 = 𝑦𝑖 − (�̂�0 + �̂�1𝑥𝑖) 
8 ESTADÍSTICA BÁSICA 
 
 
X 
y 
( , )i ix y
iy
ix
ˆiy
valor observado 
La recta de regresión 
𝑒𝑖 
Buscamos la recta que minimiza 
los errores de predicción: 
 
2
1
min
N
i
i
e
=
∑
(recta de mínimos cuadrados) 
𝑦� = �̂�0 + �̂�1𝑥 
9 ESTADÍSTICA BÁSICA 
La recta de regresión 
X 
y 
( , )i ix y
x
y
SOLUCIÓN 
𝑦� = �̂�0 + �̂�1𝑥 𝜷�𝟏 =
𝒄𝒄𝒄(𝒙,𝒚)
𝒔𝒙𝟐
 
𝜷�𝟎 = 𝒚� − 𝜷�𝟏𝒙� 
Si cambian los 
datos, cambia la 
recta 
10 ESTADÍSTICA BÁSICA 
Loc.1: 
media: 2.51 
varianza: 1.91 
Loc.2: 
media: 3.28 
varianza: 2.36 
cov (V1,V2)=1.995 
2 1
ˆ 0.657 1.045V V= + ×
Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 
m/s, la predicción en la Localización 2 es de un viento de 
 
𝑽�𝟐 = 0.657+1.045x5=5.88 m/s 
 
Ejemplo 
�̂�1 = 𝑐𝑐𝑐(𝑥,𝑦) 𝑐𝑣𝑣 𝑥⁄ = 1.995 1.91⁄ = 1.045 
�̂�0 = 𝑦� − �̂�1�̅� = 3.28 − 1.045 2.51 = 0.657 
La variable V1 tiene la velocidad del viento registrada cada hora 
en la localización 1, mientras que la variable V2 tiene las 
velocidades registradas en esos mismos instantes en la 
localización 2. Se tiene un total de 115 pares de medidas horarias 
11 ESTADÍSTICA BÁSICA 
2 1
ˆ 0.657 1.045V V= + ×
Ejemplo 
Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en 
la localización 2 se prevé que lo hará en 1.045 m/s. El 
comportamiento del viento es casi idéntico en ambas localizaciones. 
La variable V1 tiene la velocidad del viento registrada cada hora 
en la localización 1, mientras que la variable V2 tiene las 
velocidades registradas en esos mismos instantes en la 
localización 2. Se tiene un total de 115 pares de medidas horarias 
12 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
13 ESTADÍSTICA BÁSICA 
El valor real de la variable 𝑌 puede depender de muchos factores: 
𝑋1,𝑋2,𝑋3, … ,𝑋𝑀, con M un número posiblemente muy grande. Algunos factores 
pueden ser desconocidos. 
• Y: variable dependiente 
• 𝑋1,𝑋2,𝑋3, … ,𝑋𝑀: factores, variables explicativas, variables independientes,… 
𝑌 
Función 
 
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2
+ ⋯+ 𝛽𝑀𝑋𝑀 
En general, la relación de 𝑌 con las 𝑋𝑋𝑋 puede ser complicada e incluso 
desconocida 
𝑌 = 𝑓(𝑋1,𝑋2,𝑋3, … ,𝑋𝑀) 
Como primera simplificación, asumiremos que la relación sigue un modelo lineal. 
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 
⋮ 
𝑋1 
𝑋2 
𝑋3 
𝑋𝑀 
𝑋4 
14 ESTADÍSTICA BÁSICA 
𝑌 
Función 
 
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝑢 
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 
𝑋1 
En Regresión Simple utilizamos sólo la información de un factor, 𝑋1, para predecir 𝑌. 
Para un mismo valor de 𝑋1, la variable 𝑌 podría entonces tomar diferentes valores, debido 
a la influencia del resto de factores no considerados: 𝑋2, … ,𝑋𝑀. A la influencia de estos 
factores le denominamos perturbación o término de error, y usaremos la letra 𝑢. 
𝑌� = 𝛽0 + 𝛽1𝑋1 
Valor previsto por 
la reg. simple 
𝑌� = 𝛽0 + 𝛽1𝑋1 
Error que comete la regresión 
simple 𝑌� = 𝛽0 + 𝛽1𝑋1 
𝑢 
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝑢 
Si sólo usamos una variable explicativa, omitiremos su subíndice 
𝑢 𝑌� 
Modelo de regresión simple 
15 ESTADÍSTICA BÁSICA 
𝑌 
Función 
 
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 
𝑢 = 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 
𝑋 
𝑢 
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 
Para entender la influencia de 𝒆 podemos plantear el siguiente experimento aleatorio 
“Fijamos el valor de 𝑋 y observamos el valor resultante de 𝑌” 
Entonces, aunque 𝑋 no varíe, el resto de factores 𝑋2, … ,𝑋𝑀 sí puede hacerlo, 
pues no se controlan en el experimento. El resultado es que 𝑌 tomará valores 
diferentes cada vez que repitamos el experimento aleatorio. Por tanto, para un 
valor fijo de 𝑋, 𝑌 es una variable aleatoria por culpa de 𝑢. 
¿Cómo es la variable aleatoria 𝑢? Asumiremos que M es grande y, por tanto, por el 
Teorema del Límite Central 𝑢 sigue una Normal 
𝑢 ∼ 𝑁(0,𝜎2) 
constante 
𝑌 ∼ 𝑁(𝛽0 + 𝛽1𝑋;𝜎2) 
fijo 
16 ESTADÍSTICA BÁSICA 
𝛽0 + 𝛽1𝑋 
Y Y 
X X 
Dado el par observado 𝑥𝑖 ,𝑦𝑖 de las variables (𝑋,𝑌) , interpretamos que el 
valor de 𝑦𝑖 es una realización la normal 𝑁 𝛽0 + 𝛽1𝑥𝑖;𝜎2 
Suponemos que el error 𝑢 es homogéneo a lo largo de la recta: su varianza es 
constante (homocedasticidad) 
Influencia de otros factores 
El “modelo estadístico de regresión simple” 
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 
MODELO 
DATOS 
𝑢 ∼ 𝑁(0,𝜎2) 
17 ESTADÍSTICA BÁSICA 
Como ya hemos viso antes, dada la muestra 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, . . ,𝑛, estimamos 𝛽0,𝛽1 
usando el método de mínimos cuadrados. Obtenemos así 𝛽�0 y 𝛽�1. 
Para estimar el modelo tenemos que estimar 𝛽0,𝛽1 y 𝜎2 
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 𝑢 ∼ 𝑁(0,𝜎2) 
𝑒𝑖 = 𝑦𝑖 − (�̂�0 + �̂�1𝑥𝑖); 𝑖 = 1, … ,𝑛 
Se estima entonces 𝜎2 con el siguiente estimador, denominado varianza residual: 
�̂�𝑅2 =
∑ 𝑒𝑖2𝑛𝑖=1
𝑛 − 2 
Se puede demostrar que es insesgado. 
Con estas estimaciones, ‘estimamos’ el término de error, que denominamos 
RESIDUO: 
�̂�1 =
𝑐𝑐𝑐(𝑥,𝑦)
𝑋𝑥2
 �̂�0 = 𝑦� − �̂�1𝑥 � 
El “modelo estadístico de regresión simple” 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las 
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y 
QG1. Vamos a construir un modelo de regresión simple que prediga la nota 
deQG1 a partir de la de ICS para la población de la que procede nuestra 
muestra. 
Primero de todo debemos visualizar la 
relación. Si es lineal, tendrá sentido estimar 
los coeficientes de mínimos cuadrados (lo 
haremos con ordenador) 
• Los alumnos que tienen un 11 en ICS tienen, por término medio, un 3.89 + 0.637 × 11 =
10.9 en QG1. Y si en ICS tienen un 18, en QG1 tienen, por término medio, 15.4. 
• Dada la calificación de ICS, la de QG1 es la variable aleatoria 
QG1 ∼ 𝑁 3.89 + 0.637 ICS ; σ�2 = 1.899432 
• ¿Cuál es la probabilidad de que un alumno que tiene 17 en ICS tenga más de 15 en QG1? 
• ¿Qué nota media tendrán en QG1 los alumnos que tienen 0 en ICS? 
20 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las 
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y 
QG1. Tiene también las variables de Peso y Altura de los estudiantes. 
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura? 
¿A mayor altura es más fácil 
aprobar? 
¿A mayor peso, más nota en 
ICS? 
ICS=𝛽0 + 𝛽1PESO+u ¿No sería más lógico que 𝛽1 = 0? 
(Lo que nos da el ordenador no es 𝛽1 sino 𝛽�1) 
21 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que 
invirtieron los estudiantes en realizar un avión de papel. 
¿Los altos son más torpes haciendo aviones? 
TIEMPO=𝛽0 + 𝛽1ALTURA+u ¿No sería más lógico que 𝛽1 = 0? 
22 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
23 ESTADÍSTICA BÁSICA 
3. Inferencia en regresión simple 
De todos los temas que podemos ver sobre inferencia en regresión simple, nos 
centraremos en aprender a contrastar si la variable 𝑋 es o no relevante para explicar 
la variabilidad de la variable de salida 𝑌 
Si la variable X es relevante: 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 (𝛽1 ≠ 0) 
Si la variable X es irrelevante: 𝑌 = 𝛽0 + 𝑢 (𝛽1 = 0) 
Como lo único que tendremos es la recta estimada 
𝑌 = �̂�0 + �̂�1𝑋 + 𝑒 
Necesitaremos usar esta estimación para contrastar la hipótesis 
𝐻0:𝛽1 = 0 
𝐻1:𝛽1 ≠ 0 
Este contraste se denomina contraste de significatividad individual 
24 ESTADÍSTICA BÁSICA 
5. Inferencia en regresión simple 
𝐻0:𝛽1 = 0 
𝐻1:𝛽1 ≠ 0 
• Estadístico de contraste: 
𝑡 =
𝛽�1𝑆𝑥 𝑛
�̂�𝑅
 
Contaste de significatividad individual: 
• Distribución de referencia 
• Para 𝑢 normal: 𝑡𝑛−2 
• Si 𝑛 es grande (típicamente 𝑛 > 100), es la 𝑁 0,1 
y no es necesario que 𝑢 sea normal 
• La región de rechazo es a dos colas. Los ordenadores nos proporcionan el p-valor 
Rechazo H0 Rechazo H0 
Acepto H0 
α /2zα− /2z
α−1; /2ntα−− 1; /2nt
25 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las 
calificaciones de un conjunto de estudiantes en las asignaturas de ICS y 
QG1. Tiene también las variables de Peso y Altura de los estudiantes. 
¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura? 
Como era lógico, las variables no son significativas. El coeficiente 
estimado no nulo se debe al azar del muestreo 
26 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que 
invirtieron los estudiantes en realizar un avión de papel. 
¿Los altos son más torpes haciendo aviones? 
Como era lógico, la variable no es significativa. El coeficiente 
estimado no nulo se debe al azar del muestreo. 
27 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
28 ESTADÍSTICA BÁSICA 
Definimos ahora un modelo lineal que explique o prediga Y a partir de un 
conjunto de K variables X 
Variable ‘respuesta’ o ‘dependiente’: 
Variables ‘explicativas’, o 
‘independientes’, o ‘regresores’: 
Para la observación i-ésima 
Modelo de regresión múltiple 
4.Definición del modelo de regresión múltiple 
29 ESTADÍSTICA BÁSICA 
Hipótesis básicas en las que se basa el modelo de regresión múltiple 
Influencia del resto de variables 
(serán muchas, y por el TCL tenderá 
a la normal) 
2~ (0, )ie N σ
1. La relación entre Y y las variables explicativas X es lineal 
2. El término de error e es normal, de media cero y varianza constante 
(homocedástico) 
Se pueden resumir en: 
A la esperanza de 𝑦𝑖 cuando conocemos el valor 
de𝑥1𝑖,…,𝑥𝐾𝑖, le denominamos Esperanza condicionada 
Dados unos valores de𝑥1𝑖 ,…,𝑥𝐾𝑖 , la predicción de 𝑦𝑖 es la esperanza 
condicionada 
30 ESTADÍSTICA BÁSICA 
Hipótesis básicas en las que se basa el modelo de regresión múltiple 
Influencia del resto de variables 
(serán muchas, y por el TCL tenderá 
a la normal) 
2~ (0, )ie N σ
1. La relación entre Y y las variables explicativas X es lineal 
2. El término de error e es normal, de media cero y varianza constante 
(homocedástico) 
Se pueden resumir en: 
Predicción de 𝑦𝑖 
A la varianza de 𝑦𝑖 cuando conocemos el valor 𝑥1𝑖 ,…,𝑥𝐾𝑖 le 
llamamos varianza condicionada 
Hipótesis básicas en las que se basa el modelo de regresión múltiple 
Influencia del resto de variables 
(serán muchas, y por el TCL tenderá 
a la normal) 
2~ (0, )ie N σ
1. La relación entre Y y las variables explicativas X es lineal 
2. El término de error e es normal, de media cero y varianza constante 
(homocedástico) 
Conclusión: 
Se pueden resumir en: 
32 ESTADÍSTICA BÁSICA 
Es útil escribirlo en forma matricial: 
Parámetros: los parámetros 
 y la varianza 
¿Qué valores 
usaremos? 
33 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
34 ESTADÍSTICA BÁSICA 
5.Estimación del modelo de regresión múltiple 
Desconocemos el valor de los parámetros. Son 
parámetros poblacionales: desconocidos 
Los estimamos con una muestra de datos 
Buscamos los valores que 
minimicen el término de error 
(como en regresión simple) 
Para K=1 sale lo mismo que lo visto en regresión simple 
35 ESTADÍSTICA BÁSICA 
Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura a 
partir del peso y la talla de zapato 
36 ESTADÍSTICA BÁSICA 
Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura a 
partir del peso y la talla de zapato 
Sólo peso (reg. simple) Peso y altura (reg. múltiple) 
Altura=77.7+0.13 Peso+2.16 Zapato+e Altura=138.4+0.53 Peso+e 
Si una persona pesa 80 kg, su altura esperada 
(media de las personas con 80 kg) es 
 
Altura media (o prevista)=138+0.53x80=180.4 cm 
Si una persona pesa 80 kg, su altura esperada es: 
depende de la talla de zapato. 
 
Si calza un 37, la altura media es (media de las 
personas con 80 kg y talla 37) : 
 
Altura media=77.7+0.13x80+2.16x37=168.02 cm 
 
Si calza un 43, la altura media es (media de las 
personas con 80 kg y talla 43) : 
 
Altura media=77.7+0.13x80+2.16x43=181.98 cm 
 
 
 Como la altura depende mucho de la talla de zapato (relacionado con la 
constitución de la persona), el modelo es muy diferente si fijamos la talla de 
zapato (reg. múltiple) a si no la tenemos en cuenta (reg. simple). El modelo de 
regresión tiene en cuenta esta relación. Si fijamos la talla de zapato, la 
influenciadel Peso es ya menor. 
37 ESTADÍSTICA BÁSICA 
Regresión simple 
Regresión múltiple 
El coeficiente de X1 en una regresión simple dice cuánto cambiaría Y (por término medio) si 
X1 aumentase en una unidad. Mide la influencia (total) de X1 sobre Y 
El coeficiente de X1 en una regresión múltiple dice cuánto cambiaría Y (por término medio) si X1 
aumentase en una unidad, pero el resto de variables no. Mide la contribución marginal (diferencial) de 
X1 sobre Y, cuando el resto de variables se mantienen fijas 
38 ESTADÍSTICA BÁSICA 
Falta estimar el parámetro 
1-Calculamos los residuos de cada observación 
Altura=77.7+0.13 Peso+2.16 Zapato+e 
39 ESTADÍSTICA BÁSICA 
Falta estimar el parámetro 
1-Calculamos los residuos de cada observación 
2-Usamos el siguiente estimador insesgado –Varianza residual- 
donde p=número de parámetros beta: 
• con término constante: K+1 
• sin término constante: K 
40 ESTADÍSTICA BÁSICA 
Coeficiente de determinación R2: medida del el % de la variabilidad de Y que 
está explicada por la regresión (misma definición que en regresión simple) 
Parte de Y explicada por la 
regresión que hemos estimado 
Parte de Y no 
explicada por la 
regresión 
Puede demostrarse que al incluir más variables en la regresión múltiple el 
R2 siempre aumenta, aunque las variables sean irrelevantes 
Coeficiente de determinación corregido (o 
ajustado. Sólo aumenta si añadimos variables 
relevantes 
¿Mayor R2 es mejor? 
variables 
irrelevantes 
42 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
variables 
irrelevantes 
¿Cómo sabemos si las variables son relevantes o no? 
¿Tenemos que preguntar a un experto en el tema? 
¿Nos lo pueden decir los datos? 
Si la variable Xi no aporta nada en el modelo de regresión: 
... pero nosotros no observamos sino 
 
y será en general 
¿Cómo sabemos a partir de si Xi es relevante? 
44 ESTADÍSTICA BÁSICA 
6. Inferencia en regresión múltiple. 
El valor numérico de los parámetros es desconocido. 
Usamos un estimador 
• El estimador es una variable aleatoria 
• Nosotros sólo observamos un valor con nuestra muestra 
• ¿Cuáles son las propiedades de este estimador? 
• ¿Cuál es su distribución en el muestreo? 
Aplicamos este estimador a nuestros datos y obtenemos las estimaciones 
Si n es grande o si 2~ (0, )ie N σ
donde qii es el elemento i-ésimo de la diagonal de (X’X)-1 
45 ESTADÍSTICA BÁSICA 
Basándonos en esta propiedad podemos 
hacer el contraste de si una variable es o 
no ‘significativa’ 
Variable significativa=es relevante incluirla en la regresión, por tener 
información sobre Y no incluida en el resto de 
las variables 
Variable no significativa: 
Basándonos en podemos hacer un contraste de 
hipótesis (ver detalles en los apuntes): 
Si el p-valor es pequeño (<0.05) rechazamos Ho, y la variable se considera 
significativa (con ese p-valor) 
Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura de 
un estudiante a partir de su peso, su talla de zapato y ¿el dinero 
que lleva encima? Tenemos 95 observaciones 
El p-valor de ‘dinero’ es muy alto. No es una variable significativa si usamos un nivel de significación 
del 5%. No podemos rechazar que su parámetro sea 0. Eliminamos esa variable y reestimamos el 
modelo. 
Si hubiese más de una variable no significativa, las eliminamos una a una. (el contraste es sobre la 
significatividad de una variable cuando están las demás en el modelo) 
47 ESTADÍSTICA BÁSICA 
Ejemplo: Fichero AlumnosIndustriales. Queremos predecir la altura de un 
estudiante a partir de su peso, su talla de zapato. Tenemos 95 
observaciones. 
Las dos variables son significativas 
¿Cuál es la probabilidad de 
que una persona con un 40 
de zapato y pesando 60 kilos 
mida más de 185? P(Y>185)=0.019 
48 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelo de regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
49 ESTADÍSTICA BÁSICA 
7. Diagnosis del modelo de regresión. 
El modelo que se haya construido sólo es válido si se cumplen las hipótesis 
básicas. Se pueden resumir en: 
1. Linealidad 
2. El término de error e es normal, de media cero y varianza constante 
(homocedástico) 
Diagnosis del modelo: comprobación de estas hipótesis 
Se puede hacer: 
1. Analizando el gráfico de residuos frente a valores previstos 
2. Analizando el gráfico de residuos frente a cada variable Xi 
3. Analizando la normalidad de los residuos 
50 ESTADÍSTICA BÁSICA 
1. Gráfico de residuos frente a valores previstos 
Es igual que en regresión simple 
Si el modelo es de verdad lineal, y los residuos son de media cero y varianza 
constante (homocedásticos), deben presentar un aspecto sin ninguna estructura 
evidente, como los de este gráfico 
El residuo es la distancia vertical del 
valor observado a la diagonal 
51 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero Consumo_coches: tiene la velocidad máxima que 
alcanza una muestra de automóviles. ¿Qué relación hay entre 
esta velocidad máxima y el peso y la potencia de los mismos? 
velmax=155.5+0.52×Potencia-0.025×Peso+e 
52 ESTADÍSTICA BÁSICA 
1. Gráfico de residuos frente a valores previstos 
En este ejemplo, los residuos tienen una estructura no lineal muy 
evidente. El modelo de regresión no es correcto. 
(fichero Consumo_coches.sf3: velocidad máxima explicada 
en función de la potencia del vehículo y su peso) 
2. Gráfico de residuos frente a cada variable Xi 
Este gráfico permite particularizar el 
análisis para cada variable 
independiente. Si el modelo es 
correcto no debe mostrar estructura 
Altura=77.7+0.13 Peso+2.16 Zapato+e 
54 ESTADÍSTICA BÁSICA 
2. Gráfico de residuos frente a cada variable Xi 
Este gráfico no muestra ningún porblema 
55 ESTADÍSTICA BÁSICA 
2. Gráfico de residuos frente a cada variable Xi 
Esta variable es problemática: buscamos una 
transformación del tipo Xc y reestimamos??? 
¿c>1 ó c<1? 
Con el ejemplo de las velocidades máximas de los coches: 
2. Gráfico de residuos frente a cada variable Xi 
Buscamos una transformación del tipo Xc que mejore la linealidad 
¿c>1 ó c<1? 
En el caso de la regresión simple, el 
gráfico XY era de ayuda para decidir 
sobre c. 
 
Ahora no es tan útil, pues la relación 
que queremos visualizar es la que hay 
entre Y y Xi, pero teniendo en cuenta 
la relación de Y con el resto de las 
variables. 
 
Es decir, queremos descontar de Y la 
parte que viene explicada por las 
otras variables, y hacer un gráfico de 
lo que quede de Y frente a Xi 
La relación parece 
lineal... 
... pero en una regresión junto con el 
peso del vehículo es no lineal 
Este modelo mejora la linealidad 
58 ESTADÍSTICA BÁSICA 
3. Normalidad de los residuos 
• La normalidad es importante para calcular probabilidades sobre valores 
previstos, pues se basan en la normal. 
• Si n es grande, la estimación y los contrastes son válidos (si podemos 
asumir la linealidad), aunque no se tenga normalidad 
 
Suele ser entonces suficiente con hacer un histograma y ver que 
la distribución es unimodal y no se aleja mucho de la normalidad 
esta asimetría puede ser 
porque no hemos resuelto 
bien la linealidad, o por 
valores atípicos 
59 ESTADÍSTICA BÁSICA 
Tema 10: Regresión múltiple 
1. La recta de regresión simple. 
2. El modelo estadístico de regresión simple. 
3. Inferencia en regresión simple 
4. Definición del modelode regresión múltiple. 
5. Estimación del modelo de regresión múltiple. 
6. Inferencia en regresión múltiple. 
7. Diagnosis del modelo de regresión. 
8. Regresión con variables binarias 
60 ESTADÍSTICA BÁSICA 
8. Regresión con variables binarias. 
Una variable binaria o dicotómica es aquella que toma sólo dos valores. Vamos a asumir que son 1 y 0. 
 
Esta variable se puede usar para definir la presencia/ausencia de una atributo o la pertenencia/no 
pertenencia a un grupo. 
 
Es una variable cuantitativa, y en regresión se usa igual que el resto de variables. 
El fichero AlumnosIndustriales tiene la variable sexo: 1 si el 
estudiante es chico y 0 si es chica. ¿Explica la altura? 
Ejemplo: 
61 ESTADÍSTICA BÁSICA 
Altura=165.313+14.0367 sexo+e 
La interpretación ‘habitual’ de la regresión es: 
Si la variable sexo aumenta en una unidad, la altura media 
aumenta en 14 cm 
Al ser una variable binaria, el coeficiente mide la 
diferencia de los individuos con valor 1 respecto a 
los que tienen valor 0 
62 ESTADÍSTICA BÁSICA 
Altura=165.313+14 sexo+e 
Para sexo=0: 
E(Altura|chica)=165.313+14.0367 x0=165.313 cm 
Para sexo=1: 
E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm 
Podemos separar el modelo en dos: uno para cada valor de la variable binaria 
Para cada ‘grupo’, el modelo estima la media de la variable 
dependiente 
El resultado es exactamente igual a si calculamos la media muestral de cada grupo... 
63 ESTADÍSTICA BÁSICA 
Altura=165.313+14 sexo+e 
Para sexo=0: 
E(Altura|chica)=165.313+14.0367 x0=165.313 cm 
Para sexo=1: 
E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm 
Podemos separar el modelo en dos: uno para cada valor de la variable binaria 
Para cada ‘grupo’, el modelo estima la media de la variable 
dependiente 
El resultado es exactamente igual a si calculamos la media muestral de cada grupo... 
...con la ventaja de que el p-valor nos dice si la diferencia es 
significativa 
64 ESTADÍSTICA BÁSICA 
65 ESTADÍSTICA BÁSICA 
Ahora los ‘valores previstos’ es la media de cada grupo: sólo tiene dos valores 
diferentes 
66 ESTADÍSTICA BÁSICA 
Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, el dinero 
que gastaron los estudiantes en el fin de semana, el tiempo que tardaron en 
realizar un avión de papel, y el tiempo de vuelo de ese avión, en segundos. 
También se tiene la variable Sexo: 1 para chicos y 0 para chicas. hay 
diferencias significativas entre chicos y chicas en dichas variables? 
Por término medio, los chicos se gastan 
casi 18 soles más que las chicas los fines 
de semana 
Las diferencias no son 
significativas. Clasificar a la 
muestra en chicos y chicas no es 
relevante. 
67 ESTADÍSTICA BÁSICA 
El fichero AlumnosIndustriales tiene la variable sexo: 1 si el estudiante 
es chico y 0 si es chica. La altura media de los chicos es mayor que la 
de las chicas. ¿Y si comparamos la altura de chicos y chicas del mismo 
peso? 
Ejemplo: 
Entre un chico y una chica del mismo peso, el 
chico tiene una altura media 9.28 cm mayor 
68 ESTADÍSTICA BÁSICA 
Veamos un ejemplo con más de dos grupos: 
Se quiere comparar el comportamiento de tres discos duros con el fin de ver 
cuál es el más rápido. Para ello se graba un fichero de 200 megas en cada uno 
de ellos y se cronometra el tiempo de descarga. Se repite ese experimento un 
número de veces con cada disco. Los resultados se encuentran en el fichero 
Discosduros.sf3. ¿Cuál es el disco duro más rápido? 
Ejemplo: 
Creamos 3 variables binarias: cada una 
indica si el dato pertenece a ese disco duro 
D1= 
D2= 
D3= 
1, si es del Disco 1 
0, si NO es del Disco 1 
1, si es del Disco 2 
0, si NO es del Disco 2 
1, si es del Disco 3 
0, si NO es del Disco 3 
69 ESTADÍSTICA BÁSICA 
Veamos un ejemplo con más de dos grupos: 
Se quiere comparar el comportamiento de tres discos duros con el fin de ver 
cuál es el más rápido. Para ello se graba un fichero de 200 megas en cada uno 
de ellos y se cronometra el tiempo de descarga. Se repite ese experimento un 
número de veces con cada disco. Los resultados se encuentran en el fichero 
Discosduros.sf3. ¿Cuál es el disco duro más rápido? 
Ejemplo: 
70 ESTADÍSTICA BÁSICA 
? 
? 
La primera columna es justo la suma de las otras tres (X’X) no es invertible 
no se pueden estimar los parámetros 
71 ESTADÍSTICA BÁSICA 
? 
? 
La primera columna es justo la suma de las otras tres (X’X) no es invertible 
no se puede estimar 
72 ESTADÍSTICA BÁSICA 
Si hay G grupos hacemos el modelo sólo con G-1 
El término constante es la media del 
grupo que no hemos incluido 
El parámetro del grupo g-ésimo 
es la diferencia de medias 
respecto al que no hemos 
incluido 
¿Es la media del grupo g-ésimo diferente a la del grupo G? 
73 ESTADÍSTICA BÁSICA 
Lo mejor es excluir, en un inicio, al grupo que tenga 
la media más alta o la más baja. 
El 2 es 
significativamente 
mejor 
No hay 
diferencias 
significativas 
entre el 1 y el 3 
74 ESTADÍSTICA BÁSICA 
¿Por qué sale así este gráfico? 
	Número de diapositiva 1
	Número de diapositiva 2
	Tema 10: Regresión múltiple
	Número de diapositiva 4
	Número de diapositiva 5
	Número de diapositiva 6
	Número de diapositiva 7
	Número de diapositiva 8
	Número de diapositiva 9
	Número de diapositiva 10
	Número de diapositiva 11
	Tema 10: Regresión múltiple
	Número de diapositiva 13
	Número de diapositiva 14
	Número de diapositiva 15
	Número de diapositiva 16
	Número de diapositiva 17
	Número de diapositiva 18
	Número de diapositiva 19
	Número de diapositiva 20
	Número de diapositiva 21
	Tema 10: Regresión múltiple
	Número de diapositiva 23
	Número de diapositiva 24
	Número de diapositiva 25
	Número de diapositiva 26
	Tema 10: Regresión múltiple
	Número de diapositiva 28
	Número de diapositiva 29
	Número de diapositiva 30
	Número de diapositiva 31
	Número de diapositiva 32
	Tema 10: Regresión múltiple
	Número de diapositiva 34
	Número de diapositiva 35
	Número de diapositiva 36
	Número de diapositiva 37
	Número de diapositiva 38
	Número de diapositiva 39
	Número de diapositiva 40
	Número de diapositiva 41
	Tema 10: Regresión múltiple
	Número de diapositiva 43
	Número de diapositiva 44
	Número de diapositiva 45
	Número de diapositiva 46
	Número de diapositiva 47
	Tema 10: Regresión múltiple
	Número de diapositiva 49
	Número de diapositiva 50
	Número de diapositiva 51
	Número de diapositiva 52
	Número de diapositiva 53
	Número de diapositiva 54
	Número de diapositiva 55
	Número de diapositiva 56
	Número de diapositiva 57
	Número de diapositiva 58
	Tema 10: Regresión múltiple
	Número de diapositiva 60
	Número de diapositiva 61
	Número de diapositiva 62
	Número de diapositiva 63
	Número de diapositiva 64
	Número de diapositiva 65
	Número de diapositiva 66
	Número de diapositiva 67
	Número de diapositiva 68
	Número de diapositiva 69
	Número de diapositiva 70
	Número de diapositiva 71
	Número de diapositiva 72
	Número de diapositiva 73
	Número de diapositiva 74

Continuar navegando

Materiales relacionados

70 pag.
Inferências na Regressão Linear

Osasco Ii Etec

User badge image

Pedro Goya

106 pag.
Regresion-logstica-multinomial

User badge image

Aprendiendo Matemáticas y Fisica

78 pag.
Relaciones y Modelos de Regresión

Osasco Ii Etec

User badge image

Pedro Goya