Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 ESTADÍSTICA BÁSICA 2 ESTADÍSTICA BÁSICA 10. Regresión Múltiple 3 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 4 ESTADÍSTICA BÁSICA 1-La recta de regresión 𝑥 𝑦 Buscamos una recta muy concreta llamada RECTA DE REGRESIÓN Es la recta que, dado el valor de X proporciona la mejor predicción de Y 𝑦� = 𝛽0 + 𝛽1𝑥 Predicción de 𝑦 Factor, o variable explicativa, 5 ESTADÍSTICA BÁSICA EN ESTE TEMA vamos a suponer que nuestros datos son una muestra de una población. Podemos pensar entonces que existirá una recta de regresión para toda la población, que será desconocida. Nosotros intentamos ‘estimarla’ con nuestra muestra. Población Muestra 𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 Recta con coeficientes ‘poblacionales’. Son los que obtendríamos si tuviésemos toda la población de pares (𝑥,𝑦), posiblemente infinitos. 𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 Recta con coeficientes muestrales. Se interpretan como estimaciones de los poblacionales. Son los que obtenemos con la muestra. Por tanto, tienen variabilidad muestral. 6 ESTADÍSTICA BÁSICA X 𝑦 ix Valor observado Valor previsto por la recta valor observado La recta de regresión La recta de regresión es la recta que, dado el valor de 𝑋 , me da la mejor predicción de 𝑌 Error de predicción 𝑒𝑖 𝑦� = �̂�0 + �̂�1𝑥 𝑦𝑖 = �̂�0 + �̂�1𝑥𝑖 + 𝑒𝑖 𝑦𝑖 = 𝑦�𝑖 + 𝑒𝑖 𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 ( , )i ix y 𝑦�𝑖 𝑦𝑖 𝑒𝑖 = 𝑦𝑖 − 𝑦�𝑖 7 ESTADÍSTICA BÁSICA Población Muestra 𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝑢𝑖 𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 𝑦𝑖 = �̂�0 + �̂�1𝑥𝑖 + 𝑒𝑖 𝑦�𝑖 = �̂�0 + �̂�1𝑥𝑖 En la recta poblacional (desconocida), la distancia de la recta a cada punto (error de predicción) se denota por 𝑢𝑖 y se denomina término de error o perturbación: 𝑢𝑖 = 𝑦𝑖 − (𝛽0+𝛽1𝑥𝑖) En la recta que obtenemos con la muestra, la distancia de la recta a cada punto (error de predicción) se denota por 𝑒𝑖y se denomina residuo: 𝑒𝑖 = 𝑦𝑖 − (�̂�0 + �̂�1𝑥𝑖) 8 ESTADÍSTICA BÁSICA X y ( , )i ix y iy ix ˆiy valor observado La recta de regresión 𝑒𝑖 Buscamos la recta que minimiza los errores de predicción: 2 1 min N i i e = ∑ (recta de mínimos cuadrados) 𝑦� = �̂�0 + �̂�1𝑥 9 ESTADÍSTICA BÁSICA La recta de regresión X y ( , )i ix y x y SOLUCIÓN 𝑦� = �̂�0 + �̂�1𝑥 𝜷�𝟏 = 𝒄𝒄𝒄(𝒙,𝒚) 𝒔𝒙𝟐 𝜷�𝟎 = 𝒚� − 𝜷�𝟏𝒙� Si cambian los datos, cambia la recta 10 ESTADÍSTICA BÁSICA Loc.1: media: 2.51 varianza: 1.91 Loc.2: media: 3.28 varianza: 2.36 cov (V1,V2)=1.995 2 1 ˆ 0.657 1.045V V= + × Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de 𝑽�𝟐 = 0.657+1.045x5=5.88 m/s Ejemplo �̂�1 = 𝑐𝑐𝑐(𝑥,𝑦) 𝑐𝑣𝑣 𝑥⁄ = 1.995 1.91⁄ = 1.045 �̂�0 = 𝑦� − �̂�1�̅� = 3.28 − 1.045 2.51 = 0.657 La variable V1 tiene la velocidad del viento registrada cada hora en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas horarias 11 ESTADÍSTICA BÁSICA 2 1 ˆ 0.657 1.045V V= + × Ejemplo Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en la localización 2 se prevé que lo hará en 1.045 m/s. El comportamiento del viento es casi idéntico en ambas localizaciones. La variable V1 tiene la velocidad del viento registrada cada hora en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas horarias 12 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 13 ESTADÍSTICA BÁSICA El valor real de la variable 𝑌 puede depender de muchos factores: 𝑋1,𝑋2,𝑋3, … ,𝑋𝑀, con M un número posiblemente muy grande. Algunos factores pueden ser desconocidos. • Y: variable dependiente • 𝑋1,𝑋2,𝑋3, … ,𝑋𝑀: factores, variables explicativas, variables independientes,… 𝑌 Función 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + ⋯+ 𝛽𝑀𝑋𝑀 En general, la relación de 𝑌 con las 𝑋𝑋𝑋 puede ser complicada e incluso desconocida 𝑌 = 𝑓(𝑋1,𝑋2,𝑋3, … ,𝑋𝑀) Como primera simplificación, asumiremos que la relación sigue un modelo lineal. 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 ⋮ 𝑋1 𝑋2 𝑋3 𝑋𝑀 𝑋4 14 ESTADÍSTICA BÁSICA 𝑌 Función 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝑢 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 𝑋1 En Regresión Simple utilizamos sólo la información de un factor, 𝑋1, para predecir 𝑌. Para un mismo valor de 𝑋1, la variable 𝑌 podría entonces tomar diferentes valores, debido a la influencia del resto de factores no considerados: 𝑋2, … ,𝑋𝑀. A la influencia de estos factores le denominamos perturbación o término de error, y usaremos la letra 𝑢. 𝑌� = 𝛽0 + 𝛽1𝑋1 Valor previsto por la reg. simple 𝑌� = 𝛽0 + 𝛽1𝑋1 Error que comete la regresión simple 𝑌� = 𝛽0 + 𝛽1𝑋1 𝑢 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝑢 Si sólo usamos una variable explicativa, omitiremos su subíndice 𝑢 𝑌� Modelo de regresión simple 15 ESTADÍSTICA BÁSICA 𝑌 Función 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 𝑢 = 𝛽2𝑋2 + 𝛽3𝑋3 + ⋯+ 𝛽𝑀𝑋𝑀 𝑋 𝑢 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 Para entender la influencia de 𝒆 podemos plantear el siguiente experimento aleatorio “Fijamos el valor de 𝑋 y observamos el valor resultante de 𝑌” Entonces, aunque 𝑋 no varíe, el resto de factores 𝑋2, … ,𝑋𝑀 sí puede hacerlo, pues no se controlan en el experimento. El resultado es que 𝑌 tomará valores diferentes cada vez que repitamos el experimento aleatorio. Por tanto, para un valor fijo de 𝑋, 𝑌 es una variable aleatoria por culpa de 𝑢. ¿Cómo es la variable aleatoria 𝑢? Asumiremos que M es grande y, por tanto, por el Teorema del Límite Central 𝑢 sigue una Normal 𝑢 ∼ 𝑁(0,𝜎2) constante 𝑌 ∼ 𝑁(𝛽0 + 𝛽1𝑋;𝜎2) fijo 16 ESTADÍSTICA BÁSICA 𝛽0 + 𝛽1𝑋 Y Y X X Dado el par observado 𝑥𝑖 ,𝑦𝑖 de las variables (𝑋,𝑌) , interpretamos que el valor de 𝑦𝑖 es una realización la normal 𝑁 𝛽0 + 𝛽1𝑥𝑖;𝜎2 Suponemos que el error 𝑢 es homogéneo a lo largo de la recta: su varianza es constante (homocedasticidad) Influencia de otros factores El “modelo estadístico de regresión simple” 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 MODELO DATOS 𝑢 ∼ 𝑁(0,𝜎2) 17 ESTADÍSTICA BÁSICA Como ya hemos viso antes, dada la muestra 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, . . ,𝑛, estimamos 𝛽0,𝛽1 usando el método de mínimos cuadrados. Obtenemos así 𝛽�0 y 𝛽�1. Para estimar el modelo tenemos que estimar 𝛽0,𝛽1 y 𝜎2 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 𝑢 ∼ 𝑁(0,𝜎2) 𝑒𝑖 = 𝑦𝑖 − (�̂�0 + �̂�1𝑥𝑖); 𝑖 = 1, … ,𝑛 Se estima entonces 𝜎2 con el siguiente estimador, denominado varianza residual: �̂�𝑅2 = ∑ 𝑒𝑖2𝑛𝑖=1 𝑛 − 2 Se puede demostrar que es insesgado. Con estas estimaciones, ‘estimamos’ el término de error, que denominamos RESIDUO: �̂�1 = 𝑐𝑐𝑐(𝑥,𝑦) 𝑋𝑥2 �̂�0 = 𝑦� − �̂�1𝑥 � El “modelo estadístico de regresión simple” Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las calificaciones de un conjunto de estudiantes en las asignaturas de ICS y QG1. Vamos a construir un modelo de regresión simple que prediga la nota deQG1 a partir de la de ICS para la población de la que procede nuestra muestra. Primero de todo debemos visualizar la relación. Si es lineal, tendrá sentido estimar los coeficientes de mínimos cuadrados (lo haremos con ordenador) • Los alumnos que tienen un 11 en ICS tienen, por término medio, un 3.89 + 0.637 × 11 = 10.9 en QG1. Y si en ICS tienen un 18, en QG1 tienen, por término medio, 15.4. • Dada la calificación de ICS, la de QG1 es la variable aleatoria QG1 ∼ 𝑁 3.89 + 0.637 ICS ; σ�2 = 1.899432 • ¿Cuál es la probabilidad de que un alumno que tiene 17 en ICS tenga más de 15 en QG1? • ¿Qué nota media tendrán en QG1 los alumnos que tienen 0 en ICS? 20 ESTADÍSTICA BÁSICA Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las calificaciones de un conjunto de estudiantes en las asignaturas de ICS y QG1. Tiene también las variables de Peso y Altura de los estudiantes. ¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura? ¿A mayor altura es más fácil aprobar? ¿A mayor peso, más nota en ICS? ICS=𝛽0 + 𝛽1PESO+u ¿No sería más lógico que 𝛽1 = 0? (Lo que nos da el ordenador no es 𝛽1 sino 𝛽�1) 21 ESTADÍSTICA BÁSICA Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que invirtieron los estudiantes en realizar un avión de papel. ¿Los altos son más torpes haciendo aviones? TIEMPO=𝛽0 + 𝛽1ALTURA+u ¿No sería más lógico que 𝛽1 = 0? 22 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 23 ESTADÍSTICA BÁSICA 3. Inferencia en regresión simple De todos los temas que podemos ver sobre inferencia en regresión simple, nos centraremos en aprender a contrastar si la variable 𝑋 es o no relevante para explicar la variabilidad de la variable de salida 𝑌 Si la variable X es relevante: 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝑢 (𝛽1 ≠ 0) Si la variable X es irrelevante: 𝑌 = 𝛽0 + 𝑢 (𝛽1 = 0) Como lo único que tendremos es la recta estimada 𝑌 = �̂�0 + �̂�1𝑋 + 𝑒 Necesitaremos usar esta estimación para contrastar la hipótesis 𝐻0:𝛽1 = 0 𝐻1:𝛽1 ≠ 0 Este contraste se denomina contraste de significatividad individual 24 ESTADÍSTICA BÁSICA 5. Inferencia en regresión simple 𝐻0:𝛽1 = 0 𝐻1:𝛽1 ≠ 0 • Estadístico de contraste: 𝑡 = 𝛽�1𝑆𝑥 𝑛 �̂�𝑅 Contaste de significatividad individual: • Distribución de referencia • Para 𝑢 normal: 𝑡𝑛−2 • Si 𝑛 es grande (típicamente 𝑛 > 100), es la 𝑁 0,1 y no es necesario que 𝑢 sea normal • La región de rechazo es a dos colas. Los ordenadores nos proporcionan el p-valor Rechazo H0 Rechazo H0 Acepto H0 α /2zα− /2z α−1; /2ntα−− 1; /2nt 25 ESTADÍSTICA BÁSICA Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, las calificaciones de un conjunto de estudiantes en las asignaturas de ICS y QG1. Tiene también las variables de Peso y Altura de los estudiantes. ¿Se puede predecir la nota de esas asignaturas a partir del peso o la altura? Como era lógico, las variables no son significativas. El coeficiente estimado no nulo se debe al azar del muestreo 26 ESTADÍSTICA BÁSICA Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, además, el tiempo que invirtieron los estudiantes en realizar un avión de papel. ¿Los altos son más torpes haciendo aviones? Como era lógico, la variable no es significativa. El coeficiente estimado no nulo se debe al azar del muestreo. 27 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 28 ESTADÍSTICA BÁSICA Definimos ahora un modelo lineal que explique o prediga Y a partir de un conjunto de K variables X Variable ‘respuesta’ o ‘dependiente’: Variables ‘explicativas’, o ‘independientes’, o ‘regresores’: Para la observación i-ésima Modelo de regresión múltiple 4.Definición del modelo de regresión múltiple 29 ESTADÍSTICA BÁSICA Hipótesis básicas en las que se basa el modelo de regresión múltiple Influencia del resto de variables (serán muchas, y por el TCL tenderá a la normal) 2~ (0, )ie N σ 1. La relación entre Y y las variables explicativas X es lineal 2. El término de error e es normal, de media cero y varianza constante (homocedástico) Se pueden resumir en: A la esperanza de 𝑦𝑖 cuando conocemos el valor de𝑥1𝑖,…,𝑥𝐾𝑖, le denominamos Esperanza condicionada Dados unos valores de𝑥1𝑖 ,…,𝑥𝐾𝑖 , la predicción de 𝑦𝑖 es la esperanza condicionada 30 ESTADÍSTICA BÁSICA Hipótesis básicas en las que se basa el modelo de regresión múltiple Influencia del resto de variables (serán muchas, y por el TCL tenderá a la normal) 2~ (0, )ie N σ 1. La relación entre Y y las variables explicativas X es lineal 2. El término de error e es normal, de media cero y varianza constante (homocedástico) Se pueden resumir en: Predicción de 𝑦𝑖 A la varianza de 𝑦𝑖 cuando conocemos el valor 𝑥1𝑖 ,…,𝑥𝐾𝑖 le llamamos varianza condicionada Hipótesis básicas en las que se basa el modelo de regresión múltiple Influencia del resto de variables (serán muchas, y por el TCL tenderá a la normal) 2~ (0, )ie N σ 1. La relación entre Y y las variables explicativas X es lineal 2. El término de error e es normal, de media cero y varianza constante (homocedástico) Conclusión: Se pueden resumir en: 32 ESTADÍSTICA BÁSICA Es útil escribirlo en forma matricial: Parámetros: los parámetros y la varianza ¿Qué valores usaremos? 33 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 34 ESTADÍSTICA BÁSICA 5.Estimación del modelo de regresión múltiple Desconocemos el valor de los parámetros. Son parámetros poblacionales: desconocidos Los estimamos con una muestra de datos Buscamos los valores que minimicen el término de error (como en regresión simple) Para K=1 sale lo mismo que lo visto en regresión simple 35 ESTADÍSTICA BÁSICA Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura a partir del peso y la talla de zapato 36 ESTADÍSTICA BÁSICA Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura a partir del peso y la talla de zapato Sólo peso (reg. simple) Peso y altura (reg. múltiple) Altura=77.7+0.13 Peso+2.16 Zapato+e Altura=138.4+0.53 Peso+e Si una persona pesa 80 kg, su altura esperada (media de las personas con 80 kg) es Altura media (o prevista)=138+0.53x80=180.4 cm Si una persona pesa 80 kg, su altura esperada es: depende de la talla de zapato. Si calza un 37, la altura media es (media de las personas con 80 kg y talla 37) : Altura media=77.7+0.13x80+2.16x37=168.02 cm Si calza un 43, la altura media es (media de las personas con 80 kg y talla 43) : Altura media=77.7+0.13x80+2.16x43=181.98 cm Como la altura depende mucho de la talla de zapato (relacionado con la constitución de la persona), el modelo es muy diferente si fijamos la talla de zapato (reg. múltiple) a si no la tenemos en cuenta (reg. simple). El modelo de regresión tiene en cuenta esta relación. Si fijamos la talla de zapato, la influenciadel Peso es ya menor. 37 ESTADÍSTICA BÁSICA Regresión simple Regresión múltiple El coeficiente de X1 en una regresión simple dice cuánto cambiaría Y (por término medio) si X1 aumentase en una unidad. Mide la influencia (total) de X1 sobre Y El coeficiente de X1 en una regresión múltiple dice cuánto cambiaría Y (por término medio) si X1 aumentase en una unidad, pero el resto de variables no. Mide la contribución marginal (diferencial) de X1 sobre Y, cuando el resto de variables se mantienen fijas 38 ESTADÍSTICA BÁSICA Falta estimar el parámetro 1-Calculamos los residuos de cada observación Altura=77.7+0.13 Peso+2.16 Zapato+e 39 ESTADÍSTICA BÁSICA Falta estimar el parámetro 1-Calculamos los residuos de cada observación 2-Usamos el siguiente estimador insesgado –Varianza residual- donde p=número de parámetros beta: • con término constante: K+1 • sin término constante: K 40 ESTADÍSTICA BÁSICA Coeficiente de determinación R2: medida del el % de la variabilidad de Y que está explicada por la regresión (misma definición que en regresión simple) Parte de Y explicada por la regresión que hemos estimado Parte de Y no explicada por la regresión Puede demostrarse que al incluir más variables en la regresión múltiple el R2 siempre aumenta, aunque las variables sean irrelevantes Coeficiente de determinación corregido (o ajustado. Sólo aumenta si añadimos variables relevantes ¿Mayor R2 es mejor? variables irrelevantes 42 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias variables irrelevantes ¿Cómo sabemos si las variables son relevantes o no? ¿Tenemos que preguntar a un experto en el tema? ¿Nos lo pueden decir los datos? Si la variable Xi no aporta nada en el modelo de regresión: ... pero nosotros no observamos sino y será en general ¿Cómo sabemos a partir de si Xi es relevante? 44 ESTADÍSTICA BÁSICA 6. Inferencia en regresión múltiple. El valor numérico de los parámetros es desconocido. Usamos un estimador • El estimador es una variable aleatoria • Nosotros sólo observamos un valor con nuestra muestra • ¿Cuáles son las propiedades de este estimador? • ¿Cuál es su distribución en el muestreo? Aplicamos este estimador a nuestros datos y obtenemos las estimaciones Si n es grande o si 2~ (0, )ie N σ donde qii es el elemento i-ésimo de la diagonal de (X’X)-1 45 ESTADÍSTICA BÁSICA Basándonos en esta propiedad podemos hacer el contraste de si una variable es o no ‘significativa’ Variable significativa=es relevante incluirla en la regresión, por tener información sobre Y no incluida en el resto de las variables Variable no significativa: Basándonos en podemos hacer un contraste de hipótesis (ver detalles en los apuntes): Si el p-valor es pequeño (<0.05) rechazamos Ho, y la variable se considera significativa (con ese p-valor) Ejemplo: Fichero AlumnosIndustriales.sf3. Queremos predecir la altura de un estudiante a partir de su peso, su talla de zapato y ¿el dinero que lleva encima? Tenemos 95 observaciones El p-valor de ‘dinero’ es muy alto. No es una variable significativa si usamos un nivel de significación del 5%. No podemos rechazar que su parámetro sea 0. Eliminamos esa variable y reestimamos el modelo. Si hubiese más de una variable no significativa, las eliminamos una a una. (el contraste es sobre la significatividad de una variable cuando están las demás en el modelo) 47 ESTADÍSTICA BÁSICA Ejemplo: Fichero AlumnosIndustriales. Queremos predecir la altura de un estudiante a partir de su peso, su talla de zapato. Tenemos 95 observaciones. Las dos variables son significativas ¿Cuál es la probabilidad de que una persona con un 40 de zapato y pesando 60 kilos mida más de 185? P(Y>185)=0.019 48 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelo de regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 49 ESTADÍSTICA BÁSICA 7. Diagnosis del modelo de regresión. El modelo que se haya construido sólo es válido si se cumplen las hipótesis básicas. Se pueden resumir en: 1. Linealidad 2. El término de error e es normal, de media cero y varianza constante (homocedástico) Diagnosis del modelo: comprobación de estas hipótesis Se puede hacer: 1. Analizando el gráfico de residuos frente a valores previstos 2. Analizando el gráfico de residuos frente a cada variable Xi 3. Analizando la normalidad de los residuos 50 ESTADÍSTICA BÁSICA 1. Gráfico de residuos frente a valores previstos Es igual que en regresión simple Si el modelo es de verdad lineal, y los residuos son de media cero y varianza constante (homocedásticos), deben presentar un aspecto sin ninguna estructura evidente, como los de este gráfico El residuo es la distancia vertical del valor observado a la diagonal 51 ESTADÍSTICA BÁSICA Ejemplo: El fichero Consumo_coches: tiene la velocidad máxima que alcanza una muestra de automóviles. ¿Qué relación hay entre esta velocidad máxima y el peso y la potencia de los mismos? velmax=155.5+0.52×Potencia-0.025×Peso+e 52 ESTADÍSTICA BÁSICA 1. Gráfico de residuos frente a valores previstos En este ejemplo, los residuos tienen una estructura no lineal muy evidente. El modelo de regresión no es correcto. (fichero Consumo_coches.sf3: velocidad máxima explicada en función de la potencia del vehículo y su peso) 2. Gráfico de residuos frente a cada variable Xi Este gráfico permite particularizar el análisis para cada variable independiente. Si el modelo es correcto no debe mostrar estructura Altura=77.7+0.13 Peso+2.16 Zapato+e 54 ESTADÍSTICA BÁSICA 2. Gráfico de residuos frente a cada variable Xi Este gráfico no muestra ningún porblema 55 ESTADÍSTICA BÁSICA 2. Gráfico de residuos frente a cada variable Xi Esta variable es problemática: buscamos una transformación del tipo Xc y reestimamos??? ¿c>1 ó c<1? Con el ejemplo de las velocidades máximas de los coches: 2. Gráfico de residuos frente a cada variable Xi Buscamos una transformación del tipo Xc que mejore la linealidad ¿c>1 ó c<1? En el caso de la regresión simple, el gráfico XY era de ayuda para decidir sobre c. Ahora no es tan útil, pues la relación que queremos visualizar es la que hay entre Y y Xi, pero teniendo en cuenta la relación de Y con el resto de las variables. Es decir, queremos descontar de Y la parte que viene explicada por las otras variables, y hacer un gráfico de lo que quede de Y frente a Xi La relación parece lineal... ... pero en una regresión junto con el peso del vehículo es no lineal Este modelo mejora la linealidad 58 ESTADÍSTICA BÁSICA 3. Normalidad de los residuos • La normalidad es importante para calcular probabilidades sobre valores previstos, pues se basan en la normal. • Si n es grande, la estimación y los contrastes son válidos (si podemos asumir la linealidad), aunque no se tenga normalidad Suele ser entonces suficiente con hacer un histograma y ver que la distribución es unimodal y no se aleja mucho de la normalidad esta asimetría puede ser porque no hemos resuelto bien la linealidad, o por valores atípicos 59 ESTADÍSTICA BÁSICA Tema 10: Regresión múltiple 1. La recta de regresión simple. 2. El modelo estadístico de regresión simple. 3. Inferencia en regresión simple 4. Definición del modelode regresión múltiple. 5. Estimación del modelo de regresión múltiple. 6. Inferencia en regresión múltiple. 7. Diagnosis del modelo de regresión. 8. Regresión con variables binarias 60 ESTADÍSTICA BÁSICA 8. Regresión con variables binarias. Una variable binaria o dicotómica es aquella que toma sólo dos valores. Vamos a asumir que son 1 y 0. Esta variable se puede usar para definir la presencia/ausencia de una atributo o la pertenencia/no pertenencia a un grupo. Es una variable cuantitativa, y en regresión se usa igual que el resto de variables. El fichero AlumnosIndustriales tiene la variable sexo: 1 si el estudiante es chico y 0 si es chica. ¿Explica la altura? Ejemplo: 61 ESTADÍSTICA BÁSICA Altura=165.313+14.0367 sexo+e La interpretación ‘habitual’ de la regresión es: Si la variable sexo aumenta en una unidad, la altura media aumenta en 14 cm Al ser una variable binaria, el coeficiente mide la diferencia de los individuos con valor 1 respecto a los que tienen valor 0 62 ESTADÍSTICA BÁSICA Altura=165.313+14 sexo+e Para sexo=0: E(Altura|chica)=165.313+14.0367 x0=165.313 cm Para sexo=1: E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm Podemos separar el modelo en dos: uno para cada valor de la variable binaria Para cada ‘grupo’, el modelo estima la media de la variable dependiente El resultado es exactamente igual a si calculamos la media muestral de cada grupo... 63 ESTADÍSTICA BÁSICA Altura=165.313+14 sexo+e Para sexo=0: E(Altura|chica)=165.313+14.0367 x0=165.313 cm Para sexo=1: E(Altura|chico)=165.313+14.0367 x1= 179.3497 cm Podemos separar el modelo en dos: uno para cada valor de la variable binaria Para cada ‘grupo’, el modelo estima la media de la variable dependiente El resultado es exactamente igual a si calculamos la media muestral de cada grupo... ...con la ventaja de que el p-valor nos dice si la diferencia es significativa 64 ESTADÍSTICA BÁSICA 65 ESTADÍSTICA BÁSICA Ahora los ‘valores previstos’ es la media de cada grupo: sólo tiene dos valores diferentes 66 ESTADÍSTICA BÁSICA Ejemplo: El fichero EDB_2015_II_depurado.xlsx tiene, entre otras variables, el dinero que gastaron los estudiantes en el fin de semana, el tiempo que tardaron en realizar un avión de papel, y el tiempo de vuelo de ese avión, en segundos. También se tiene la variable Sexo: 1 para chicos y 0 para chicas. hay diferencias significativas entre chicos y chicas en dichas variables? Por término medio, los chicos se gastan casi 18 soles más que las chicas los fines de semana Las diferencias no son significativas. Clasificar a la muestra en chicos y chicas no es relevante. 67 ESTADÍSTICA BÁSICA El fichero AlumnosIndustriales tiene la variable sexo: 1 si el estudiante es chico y 0 si es chica. La altura media de los chicos es mayor que la de las chicas. ¿Y si comparamos la altura de chicos y chicas del mismo peso? Ejemplo: Entre un chico y una chica del mismo peso, el chico tiene una altura media 9.28 cm mayor 68 ESTADÍSTICA BÁSICA Veamos un ejemplo con más de dos grupos: Se quiere comparar el comportamiento de tres discos duros con el fin de ver cuál es el más rápido. Para ello se graba un fichero de 200 megas en cada uno de ellos y se cronometra el tiempo de descarga. Se repite ese experimento un número de veces con cada disco. Los resultados se encuentran en el fichero Discosduros.sf3. ¿Cuál es el disco duro más rápido? Ejemplo: Creamos 3 variables binarias: cada una indica si el dato pertenece a ese disco duro D1= D2= D3= 1, si es del Disco 1 0, si NO es del Disco 1 1, si es del Disco 2 0, si NO es del Disco 2 1, si es del Disco 3 0, si NO es del Disco 3 69 ESTADÍSTICA BÁSICA Veamos un ejemplo con más de dos grupos: Se quiere comparar el comportamiento de tres discos duros con el fin de ver cuál es el más rápido. Para ello se graba un fichero de 200 megas en cada uno de ellos y se cronometra el tiempo de descarga. Se repite ese experimento un número de veces con cada disco. Los resultados se encuentran en el fichero Discosduros.sf3. ¿Cuál es el disco duro más rápido? Ejemplo: 70 ESTADÍSTICA BÁSICA ? ? La primera columna es justo la suma de las otras tres (X’X) no es invertible no se pueden estimar los parámetros 71 ESTADÍSTICA BÁSICA ? ? La primera columna es justo la suma de las otras tres (X’X) no es invertible no se puede estimar 72 ESTADÍSTICA BÁSICA Si hay G grupos hacemos el modelo sólo con G-1 El término constante es la media del grupo que no hemos incluido El parámetro del grupo g-ésimo es la diferencia de medias respecto al que no hemos incluido ¿Es la media del grupo g-ésimo diferente a la del grupo G? 73 ESTADÍSTICA BÁSICA Lo mejor es excluir, en un inicio, al grupo que tenga la media más alta o la más baja. El 2 es significativamente mejor No hay diferencias significativas entre el 1 y el 3 74 ESTADÍSTICA BÁSICA ¿Por qué sale así este gráfico? Número de diapositiva 1 Número de diapositiva 2 Tema 10: Regresión múltiple Número de diapositiva 4 Número de diapositiva 5 Número de diapositiva 6 Número de diapositiva 7 Número de diapositiva 8 Número de diapositiva 9 Número de diapositiva 10 Número de diapositiva 11 Tema 10: Regresión múltiple Número de diapositiva 13 Número de diapositiva 14 Número de diapositiva 15 Número de diapositiva 16 Número de diapositiva 17 Número de diapositiva 18 Número de diapositiva 19 Número de diapositiva 20 Número de diapositiva 21 Tema 10: Regresión múltiple Número de diapositiva 23 Número de diapositiva 24 Número de diapositiva 25 Número de diapositiva 26 Tema 10: Regresión múltiple Número de diapositiva 28 Número de diapositiva 29 Número de diapositiva 30 Número de diapositiva 31 Número de diapositiva 32 Tema 10: Regresión múltiple Número de diapositiva 34 Número de diapositiva 35 Número de diapositiva 36 Número de diapositiva 37 Número de diapositiva 38 Número de diapositiva 39 Número de diapositiva 40 Número de diapositiva 41 Tema 10: Regresión múltiple Número de diapositiva 43 Número de diapositiva 44 Número de diapositiva 45 Número de diapositiva 46 Número de diapositiva 47 Tema 10: Regresión múltiple Número de diapositiva 49 Número de diapositiva 50 Número de diapositiva 51 Número de diapositiva 52 Número de diapositiva 53 Número de diapositiva 54 Número de diapositiva 55 Número de diapositiva 56 Número de diapositiva 57 Número de diapositiva 58 Tema 10: Regresión múltiple Número de diapositiva 60 Número de diapositiva 61 Número de diapositiva 62 Número de diapositiva 63 Número de diapositiva 64 Número de diapositiva 65 Número de diapositiva 66 Número de diapositiva 67 Número de diapositiva 68 Número de diapositiva 69 Número de diapositiva 70 Número de diapositiva 71 Número de diapositiva 72 Número de diapositiva 73 Número de diapositiva 74
Compartir