Logo Studenta

RegresiónLinealMúltiple3 Parte4

¡Este material tiene más páginas!

Vista previa del material en texto

Regresión lineal multiple
(Parte 4: Construcción del 
modelo)
Prof. Holger Cevallos Valdiviezo
Gráficos de regresión parcial
• En la parte 2 de regresión lineal multiple, se discutió que gráficos de 
residuos versus una variable predictora en el modelo de regresión
puede usarse para verificar si se requiere un efecto con curvatura en
el modelo para aquella variable
• El gráfico de residuos contra una variable predictora aún no incluída
en el modelo puede usarse para determinar si sería útil añadir esta
variable al modelo
• Sin embargo, este tipo de gráficos podrían no mostrar la naturaleza
del efecto marginal de una variable predictora, dadas otras variables 
predictoras ya en el modelo
Gráficos de regresión parcial
• Gráficos de regresión parcial son gráficos de residuos refinados que proven 
información gráfica sobre la importancia marginal de una variable 
predictora 𝑥𝑘, dadas las otras variables predictoras ya incluídas en el 
modelo
• Estos gráficos son útiles también para investigar la naturaleza de la relación 
marginal de una variable predictora en el modelo de regresión
• Para obtener el gráfico de regresión parcial, se ajustan dos modelos de 
regresión: uno para la variable de respuesta 𝑌 contra las variables 
predictoras ya en el modelo, y otro modelo de regresión para la variable 
predictora 𝑥𝑘 bajo consideración contra las variables predictoras ya en el 
modelo
• Se obtienen los residuos de ambos análisis de regresión
• Estos residuos reflejan la parte de cada variable que no es linealmente 
asociada con las otras variables predictoras que ya están en el modelo
Gráficos de regresión parcial
• Para obtener el gráfico de regresión parcial, se ajustan dos modelos de 
regresión: uno para la variable de respuesta 𝑌 contra las variables 
predictoras ya en el modelo, y otro modelo de regresión para la variable 
predictora 𝑥𝑘 bajo consideración contra las variables predictoras ya en el 
modelo
• Se obtienen los residuos de ambos análisis de regresión
• Estos residuos reflejan la parte de cada variable que no es linealmente 
asociada con las otras variables predictoras que ya están en el modelo
• Al graficar estos residuos el uno contra el otro se muestra la importancia 
marginal de esta nueva variable predictora para reducir variabilidad 
residual
• Además, podría brindar información sobre la naturaleza de la relación de 
regresión marginal para la variable predictora 𝑥𝑘 bajo consideración de 
inclusión en el modelo de regresión
Gráficos de regresión parcial
• Consideremos por ejemplo un modelo de regresión simple:
𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖1 + 𝜀𝑖
• Se considera la inclusión del predictor 𝑥2 en el modelo
• Se realiza un análisis de regresión de 𝑌 contra 𝑥1 y se obtienen los 
valores ajustados y los residuos:
෠𝑌𝑖(𝑥1) = 𝑏0 + 𝑏1𝑥𝑖1
𝑒𝑖 𝑌 𝑥1 = 𝑌𝑖 − ෠𝑌𝑖 𝑥1
• Se realiza también un análisis de regresión de 𝑥2 contra 𝑥1: 
ො𝑥𝑖2(𝑥1) = 𝑏0
∗ + 𝑏1
∗𝑥𝑖1
𝑒𝑖 𝑥2 𝑥1 = 𝑥𝑖2 − ො𝑥𝑖2(𝑥1)
• El gráfico de regresión parcial para la variable predictora 𝑥2 consiste
en un gráfico de los residuos 𝑒 𝑌 𝑥1 contra los residuos 𝑒 𝑥2 𝑥1
Gráficos de regresión parcial
• Ejemplos:
Estos son gráficos para el caso que 𝑥2 ya se encuentre en el modelo y 
se considere añadir a 𝑥1
Gráficos de regresión parcial
• Ejemplos:
Este gráfico muestra que 𝑥1 no contiene información adicional útil para 
predecir 𝑌, más allá de aquella información contenido en 𝑥2. Por tanto, 
no es útil añadir a 𝑥1 en este ejemplo.
Gráficos de regresión parcial
• Ejemplos:
Este gráfico muestra que un término lineal en 𝑥1 podría ser útil en un modelo que 
ya contiene a 𝑥2. Se puede mostrar que la pendiente de la recta de mínimos
cuadrados a través del origen ajustado a los residuos es 𝑏1, el coeficiente de 
regresión de 𝑥1 si esta variable fuera añadida al modelo de regresión que ya incluye
a 𝑥2
Gráficos de regresión parcial
• Ejemplos:
Este gráfico muestra una banda curvilínea, indicando que la añadidura de 𝑥1
en el modelo de regresión podría ser útil en un modelo que ya contiene a 𝑥2. 
Este gráfico además sugiere la naturaleza del efecto para 𝑥1 que debería ser 
añadido.
Gráficos de regresión parcial
• El gráfico de regresión parcial provee además información sobre la 
fortaleza de la relación
• Ejemplo de gráfico de regresión parcial para 𝑥1 cuando 𝑥2 ya se 
encuentra en el modelo, basado en 𝑛 = 3 observaciones:
Gráficos de regresión parcial
• Ejemplo de gráfico de regresión parcial para 𝑥1 cuando 𝑥2 ya se encuentra en el 
modelo, basado en 𝑛 = 3 observaciones:
• Las desviaciones verticales de los puntos graficados alrededor de la línea
horizontal 𝑒 𝑌 𝑥2 en la Figura (a) representan los residuos de 𝑌 cuando 𝑥2 se 
encuentra sóla en el modelo. Cuando estas desviaciones se elevan al cuadrado y 
se las suma obtenemos la suma cuadrática de los errores 𝑆𝑆𝐸(𝑥2).
Gráficos de regresión parcial
• Ejemplo de gráfico de regresión parcial para 𝑥1 cuando 𝑥2 ya se encuentra en el modelo, basado
en 𝑛 = 3 observaciones:
• La Figura (b) muestra los mismos puntos, pero aquí las desviaciones verticales de los puntos son 
alrededor de la recta de mínimos cuadrados a través del origen con pendiente 𝑏1. Estas
desviaciones son los residuos 𝑒 𝑌 𝑥1, 𝑥2 cuando 𝑥1 y 𝑥2 se encuentran en el modelo de 
regresión. Por tanto, la suma cuadrática de estas desvaciones representan a 𝑆𝑆𝐸 𝑥1, 𝑥2 .
Gráficos de regresión parcial
• Ejemplo de gráfico de regresión parcial para 𝑥1 cuando 𝑥2 ya se encuentra en el modelo, basado
en 𝑛 = 3 observaciones:
• La diferencia entre 𝑆𝑆𝐸 𝑥2 y 𝑆𝑆𝐸 𝑥1, 𝑥2 es igual a 𝑆𝑆𝑅 𝑥2 𝑥1 . Por tanto, las diferencias en las 
magnitudes en los dos conjuntos de desviaciones brinda información sobre la fortaleza marginal 
de la relación lineal de 𝑥1 en la variable de respuesta, dado que 𝑥2 ya se encuentra en el modelo.
Proceso de construcción del modelo
1. Recolección de datos y preparación
2. Reducción de variables predictoras explicativas
3. Refinamiento del modelo y selección
4. Validación del modelo
Recolección de datos
• Experimentos controlados
✓En un experimento controlado, el investigador controla los niveles de las variables 
explicativas y asigna un tratamiento (que consiste que una combinación de niveles de 
las variables explicativas) a cada unidad experimental y observa la respuesta
✓Ejemplo: Ejecutivos a los cuales se asignan de forma completamente aleatoria un 
“tratamiento” que consiste en una combinación de tamaño de presentación gráfica y 
longitud de tiempo permitido para la presentación. La variable de respuesta que se 
observa es una medida de la precisión del análisis en la presentación.
✓Los ejecutivos son las unidades experimentales. En experimentos controlados, a las 
variables explicativas se las conoce como factores o variables de control. 
✓Para experimentos controlados se requiere recolectar datos para cada unidad
experimental en la variable de respuesta y en el nivel de cada una de las variables de 
control
✓A veces los experimentos controlados implican problemas de ética. Por ejemplo, 
sería poco ético hacer un experimento para estudiar los efectos de privación 
sensorial en niños. Además, son costosos y pueden tomar mucho tiempo realizarlos.
Recolección de datos
• Experimentos controlados con covariables
✓El diseño estadístico de experimentos utiliza información suplementaria en el diseño del 
experimento, tales como las características de las unidades experimentales, con el fin de 
reducir la varianza de los términos del error experimental en el modelo de regresión. Aún así, 
a veces, no es posible incorporar esta información suplementaria en el diseño del experiment
✓En su lugar, podría ser posible para el investigador, incorporar esta información en el modelo
de regresión para de esa manera reducir la varianza del error al incluir estas variables no 
controladas o covariables en el modelo. A estos experimentos se los conoce como
experimentoscontrolados con covariables
✓Por ejemplo, para analizar los efectos de las variables explicativas tamaño de la presentación
gráfica y tiempo permitido, en la exactitud de respuestas en presentaciones gráficas, un 
investigador pudo realizar un experimento con un diseño completamente aleatorizado. 
Debido a restricciones de tiempo, el investigador no pudo incorporar información
suplementaria en el diseño. El investigador sospechaba que tanto el género de los 
presentadores como el número de años de educación podrían afectar la exactitud de las 
respuestas. Por tanto, el investigador también recogió datos sobre estas dos variables no 
controladas en caso que el uso de estas covariables en el modelo de regresión puedan hacer
el análisis de los efectos de las variables explicativas (tamaño de la presentación gráfica y 
tiempo permitido) más preciso
Recolección de datos
• Estudios observacionales confirmatorios
✓Los estudios observacionales confirmatorios se basan en datos observacionales y 
tienen por objetivo probar (i.e. para confirmar o no confirmar) hipótesis derivadas de 
estudios anteriores o de intuiciones
✓Para estos estudios, se recogen datos para variables explicativas que han mostrado
en estudios previos afectar a la variable de respuesta, así como también, se recogen
datos para la o las variables nuevas involucradas en la hipótesis
✓En este contexto, a la o las variables explicativas involucradas en la hipótesis se la 
conoce a menudo como variables primarias, mientras que, a las variables explicativas
que son incluidas en el modelo para reflejar el conocimiento existente se las conoce
como variables de control (llamadas factores de riesgo conocidos en epidemiología)
✓Las variables de control no son controladas aquí como en un estudio experimental, 
sino que son usadas para dar cuenta de influencias conocidas en la variable de 
respuesta
✓Por ejemplo, en un estudio observacional del efecto de suplementos de vitamina E 
en la incidencia de un cierto tipo de cancer durante un cierto periodo, podrían
incluirse en el modelo factores de riesgo conocidos como variables de control, tales 
como edad, género y etnia, mientras que la cantidad de suplemento de vitamina E 
tomada diariamente sería la variable explicativa primaria
Recolección de datos
• Estudios observacionales exploratorios
✓En la ciencias sociales, del comportamiento, de la salud, de la administración, y en otros
campos, a menudo no es posible llevar a cabo experimentos controlados.
✓Además, puede ser el caso que no se disponga de conocimiento adecuado para llevar a cabo
estudios observacionales confirmatorios.
✓Como resultado, algunos estudios en estos campos son estudios observacionales
exploratorios, donde los investigadores realizan una búsqueda de variables explicativas que 
podrían estar relacionadas a la variable de respuesta.
✓Para complicar las cosas aún más, los modelos teóricos disponibles pueden involucrar
variables explicativas que no son directamente medibles, tales como ingresos futuros de 
familias dentro de los próximos 10 años
✓Bajo estas condiciones, los investigadores a menudos son obligados a explorer variables 
explicativas que podrían estar relacionada con la variable de respuesta bajo studio
✓Por supuesto, un conjunto tal de variables explicativas potencialmente útiles puede ser 
grande
✓Ejemplo: las ventas de lavaplatos portables en una provincia puede ser afectada por el 
tamaño de la población, ingreso per cápita, porcentaje de población en zonas urbanas, 
porcentaje de personas menores de 50 años, porcentaje de familias con niños en casa, etc, 
etc…..
Recolección de datos
• Estudios observacionales exploratorios
✓Una vez que se hayan recopilado una lista extensa de variables explicativas
potencialmente útiles, algunas de estas variables pueden ser rápidamente
descartadas
✓Una variable explicativa puede no ser fundamental para el problema, estar
sujeta a grandes errores de medición, y/o puede recrear efectivamente otra
variable explicativa en la lista
✓Las variables explicativas que no pueden ser medidas pueden ser sea 
eliminadas o reemplazadas por variables proxy que son altamente
correlacionadas con ellas
✓El número de observaciones a ser recogidas para un estudio de regresión
obserservacional exploratorio depende del tamaño del grupo de variables 
explicativas potencialmente útiles disponibles en esta etapa.
✓Se requieren más casos cuando el grupo es grande. Ciertos estadísticos
sugieren que se deberían recoger datos de 6 a 10 casos por cada variable 
potencialmente útil.
Preparación de los datos
• Una vez que los datos hayan sido recogidos, se deben realizar
revisiones y gráficos para identificar errores en los datos así como
valores atípicos extremos
• Las dificultades con errores en los datos son especialmente
prevalentes en conjuntos de datos grandes y deben ser corregidos o 
resueltos antes que comience la construcción del modelo
• Cuando sea posible, el investigador debe monitorear y controlar
cuidadosamente el proceso de recolección de datos para reducir la 
probabilidad de errores en los datos
Investigación preliminar del modelo
• Una vez que los datos hayan sido editados correctamente, puede
empezar el proceso formal de modelado
• Una variedad de diagnósticos deben ser empleados para identificar:
formas funcionales con las cuales las variables explicativas deben
entrar al modelo de regresión, interacciones importantes que deben
ser incluidas en el modelo, la necesidad de realizar transformaciones
• Cuando sea posible, el investigador puede apoyarse en su
conocimiento previo y en su experiencia para sugerir
transformaciones apropiadas e interacciones para investigar
• Esto es particularmente importante cuando el número de variables
explicativas potencialmente útiles es grande
Reducción de variables predictoras
explicativas
• Experimentos controlados
✓La reducción de variables explicativas en la fase de construcción del modelo
usualmente no es un problema importante para experimentos controlados
✓El investigador ha seleccionado las variables explicativas para su investigación, 
y un modelo de regresión está por ser desarrollado que permitirá al 
investigador estudiar los efectos de estas variables en la variable de respuesta
Reducción de variables predictoras
explicativas
• Experimentos controlados con covariables
✓En estudios de experimentos controlados con covariables alguna reducción
de las covariables puede tomar lugar ya que los investigadores a menudo no 
están seguros con anticipación sobre si las covariables seleccionadas serán
útiles par reducir varianza del error
✓En nuestro ejemplo sobre presentaciones gráficas, el investigador podría
examinar en esta etapa del proceso de construcción del modelo si género y 
número de años de educación están relacionados con la exactitud de las 
respuestas en presentaciones gráficas, como había sido anticipado
✓El número de covariables consideradas en experimentos controlados es 
usualmente pequeño, por lo que no se encuentran problemas especiales en la 
determinación de si algunas o todas las covariables deben ser eliminadas del 
modelo de regresión
Reducción de variables predictoras
explicativas
• Estudios observacionales confirmatorios
✓Generalmente, no se realiza reducción de variables explicativas en estudios
observacionales confirmatorios
✓Las variables de control fueron escogidas según el conocimiento previo y 
deben ser retenidas en el modelo para realizar comparaciones con estudios
anteriores, incluso si algunas de las variables de control no conllevan a 
reducción de varianza alguna en el estudio
✓Las variables primarias son aquellas cuya influencia en la variable de 
respuesta está por ser examinada, y por tanto, deben estar presentes en el 
modelo
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓En estudios observacionales exploratorios, el número de variables explicativas que quedan
luego de la revisión inicial es típicamente todavíagrande
✓Además, muchas de estas variables frecuentemente serán altamente correlacionadas
✓Por tanto, el investigador usualmente deseará reducir el número de variables explicativas a 
ser usadas en el modelo final
✓Hay algunas razones para esto: un modelo de regresión con numerosas variables explicativas
puede ser poco creíble, difícil de trabajar, difícil de interpretar y comprender
✓Además, la presencia de muchas variables explicativas altamente correlacionadas puede
incrementar sustancialmente la varianza muestral de los estimadores para los coeficientes de
regresión, quitarle valor a las capcidades descriptivas del modelo, resultar en inestabilidad
matemática al estimar coeficientes de regresión y reducir las capacidades predictivas del 
modelo
✓Un empeoramiento en la capacidad predictiva del modelo puede ocurrir cuando se 
mantienen en el modelo a variables explicativas que no tienen relación con la variable de 
respuesta, dadas las otras variables explicativas en el modelo de regresión
✓En ese caso, las varianzas de los valores ajustados, 𝜎2 ෠𝑌𝑖 tienden a incrementarse con la 
inclusión de variables explicativas inútiles
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓Una vez que el investigador ha decidido tentativamente sobre la forma 
funcional de las relaciones de regresión (sobre si variables dadas deben
aparece en forma lineal, forma cuadrática, etc) y sobre si algún término de 
interacción debe ser incluido, el siguiente paso en muchos estudios
observacionales exploratorios es el de identificar unos cuantos subconjuntos
“buenos” de las variables 𝑥 para un estudio más intensive
✓Estos subconjuntos deben incluir no solo las variables explicativas potenciales
en forma de primer orden, pero también algún término cuadrático necesario, 
otros términos de curvatura, así como términos de interacción necesarios
✓Ya que los usos del modelo de regresión varía, un subconjunto de variables 
explicativas no siempre será el “mejor“. Por ejemplo, un uso descriptivo de un 
modelo de regresión típicamente enfatizará en la estimación precisa de los 
coeficientes de regresión, mientras que un uso predictivo se enfocará en los 
errores de predicción
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓A menudo, diferentes subconjuntos del grupo de variables explicativas potenciales servirán
mejor los diferentes propósitos para el modelo de regresión
✓ Inclusive para un objetivo dado, a menudo se encuentra que algunos subconjuntos son 
aproximadamente igual de “buenos” de acuerdo a un criterio dado, y la selección de entre 
estos subconjuntos “buenos” debe hacerse sobre la base de consideraciones adicionales
✓La selección de unos pocos subconjuntos apropiados de variables explicativas para su
consideración final en estudios observacionales exploratorios debe hacerse con mucho
cuidado
✓La eliminación de variables explicativas importantes puede afectar seriamente el poder
explicativo del modelo y conllevar a estimaciones sesgadas de coeficientes de regresión, 
respuestas promedio, y predicciones de observaciones nuevas, así como estimaciones
sesgadas de la varianza del error. El sesgo en estas estimaciones es relacionado con el hecho
que con datos observacionales, los términos del error en un modelo de regresión con falta de 
ajuste pueden reflejar efectos no aleatorios de las variables explicativas que no están
incorporadas en el modelo de regresión
✓Por otro lado, si demasiadas variables explicativas están incluidas en el subconjunto, 
entonces este modelo sobreajustado resultará a menudo en varianzas para estimadores que 
son mayores que estas para modelos más sencillos
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓Otro peligro con datos observacionales es que variables explicativas
importantes pueden ser observadas solo en rangos cortos. Como resultado, 
estas variables explicativas importantes pueden ser omitidas solo porque
estas ocurren en la muestra en un rango corto de valores y por tanto, resultan
ser estadísticamente no significativas
✓Una gran variedad de procedimientos estadísticos-computacionales han sido
desarrollados para asistir al investigador en la reducción del número de 
variables explicativas potenciales en un estudio observacional exploratorio, 
cuando estas variables están correlacionadas entre ellas
✓En este capítulo, presentamos dos de estos procedimientos
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓El primero, que es práctico para grupos de variables explicativas que son de 
tamaño pequeño o moderado, considera todos los subconjuntos posibles de
variables explicativas que pueden ser desarrollados a partir del grupo de 
variables explicativas potenciales, e identifica aquellos subconjuntos que son 
“buenos” de acuerdo a un criterio especificado por el investigador
✓El segundo enfoque, emplea procedimientos de búsqueda automática para
obtener un solo subconjunto de las variables explicativas. Este enfoque es 
recomendado principalmente para reducciones que involucren grupos
grandes de variables explicativas
✓Incluso si estos enfoques estadísticos-computacionales pueden ser muy útiles
para identificar subconjuntos apropiados para una consideración final, el 
proceso de desarrollar un modelo de regresión útil debe ser pragmático y 
necesita utilizar grandes dosis de juicio subjetivo
Reducción de variables predictoras
explicativas
• Estudios observacionales exploratorios
✓Las variables explicativas que son consideradas importantes deben ser 
incluidas en el modelo de regresión antes de ejecutar cualquier
procedimiento estadístico-computacional
✓Luego, estos enfoques que identifican solo un subconjunto de variables 
explicativas como el “mejor” pueden complementar el análisis de tal manera
que subconjuntos adicionales sean también considerados antes que se 
determine el modelo de regresión final
Reducción de variables predictoras
explicativas
• Muy a menudo, investigadores incautos filtrarán a un conjunto de 
variables explicativas ajustando el modelo de regresión que contiene
el conjunto entero de variables 𝑥 potenciales, y luego simplemente
eliminarán aquellas variables para las cuales el estadístico de prueba
𝑡∗ calculado: 
𝑡∗ =
𝑏𝑘
𝑠 𝑏𝑘
tenga un valor absolute pequeño. 
• Sin embargo, este procedimiento puede conllevar a la eliminación de
variables predictoras importantes que están intercorrelacionadas
• Claramente, un procedimiento de búsqueda bueno debe ser capaz de 
lidiar con variables predictoras importantes intercorrelacionadas, de 
tal manera que no todas ellas sean eliminadas del modelo
Reducción de variables predictoras
explicativas
• Los experimentos controlados pueden usualmente evitar algunos de
los problemas encontrados en estudios observacionales exploratorios
• Por ejemplo, los efectos de variables explicativas importantes que son
omitadas (también llamadas variables predictoras latentes) son 
minimizados usando aleatorización
• Además, se pueden seleccionar rangos adecuados para las variables 
explicativas y pueden eliminarse correlaciones entre las variables 
explicativas a través de selecciones adecuadas de sus niveles
Refinamiento del modelo y selección
• En esta etapa del proceso de construcción del modelo, el modelo de regresión tentative, 
o los varios modelos de regresión “buenos” en el caso de estudios observacionales
exploratorios, necesitan ser revisado en detalle para curvaturas y efectos de interacción
• Gráficos de residuos son útiles al decider si un modelo se prefiere sobre algún otro
• Una variedad de gráficos residuales y análisis pueden ser empleados para identificar
alguna falta de ajuste, valores atípicos, y observaciones influyentes
• Cuando un procedimiento de selección automática es utilizado para un estudio
observacional exploratorio y un solo modelo es identificado como el “mejor”, otros
modelos deber ser exploradostambién
• Un procedimiento es el de usar el número de variables explicativas en el modelo
identificadas como “mejores” como una estimación del número de variables explicativas
que se requieren en el modelo de regresión
• Entonces, el investigador puede explorar e identificar otros modelos candidatos, con 
aproximadamente el mismo número de variables explicativas, identificadas por el 
procedimiento automático
Refinamiento del modelo y selección
• Eventualmente, liego de hacer una revision completa y varias
acciones remediales, tales como transformaciones, el investigador
reduce el número de modelos que compiten a uno o solo unos
cuantos
• En este punto, es una buena práctica estadística evaluar la validez de 
los modelos candidatos que quedan a través de estudios de 
validación del modelo
• Estos métodos de validación pueden ser usados para ayudar
determiner el modelo de regresión final, así como para determinar
que tan bien el modelo rendirá en la práctica
Validación del modelo
• La validación del modelo se refiere a la estabilidad y razonabilidad de 
los coeficientes de regresión, la credibilidad y utilidad de la función de
regresión, y la habilidad de generalizar inferencias obtenidas en el 
análisis de regresión
• Tres maneras básicas de validar un modelo de regresión son:
• Recolección de datos nuevos para revisar el modelo y su habilidad predictiva
• Comparación de resultados con valores esperados teóricos, resultados
empíricos anterior y resultados de simulación
• Uso de una muestra de validación para revisar el modelo y su habilidad
predictiva
Criterios para la selección del modelo
• Para cualquier conjunto de 𝑝 − 1 variables predictoras, se pueden construir 2𝑝−1
modelos alternativos
• Cada predictor puede ser incluido o excluido del modelo
• Por ejemplo, con 4 predictores, se pueden construir ………….. Modelos
• Con un gran número de predictores, será difícil examinar cada uno de los 
modelos
• Procedimientos de selección de modelos, también conocidos como selección del 
mejor subconjunto o procedimientos de selección de variables, han sido 
desarrollados para identificar un grupo pequeño grupo de modelos de regresión 
que son “buenos” de acuerdo a un criterior especificado
• Luego, se puede realizar una examinación más detallada a estos modelos, que 
permita seleccionar al modelo final
• Algunos criterios para comparar los modelos de regresión son: 𝑅𝑝
2, 𝑅𝑎,𝑝
2 , 𝐶𝑝, 𝐴𝐼𝐶𝑝, 
𝑆𝐵𝐶𝑝 y 𝑃𝑅𝐸𝑆𝑆𝑝
Criterios para la selección del modelo
• Algunos criterios para comparar los modelos de regresión son: 𝑅𝑝
2, 
𝑅𝑎,𝑝
2 , 𝐶𝑝 de Mallows, 𝐴𝐼𝐶𝑝, 𝑆𝐵𝐶𝑝 y 𝑃𝑅𝐸𝑆𝑆𝑝
• Denotamos al número de variables 𝑥 potenciales por 𝑃 − 1
• La función de regresión que contiene todas las variables predictoras 
potenciales contiene 𝑃 parámetros, y la función que no contiene 
variable predictora contiene un parámetro, 𝛽0
• El número de variables predictoras en el subconjunto se la denota 
como 𝑝 − 1, como hasta ahora, de tal manera que se tienen 𝑝
parámetros en la función de regresión para este subconjunto de 
variables predictoras
• Por tanto, 1 ≤ 𝑝 ≤ 𝑃
Criterio 𝑅𝑝
2
• Usa el coeficiente de determinación multiple para identificar algunos
subconjuntos “buenos” de variables predictoras, i.e. subconjuntos
donde 𝑅2 es alto
• 𝑅𝑝
2, el subíndice indica que que hay 𝑝 parámetros, o 𝑝 − 1 variables 
predictoras, en la función de regresión en la que se basa 𝑅𝑝
2
• 𝑅𝑝
2 = 1 −
𝑆𝑆𝐸𝑝
𝑆𝑆𝑇𝑂
• 𝑅𝑝
2 será máximo cuando todas las 𝑃 − 1 variables 𝑥 potenciales se 
encuentren en el modelo
• Se busca el punto en donde añadir más variables predictoras no vale 
la pena, ya que conlleva a un aumento pequeño en 𝑅𝑝
2
Criterio 𝑅𝑎,𝑝
2
• Ya que 𝑅𝑝
2 no toma en cuenta el número de parámetros en el modelo, el coeficiente de 
determinación múltiple 𝑅𝑎,𝑝
2 ha sido sugerido como una alternativa:
𝑅𝑎,𝑝
2 = 1 −
𝑛 − 1
𝑛 − 𝑝
𝑆𝑆𝐸𝑝
𝑆𝑆𝑇𝑂
= 1 −
𝑀𝑆𝐸𝑝
𝑆𝑆𝑇𝑂
𝑛 − 1
• Este coeficiente toma en cuenta el número de parámetros a través de los grados de 
libertad
• 𝑅𝑎,𝑝
2 se incrementa si y sólo si 𝑀𝑆𝐸𝑝 disminuye, ya que 
𝑆𝑆𝑇𝑂
𝑛−1
es fijo para las 
observaciones 𝑌 dadas
• El valor máximo de 𝑅𝑎,𝑝
2 puede decrecer cuando el incremento en el valor máximo de 𝑅𝑝
2
es tan pequeño que no es posible compensar la pérdida de un grado de libertad 
adicional
• Se busca encontrar subconjuntos para el cual 𝑅𝑎,𝑝
2 es máximo o cercano al máximo, de tal 
manera que no vale más la pena añadir variables
Criterio 𝐶𝑝 de Mallows
• Este criterio se interesa en el error cuadrático medio total de los 𝑛
valores ajustados para cada modelo de regresión del subconjunto
• El error cuadrático medio para ෠𝑌𝑖 es definido como:
𝐸 ෠𝑌𝑖 − 𝜇𝑖
2
= 𝐸 ෠𝑌𝑖 − 𝜇𝑖
2
+ 𝜎2 ෠𝑌𝑖
• Vemos entonces que la media cuadrática del error para el valor 
ajustado ෠𝑌𝑖 es la suma del sesgo al cuadrado y la varianza de ෠𝑌𝑖
• La media cuadrática del error total para todos los 𝑛 valores ajustados 
෠𝑌𝑖 es entonces:
෍
𝑖=1
𝑛
𝐸 ෠𝑌𝑖 − 𝜇𝑖
2
+ 𝜎2 ෠𝑌𝑖 =෍
𝑖=1
𝑛
𝐸 ෠𝑌𝑖 − 𝜇𝑖
2
+෍
𝑖=1
𝑛
𝜎2 ෠𝑌𝑖
Criterio 𝐶𝑝 de Mallows
• La medida del criterio Γ𝑝 es simplemente la media cuadrática del error 
total dividida para 𝜎2, la verdadera varianza del error:
Γ𝑝 =
1
𝜎2
෍
𝑖=1
𝑛
𝐸 ෠𝑌𝑖 − 𝜇𝑖
2
+෍
𝑖=1
𝑛
𝜎2 ෠𝑌𝑖
• El modelo que incluye todas las 𝑃 − 1 variables potenciales 𝑥 es asumido 
de tal manera que 𝑀𝑆𝐸 𝑥1, ⋯ , 𝑥𝑃−1 es un estimador insesgado para 𝜎
2
• Se puede mostrar entonces que un estimador de Γ𝑝 es 𝐶𝑝:
𝐶𝑝 =
𝑆𝑆𝐸𝑝
𝑀𝑆𝐸 𝑥1,⋯,𝑥𝑃−1
− 𝑛 − 2𝑝
donde 𝑆𝑆𝐸𝑝 es la suma cuadrática del error para el modelo de regresión del 
subconjunto ajustado con 𝑝 parámetros (i.e. con 𝑝 − 1 variables 𝑥)
Criterio 𝐶𝑝 de Mallows
• Cuando no existe sesgo en el modelo de regresión con 𝑝 − 1 variables 𝑥 de 
tal manera que 𝐸 ෠𝑌𝑖 ≡ 𝜇𝑖, el valor esperado de 𝐶𝑝 es aproximadamente 𝑝:
𝐸 𝐶𝑝 ≈ 𝑝 cuando 𝐸 ෠𝑌𝑖 ≡ 𝜇𝑖
• Por tanto, cuando los valores 𝐶𝑝 son graficados contra 𝑝 para todos los 
modelos de regresión posibles, aquellos modelos con sesgo bajo tenderán 
a caer cerca de la línea 𝐶𝑝 = 𝑝
• Modelos con sesgo sustancial tenderán a caer considerablemente sobre
esta línea, mientras que, valores 𝐶𝑝 debajo de la línea 𝐶𝑝 = 𝑝 son 
interpretados como si no mostraran sesgo, y están por debajo de la línea 
debido a errores muestrales
• El valor 𝐶𝑝 para el modelo de regresión que contiene todas las 𝑃 − 1
variables 𝑥, es por definición igual a 𝑃
• La medida 𝐶𝑝 asume que 𝑀𝑆𝐸 𝑥1, ⋯ , 𝑥𝑃−1 es un estimador insesgado 
para 𝜎2, lo cual es equivalente a asumir que este modelo no contiene 
sesgo
Criterio 𝐴𝐼𝐶𝑝 y 𝑆𝐵𝐶𝑝
• Asi como 𝑅𝑎,𝑝
2 , el criterio de información de Akaike (𝐴𝐼𝐶𝑝) y el criterio Bayesiano 
de Schwarz (𝑆𝐵𝐶𝑝) penalizan la añadidura de variables predictoras
• Estos criterios se definen de la siguiente manera:
𝐴𝐼𝐶𝑝 = 𝑛 ln 𝑆𝑆𝐸𝑝 − 𝑛 ln 𝑛 + 2𝑝
𝑆𝐵𝐶𝑝 = 𝑛 ln 𝑆𝑆𝐸𝑝 − 𝑛 ln𝑛 + ln𝑛 𝑝
• Note que para ambos criterios, el primer término es 𝑛 ln 𝑆𝑆𝐸𝑝, el cual disminuye 
conforme 𝑝 incrementa
• Sin embargo, el tercer término se incrementa con el número de parámetros 𝑝
• Se busca modelos con valores pequeños de 𝐴𝐼𝐶𝑝 y 𝑆𝐵𝐶𝑝
• Modelos con pequeños 𝑆𝑆𝐸𝑝 tendrán valores pequeños para estos criterios, 
siempre y cuando las penalidades, 2𝑝 para 𝐴𝐼𝐶𝑝 y ln 𝑛 para 𝑆𝐵𝐶𝑝, no sean muy 
grandes
• Con 𝑛 ≥ 8, la penalidad de 𝑆𝐵𝐶𝑝 es más grande que aquella de 𝐴𝐼𝐶𝑝, en cuyo 
caso 𝑆𝐵𝐶𝑝 tiende a favorecer modelos más parsimoniosos
Criterio 𝑃𝑅𝐸𝑆𝑆𝑝
• Es una medida de que tan bien el uso de los valores ajustados de un 
modelo subconjunto pueden predecir los valores observados 𝑌
• En el criterio 𝑃𝑅𝐸𝑆𝑆𝑝 cada valor ajustado se obtiene al eliminar la 𝑖-
enésima observación, estimar la función de regresión para el modelo 
subconjunto usando las 𝑛 − 1 observaciones restantes,y luego usar 
la función de regresión ajustada para obtener la predicción ෠𝑌𝑖(𝑖) para 
la 𝑖-enésima observación
• El criterio 𝑃𝑅𝐸𝑆𝑆𝑝 se define como:
𝑃𝑅𝐸𝑆𝑆𝑝 =෍
𝑖=1
𝑛
𝑌𝑖 − ෠𝑌𝑖(𝑖)
2
• Modelos con valores pequeños para 𝑃𝑅𝐸𝑆𝑆𝑝 son consideramos 
buenos modelos candidatos
Procedimientos de búsqueda automática para 
selección del modelo
• Con un gran número de predictores, el número de modelos posibles
2𝑝−1 crece muy rápido
• Evaluar todos los modelos podría ser una tarea muy difícil
• Para simplicar esta tarea, se han desarrollado procedimientos de 
búsqueda automática
• Los más usados son: regresión por el mejor subconjunto y regresión
paso a paso
Regresión por el mejor subconjunto
• Se escoge un subconjunto de modelos óptimos de acuerdo a un 
criterio
• Se pueden usar cualquiera de los criterios revisados: 𝑅𝑝
2, 𝑅𝑎,𝑝
2 , 𝐶𝑝, 
𝐴𝐼𝐶𝑝, 𝑆𝐵𝐶𝑝 y 𝑃𝑅𝐸𝑆𝑆𝑝
• Se pueden identificar los mejores subconjuntos para cada tamaño 
posible del modelo
Regresión por el mejor subconjunto
• Se pueden identificar los mejores subconjuntos para cada tamaño 
posible del modelo, usando diferentes criterios
Regresión por el mejor subconjunto
• Se pueden identificar los mejores subconjuntos para cada tamaño 
posible del modelo, usando diferentes criterios
• Escoger el mejor usando este criterio
• O, se puede identificar un grupo reducido de subconjuntos “buenos” 
y luego evaluarlos de acuerdo a la evaluación de supuestos, 
conocimiento del investigador y estudios de validación
• Puede ser computacionalmente my intensivo investigar todos los 
posibles subconjuntos
Regresión paso a paso
• Identifica el mejor subconjunto de variables de forma secuencial
• De esa forma, no evaluamos todos los posibles modelos como 
regresión por el mejor subconjunto, sino que se van comparando 
modelos de forma secuencial al ingresar o eliminar una variable o 
término en cada paso
• Regresión paso a paso identifica finalmente un sólo modelo “bueno”
• Podríamos escoger un modelo subóptimo y no considerar otros
modelos igualmente “buenos” o mejores
• Una posibilidad es usar esta técnica para identificar el número de 
variables del modelo óptimo, y luego usar esto para identificar el 
subconjunto óptimo usando regresión por el mejor subconjunto
Regresión paso a paso
• Dado los umbrales 𝛼𝐹
∗ , 𝛼𝐵
∗ el algoritmo de selección paso a paso es el 
siguiente:
• Empieza con ningún predictor en el modelo
• Paso hacia adelante: añade el predictor con el valor P más pequeño por 
debajo de 𝛼𝐹
∗
• Paso hacia atrás: Elimine el predictor con valor P más grande sobre 𝛼𝐵
∗
• Repita el paso 2 y 3 hasta la convergencia (o un máximo de pasos es 
alcanzado)
• 𝛼𝐹
∗ , 𝛼𝐵
∗ no necesariamente son iguales. Se aconseja que 𝛼𝐹
∗ ≤ 𝛼𝐵
∗ para 
evitar el caso en donde una variable es continuamente ingresada y 
eliminada del modelo
Algoritmo de eliminación hacia atrás
• Dado un umbral 𝛼∗, el algoritmo de eliminación hacia atrás:
• Empieza con todos los predictores posibles en el modelo
• Elimine el predictor con valor P mayor sobre 𝛼∗
• Reajuste y repite el paso 2 hasta que todos los valores P están por debajo de 
𝛼∗
• Note que 𝛼∗ no debe ser necesariamente igual a 0.05, típicamente 𝛼∗
es mayor (e.g. 0.10 o 0.15)
• No queremos eliminar predictores importantes
Algoritmo de eliminación hacia atrás
• Dado un umbral 𝛼∗, el algoritmo de eliminación hacia adelante:
• Empieza con ningún predictor en el modelo
• Añada el predictor con el valor P más pequeño por debajo de 𝛼∗
• Reajuste y repita el paso 2 hasta que no existan más valores P con nivel menor 
que 𝛼∗
• Note que 𝛼∗ no debe ser necesariamente igual a 0.05, típicamente 𝛼∗
es mayor (e.g. 0.10 o 0.15)
• No queremos eliminar predictores importantes

Continuar navegando

Materiales relacionados

78 pag.
Relaciones y Modelos de Regresión

Osasco Ii Etec

User badge image

Pedro Goya

184 pag.
0775680

User badge image

Intercambio de Conocimiento