Logo Studenta

introduccion a la probabilidad y estadistica ejercicios-202

¡Estudia con miles de materiales!

Vista previa del material en texto

580 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
• Especialidad, número de unidades llevadas, número de cursos tomados
• Programa de trabajo, estado civil, viaja o vive en el plantel
¿Cuál de este gran número de variables independientes deben incluirse en el modelo? 
Como el número de términos podría rápidamente hacerse muy difícil de manejar, podría 
escogerse usar un procedimiento llamado análisis de regresión por pasos, que se pone 
en práctica por computadora y lo hay en casi todos los paquetes de estadística.
Suponga que tenemos datos acerca de y y un buen número de posibles variables 
independientes, x1, x2, …, xk. Un análisis de regresión por pasos ajusta una variedad de 
modelos a los datos, agregando y eliminando variables cuando la significancia de ellas 
en presencia de las otras variables es significativa o no significativa, respectivamente. 
Una vez que el programa haya hecho un número suficiente de iteraciones y no hay 
más variables significativas cuando se suman al modelo y ninguna de las variables del 
modelo son no significativas cuando son eliminadas, el procedimiento se detiene.
Un análisis de regresión por pasos es un modo fácil de localizar algunas variables que 
aportan información para predecir y, pero no es a prueba de errores. Como estos progra-
mas siempre ajustan modelos de primer orden de la forma
E(y) � b0 � b1x1 � b2x2 � � � � � bkxk
no son útiles para detectar curvatura o interacción en los datos. El análisis de regresión 
por pasos se usa mejor como herramienta preliminar para identificar cuál, de un gran 
número de variables, debe ser considerada en su modelo. Entonces es necesario decidir 
cómo introducir estas variables en el modelo real que usará para predicción.
INTERPRETACIÓN ERRÓNEA 
DE UN ANÁLISIS DE REGRESIÓN
Son comunes varias interpretaciones erróneas en la salida impresa de un análisis de 
regresión. Ya hemos mencionado la importancia de la selección de un modelo. Si un 
modelo no se ajusta a un conjunto de datos, no quiere decir que las variables incluidas 
en el modelo aporten poca o ninguna información para la predicción de y. Las variables 
pueden ser importantes contribuyentes de información, pero pueden haberse introducido 
las variables en el modelo en una forma equivocada. Por ejemplo, un modelo de segun-
do orden en las variables podría dar un muy buen ajuste a los datos cuando un modelo de 
primer orden parece ser por completo inútil para describir la variable de respuesta y.
Causalidad
Es necesario tener cuidado de no concluir que cambios en x causan cambios en y. Este 
tipo de relación causal puede ser detectada sólo con un experimento cuidadosamente 
diseñado. Por ejemplo, si al azar se asignan unidades experimentales a cada uno de dos 
niveles de una variable x, por ejemplo x � 5 y x � 10 y los datos muestran que el valor 
medio de y es mayor cuando x � 10, entonces se puede decir que el cambio en el nivel 
de x causó un cambio en el valor medio de y. Pero en casi todos los análisis de regresión, 
en los que los experimentos no están diseñados, no hay garantía de que una variable 
predictora importante, por ejemplo x1, cause un cambio en y. Es muy posible que alguna 
variable que ni siquiera esté en el modelo cause que tanto y como x1 cambien.
Multicolinealidad
Ni el tamaño de un coeficiente de regresión ni su valor t indican la importancia de la 
variable como contribuyente de información. Por ejemplo, supongamos que se desea pre-
decir y, la calificación de cálculo de un estudiante universitario, con base en x1 � prome-
dio de calificaciones de preparatoria y x2 � calificación en el examen de aptitud en 
13.9
Probabilidad_Mendenhall_13.indd 580Probabilidad_Mendenhall_13.indd 580 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
 www.FreeLibros.me
matemáticas. Como estas dos variables contienen mucho de lo mismo o información 
compartida, no es de sorprender que una vez que una de las variables se introduzca 
en el modelo, la otra aporta muy poca información adicional. El valor t individual es 
pequeño, pero, si las variables se introdujeron en el orden inverso, se vería invertido el 
tamaño de los valores t.
La situación descrita líneas antes se denomina multicolinealidad y se presenta 
cuando dos o más de las variables predictoras están altamente correlacionadas entre sí. 
Cuando la multicolinealidad está presente en un problema de regresión, puede tener 
estos efectos en el análisis:
• Los coefi cientes de regresión estimados tendrán errores estándar grandes, causan-
do imprecisión en intervalos de confi anza y predicción.
• Agregar o eliminar una variable de predicción puede causar cambios signifi cati-
vos en los valores de los otros coefi cientes de regresión.
¿Cómo saber si un análisis de regresión exhibe multicolinealidad? Busque estos 
indicios:
• El valor de R2 es grande, lo cual indica un buen ajuste, pero las pruebas t indivi-
duales no son signifi cativas.
• Los signos de los coeficientes de regresión son contrarios a lo que intuitivamente 
se esperaría fueran las contribuciones de esas variables.
• Una matriz de correlaciones, generada por computadora, muestra cuáles variables 
predictoras están altamente correlacionadas entre sí y con la respuesta y.
La figura 13.20 muestra la matriz de correlaciones generada para los datos de bienes 
raíces del ejemplo 13.2. La primera columna de la matriz muestra las correlaciones de 
cada variable de predicción con la variable de respuesta y. Todas son significativamen-
te diferentes de cero, pero la primera variable, x1 � área de vivienda, es la más altamente 
correlacionada. Las últimas tres columnas de la matriz muestran correlaciones significa-
tivas entre todas las variables predictoras, excepto un par. Ésta es una fuerte indicación 
de multicolinealidad. Si se trata de eliminar una de las variables del modelo, pueden cam-
biar en forma drástica los efectos de las otras tres. Otro indicio puede hallarse al exami-
nar los coeficientes de la recta de predicción, 
ListPrice � 119 � 6.27 Square Feet � 16.2 Number of Floors 
- 2.67 Bedrooms � 30.3 Baths
Correlaciones: Precio de lista, pies cuadrados, número de pisos, recámaras, baños
 ListPrice SqFeet Numflrs Bdrms
Square Feet 0.951
 0.000
 
Number of Fl 0.605 0.630
 0.017 0.012
Bedrooms 0.746 0.711 0.375
 0.001 0.003 0.168
Baths 0.834 0.720 0.760 0.675
 0.000 0.002 0.001 0.006
Cell Contents: Pearson Correlation
 P-Value
Se podría esperar que más pisos y recámaras aumentaran el precio de lista, pero sus 
coeficientes son negativos.
Como existe multicolinealidad en alguna medida en todos los problemas de regresión, 
debemos considerar los términos individuales como aportadores de información, en lugar de 
tratar de medir la importancia práctica de cada término. La decisión primaria a tomarse es 
si un término aporta suficiente información para justificar su inclusión en el modelo.
FIGURA 13.20
Matriz de correlación para 
los datos de bienes raíces 
del ejemplo 13.2
●
 13.9 INTERPRETACIÓN ERRÓNEA DE UN ANÁLISIS DE REGRESIÓN ❍ 581
Probabilidad_Mendenhall_13.indd 581Probabilidad_Mendenhall_13.indd 581 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
 www.FreeLibros.me
582 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
PASOS A SEGUIR AL CONSTRUIR 
UN MODELO DE REGRESIÓN MÚLTIPLE
El objetivo final de un análisis de regresión múltiple es desarrollar un modelo que 
en forma precisa prediga y como función de un conjunto de variables predictoras x1, 
x2, …, xk. El procedimiento paso a paso para desarrollar este modelo se presentó en la 
sección 13.4 y volvemos a expresarlo a continuación con algún detalle adicional. Si se 
usa este método, lo que puede parecer un problema complicado se puede hacer más 
sencillo. Al igual que en cualquier procedimiento estadístico, la confianza crecerá a 
medida que ganemos experiencia con el análisis de regresiónmúltiple en varias situa-
ciones prácticas.
1. Seleccione las variables predictoras a ser incluidas en el modelo. Como algunas 
de estas variables pueden contener información compartida, se puede reducir la 
lista al correr un análisis de regresión por pasos (véase la sección 13.8). 
Mantenga el número de variables predictoras lo sufi cientemente pequeño para 
que sea efectivo pero manejable. Es necesario estar conscientes que el número 
de observaciones del conjunto de datos debe exceder el número de términos del 
modelo; cuanto mayor el exceso, mejor.
2. Escriba un modelo usando las variables predictoras seleccionadas. Si las varia-
bles son cualitativas, es mejor empezar incluyendo términos de interacción; si las 
variables son cuantitativas, es mejor empezar con un modelo de segundo orden. 
Los términos no necesarios pueden eliminarse después. Obtenga el modelo de 
predicción ajustado.
3. Use el análisis de varianza de la prueba F y R2 para determinar qué tan bien 
ajusta el modelo a los datos.
4. Verifi que las pruebas t para los coefi cientes de regresión parcial para ver cuáles 
están aportando información signifi cativa en presencia de los otros. Si algunos 
términos parecen ser no signifi cativos, considere eliminarlos. Si escoge comparar 
varios modelos diferentes, use R2(adj) para comparar su efectividad.
5. Use gráfi cas residuales generadas por computadora para ver si hay violación de 
las suposiciones de regresión.
13.10
Conceptos y fórmulas clave
I. El modelo lineal general
1. y � b0 � b1x1 � b2x2 � � � � � bkxk � e
2. El error aleatorio e tiene una distribución normal 
con media 0 y varianza s 2.
II. Método de mínimos cuadrados
1. Las estimaciones b0, b1, …, bk, para b0, b1, …, bk, 
se escogen para minimizar SSE, la suma 
del cuadrado de desviaciones alrededor de la 
recta de regresión, ŷ � b0 � b1x1 � b2x2 � 
� � � � bkxk.
2. Las estimaciones de mínimos cuadrados son 
producidas por computadora.
III. Análisis de varianza
1. SS Total � SSR � SSE, donde SS Total � Syy. 
La tabla ANOVA es producida por computadora.
2. La mejor estimación de s 2 es
 MSE � 
n �
S
 
S
k 
E
� 1
IV. Prueba, estimación y predicción
1. Una prueba de la signifi cancia de la regresión, 
H0 : b1 � b2 � � � � � bk � 0, se puede implemen-
tar usando el análisis de prueba F de varianza:
 F � 
M
M
S
S
R
E
REPASO DEL CAPÍTULO
Probabilidad_Mendenhall_13.indd 582Probabilidad_Mendenhall_13.indd 582 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
 www.FreeLibros.me
	13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
	13.9 Interpretación errónea de un análisis de regresión
	Causalidad
	Multicolinealidad
	13.10 Pasos a seguir al construir un modelo de regresión múltiple
	Repaso del capítulo

Continuar navegando