Logo Studenta

introduccion a la probabilidad y estadistica ejercicios-194

¡Estudia con miles de materiales!

Vista previa del material en texto

556 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
de la tabla ANOVA. El primer renglón de la figura 13.3 también muestra s � �
__
 s2 
� 6.84930 usando precisión de computadora. La computadora usa estos valores inter-
namente para producir estadísticas de prueba, intervalos de confianza e intervalos de 
predicción, que estudiaremos en secciones subsiguientes.
La última sección de la figura 13.3 muestra una descomposición de SSR � 15 913.0 
en que la contribución condicional de cada variable de predicción dadas las variables ya 
introducidas en el modelo se muestra para el orden de entrada que se especifique en el 
programa de regresión. Para el ejemplo de bienes raíces, el programa MINITAB introdujo 
las variables en este orden: pies cuadrados, seguido de números de pisos, recámaras y 
baños. Estas sumas de cuadrados secuenciales o condicionales constituyen uno de los 
k � 4 grados de libertad de regresión. Es interesante observar que la variable de predic-
ción x1 por sí sola es 14 829.3/15 913.0 � .932 o 93.2% de la variación total explicada 
por el modelo de regresión, pero, si cambia el orden de entrada, otra variable puede ser 
la parte principal de la suma de cuadrados de regresión.
Prueba de la utilidad del modelo 
de regresión
Recuerde que en el capítulo 12 probó ver si y y x estaban linealmente relacionadas al 
probar H0 : b � 0 con una prueba t o una prueba F equivalente. En regresión múltiple, 
hay más de una pendiente parcial, que son los coeficientes de regresión parcial. Las 
pruebas t y F ya no son equivalentes.
El análisis de varianza de la prueba F
La ecuación de regresión que usa información dada por las variables predictoras x1, 
x2, …, xk ¿es sustancialmente mejor que la predictora simple 
_
 y que no se apoya en nin-
guno de los valores de x? Esta pregunta se contesta usando una prueba F general con las 
hipótesis:
H0 : b1 � b2 � � � � � bk � 0
contra
Ha : Al menos una de b1, b2, …, bk no es 0
La estadística de prueba se encuentra en la tabla ANOVA (figura 13.3) como
F � 
M
M
S
S
R
E
 � 
39
4
7
6
8
.9
.3
 � 84.80
que tiene una distribución F con df1 � k � 4 y df2 � (n � k � 1) � 10. Como el valor p, 
P � .000, está dado en la salida impresa, se puede declarar que la regresión es altamente 
significativa. Esto es, al menos una de las variables predictoras está aportando informa-
ción significativa para la predicción de la variable de respuesta y.
El coeficiente de determinación, R 2
¿Qué tan bien se ajusta el modelo de regresión? La salida impresa da una medida esta-
dística de la fuerza del modelo en el coeficiente de determinación, R2; es decir, la 
proporción de la variación total que es explicada por la regresión de y en x1, x2, …, xk, 
definida como 
R2 � 
To
S
ta
S
l
R
 SS
 � 
1
1
5
6 
9
3
1
8
3
2
.
.
0
2
 � .971 o 97.1%
La prueba F general (para la 
signifi cancia del modelo) en 
regresión múltiple es de una 
cola.
Las salidas impresas 
MINITAB informan de R 2 
como un porcentaje más que 
una proporción.
CONSEJOMIMI
CONSEJOMIMI
SS Total
Probabilidad_Mendenhall_13.indd 556Probabilidad_Mendenhall_13.indd 556 5/14/10 8:20:36 AM5/14/10 8:20:36 AM
 www.FreeLibros.me
El coeficiente de determinación se denomina a veces múltiplo R2 y se encuentra en el 
primer renglón de la figura 13.3, marcado “R-Sq”. En consecuencia, para el ejemplo de 
bienes raíces, 97.1% de la variación total ha sido explicado por el modelo de regresión. 
El modelo se ajusta muy bien.
Puede ser útil saber que el valor del estadístico F está relacionado con R2 por la fór-
mula
F � 
R2/k
���
(1 � R2)/(n � k � 1)
de manera que R2 es grande, F es grande y viceversa.
Interpretación de los resultados 
de una regresión signifi cativa
Prueba de la significancia de los coeficientes de regresión parcial
Una vez que hayamos determinado que el modelo es útil para predecir y, debemos explo-
rar la naturaleza de la “utilidad” en más detalle. ¿Todas las variables predictoras agregan 
información importante para la predicción en presencia de otras variables predictoras 
que ya están en el modelo? Las pruebas t individuales de la primera sección de la salida 
impresa de regresión están diseñadas para probar las hipótesis
H0 : bi � 0 contra Ha : bi � 0
para cada uno de los coeficientes de regresión, dado que las otras variables predictoras 
ya están en el modelo. Estas pruebas están basadas en la estadística t de Student dada 
por
t � 
b
S
i 
E
�
(b
 b
i)
i
que tiene df � (n � k � 1) grados de libertad. El procedimiento es idéntico al emplea-
do para probar una hipótesis acerca de la pendiente b del modelo de regresión lineal 
simple.†
La figura 13.4 muestra las pruebas t y los valores p de la parte superior de la salida 
impresa MINITAB. Al examinar los valores p de la última columna, se puede ver que 
todas las variables excepto x3, el número de recámaras, agregan suficiente información 
para predecir y, aún con todas las otras variables independientes del modelo. ¿Podría 
ser mejor el modelo? Pudiera ser que x3 sea una variable de predicción innecesaria. Una 
opción es eliminar esta variable y reajustar el modelo con un nuevo conjunto de datos.
R 2 es la multivariada 
equivalente de r 2, empleada 
en regresión lineal.
Se puede demostrar que
F � �
M
M
S
S
R
E
� � 
R 2/k
���
(1 � R 2)/(n � k � 1)
Pruebe la signifi cancia del 
coefi ciente individual bi, 
usando pruebas t.
CONSEJOMIMI
CONSEJOMIMI
CONSEJOMIMI
†
 Algunos paquetes usan el estadístico t que acabamos de describir, mientras que otros usan el estadístico F equi-
valente (F � t2), puesto que el cuadrado de un estadístico t con v grados de libertad es igual a un estadístico F 
con 1 df en el numerador y v grados de libertad en el denominador.
Predictor Coef SE Coef T P
Constant 118.763 9.207 12.90 0.000
Square Feet 6.2698 0.7252 8.65 0.000
Number of Floors -16.203 6.212 -2.61 0.026
Bedrooms -2.673 4.494 -0.59 0.565
Baths 30.271 6.849 4.42 0.001
El valor de R 2 ajustado
Observe de la definición de R2 � SSR/SS Total que su valor nunca puede disminuir con 
la adición de más variables en el modelo de regresión. En consecuencia, R2 puede estar 
artificialmente inflada por la inclusión de más y más variables predictoras.
FIGURA 13.4
Parte de la salida impresa 
MINITAB para el ejemplo 
13.2
●
 13.3 UN ANÁLISIS DE REGRESIÓN MÚLTIPLE ❍ 557
Probabilidad_Mendenhall_13.indd 557Probabilidad_Mendenhall_13.indd 557 5/14/10 8:20:36 AM5/14/10 8:20:36 AM
 www.FreeLibros.me
558 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
Una medida alternativa de la fuerza del modelo de regresión se ajusta para grados de 
libertad con el uso de cuadráticas medias en lugar de sumas de cuadrados:
R2(adj) � �1 � Total 
M
SS
S
/(
E
n � 1)
 �100%
Para los datos de bienes raíces de la figura 13.3,
R2(adj) � �1 � 16 3
4
8
6
2
.
.
9
2/14 �100% � 96.0%
se encuentra en el primer renglón de la salida impresa. El valor “R-Sq(adj) � 96.0%” 
representa el porcentaje de variación en la respuesta y explicada por las variables inde-
pendientes, corregida para grados de libertad. El valor ajustado de R2 se usa principal-
mente para comparar dos o más modelos de regresión que usan números diferentes de 
variables predictoras independientes.
Comprobación de suposiciones de regresión
Antes de usar el modelo de regresión para su propósito principal, que es estimar y prede-
cir y, deben verse gráficas residuales generadas por computadora para asegurarse que 
sean válidas todas las suposiciones de regresión. La gráfica de normal de probabilidad 
y la gráfica de residuales contra ajuste se presentan en la figura 13.5 para los datos 
de bienes raíces. Parece haber tres observaciones que no se ajustan al patrón general. 
Se pueden ver como resultados atípicos en ambas gráficas. Es probable que estas tres 
observaciones deban investigarse,pero no dan fuerte evidencia de que las suposiciones 
se han violado.
10
5
0
�5
�10
�15
150
Valor ajustado
Residuales contra los valores ajustados
(la respuesta es el precio de lista)
R
es
id
ua
l
175 200 225 250 275 300
99
95
Residual
P
or
ce
nt
ua
l
�15 �10 �5 0 5 10 15
90
80
70
60
50
40
30
20
10
5
1
Use R 2(adj) para comparar 
uno o más modelos posibles.
CONSEJOMIMI
FIGURA 13.5
Gráfi cas de diagnóstico 
MINITAB
●
SS Total
Probabilidad_Mendenhall_13.indd 558Probabilidad_Mendenhall_13.indd 558 5/14/10 8:20:36 AM5/14/10 8:20:36 AM
 www.FreeLibros.me
	13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
	13.3 Un análisis de regresión múltiple
	Prueba de la utilidad del modelo de regresión
	Interpretación de los resultados de una regresión significativa
	Comprobación de suposiciones de regresión

Continuar navegando