introduccion a la probabilidad y estadistica ejercicios-200

Probabilidad y Estadística Aplicada

•

27 De Septiembre

EDUARDO GONZALEZ GARCIA

26/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Probabilidad y Estadística Aplicada

1930 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

574 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
Escuela % ELL x3 % de emergencia x4 API del año previo x5
1 34 16 533
2 22 5 655
3 14 19 695
4 30 14 680
5 11 13 670
6 26 2 636
7 39 14 532
8 6 4 705
Las variables están defi nidas como
x1 � 1 si la escuela recibió un premio financiero 
por cumplir objetivos de crecimiento, 0 si no lo 
recibió
x2 � % de estudiantes que calificaron para comidas gratis 
o a precios bajos
x3 � % de estudiantes que estudian inglés
x4 � % de profesores con credenciales de emergencia
x5 � Calificación API en 2000
La salida impresa MINITAB para un modelo de regresión 
de primer orden se da a continuación.
13.23 tabla de partículas Un ingeniero de control 
de calidad está interesado en predecir la resistencia de 
una tabla de partículas y, como función del tamaño de las 
partículas x1 y dos tipos de compuestos aglutinantes. Si se 
espera que la respuesta básica sea una función cuadrática 
del tamaño de una partícula, escriba un modelo lineal que 
incorpore la variable cualitativa “compuesto aglutinante” 
en la ecuación de predicción.
13.24 Proyectos de construcción 
En un estudio para examinar la relación 
entre el tiempo requerido para completar un proyecto 
de construcción y varias variables independientes 
pertinentes, un analista compiló una lista de cuatro 
variables que podrían ser útiles para predecir el tiempo de 
terminación. Estas cuatro variables eran el tamaño del 
contrato, x1 (en unidades de $1000), el número de días 
de trabajo adversamente afectados por el clima x2, el 
número de subcontratistas involucrados en el proyecto 
x4 y una variable x3 que midió la presencia (x3 � 1) 
o ausencia (x3 � 0) de una huelga de trabajadores durante 
la construcción. Se escogieron al azar 15 proyectos de 
construcción y se midieron cada una de las cuatro 
variables, así como el tiempo para terminar el proyecto.
y x1 x2 x3 x4
29 60 7 0 7
15 80 10 0 8
60 100 8 1 10
10 50 14 0 5
70 200 12 1 11
15 50 4 0 3
75 500 15 1 12
30 75 5 0 6
45 750 10 0 10
90 1200 20 1 12
 7 70 5 0 3
21 80 3 0 6
28 300 8 0 8
50 2600 14 1 13
30 110 7 0 4
Un análisis de estos datos usando un modelo de primer 
orden en x1, x2, x3 y x4 produjo la siguiente salida impresa. 
Dé un análisis completo de la salida impresa e interprete 
sus resultados. ¿Qué se puede decir acerca de la aparente 
contribución de x1 y x2 en la predicción de y?
Análisis de regresión: y contra x1, x2, x3, x4, x5
The regression equation is
y = 269 + 33.2 x1 - 0.003 x2 - 1.02 x3 
 - 1.00 x4 + 0.636 x5
Predictor Coef STDev T P
Constant 269.03 41.55 6.48 0.023
x1 33.227 4.373 7.60 0.017
x2 -0.0027 0.1396 -0.02 0.987
x3 -1.0159 0.3237 -3.14 0.088
x4 -1.0032 0.3391 -2.96 0.098
x5 0.63560 0.05209 12.20 0.007
S = 4.73394 R-Sq = 99.8% R-Sq(adj) = 99.4%
Analysis of Variance
Source DF SS MS F P
Regression 5 25197.2 5039.4 224.87 0.004
Residual Error 2 44.8 22.4
Total 7 25242.0
a. ¿Cuál es el modelo que se ha ajustado a estos datos?
b. ¿Qué tan bien se ajusta el modelo? Use cualesquier 
estadístico relevante de la salida impresa para 
contestar esta pregunta.
c. ¿Cuáles de las variables independientes, 
si las hay, son útiles para predecir el API, dadas 
las otras variables independientes ya en el modelo? 
Explique.
d. Use los valores de R2 y R2(adj) de la siguiente salida 
impresa para escoger el mejor modelo para predicción. 
¿Confiaría usted en usar el modelo escogido, para 
predecir la calificación API para el siguiente año, con 
base en un modelo que contenga variables similares? 
Explique.
Regresión de mejores subconjuntos: y contra x1, x2, x3, x4, x5
Response is y
 R-Sq Mallows x x x x x
Vars R-Sq (adj) C-p S 1 2 3 4 5
 1 87.9 85.8 132.7 22.596 X
 1 84.5 81.9 170.7 25.544 X
 2 97.4 96.4 27.1 11.423 X X
 2 94.6 92.4 58.8 16.512 X X
 3 99.0 98.2 11.8 8.1361 X X X
 3 98.9 98.2 11.9 8.1654 X X X
 4 99.8 99.6 4.0 3.8656 X X X X
 4 99.0 97.8 12.8 8.9626 X X X X
 5 99.8 99.4 6.0 4.7339 X X X X X
DATOSMISMIS
EX1324
Probabilidad_Mendenhall_13.indd 574Probabilidad_Mendenhall_13.indd 574 5/14/10 8:20:38 AM5/14/10 8:20:38 AM
 www.FreeLibros.me
PRUEBA DE CONJUNTOS DE COEFICIENTES 
DE REGRESIÓN
En las secciones precedentes, hemos probado el conjunto completo de coeficientes de 
regresión parcial usando la prueba F para el ajuste general del modelo y hemos probado 
los coeficientes de regresión parcial individualmente usando la prueba t de Student. 
Además de estas dos importantes pruebas, se pueden probar hipótesis acerca de algunos 
subconjuntos de estos coeficientes de regresión.
Por ejemplo, suponga que una compañía sospecha que la demanda y de algún pro-
ducto podría estar relacionada con hasta cinco variables independientes: x1, x2, x3, x4 y x5. 
El costo de obtener mediciones de las variables x3, x4 y x5 es muy alto. Si, en un pequeño 
estudio piloto, la compañía pudiera demostrar que estas tres variables contribuyen con 
poca o ninguna información para la predicción de y, pueden ser eliminadas del estudio 
con grandes ahorros para la compañía.
Si las cinco variables, x1, x2, x3, x4 y x5, se usan para predecir y, el modelo de regresión 
se escribiría como
y � b0 � b1x1 � b2x2 � b3x3 � b4x4 � b5x5 � e
Análisis de regresión: y contra x1, x2, x3, x4
The regression equation is
y = -1.6 - 0.00784 x1 + 0.68 x2 + 28.0 x3 + 3.49 x4
Predictor Coef SE Coef T P
Constant -1.59 11.66 -0.14 0.894
x1 -0.007843 0.006230 -1.26 0.237
x2 -0.6753 0.9998 0.68 0.515
x3 28.01 11.37 2.46 0.033
x4 3.489 1.935 1.80 0.102
S = 11.8450 R-Sq = 84.7% R-Sq(adj) = 78.6%
Analysis of Variance
Source DF SS MS F P
Regression 4 7770.3 1942.6 13.85 0.000
Residual Error 10 1403.0 140.3
Total 14 9173.3
99
95
90
80
70
60
50
40
30
20
10
5
1
 �30 �20 �10 0 10 20 30
Residual
Gráfica normal de probabilidad de los residuales
(la respuesta es y)
P
or
ce
nt
aj
e
20
10
0
�10
�20
 10 20 30 40 50 60 70 80
Valores ajustados
Residuales contra valores ajustados
(la respuesta es y)
R
es
id
ua
l
Source DF Seq SS
X1 1 1860.9
x2 1 2615.3
x3 1 2838.0
x4 1 456.0
13.6
 13.6 PRUEBA DE CONJUNTOS DE COEFICIENTES DE REGRESIÓN ❍ 575
Probabilidad_Mendenhall_13.indd 575Probabilidad_Mendenhall_13.indd 575 5/14/10 8:20:38 AM5/14/10 8:20:38 AM
 www.FreeLibros.me
576 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
No obstante, si x3, x4 y x5 no aportan información para la predicción de y, entonces no 
aparecerían en el modelo, es decir, b3 � b4 � b5 � 0 y el modelo reducido sería
y � b0 � b1x1 � b2x2 � e
En consecuencia, se desea probar la hipótesis nula
H0 : b3 � b4 � b5 � 0
esto es, las variables independientes x3, x4 y x5 no aportan información para la predicción 
de y, contra la hipótesis alternativa
Ha : Al menos uno de los parámetros b3, b4 o b5 es diferente de 0
es decir, al menos una de las variables x3, x4 y x5 aporta información para la predic-
ción de y. Entonces, para decidir si el modelo completo es preferible al modelo reduci-
do para predecir demanda, vamos a una prueba de hipótesis acerca de un conjunto de 
tres parámetros, b3, b4 y b5.
Una prueba de hipótesis respecto a un conjunto de parámetros de modelo involucra 
dos modelos:
Modelo 1 (modelo reducido)
E(y) � b0 � b1x1 � b2x2 � � � � � brxr
Modelo 2 (modelo completo)
E(y) � b0 � b1x1 � b2x2 � � � � � brxr � br�1xr�1 � br�2xr�2 � � � � bkxk
 1444442444443 14444424444443términos en modelo 1 términos adicionales en modelo 2
Suponga que se ajustaron ambos modelos al conjunto de datos y se calculó la suma de 
cuadrados para el error de los dos análisis de regresión. Si el modelo 2 aporta más infor-
mación para la predicción de y que el modelo 1, entonces los errores de predicción para 
el modelo 2 deben ser más pequeños que los correspondientes errores para el modelo 1, 
y la SSE2 debe ser menor que la SSE1. De hecho, cuanto mayor sea la diferencia entre 
SSE1 y SSE2, mayor es la evidencia para indicar que el modelo 2 aporta más información 
para la predicción de y que el modelo 1.
La prueba de la hipótesis nula
H0 : br�1 � br�2 � � � � � bk � 0
contra la hipótesis alternativa
Ha : Al menos uno de los parámetros br�1, br�2, …, bk difiere de 0
utiliza el estadístico de prueba
F � 
(SSE1 � SSE2)/(k � r)
���
MSE2
donde F está basada en df1 � (k � r) y df2 � n � (k � 1). Observe que los parámetros (k 
� r) contenidos en H0 son los sumados al modelo 1 para obtener el modelo 2. Los grados 
de libertad df1 del numerador siempre son iguales a (k � r), que es el número de pará-
metros contenidos en H0. Los grados de libertad df2 del denominador es el número de 
grados de libertad asociado con la suma de cuadrados para error, SSE2, para el modelo 
completo.
La región de rechazo para la prueba es idéntica a la región de rechazo para todos los 
análisis de pruebas F de varianza, es decir,
F � Fa
Probabilidad_Mendenhall_13.indd 576Probabilidad_Mendenhall_13.indd 576 5/14/10 8:20:38 AM5/14/10 8:20:38 AM
 www.FreeLibros.me
	13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
	13.6 Prueba de conjuntos de coeficientes de regresión