Logo Studenta

introduccion a la probabilidad y estadistica ejercicios-181

¡Estudia con miles de materiales!

Vista previa del material en texto

12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 517
UN INTERVALO DE CONFIANZA (1 � a)100% PARA b
b � ta/2(SE)
donde ta/2 está basada en (n � 2) grados de libertad y
SE � �
___
 s
2
 ___ 
Sxx
 � �
_____
 MSE _____ 
Sxx
 
Encuentre una estimación de intervalo de confi anza de 95% de la pendiente b para los 
datos de las califi caciones en cálculo de la tabla 12.1.
Solución Sustituyendo valores previamente calculados en
b � t.025 �
_____
 MSE _____ 
Sxx
 
tendremos
.766 � 2.306 �
_______
 75.7532 _______ 
2474
 
.766 � .404
El intervalo de confi anza de 95% resultante es .362 a 1.170. Como el intervalo no con-
tiene 0, se puede concluir que el verdadero valor de b no es 0 y se puede rechazar la 
hipótesis nula H0 : b � 0 a favor de Ha : b � 0, conclusión que está de acuerdo con 
los hallazgos del ejemplo 12.2. Además, la estimación del intervalo de confi anza indica 
que hay un aumento desde sólo .4 hasta 1.2 puntos en una puntuación de examen de 
cálculo por cada aumento de 1 punto en la puntuación del examen de aprovechamiento.
Si usted utiliza un programa de cómputo para hacer un análisis de regresión, encon-
trará la estadística t y su valor p en la salida impresa. Observe la salida impresa MINITAB 
del análisis de regresión que se reproduce en la fi gura 12.8. En la segunda parte de la 
salida impresa, encontrará las estimaciones de mínimos cuadrados a (“Constante”) y b 
(“x”) en la columna marcada “Coef”, sus errores estándar (“SE Coef”), el valor calcu-
lado de la estadística t (“T”) empleada para probar la hipótesis de que el parámetro es 
igual a 0 y su valor p (“P”). La prueba t para regresión signifi cativa, H0 : b � 0, tiene 
un valor p de P � .002 y la hipótesis nula es rechazada, como en el ejemplo 12.2. ¿Esto 
concuerda con el valor p hallado usando el applet t-Test for Slope de la fi gura 12.7? En 
cualquier caso, hay una relación lineal signifi cativa entre x y y.
E J E M P L O 12.3
Análisis de regresión: y versus x
The regression equation is
y = 40.8 + 0.766 x
Predictor Coef SE Coef T P
Constant 40.784 8.507 4.79 0.001
x 0.7656 0.1750 4.38 0.002
S = 8.70363 R-Sq = 70.5% R-Sq(adj) = 66.8%
Analysis of Variance
Source DF SS MS F P
Regression 1 1450.0 1450.0 19.14 0.002
Residual Error 8 606.0 75.8
Total 9 2056.0
FIGURA 12.8
Salida impresa MINITAB 
para los datos de 
califi caciones en cálculo
●
Busque el error estándar de 
b en la columna marcada 
“SE Coef”.
CONSEJOMIMI
Probabilidad_Mendenhall_12.indd 517Probabilidad_Mendenhall_12.indd 517 5/14/10 8:37:39 AM5/14/10 8:37:39 AM
 www.FreeLibros.me
518 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN
El análisis de varianza de la prueba F 
La parte del análisis de varianza de la salida impresa de la fi gura 12.8 muestra una esta-
dística F dada por
F � MSR _____ MSE
 � 19.14 
con grado de libertad 1 en el numerador y (n � 2) � 8 grados de libertad en el deno-
minador. Esto es una estadística equivalente de prueba que también se puede usar para 
probar la hipótesis H0 : b � 0. Observe que, dentro del error de redondeo, el valor de F 
es igual a t2 con valor p idéntico. En este caso, si se usa una precisión de cinco lugares 
decimales antes de redondeo, se encuentra que t 2 � (.76556/.17498)2 � (4.37513)2 � 
19.14175 � 19.14 � F como se da en la salida impresa. Esto no es por casualidad y re-
sulta del hecho de que el cuadrado de una estadística t con df grados de libertad tiene la 
misma distribución que una estadística F con grados de libertad 1 en el numerador y df 
en el denominador. La prueba F es una prueba más general de la utilidad del modelo y 
se puede usar cuando el modelo tenga más de una variable independiente.
Medir la fuerza de la relación: el coefi ciente 
de determinación
¿Qué tan bien se ajusta el modelo de regresión? Para contestar esta pregunta, se puede 
usar una medida relacionada con el coefi ciente de correlación r, introducido en el capí-
tulo 3. Recuerde que
r � 
sxy ___ sxsy � 
sxy _______ 
 �
____
 sxxsyy 
 para �1 	 r 	 1
donde sxy, sx y sy se defi nieron en el capítulo 3 y las diversas sumas de cuadrados se defi -
nieron en la sección 12.4.
La suma de cuadrados para regresión, SSR, en el análisis de varianza, mide la parte 
de la variación total SS Total � Syy, que puede ser explicada por la regresión de y en x. 
La parte restante, SSE, es la variación “no explicada” atribuida al error aleatorio. Una 
forma de medir la fuerza de la relación entre la variable de respuesta y y la variable 
de predicción x es calcular el coefi ciente de determinación, la proporción de la varia-
ción total que es explicada por la regresión de y en x. Para los datos de califi caciones en 
cálculo, esta proporción es igual a
 SSR _______ 
SS Total
 � 1450 _____ 2056
 � .705 o 70.5%
Puesto que SS � Syy y SSR � 
(Sxy)
2
 _____ 
Sxx
 , se puede escribir
 SSR _______ 
SS Total
 � 
(Sxy)
2
 _____ 
SxxSyy
 � � Sxy _______ �
_____
 SxxSyy 
 �
2
 � r
2
Por tanto, el coefi ciente de determinación, que fue calculado como SSR/SS Total, es 
simplemente el cuadrado del coefi ciente de correlación r. Es la entrada marcada “R-Sq” 
en la fi gura 12.8.
Recuerde que la tabla del análisis de varianza aísla la variación debida a regresión 
(SSR) de la variación total del experimento. Al hacer esto se reduce la cantidad de varia-
ción aleatoria del experimento, ahora medida por SSE en lugar de SS Total. En este 
contexto, el coefi ciente de determinación, r2, se puede defi nir como sigue:
Las pruebas F de ANOVA 
siempre son de una cola (cola 
superior).
CONSEJOMIMI
En las salidas impresas de 
computadora, r2 a menudo 
es dado como un porcentaje 
más que como una 
proporción.
CONSEJOMIMI
Probabilidad_Mendenhall_12.indd 518Probabilidad_Mendenhall_12.indd 518 5/14/10 8:37:39 AM5/14/10 8:37:39 AM
 www.FreeLibros.me
 12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 519
Defi nición El coefi ciente de determinación r2 se puede interpretar como el por-
centaje de reducción en la variación total en el experimento obtenido al usar la recta de 
regresión ŷ � a � bx, en lugar de ignorar x y usar la media muestral y� para predecir la 
variable de respuesta y.
Para los datos de califi caciones en cálculo, una reducción de r2 � .705 o sea 70.5% es 
sustancial. El modelo de regresión está funcionando muy bien.
Interpretación de los resultados 
de una regresión signifi cativa
Una vez que usted haya efectuado la prueba t o la prueba F para determinar la signifi can-
cia de la regresión lineal, con todo cuidado debe interpretar sus resultados. La pendiente 
b de la recta de medias se estima con base en datos de sólo una región de observación 
en particular. Incluso si no rechaza la hipótesis nula de que la pendiente de la recta es 
igual a 0, no necesariamente signifi ca que y y x no estén relacionadas. Puede ser que 
haya cometido un error tipo II, declarando falsamente que la pendiente es 0 y que x y 
y no están relacionadas.
Ajuste del modelo erróneo
Puede ocurrir que y y x estén perfectamente relacionadas en una forma no lineal, como 
se ve en la fi gura 12.9. A continuación veamos tres posibilidades:
r2 se denomina “R-Sq” en la 
salida impresa MINITAB.
CONSEJOMIMI
x
y
fdcba
Lín
ea 
1
Línea 2
FIGURA 12.9
Relación curvilínea 
●
• Si se tomaron observaciones sólo dentro del intervalo b � x � c, la relación apa-
recería lineal con pendiente positiva.
• Si se tomaron observaciones sólo dentro del intervalo d � x � f, la relación apa-
recería lineal con pendiente negativa.
• Si se tomaron observaciones sobre el intervalo c � x � d, la recta estaría ajus-
tada con una pendiente cercana a 0, lo cual indica que no hay relación lineal 
entre y y x.
Para el ejemplo que se ilustra en la fi gura12.9, ninguna recta describe con precisión 
la verdadera relación entre x y y, que es en realidad una relación no curvilínea. En este 
caso, hemos escogido un modelo erróneo para describir la relación. A veces este tipo de 
error se puede detectar usando gráfi cas residuales, que es el tema de la sección 12.7.
Extrapolación
Un problema serio es aplicar los resultados de un análisis de regresión lineal a valores 
de x que no estén incluidos dentro del rango de los datos ajustados. Esto se llama extra-
polación y puede llevar a errores graves en la predicción, como se ve para la línea 1 de 
la fi gura 12.9.
Es peligroso tratar de 
predecir valores de y fuera 
del rango de los datos 
ajustados.
CONSEJOMIMI
Probabilidad_Mendenhall_12.indd 519Probabilidad_Mendenhall_12.indd 519 5/14/10 8:37:39 AM5/14/10 8:37:39 AM
 www.FreeLibros.me
	12 REGRESIÓN LINEAL Y CORRELACIÓN
	12.5 Prueba de la utilidad del modelo de regresión lineal
	El análisis de varianza de la prueba F
	Medir la fuerza de la relación: el coeficiente de determinación
	Interpretación de los resultados de una regresión significativa

Continuar navegando