Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
520 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN Los resultados de una predicción serían buenos en el intervalo b � x � c pero sobrees- timarían gravemente los valores de y para x � c. Causalidad Cuando haya una regresión signifi cativa de y y x, es tentador concluir que x causa a y. No obstante, es posible que una o más variables desconocidas que ni siquiera se hayan medido y que no estén incluidas en el análisis puedan estar causando la relación obser- vada. En general, el estadístico informa los resultados de un análisis pero deja las con- clusiones respecto a la causalidad a científi cos e investigadores que son expertos en estos campos de actividad. Estos expertos están mejor preparados para tomar esas deci- siones. TÉCNICAS BÁSICAS 12.17 Consulte el ejercicio 12.6. Los datos se reproducen a continuación. x �2 �1 0 1 2 y 1 1 3 5 5 a. ¿Los datos presentan sufi ciente evidencia para indicar que y y x están relacionadas linealmente? Pruebe la hipótesis de que b � 0 al nivel de signifi cancia de 5%. b. Use la tabla ANOVA del ejercicio 12.6 para calcular F � MSR/MSE. Verifi que que el cuadrado de la estadística t empleada en la parte a) es igual a F. c. Compare el valor crítico de dos colas para la prueba t del inciso a) con el valor crítico para F con a � .05. ¿Cuál es la relación entre los valores críticos? 12.18 Consulte el ejercicio 12.17. Encuentre un intervalo de confi anza para la pendiente de la recta. ¿Qué signifi ca la frase “95% de confi anza”? 12.19 Consulte el ejercicio 12.7. Los datos, junto con el análisis MINITAB de la tabla de varianza se reproducen a continuación. x 1 2 3 4 5 6 y 5.6 4.6 4.5 3.7 3.2 2.7 Tabla MINITAB ANOVA para el ejercicio 12.19 Análisis de regresión: y versus x Analysis of Variance Source DF SS MS F P Regression 1 5.4321 5.4321 152.10 0.000 Residual Error 4 0.1429 0.0357 Total 5 5.5750 a. ¿Los datos dan sufi ciente evidencia para indicar que y y x están relacionados linealmente? Use la EJERCICIOS12.5 información de la salida impresa MINITAB para contestar esta pregunta al nivel de signifi cancia de 1%. b. Calcule el coefi ciente de determinación r2. ¿Qué información da este valor acerca de la utilidad del modelo lineal? APLICACIONES 12.20 Contaminación del aire Se diseñó un experimento para comparar varios tipos diferentes de monitores de la contaminación del aire.4 Un monitor se inició y a continuación se expuso a diferentes concentraciones de ozono, que iban de 15 a 230 partes por millón (ppm) durante periodos de 8 a 72 horas. Los fi ltros del monitor se analizaron en seguida y se midió la cantidad (en microgramos) de nitrato de sodio (NO3) registrada por el monitor. Los resultados para un tipo de monitor se dan en la tabla siguiente. Ozono, x (ppm/h) .8 1.3 1.7 2.2 2.7 2.9 NO3, y (mg) 2.44 5.21 6.07 8.98 10.82 12.16 a. Encuentre la recta de regresión de mínimos cuadrados que relacione la respuesta del monitor a la concentración de ozono. b. ¿Los datos dan sufi ciente evidencia para indicar que hay una relación lineal entre la concentración de ozono y la cantidad de nitrato de sodio detectada? c. Calcule r2. ¿Qué nos dice este valor acerca de la efectividad del análisis de regresión lineal? 12.21 El costo de volar ¿Cómo está relacionado el costo de un viaje en avión con la duración del viaje? La tabla siguiente muestra el promedio de la tarifa en primera clase, pagada por DATOSMISMIS EX1220 DATOSMISMIS EX1221 Probabilidad_Mendenhall_12.indd 520Probabilidad_Mendenhall_12.indd 520 5/14/10 8:37:39 AM5/14/10 8:37:39 AM www.FreeLibros.me 12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 521 clientes de American Airlines en cada una de las 18 rutas aéreas de mayor movimiento en Estados Unidos.5 Distancia Ruta (millas) Costo Dallas–Austin 178 $125 Houston–Dallas 232 123 Chicago–Detroit 238 148 Chicago–San Luis 262 136 Chicago–Cleveland 301 129 Chicago–Atlanta 593 162 Nueva York–Miami 1092 224 Nueva York–San Juan 1608 264 Nueva York–Chicago 714 287 Chicago–Denver 901 256 Dallas–Salt Lake 1005 365 Nueva York–Dallas 1374 459 Chicago–Seattle 1736 424 Los Ángeles–Chicago 1757 361 Los Ángeles–Atlanta 1946 309 Nueva York–Los Ángeles 2463 444 Los Ángeles–Honolulu 2556 323 Nueva York–San Francisco 2574 513 a. Si usted desea estimar el costo de un vuelo, basado en la distancia recorrida, ¿cuál variable es la variable de respuesta y cuál es la variable independiente de predicción? b. Suponga que hay una relación lineal entre costo y distancia. Calcule la recta de regresión de mínimos cuadrados que describa el costo como una función lineal de la distancia. c. Grafi que los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos? d. Use las pruebas estadísticas y medidas apropiadas para explicar la utilidad del modelo de regresión para predecir el costo. 12.22 Profesor Asimov, continúa Consulte los datos del ejercicio 12.8, que relacionan x, el número de libros escritos por el profesor Isaac Asimov, con y, el número de meses que le tomó escribir sus libros (en incrementos de 100). Los datos se reproducen a continuación. Número de libros, x 100 200 300 400 490 Tiempo en meses, y 237 350 419 465 507 a. ¿Los datos apoyan la hipótesis de que b � 0? Use el método del valor p, enlazando el valor p usando la tabla 4 del apéndice I o hallando el valor p exacto usando el applet t-Test for the Slope. Explique sus conclusiones en términos prácticos. b. Use la tabla ANOVA del ejercicio 12.8, inciso c), para calcular el coefi ciente de determinación r2. ¿Qué reducción de porcentaje en la variación total se alcanza usando el modelo de regresión lineal? c. Grafi que los datos o consulte la gráfi ca del ejercicio 12.8, inciso b). ¿Los resultados de los incisos a) y b) indican que el modelo da un buen ajuste para los datos? ¿Hay algunas suposiciones que pueden haber sido violadas al ajustar el modelo lineal? 12.23 Consulte el experimento de privación de sueño descrito en el ejercicio 12.10 y el conjunto de datos EX1210. Los datos y la salida impresa MINITAB se reproducen a continuación. Número de errores, y 8, 6 6, 10 8, 14 Número de horas sin sueño, x 8 12 16 Número de errores, y 14, 12 16, 12 Número de horas sin sueño, x 20 24 Salida impresa MINITAB para el ejercicio 12.23 Análisis de regresión: y versus x The regression equation is y = 3.00 + 0.475 x Predictor Coef SE Coef T P Constant 3.000 2.127 1.41 0.196 x 0.4750 0.1253 3.79 0.005 S = 2.24165 R-Sq = 64.2% R-Sq(adj) = 59.8% Analysis of Variance Source DF SS MS F P Regression 1 72.200 72.200 14.37 0.005 Residual Error 8 40.200 5.025 Total 9 112.400 a. ¿Los datos presentan sufi ciente evidencia para indicar que el número de errores está linealmente relaciona- do con el número de horas sin sueño? Identifi que las dos estadísticas de prueba en la salida impresa que puedan usarse para contestar esta pregunta. b. ¿Esperaría usted que la relación entre y y x sea lineal si x varió en un rango más amplio (por ejemplo, x � 4 a x � 48)? c. ¿Cómo describe la fuerza de la relación entre y y x? d. ¿Cuál es la mejor estimación de la variación poblacional común s2? e. Encuentre un intervalo de confi anza de 95% para la pendiente de la recta. 12.24 Fresas II Los datos siguientes (ejercicio 12.16 y conjunto de datos EX1216) se obtuvieron en un experimento que relacionaba la variable dependiente, y (textura de fresas), con x (temperatura de almacenamiento codifi cada). Use la información del ejercicio 12.16 para contestar las preguntas siguientes: x �2 �2 0 2 2 y 4.0 3.5 2.0 0.5 0.0 a. ¿Cuál es la mejor estimación de s2, la varianza del error aleatorio 6? Probabilidad_Mendenhall_12.indd 521Probabilidad_Mendenhall_12.indd 521 5/14/108:37:40 AM5/14/10 8:37:40 AM www.FreeLibros.me 522 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN b. ¿Los datos indican que la textura y la temperatura de almacenamiento están relacionadas linealmente? Use a � .05. c. Calcule el coefi ciente de determinación, r2. d. ¿De qué valor es el modelo lineal para aumentar la precisión de predicción cuando se compara con la variable de predicción y�? 12.25 Laptops y aprendizaje En el ejercicio 1.61 describimos un experimento informal realizado en la Secundaria Académica McNair en Jersey City, Nueva Jersey. Se estudiaron dos grupos de primer año de álgebra, uno de los cuales utilizaba computadoras laptop en la escuela y en casa, en tanto que el otro grupo no las utilizaba. En cada grupo, a los estudiantes se les dio una encuesta al principio y al fi nal del semestre, que medía su nivel tecnológico. Se registraron las califi caciones para la encuesta del fi nal de semestre (x) y el examen fi nal (y) para el grupo con laptop.6 Los datos y la salida impresa MINITAB se muestran aquí. Después Examen Después Examen Estudiante de examen fi nal Estudiante de examen fi nal 1 100 98 11 88 84 2 96 97 12 92 93 3 88 88 13 68 57 4 100 100 14 84 84 5 100 100 15 84 81 6 96 78 16 88 83 7 80 68 17 72 84 8 68 47 18 88 93 9 92 90 19 72 57 10 96 94 20 88 83 Análisis de regresión: y versus x The regression equation is y = -26.8 + 1.26 x Predictor Coef SE Coef T P Constant -26.82 14.76 -1.82 0.086 x 1.2617 0.1685 7.49 0.000 S = 7.61912 R-Sq = 75.7% R-Sq(adj) = 74.3% Analysis of Variance Source DF SS MS F P Regression 1 3254.0 3254.0 56.05 0.000 Residual Error 18 1044.9 58.1 Total 19 4299.0 a. Construya una gráfi ca de dispersión para los datos. ¿Le parece razonable la suposición de linealidad? b. ¿Cuál es la ecuación de la recta de regresión empleada para predecir la califi cación del examen fi nal como función de la califi cación antes del examen? c. ¿Los datos presentan sufi ciente evidencia para indicar que la califi cación del examen fi nal está linealmente relacionada con la califi cación después del examen? Use a � .01. d. Encuentre un intervalo de confi anza de 99% para la pendiente de la recta de regresión. 12.26 Laptops y aprendizaje, continúa Consulte el ejercicio 12.25. a. Use la salida impresa MINITAB para hallar el valor del coefi ciente de determinación, r2. Demuestre que r2 � SSR/SS Total. b. ¿Qué reducción de porcentaje en la variación total se obtiene al usar el modelo de regresión lineal? 12.27 Distancia entre brazos extendidos y estatura II En el ejercicio 12.15 (conjunto de datos EX1215), medimos la distancia entre brazos extendidos y estatura de ocho personas con los siguientes resultados: Persona 1 2 3 4 Distancia entre brazos extendidos (pulgadas) 68 62.25 65 69.5 Estatura (pulgadas) 69 62 65 70 Persona 5 6 7 8 Distancia entre brazos extendidos (pulgadas) 68 69 62 60.25 Estatura (pulgadas) 67 67 63 62 a. ¿Los datos dan sufi ciente evidencia para indicar que hay una relación lineal entre distancia y estatura? Pruebe al nivel de signifi cancia de 5%. b. Construya un intervalo de confi anza de 95% para la pendiente de la recta de medias, b. c. Si Leonardo da Vinci tenía razón y la distancia entre los brazos extendidos de una persona es casi igual a la estatura de esa persona, la pendiente de la recta de regresión es aproximadamente igual a 1. ¿El intervalo de confi anza construido en el inciso b) confi rma esta suposición? Explique. HERRAMIENTAS DE DIAGNÓSTICO PARA VERIFICAR SUPOSICIONES DE LA REGRESIÓN Aun cuando ya hemos determinado, con el uso de la prueba t para la pendiente (o la prueba F ANOVA) y el valor de r2, que x es útil para predecir el valor de y, los resulta- dos de un análisis de regresión son válidos sólo cuando los datos satisfacen las suposi- ciones de regresión necesarias. 12.6 DATOSMISMIS EX1225 Probabilidad_Mendenhall_12.indd 522Probabilidad_Mendenhall_12.indd 522 5/14/10 8:37:40 AM5/14/10 8:37:40 AM www.FreeLibros.me 12 REGRESIÓN LINEAL Y CORRELACIÓN 12.5 Prueba de la utilidad del modelo de regresión lineal Ejercicios 12.6 Herramientas de diagnóstico para verificar suposiciones de la regresión
Compartir