Vista previa del material en texto
9-5 Destrezas y conceptos básicos Interpretación de resultados de programas de cómputo. En los ejercicios 1 a 4, remítase a los resultados de Minitab que se presentan aquí y responda las preguntas o identifique los elementos indicados. Los resultados de Minitab están basados en la muestra de 54 osos incluida en el conjunto de datos 9 del Apéndice B. 1. Mediciones de osos Identifique la ecuación de regresión múltiple que expresa el peso en términos de la longitud de la cabeza, la altura y el tamaño del pecho. 2. Mediciones de osos Identifique lo siguiente: a. El valor P correspondiente a la significancia general de la ecuación de regresión múltiple b. El valor del coeficiente múltiple de determinación R2 c. El valor ajustado de R2 3. Mediciones de osos ¿Es útil la ecuación de regresión múltiple para predecir el peso de un oso con base en la longitud de su cabeza, la altura y el tamaño del pecho? ¿Por qué? 4. Mediciones de osos Se encuentra que un oso tiene una longitud de cabeza de 14.0 pulgadas, una altura de 70.0 pulgadas y un tamaño del pecho de 50.0 pulgadas. a. Calcule el peso predicho del oso. b. El oso en cuestión en realidad pesaba 320 libras. ¿Qué tan preciso es el peso predi- cho en el inciso a? The regression equation is WEIGHT 5 2272 2 0.87 HEADLEN 1 0.55 LENGTH 1 12.2 CHEST Predictor Coef SE Coef T P Constant 2271.71 31.62 28.59 0.000 HEADLEN 20.870 5.676 20.15 0.879 LENGTH 0.554 1.259 0.44 0.662 CHEST 12.153 1.116 10.89 0.000 S 5 33.66 R-Sq 5 92.8% R-Sq(adj) 5 92.4% Analysis of Variance Source DF SS MS F P Regresión 3 729645 243215 214.71 0.000 Residual Error 50 56638 1133 Total 53 786283 Datos de automóviles: cálculo de la mejor ecuación de regresión múltiple. En los ejercicios 5 a 8, remítase a la tabla adjunta, que se obtuvo utilizando el conjunto de datos 22 del Apéndice B. La variable dependiente es el consumo de combustible en ciudad (en millas/galón), y las variables independientes están listadas en la tabla. CRT denota el consumo de combustible en carretera, PS denota el peso del automóvil y DSPZ el despla- zamiento del motor del automóvil. Minitab 548 CAPÍTULO 9 Correlación y regresión 5. Si se utiliza únicamente una variable independiente para predecir la cantidad de con- sumo de combustible en la ciudad (en mi/gal), ¿cuál variable es mejor? ¿Por qué? 6. Si se van a utilizar exactamente dos variables independientes para predecir la cantidad del consumo de combustible en la ciudad, ¿cuáles dos variables deben elegirse? ¿Por qué? 7. ¿Cuál ecuación de regresión es mejor para predecir la cantidad de consumo de com- bustible en la ciudad? ¿Por qué? 8. Si un automóvil tiene una tasa de consumo de combustible en carretera de 35 mi/gal, un peso de 2675 libras y un desplazamiento de motor de 3.8 L, ¿cuál es el mejor valor predicho de la tasa de consumo de combustible en la ciudad? ¿Es posible que ese va- lor predicho constituya un buen estimado? ¿Es posible que el valor predicho sea muy preciso? 9. Estaturas de padres e hijos Remítase al conjunto de datos de 2 del Apéndice B. a. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura de un hijo en términos de la variable independiente de la estatura de la madre. b. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura de un hijo en términos de la variable independiente de la estatura del padre. c. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura de un hijo en términos de las variables independientes de la estatura de la madre y la estatura del padre. d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la mejor ecuación para predecir la estatura de un hijo? ¿Por qué? e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua- ción para predecir la estatura de un hijo? ¿Por qué? 10. Facilidad de lectura de Harry Potter Remítase al conjunto de datos 14 del Apéndice B y utilice los valores de Harry Potter y la piedra filosofal, de J. K. Rowling. a. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua- ción de facilidad de lectura de Flesch en términos de la variable independiente de las palabras por oración. b. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua- ción de facilidad de lectura de Flesch en términos de la variable independiente de los caracteres por palabra. c. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua- ción de facilidad de lectura de Flesch en términos de las variables independientes de las palabras por oración y los caracteres por palabra. d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la mejor ecuación para predecir una puntuación de la facilidad de lectura de Flesch? ¿Por qué? e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua- ción para predecir una puntuación de facilidad de lectura de Flesch? ¿Por qué? 11. Cereales y calorías Remítase al conjunto de datos 16 del Apéndice B. a. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en términos de la variable independiente de la cantidad de grasa. 9-5 Regresión múltiple 549 Variables independientes Valor P R2 R2 ajustada Ecuación de regresión CRT, PS, DSPZ 0.000 0.882 0.860 5 5.9 1 0.742x1 2 0.00162x2 2 0.441x3 CRT, PS 0.000 0.876 0.861 5 4.6 1 0.794x1 2 0.00209x2 CRT, DSPZ 0.000 0.873 0.859 5 23.23 1 0.892x1 2 0.626x2 PS, DSPZ 0.000 0.788 0.763 5 41.5 2 0.00535x1 2 0.950x2 CRT 0.000 0.860 0.853 5 29.73 1 1.05x PS 0.000 0.759 0.746 5 44.2 2 0.00708x DSPZ 0.000 0.620 0.599 5 29.5 2 2.74xŷ ŷ ŷ ŷ ŷ ŷ ŷ T T T b. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en términos de la variable independiente de la cantidad de azúcar. c. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en términos de las variables independientes de la cantidad de grasa y de la cantidad de azúcar. d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la mejor ecuación para predecir el número de calorías? ¿Por qué? e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua- ción para predecir el número de calorías? ¿Por qué? 12. Uso de la basura para predecir el tamaño poblacional Remítase al conjunto de datos 23 del Apéndice B. a. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño de los hogares en términos de la variable independiente del peso de los desechos de comida. b. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño de los hogares en términos de la variable independiente del peso de los desechos plásticos. c. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño de los hogares en términos de las variables independientes del peso de los dese- chos de comida y el peso de los deshechos plásticos. d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la mejor ecuación para predecir el tamaño de los hogares? ¿Por qué? e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua- ción para predecir el tamaño de los hogares? ¿Por qué? 9-5 Más allá de lo básico 13. Nicotina de cigarrillos: cálculo de la mejor ecuación de regresión múltiple Remítase al conjunto de datos 5 del Apéndice B y calcule la mejor ecuación de regresión múltiple, con la nicotina como variable dependiente. ¿Será esta “mejor” ecuación buena para predecir la cantidad de nicotina en un cigarrillo con base en la cantidad de alquitrán y monóxido de carbono? 14. Precio de un diamante: cálculo de la mejor ecuación de regresión múltiple Remítase al conjunto de datos 18 del Apéndice B. a. Utilice únicamente los tres factores tradicionales del quilate, color y claridad para calcular la mejor ecuación de regresión múltiple que podría emplearse para prede- cir el precio deun diamante. b. Las variables profundidad y meseta describen el corte de un diamante que, se su- pone, afecta su color. ¿Existe una relación lineal significativa entre la variable de- pendiente del color y las variables dependientes de profundidad y meseta? Si no existe una relación lineal significativa, ¿quiere esto decir que el color no se ve afectado por la profundidad y la meseta? 15. Precio de venta de casas: cálculo de la mejor ecuación de regresión múltiple Remíta- se al conjunto de datos 24 del Apéndice B y calcule la mejor ecuación de regresión múltiple con el precio de venta como variable dependiente. ¿Será esta “mejor” ecuación buena para predecir el precio de venta de una casa? 16. Uso de la regresión múltiple para la ecuación de la parábola En algunos casos, la ecua- ción de regresión múltiple que se ajusta mejor tiene la forma 5 b0 1 b1x 1 b2x 2. La gráfica de un ecuación como ésta es una parábola. Utilice el conjunto de datos listado al margen, permita que x1 5 x, permita que x2 5 x2, y calcule la ecuación de regresión múltiple para la parábola, que se ajusta mejor a los datos. Con base en el valor del coeficiente múltiple de determinación, ¿qué tan bien se ajusta esta ecuación a los datos? ŷ 550 CAPÍTULO 9 Correlación y regresión x 1 3 4 7 5 y 5 14 19 42 26 T T T T T 9-6 Elaboración de modelos No, no ese tipo de modelos. Esta sección introduce algunos conceptos básicos del desarrollo de un modelo matemático, que es una función matemática que se “ajusta” o describe datos del mundo real. Por ejemplo, podríamos buscar un mo- delo matemático consistente en una ecuación que relaciona una variable del tama- ño poblacional con otra variable que representa el tiempo. Esto es muy parecido a los métodos de regresión de la sección 9-3, excepto que ya no estamos restringi- dos a un modelo que deba ser lineal. Además, en lugar de utilizar datos muestrales seleccionados al azar, consideraremos datos reunidos periódicamente a través del tiempo o alguna otra unidad básica de medición. Existen algunos métodos estadís- ticos poderosos que podemos estudiar (tales como las series de tiempo), pero el principal objetivo de esta sección es describir brevemente la manera en que se em- plea la tecnología para obtener un buen modelo matemático. A continuación se presentan algunos modelos genéricos como aparecen en un menú de la calculadora TI-83 Plus (presione STAT y luego seleccione CALC): Lineal: y 5 a 1 bx Cuadrático: y 5 ax2 1 bx 1 c Logarítmico: y 5 a 1 b ln x Exponencial: y 5 abx Potencia: y 5 axb Logístico: El modelo particular que usted seleccione depende de la naturaleza de los datos muestrales, y un diagrama de dispersión resulta muy útil para tomar esta determina- ción. Las ilustraciones a continuación son gráficas de algunos modelos comunes elaborados en una calculadora TI-83 Plus. y 5 c 1 1 ae2bx 9-6 Elaboración de modelos 551 TI-83 Plus Linear: y = 1 + 2x Quadratic: y = x2 – 8x + 18 Exponential: y = 2x Logarithmic: y = 1 + 2 lnx Power: y = 3x2.5 Logistic: y = 1 + 50e–x ________2 He aquí las reglas básicas para la creación de un buen modelo matemático: 1. Busque un patrón en la gráfica. Examine la gráfica con los puntos y compare el patrón básico con las gráficas genéricas conocidas de una función lineal, una función cuadrática, una función exponencial, una función potencial, etcé- tera. (Remítase a las gráficas que se presentan en los ejemplos de los resulta- dos de la calculadora TI-83 Plus). Cuando trate de seleccionar un modelo, considere únicamente aquellas funciones que parecen ajustarse visualmente a los puntos observados de una forma razonablemente adecuada. 2. Calcule y compare valores de R2. Para cada modelo que considere, utilice pro- gramas de cómputo o una calculadora TI-83 Plus para obtener el valor del coe- ficiente de determinación R2. Los valores de R2 se interpretan aquí de la misma forma que se interpretaron en la sección 9-5. Al delimitar sus posibles modelos, seleccione funciones que dan como resultado valores más grandes de R2, por- que valores más grandes corresponden a funciones que se ajustan mejor a los puntos observados. Sin embargo, no dé demasiada importancia a las diferencias pequeñas, tales como la diferencia entre R25 0.984 y R2 5 0.989. (Otra medi- ción utilizada para evaluar la calidad de un modelo es la suma de cuadrados de los residuales. Véase el ejercicio 10). 3. Piense. Aplique el sentido común. No utilice un modelo que conduzca a valo- res predichos que son poco realistas. Utilice el modelo para calcular valores futuros, valores pasados y valores de años perdidos; luego determine si los re- sultados son realistas. 552 CAPÍTULO 9 Correlación y regresión Tabla 9-5 Población de Estados Unidos (en millones) Año 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 Año codificado 1 2 3 4 5 6 7 8 9 10 11 Población 5 10 17 31 50 76 106 132 179 227 281 TI-83 Plus EJEMPLO La tabla 9-5 lista la población de Estados Unidos en diferentes años. Encuentre un buen modelo matemático para el tamaño poblacional, des- pués haga una predicción del tamaño de la población de Estados Unidos para el año 2020. SOLUCIÓN Primero “codificamos” los valores del año utilizando 1, 2, 3. . . en lugar de 1800, 1820, 1840. . . La razón de esta codificación es que de esta manera se utilizan valores de x más pequeños y que tienen muchas menos posibi- lidades de causar problemas de cálculo, como los que podrían ocurrir al emplear valores realmente grandes de x. Busque un patrón en la gráfica. Examine el patrón de los valores de los datos en los resultados de la calculadora TI-83 Plus (mostrados al margen) y compare el patrón con los modelos genéricos presentados anteriormente en es- ta sección. El patrón de estos puntos no es una recta, por lo que descartamos un