Logo Studenta

Estadistica - Parte Dos-páginas-30

¡Estudia con miles de materiales!

Vista previa del material en texto

9-5 Destrezas y conceptos básicos
Interpretación de resultados de programas de cómputo. En los ejercicios 1 a 4, remítase
a los resultados de Minitab que se presentan aquí y responda las preguntas o identifique
los elementos indicados. Los resultados de Minitab están basados en la muestra de 54
osos incluida en el conjunto de datos 9 del Apéndice B.
1. Mediciones de osos Identifique la ecuación de regresión múltiple que expresa el peso
en términos de la longitud de la cabeza, la altura y el tamaño del pecho.
2. Mediciones de osos Identifique lo siguiente:
a. El valor P correspondiente a la significancia general de la ecuación de regresión
múltiple
b. El valor del coeficiente múltiple de determinación R2
c. El valor ajustado de R2
3. Mediciones de osos ¿Es útil la ecuación de regresión múltiple para predecir el peso
de un oso con base en la longitud de su cabeza, la altura y el tamaño del pecho? ¿Por
qué?
4. Mediciones de osos Se encuentra que un oso tiene una longitud de cabeza de 14.0
pulgadas, una altura de 70.0 pulgadas y un tamaño del pecho de 50.0 pulgadas.
a. Calcule el peso predicho del oso.
b. El oso en cuestión en realidad pesaba 320 libras. ¿Qué tan preciso es el peso predi-
cho en el inciso a?
The regression equation is
WEIGHT 5 2272 2 0.87 HEADLEN 1 0.55 LENGTH 1 12.2 CHEST
Predictor Coef SE Coef T P
Constant 2271.71 31.62 28.59 0.000
HEADLEN 20.870 5.676 20.15 0.879
LENGTH 0.554 1.259 0.44 0.662
CHEST 12.153 1.116 10.89 0.000
S 5 33.66 R-Sq 5 92.8% R-Sq(adj) 5 92.4%
Analysis of Variance
Source DF SS MS F P
Regresión 3 729645 243215 214.71 0.000
Residual Error 50 56638 1133
Total 53 786283
Datos de automóviles: cálculo de la mejor ecuación de regresión múltiple. En los
ejercicios 5 a 8, remítase a la tabla adjunta, que se obtuvo utilizando el conjunto de datos
22 del Apéndice B. La variable dependiente es el consumo de combustible en ciudad (en
millas/galón), y las variables independientes están listadas en la tabla. CRT denota el
consumo de combustible en carretera, PS denota el peso del automóvil y DSPZ el despla-
zamiento del motor del automóvil.
Minitab
548 CAPÍTULO 9 Correlación y regresión
5. Si se utiliza únicamente una variable independiente para predecir la cantidad de con-
sumo de combustible en la ciudad (en mi/gal), ¿cuál variable es mejor? ¿Por qué?
6. Si se van a utilizar exactamente dos variables independientes para predecir la cantidad del
consumo de combustible en la ciudad, ¿cuáles dos variables deben elegirse? ¿Por qué?
7. ¿Cuál ecuación de regresión es mejor para predecir la cantidad de consumo de com-
bustible en la ciudad? ¿Por qué?
8. Si un automóvil tiene una tasa de consumo de combustible en carretera de 35 mi/gal,
un peso de 2675 libras y un desplazamiento de motor de 3.8 L, ¿cuál es el mejor valor
predicho de la tasa de consumo de combustible en la ciudad? ¿Es posible que ese va-
lor predicho constituya un buen estimado? ¿Es posible que el valor predicho sea muy
preciso?
9. Estaturas de padres e hijos Remítase al conjunto de datos de 2 del Apéndice B.
a. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura
de un hijo en términos de la variable independiente de la estatura de la madre.
b. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura
de un hijo en términos de la variable independiente de la estatura del padre.
c. Calcule la ecuación de regresión que expresa la variable dependiente de la estatura
de un hijo en términos de las variables independientes de la estatura de la madre y
la estatura del padre.
d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la
mejor ecuación para predecir la estatura de un hijo? ¿Por qué?
e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua-
ción para predecir la estatura de un hijo? ¿Por qué?
10. Facilidad de lectura de Harry Potter Remítase al conjunto de datos 14 del Apéndice B
y utilice los valores de Harry Potter y la piedra filosofal, de J. K. Rowling.
a. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua-
ción de facilidad de lectura de Flesch en términos de la variable independiente de
las palabras por oración.
b. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua-
ción de facilidad de lectura de Flesch en términos de la variable independiente de
los caracteres por palabra.
c. Calcule la ecuación de regresión que expresa la variable dependiente de la puntua-
ción de facilidad de lectura de Flesch en términos de las variables independientes
de las palabras por oración y los caracteres por palabra.
d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la
mejor ecuación para predecir una puntuación de la facilidad de lectura de Flesch?
¿Por qué?
e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua-
ción para predecir una puntuación de facilidad de lectura de Flesch? ¿Por qué?
11. Cereales y calorías Remítase al conjunto de datos 16 del Apéndice B.
a. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en
términos de la variable independiente de la cantidad de grasa.
9-5 Regresión múltiple 549
Variables
independientes Valor P R2 R2 ajustada Ecuación de regresión
CRT, PS, DSPZ 0.000 0.882 0.860 5 5.9 1 0.742x1 2 0.00162x2 2 0.441x3
CRT, PS 0.000 0.876 0.861 5 4.6 1 0.794x1 2 0.00209x2
CRT, DSPZ 0.000 0.873 0.859 5 23.23 1 0.892x1 2 0.626x2
PS, DSPZ 0.000 0.788 0.763 5 41.5 2 0.00535x1 2 0.950x2
CRT 0.000 0.860 0.853 5 29.73 1 1.05x
PS 0.000 0.759 0.746 5 44.2 2 0.00708x
DSPZ 0.000 0.620 0.599 5 29.5 2 2.74xŷ
ŷ
ŷ
ŷ
ŷ
ŷ
ŷ
T
T
T
b. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en
términos de la variable independiente de la cantidad de azúcar.
c. Calcule la ecuación de regresión que expresa la variable dependiente de calorías en
términos de las variables independientes de la cantidad de grasa y de la cantidad de
azúcar.
d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la
mejor ecuación para predecir el número de calorías? ¿Por qué?
e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua-
ción para predecir el número de calorías? ¿Por qué?
12. Uso de la basura para predecir el tamaño poblacional Remítase al conjunto de datos
23 del Apéndice B.
a. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño
de los hogares en términos de la variable independiente del peso de los desechos
de comida.
b. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño
de los hogares en términos de la variable independiente del peso de los desechos
plásticos.
c. Calcule la ecuación de regresión que expresa la variable dependiente del tamaño
de los hogares en términos de las variables independientes del peso de los dese-
chos de comida y el peso de los deshechos plásticos.
d. Respecto a las ecuaciones de regresión obtenidas en los incisos a, b y c, ¿cuál es la
mejor ecuación para predecir el tamaño de los hogares? ¿Por qué?
e. ¿Será la mejor ecuación de regresión, identificada en el inciso d, una buena ecua-
ción para predecir el tamaño de los hogares? ¿Por qué?
9-5 Más allá de lo básico
13. Nicotina de cigarrillos: cálculo de la mejor ecuación de regresión múltiple Remítase
al conjunto de datos 5 del Apéndice B y calcule la mejor ecuación de regresión múltiple,
con la nicotina como variable dependiente. ¿Será esta “mejor” ecuación buena para
predecir la cantidad de nicotina en un cigarrillo con base en la cantidad de alquitrán y
monóxido de carbono?
14. Precio de un diamante: cálculo de la mejor ecuación de regresión múltiple Remítase
al conjunto de datos 18 del Apéndice B.
a. Utilice únicamente los tres factores tradicionales del quilate, color y claridad para
calcular la mejor ecuación de regresión múltiple que podría emplearse para prede-
cir el precio deun diamante.
b. Las variables profundidad y meseta describen el corte de un diamante que, se su-
pone, afecta su color. ¿Existe una relación lineal significativa entre la variable de-
pendiente del color y las variables dependientes de profundidad y meseta? Si no
existe una relación lineal significativa, ¿quiere esto decir que el color no se ve
afectado por la profundidad y la meseta?
15. Precio de venta de casas: cálculo de la mejor ecuación de regresión múltiple Remíta-
se al conjunto de datos 24 del Apéndice B y calcule la mejor ecuación de regresión
múltiple con el precio de venta como variable dependiente. ¿Será esta “mejor” ecuación
buena para predecir el precio de venta de una casa?
16. Uso de la regresión múltiple para la ecuación de la parábola En algunos casos, la ecua-
ción de regresión múltiple que se ajusta mejor tiene la forma 5 b0 1 b1x 1 b2x
2. La
gráfica de un ecuación como ésta es una parábola. Utilice el conjunto de datos listado
al margen, permita que x1 5 x, permita que x2 5 x2, y calcule la ecuación de regresión
múltiple para la parábola, que se ajusta mejor a los datos. Con base en el valor del
coeficiente múltiple de determinación, ¿qué tan bien se ajusta esta ecuación a los datos?
ŷ
550 CAPÍTULO 9 Correlación y regresión
x 1 3 4 7 5
y 5 14 19 42 26
T
T
T
T
T
9-6 Elaboración de modelos
No, no ese tipo de modelos. Esta sección introduce algunos conceptos básicos
del desarrollo de un modelo matemático, que es una función matemática que se
“ajusta” o describe datos del mundo real. Por ejemplo, podríamos buscar un mo-
delo matemático consistente en una ecuación que relaciona una variable del tama-
ño poblacional con otra variable que representa el tiempo. Esto es muy parecido a
los métodos de regresión de la sección 9-3, excepto que ya no estamos restringi-
dos a un modelo que deba ser lineal. Además, en lugar de utilizar datos muestrales
seleccionados al azar, consideraremos datos reunidos periódicamente a través del
tiempo o alguna otra unidad básica de medición. Existen algunos métodos estadís-
ticos poderosos que podemos estudiar (tales como las series de tiempo), pero el
principal objetivo de esta sección es describir brevemente la manera en que se em-
plea la tecnología para obtener un buen modelo matemático.
A continuación se presentan algunos modelos genéricos como aparecen en un
menú de la calculadora TI-83 Plus (presione STAT y luego seleccione CALC):
Lineal: y 5 a 1 bx Cuadrático: y 5 ax2 1 bx 1 c
Logarítmico: y 5 a 1 b ln x Exponencial: y 5 abx
Potencia: y 5 axb Logístico:
El modelo particular que usted seleccione depende de la naturaleza de los datos
muestrales, y un diagrama de dispersión resulta muy útil para tomar esta determina-
ción. Las ilustraciones a continuación son gráficas de algunos modelos comunes
elaborados en una calculadora TI-83 Plus.
y 5
c
1 1 ae2bx
9-6 Elaboración de modelos 551
TI-83 Plus
Linear: y = 1 + 2x Quadratic: y = x2 – 8x + 18
Exponential: y = 2x
Logarithmic: y = 1 + 2 lnx
Power: y = 3x2.5 Logistic: y = 
1 + 50e–x
________2
He aquí las reglas básicas para la creación de un buen modelo matemático:
1. Busque un patrón en la gráfica. Examine la gráfica con los puntos y compare
el patrón básico con las gráficas genéricas conocidas de una función lineal,
una función cuadrática, una función exponencial, una función potencial, etcé-
tera. (Remítase a las gráficas que se presentan en los ejemplos de los resulta-
dos de la calculadora TI-83 Plus). Cuando trate de seleccionar un modelo,
considere únicamente aquellas funciones que parecen ajustarse visualmente a
los puntos observados de una forma razonablemente adecuada.
2. Calcule y compare valores de R2. Para cada modelo que considere, utilice pro-
gramas de cómputo o una calculadora TI-83 Plus para obtener el valor del coe-
ficiente de determinación R2. Los valores de R2 se interpretan aquí de la misma
forma que se interpretaron en la sección 9-5. Al delimitar sus posibles modelos,
seleccione funciones que dan como resultado valores más grandes de R2, por-
que valores más grandes corresponden a funciones que se ajustan mejor a los
puntos observados. Sin embargo, no dé demasiada importancia a las diferencias
pequeñas, tales como la diferencia entre R25 0.984 y R2 5 0.989. (Otra medi-
ción utilizada para evaluar la calidad de un modelo es la suma de cuadrados
de los residuales. Véase el ejercicio 10).
3. Piense. Aplique el sentido común. No utilice un modelo que conduzca a valo-
res predichos que son poco realistas. Utilice el modelo para calcular valores
futuros, valores pasados y valores de años perdidos; luego determine si los re-
sultados son realistas.
552 CAPÍTULO 9 Correlación y regresión
Tabla 9-5 Población de Estados Unidos (en millones)
Año 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
Año codificado 1 2 3 4 5 6 7 8 9 10 11
Población 5 10 17 31 50 76 106 132 179 227 281
TI-83 Plus EJEMPLO La tabla 9-5 lista la población de Estados Unidos en diferentes
años. Encuentre un buen modelo matemático para el tamaño poblacional, des-
pués haga una predicción del tamaño de la población de Estados Unidos para
el año 2020.
SOLUCIÓN Primero “codificamos” los valores del año utilizando 1, 2, 3. . .
en lugar de 1800, 1820, 1840. . . La razón de esta codificación es que de esta
manera se utilizan valores de x más pequeños y que tienen muchas menos posibi-
lidades de causar problemas de cálculo, como los que podrían ocurrir al emplear
valores realmente grandes de x.
Busque un patrón en la gráfica. Examine el patrón de los valores de los
datos en los resultados de la calculadora TI-83 Plus (mostrados al margen) y
compare el patrón con los modelos genéricos presentados anteriormente en es-
ta sección. El patrón de estos puntos no es una recta, por lo que descartamos un