introduccion a la probabilidad y estadistica ejercicios-202

Probabilidad y Estadística Aplicada

•

27 De Septiembre

EDUARDO GONZALEZ GARCIA

26/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Probabilidad y Estadística Aplicada

1925 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

580 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
• Especialidad, número de unidades llevadas, número de cursos tomados
• Programa de trabajo, estado civil, viaja o vive en el plantel
¿Cuál de este gran número de variables independientes deben incluirse en el modelo?
Como el número de términos podría rápidamente hacerse muy difícil de manejar, podría
escogerse usar un procedimiento llamado análisis de regresión por pasos, que se pone
en práctica por computadora y lo hay en casi todos los paquetes de estadística.
Suponga que tenemos datos acerca de y y un buen número de posibles variables
independientes, x1, x2, …, xk. Un análisis de regresión por pasos ajusta una variedad de
modelos a los datos, agregando y eliminando variables cuando la significancia de ellas
en presencia de las otras variables es significativa o no significativa, respectivamente.
Una vez que el programa haya hecho un número suficiente de iteraciones y no hay
más variables significativas cuando se suman al modelo y ninguna de las variables del
modelo son no significativas cuando son eliminadas, el procedimiento se detiene.
Un análisis de regresión por pasos es un modo fácil de localizar algunas variables que
aportan información para predecir y, pero no es a prueba de errores. Como estos progra-
mas siempre ajustan modelos de primer orden de la forma
E(y) � b0 � b1x1 � b2x2 � � � � � bkxk
no son útiles para detectar curvatura o interacción en los datos. El análisis de regresión
por pasos se usa mejor como herramienta preliminar para identificar cuál, de un gran
número de variables, debe ser considerada en su modelo. Entonces es necesario decidir
cómo introducir estas variables en el modelo real que usará para predicción.
INTERPRETACIÓN ERRÓNEA
DE UN ANÁLISIS DE REGRESIÓN
Son comunes varias interpretaciones erróneas en la salida impresa de un análisis de
regresión. Ya hemos mencionado la importancia de la selección de un modelo. Si un
modelo no se ajusta a un conjunto de datos, no quiere decir que las variables incluidas
en el modelo aporten poca o ninguna información para la predicción de y. Las variables
pueden ser importantes contribuyentes de información, pero pueden haberse introducido
las variables en el modelo en una forma equivocada. Por ejemplo, un modelo de segun-
do orden en las variables podría dar un muy buen ajuste a los datos cuando un modelo de
primer orden parece ser por completo inútil para describir la variable de respuesta y.
Causalidad
Es necesario tener cuidado de no concluir que cambios en x causan cambios en y. Este
tipo de relación causal puede ser detectada sólo con un experimento cuidadosamente
diseñado. Por ejemplo, si al azar se asignan unidades experimentales a cada uno de dos
niveles de una variable x, por ejemplo x � 5 y x � 10 y los datos muestran que el valor
medio de y es mayor cuando x � 10, entonces se puede decir que el cambio en el nivel
de x causó un cambio en el valor medio de y. Pero en casi todos los análisis de regresión,
en los que los experimentos no están diseñados, no hay garantía de que una variable
predictora importante, por ejemplo x1, cause un cambio en y. Es muy posible que alguna
variable que ni siquiera esté en el modelo cause que tanto y como x1 cambien.
Multicolinealidad
Ni el tamaño de un coeficiente de regresión ni su valor t indican la importancia de la
variable como contribuyente de información. Por ejemplo, supongamos que se desea pre-
decir y, la calificación de cálculo de un estudiante universitario, con base en x1 � prome-
dio de calificaciones de preparatoria y x2 � calificación en el examen de aptitud en
13.9
Probabilidad_Mendenhall_13.indd 580Probabilidad_Mendenhall_13.indd 580 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
www.FreeLibros.me
matemáticas. Como estas dos variables contienen mucho de lo mismo o información
compartida, no es de sorprender que una vez que una de las variables se introduzca
en el modelo, la otra aporta muy poca información adicional. El valor t individual es
pequeño, pero, si las variables se introdujeron en el orden inverso, se vería invertido el
tamaño de los valores t.
La situación descrita líneas antes se denomina multicolinealidad y se presenta
cuando dos o más de las variables predictoras están altamente correlacionadas entre sí.
Cuando la multicolinealidad está presente en un problema de regresión, puede tener
estos efectos en el análisis:
• Los coefi cientes de regresión estimados tendrán errores estándar grandes, causan-
do imprecisión en intervalos de confi anza y predicción.
• Agregar o eliminar una variable de predicción puede causar cambios signifi cati-
vos en los valores de los otros coefi cientes de regresión.
¿Cómo saber si un análisis de regresión exhibe multicolinealidad? Busque estos
indicios:
• El valor de R2 es grande, lo cual indica un buen ajuste, pero las pruebas t indivi-
duales no son signifi cativas.
• Los signos de los coeficientes de regresión son contrarios a lo que intuitivamente
se esperaría fueran las contribuciones de esas variables.
• Una matriz de correlaciones, generada por computadora, muestra cuáles variables
predictoras están altamente correlacionadas entre sí y con la respuesta y.
La figura 13.20 muestra la matriz de correlaciones generada para los datos de bienes
raíces del ejemplo 13.2. La primera columna de la matriz muestra las correlaciones de
cada variable de predicción con la variable de respuesta y. Todas son significativamen-
te diferentes de cero, pero la primera variable, x1 � área de vivienda, es la más altamente
correlacionada. Las últimas tres columnas de la matriz muestran correlaciones significa-
tivas entre todas las variables predictoras, excepto un par. Ésta es una fuerte indicación
de multicolinealidad. Si se trata de eliminar una de las variables del modelo, pueden cam-
biar en forma drástica los efectos de las otras tres. Otro indicio puede hallarse al exami-
nar los coeficientes de la recta de predicción,
ListPrice � 119 � 6.27 Square Feet � 16.2 Number of Floors
- 2.67 Bedrooms � 30.3 Baths
Correlaciones: Precio de lista, pies cuadrados, número de pisos, recámaras, baños
ListPrice SqFeet Numflrs Bdrms
Square Feet 0.951
0.000

Number of Fl 0.605 0.630
0.017 0.012
Bedrooms 0.746 0.711 0.375
0.001 0.003 0.168
Baths 0.834 0.720 0.760 0.675
0.000 0.002 0.001 0.006
Cell Contents: Pearson Correlation
P-Value
Se podría esperar que más pisos y recámaras aumentaran el precio de lista, pero sus
coeficientes son negativos.
Como existe multicolinealidad en alguna medida en todos los problemas de regresión,
debemos considerar los términos individuales como aportadores de información, en lugar de
tratar de medir la importancia práctica de cada término. La decisión primaria a tomarse es
si un término aporta suficiente información para justificar su inclusión en el modelo.
FIGURA 13.20
Matriz de correlación para
los datos de bienes raíces
del ejemplo 13.2
●
13.9 INTERPRETACIÓN ERRÓNEA DE UN ANÁLISIS DE REGRESIÓN ❍ 581
Probabilidad_Mendenhall_13.indd 581Probabilidad_Mendenhall_13.indd 581 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
www.FreeLibros.me
582 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
PASOS A SEGUIR AL CONSTRUIR
UN MODELO DE REGRESIÓN MÚLTIPLE
El objetivo final de un análisis de regresión múltiple es desarrollar un modelo que
en forma precisa prediga y como función de un conjunto de variables predictoras x1,
x2, …, xk. El procedimiento paso a paso para desarrollar este modelo se presentó en la
sección 13.4 y volvemos a expresarlo a continuación con algún detalle adicional. Si se
usa este método, lo que puede parecer un problema complicado se puede hacer más
sencillo. Al igual que en cualquier procedimiento estadístico, la confianza crecerá a
medida que ganemos experiencia con el análisis de regresiónmúltiple en varias situa-
ciones prácticas.
1. Seleccione las variables predictoras a ser incluidas en el modelo. Como algunas
de estas variables pueden contener información compartida, se puede reducir la
lista al correr un análisis de regresión por pasos (véase la sección 13.8).
Mantenga el número de variables predictoras lo sufi cientemente pequeño para
que sea efectivo pero manejable. Es necesario estar conscientes que el número
de observaciones del conjunto de datos debe exceder el número de términos del
modelo; cuanto mayor el exceso, mejor.
2. Escriba un modelo usando las variables predictoras seleccionadas. Si las varia-
bles son cualitativas, es mejor empezar incluyendo términos de interacción; si las
variables son cuantitativas, es mejor empezar con un modelo de segundo orden.
Los términos no necesarios pueden eliminarse después. Obtenga el modelo de
predicción ajustado.
3. Use el análisis de varianza de la prueba F y R2 para determinar qué tan bien
ajusta el modelo a los datos.
4. Verifi que las pruebas t para los coefi cientes de regresión parcial para ver cuáles
están aportando información signifi cativa en presencia de los otros. Si algunos
términos parecen ser no signifi cativos, considere eliminarlos. Si escoge comparar
varios modelos diferentes, use R2(adj) para comparar su efectividad.
5. Use gráfi cas residuales generadas por computadora para ver si hay violación de
las suposiciones de regresión.
13.10
Conceptos y fórmulas clave
I. El modelo lineal general
1. y � b0 � b1x1 � b2x2 � � � � � bkxk � e
2. El error aleatorio e tiene una distribución normal
con media 0 y varianza s 2.
II. Método de mínimos cuadrados
1. Las estimaciones b0, b1, …, bk, para b0, b1, …, bk,
se escogen para minimizar SSE, la suma
del cuadrado de desviaciones alrededor de la
recta de regresión, ŷ � b0 � b1x1 � b2x2 �
� � � � bkxk.
2. Las estimaciones de mínimos cuadrados son
producidas por computadora.
III. Análisis de varianza
1. SS Total � SSR � SSE, donde SS Total � Syy.
La tabla ANOVA es producida por computadora.
2. La mejor estimación de s 2 es
MSE �
n �
S

S
k
E
� 1
IV. Prueba, estimación y predicción
1. Una prueba de la signifi cancia de la regresión,
H0 : b1 � b2 � � � � � bk � 0, se puede implemen-
tar usando el análisis de prueba F de varianza:
F �
M
M
S
S
R
E
REPASO DEL CAPÍTULO
Probabilidad_Mendenhall_13.indd 582Probabilidad_Mendenhall_13.indd 582 5/14/10 8:20:39 AM5/14/10 8:20:39 AM
www.FreeLibros.me
13 ANÁLISIS DE REGRESIÓN MÚLTIPLE
13.9 Interpretación errónea de un análisis de regresión
Causalidad
Multicolinealidad
13.10 Pasos a seguir al construir un modelo de regresión múltiple
Repaso del capítulo