Logo Studenta

ESTADÍSTICA 2 MODULO 4

¡Este material tiene más páginas!

Vista previa del material en texto

Módulo 4 
Unidad 6 
Lectura 4 
Análisis de Regresión y 
Correlación 
 
 
 
 
 
 
 
 
 
Materia: Herramientas Matemáticas V – Estadística II 
Profesora: Mgter. Verónica Herrero 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 2  
 
 
Unidad 6: Análisis de 
Regresión y Correlación 
 
Introducción a la Inferencia Estadística 
 
 
6.1 ANÁLISIS DE REGRESIÓN LINEAL 
 
La idea de poder predecir cierto valor de una variable a partir del 
conocimiento del valor de otra que la determina o influye ha llevado a 
desarrollar las técnicas que presentamos en este módulo.  
 
En particular, la idea es detectar si existe una relación lineal entre dos 
variables, una que llamaremos dependiente que es condicionada por los 
valores de otra que denominamos independiente o explicatoria. 
 
 
Diagrama de dispersión 
 
Como siempre en Estadística, un primer análisis exploratorio gráfico 
posibilita un avance en el conocimiento sobre un fenómeno, aunque no 
de manera concluyente. 
Un gráfico da la posibilidad de visualizar rápidamente la posible 
existencia de una relación entre las variables de interés. 
El diagrama de dispersión, de amplia aplicación en el caso del 
análisis de regresión, consiste en la representación de puntos en un 
sistema de ejes cartesianos, donde los valores de la variable dependiente 
se indican en las ordenadas y los de la variable independiente en las 
abscisas. Cada punto del gráfico corresponde con las coordenadas del 
mismo representado como par ordenado (x, y). El conjunto de 
puntos que quedan ilustrados recibe el nombre de nube de puntos. 
Bibliografía Básica 
Para cumplir con los 
objetivos de la Unidad 6 
del programa, es necesario 
profundizar en los temas 
desarrollados en el 
Capítulo 17 y 18 del 
texto de Berenson & 
Levine (1996), 
relacionándolo con los 
comentarios, ejemplos y 
recomendaciones de las 
lecturas del módulo. 
Capítulos: 17 (Apartados 
17.1, 17.2, 17.3, 17.4, 17.5, 
17.6, 17.7, 17.8, 17.9), 18 
(Apartados 18.1 y 18.2) 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 3  
 
Un diagrama de dispersión permite visualizar la forma de la relación, 
pero siempre debe tomarse precauciones (“no confiar en las 
apariencias), por lo cual siempre necesitaremos los test y estimaciones 
estadísticas. No obstante, destacamos que la primera aproximación 
gráfica es un buen punto de partida, por ejemplo, para preliminarmente 
analizar si la línea recta será una aproximación aceptable de la relación 
o no. 
En el ejemplo de Diagrama de dispersión que mostramos a 
continuación, la variable Y (dependiente) indica, en el marco de un 
estudio sobre productividad laboral en el contexto fabril, el número de 
errores en una tarea repetitiva de un ocupado en el mercado laboral, 
mientras que la variable X (independiente) señala el número de horas 
seguidas de repetición de la actividad. Para describir la relación 
aparente entre estas variables, podríamos indicar que si bien en nuestra 
muestra hay pocos casos con muy pocas horas de realización la tarea 
repetitiva, a medida que más horas se lleva a cabo continuamente la 
misma, el número de errores resulta más elevado. Con la intención de 
ser más específicos y sintéticos al mismo tiempo, el modelo de regresión 
lineal intenta asociar la relación entre estas variables a través de una 
línea recta que generalice esta vinculación, despreciando las 
oscilaciones específicas de cada caso particular respecto de la línea recta 
que indicaría la estructura de la relación entre experiencia y salario 
inicial. 
 
 
Figura: Diagrama de dispersión 
Y 
=
 n
úm
er
o 
de
 e
rr
or
es
 e
n 
un
a 
ta
re
a 
re
pe
ti
ti
va
 
 X = número de horas seguidas de repetición de la actividad 
Fuente: Elaboración propia 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 4  
 
 
Actividad: 
 
1. Elabore (utilizando una hoja cuadriculada, para facilitar la 
adecuación a una escala proporcional de cada variable) la siguiente 
relación: 
 
Los siguientes datos fueron tomados de un estudio sobre las 
diferentes sucursales de una marca de supermercados de la ciudad: 
 
 
 
Sucursal Superficie del local 
de venta (m2) 
Ventas diarias (en 
miles de $) 
1 300 425 
2 350 435 
3 450 550 
4 500 600 
5 700 860 
6 760 770 
7 770 980 
8 900 1100 
9 1200 1240 
10 1400 1500 
11 2000 2400 
12 2050 2200 
13 2100 2080 
 
 
2. Intente graficar utilizando Excel. Aproveche la Ayuda disponible en 
el programa, invierta unos minutos en explorar, conocer cómo 
realizar buenos gráficos con las herramientas estándar le puede ser 
muy útil. 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 5  
 
 
El modelo de regresión lineal 
 
Como a partir del diagrama de dispersión comenzamos a sospechar 
de una relación aproximadamente lineal (es decir, que tiene forma 
de línea recta), trataremos de ver si realmente podemos indicar la 
relación a partir de este modelo. 
 
El modelo lineal puede sintetizarse de manera que represente una 
línea recta con la siguiente expresión: 
iii XY εββ ++= 10 
Donde: 
=0β la intersección u ordenada al origen poblacional 
=1β la pendiente poblacional 
=iε error aleatorio en Y para la i-ésima observación 
 
 
 
Figura: Relación lineal positiva 
 
Y 
=
 n
úm
er
o 
de
 e
rr
or
es
 e
n 
un
a 
ta
re
a 
re
pe
ti
ti
va
 
 
 X = número de horas seguidas de repetición de la actividad 
Fuente: Elaboración propia 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 6  
 
 
El coeficiente =0β representa la ordenada al origen, es decir, el 
punto en que la recta corta al eje vertical. 
El coeficiente =1β es la pendiente de la recta, el cual indica el 
cambio en el valor esperado de la variable Y cuando se produce un 
cambio en una unidad de X. 
 
 
 
 
 
Figura: Diferentes ordenadas al origen 
Ordenada al origen: 3,95 
 
Ordenada al origen: 2,7 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 7  
 
Ordenada al origen: 1,6 
 
Fuente: Elaboración propia con la herramienta de simulación 
provista por: 
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml 
 
La relación lineal es uno de los modelos que puede seguir la relación 
entre dos variables. En este caso, a su vez, la relación puede ser 
positiva (tal como la ejemplificada) o negativa. No obstante, la 
relación podr ía tener otra forma (curvilínea, constante, etc.) que 
pudiera tener enorme interés teórico y práctico, que se trabaja con 
técnicas más sofisticadas que las que presentaremos en este módulo. 
La siguiente figura ilustra algunas de las situaciones posibles. 
 
Figura: formas de la relación entre dos variables 
Relación lineal positiva 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 8  
 
Relación lineal negativa 
 
Relación cuadrática entre las 
variables 
 
Variables que aparentemente 
no poseen relación 
 
Fuente: Elaboración propia 
 
 
Determinación de la ecuación de regresión lineal 
simple 
 
Hasta el momento hemos visto que podemos sospechar de la 
relación lineal entre las variables, pero no presentamos la manera de 
deducir el valor de los valores de los estimadores de la pendiente y la 
ordenada al origen en base a datos de una muestra. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 9  
 
El Método de mínimos cuadrados es una manera de obtener la 
ecuación que mejor ajusta a la nube de puntos, justamente 
minimizando la suma de los cuadrados de los errores (o residuos). 
 
Figura: Recta de mínimos cuadrados 
 
La ecuación de la recta 
 
ii XbbY 10ˆ += 
 
que mejor ajusta la nube de puntos del gráfico dedispersión es la 
que minimiza la suma de los cuadrados de los residuos. 
 
Esta manera de obtener los valores de b0 y b1, permite seleccionar 
una de todas las posibles rectas (algunos ejemplos pueden 
observarse en la figura siguiente) que podrían ser utilizadas para 
describir la relación. El método de mínimos cuadrados aporta un 
criterio para determinar esa recta. Este criterio corresponde a 
determinar la recta en la cual los valores reales y los valores 
predichos tienen la mínima distancia. Como puede observarse en la 
figura previa, la recta de mínimos cuadrados, es la que tiene las 
menores distancias totales (ej: la distancia vertical indicada en la 
figura). En cuanto a si las diferencias (ej) entre la recta de regresión 
y los valores observados, no interesa si las diferencias son por exceso 
o por defecto, por lo tanto, se trabaja con la suma de desvíos 
elevados al cuadrado. 
 
Método de Mínimos 
Cuadrados 
Es el método matemático 
que permite encontrar los 
valores de b0 y b1 que 
hacen mínimas la 
sumatoria del 
cuadrado de las 
diferencias entre los 
valores observados y el 
obtenido mediante la recta 
de regresión. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 10  
 
Figura: Otras rectas de regresión “posibles” 
 
 
Para obtener los valores de los estimadores de los parámetros de la 
recta de regresión, se minimiza la expresión 
 
2
10
22
1 )(min)ˆ(minmin iiii XbbYYYe −−=−= ∑∑ ∑ 
 
Los valores b0 y b1 que minimizan la función se obtienen al igualar a 
cero las derivadas parciales de la función respecto de cada uno de los 
parámetros. Tales estimadores verifican también la condición de 
segundo orden de un mínimo (estudiada en las materias vinculadas 
con el Análisis Matemático). 
A través de este proceso se obtienen las denominadas “ecuaciones 
normales”, que permiten despejar las fórmulas de cálculo de los 
estimadores de la pendiente y la ordenada al origen 
respectivamente. 
 
Ecuación I: 
∑ ∑+= ii XbbnY .. 10 
Ecuación II: 
∑ ∑∑ += 210 . iXbXbYX iii 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 11  
 
Si ambas ecuaciones se resuelven como un sistema, se pueden 
obtener los estimadores: 
 
Pendiente: 
∑
∑
−
−
= 221. XnX
YXnYX
b
i
ii 
 
Ordenada: 
XbYbo 1. −= 
 
 
Veamos en un ejercicio cómo se aplican todos estos conceptos. 
 
Ejercicio: 
Los siguientes datos corresponden a información sobre pautas de 
consumo de individuos adultos de una ciudad metropolitana. 
La variable X indica la edad del individuo (medida en años), 
mientras que la variable Y señala la cantidad de veces que salieron a 
comer fuera de su casa, en ocasiones de esparcimiento, en el último 
año. Los datos consideran una muestra reducida de individuos de la 
ciudad, por tratarse de un estudio piloto. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 12  
 
 
Datos del ejercicio 
X Y 
60 23 
62 23 
61 25 
55 25 
53 26 
60 26 
63 29 
53 30 
52 30 
48 32 
49 33 
53 31 
 
 
Descripción gráfica de los datos bivariados 
Diagrama de dispersión 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 13  
 
 
Obtención de los estimadores de la pendiente y la ordenada al origen 
a) Las medias de las variables son: 
75,55=X años 
 
y 
 
75,27=Y veces que sale a comer por año 
 
b) Tabla auxiliar 
 
La siguiente tabla facilita el cálculo posterior, debido a la manera en 
que se sistematizan los datos: 
 
X Y X2 XY 
60 23 3600 1380 
62 23 3844 1426 
61 25 3721 1525 
55 25 3025 1375 
53 26 2809 1378 
60 26 3600 1560 
63 29 3969 1827 
53 30 2809 1590 
52 30 2704 1560 
48 32 2304 1536 
49 33 2401 1617 
53 31 2809 1643 
 Suma: 37595 18417 
 
c) Cálculo del estimador de la pendiente 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 14  
 
∑
∑
−
−
= 221. XnX
YXnYX
b
i
ii 
 
21 )75,55.(1237595
75,55.75,27.1218417.
−
−
=b 
 
75,3729637595
75,1856418417.1 −
−
=b 
 
495,0.1 −=b 
Tal como esperábamos de analizar el gráfico de la nube de puntos, la 
pendiente de la recta de regresión es negativa. 
 
d) Cálculo del estimador de la ordenada al origen 
XbYbo 1. −= 
 
75,55)495,0(75,27. −−=ob 
 
37,55. =ob 
 
Por lo tanto, la ecuación estimada de la recta es: 
 
ii XY .495,037,55ˆ −= 
 
 
Si queremos usar los resultados para, por ejemplo, predecir la 
cantidad de salidas a comer de un consumidor, de por ejemplo, 50 
años, reemplazamos en la ecuación estimada, el valor de X por este 
valor específico de la variable independiente: 
 
50.495,037,55ˆ −=iY 
 
6,30ˆ =iY salidas a comer al año, por esparcimiento 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 15  
 
 
 
 
Figura: Predicciones utilizando la recta de regresión 
En una recta de regresión, 
para como la indicada, 
obtenemos la predicción 
reemplazando en la 
ecuación a X por el valor 
que se desee considerar, y 
luego realizamos los 
cálculos indicados en la 
ecuación. 
En base a la recta 
planteada, cuando X=2,3, 
Y predicho será 2,38 
 
Cuando X=3,65, Y 
predicho será 3,19 
 
Cuando X=4,35, Y 
predicho será 3,61 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 16  
 
Fuente: Elaboración propia con la herramienta de simulación 
provista por: 
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml 
 
Predicciones: para interpolar y no para extrapolar 
Es muy importante que los valores de X que se utilicen para 
predicciones correspondan al intervalo de valores considerados al 
calcular los estimadores de los parámetros. 
No corresponde aplicar el modelo obtenido a valores de la variable 
que excedan los valores considerados en la regresión, ya que nada 
asegura que la relación se mantenga más allá del rango de valores de 
estudio. 
 
Error estándar de estimación 
Como se puede observar si en el ejemplo anterior calculan todos los 
valores predichos en base al modelo estimado para los valores de X 
disponibles, las predicciones basadas en el modelo no son exactas. 
 
 
X Y 
iŶ ii YY ˆ− 
2)ˆ( ii YY − 
60 23 25,637 -2,637 6,951 
62 23 24,646 -1,646 2,708 
61 25 25,141 -0,141 0,019 
55 25 28,114 -3,114 9,694 
53 26 29,104 -3,104 9,636 
60 26 25,637 0,363 0,132 
63 29 24,150 4,850 23,518 
53 30 29,104 0,896 0,8022 
52 30 29,600 0,400 0,160 
48 32 31,581 0,419 0,175 
49 33 31,086 1,914 3,663 
53 31 29,104 1,896 3,593 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 17  
 
 Suma: 0,096 61,057 
 
 
El error estándar de la estimación es una medida que informa 
cuánto varían los datos reales en torno de la recta de regresión. 
 
2
)ˆ(
1
2
−
−
=
∑
=
n
YY
s
n
i
ii
YX 
 
Donde iŶ es el valor predicho para el valor Xi. 
 
Para el problema ejemplificado anteriormente, el error estándar de 
la estimación, es: 
 
10
047,61
=YXs 
 
47,2=YXs 
 
El error estándar de la estimación es la medida análoga a la 
desviación estándar, y está expresada en la misma unidad de medida 
que la variable Y. 
Pregunta para reflexión: si el error estándar de la estimación es 
análoga a la desviación estándar calculada en base a datos 
muestrales, ¿por qué cree que en la fórmula se divide en n-2? 
(Ayuda: piense en el concepto de grados de libertad, y analice a qué 
se asocian las pérdidas de grados de libertad en este caso). 
 
Bondad de ajuste de la regresión 
Una vez que hemos encontrado la recta de regresión, necesitamos 
disponer de alguna medida que indique en qué grado es buena (o 
no) la representación que permite hacer la esa recta del conjunto de 
puntos iniciales. 
Para construir una medida, construiremos algunas sumas de 
cuadrados que permitan luego integraresa medida. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 18  
 
La suma de cuadrados total (SST) indica la variabilidad de los 
valores de Y respecto de su media: 
 
∑
=
−=
n
i
i YYSST
1
2)( 
 
 
 
Figura: Descomposición de los desvíos respecto de la media 
 
 
Esta suma de cuadrados totales, puede dividirse en la variabilidad 
explicada o debida a la regresión (SSR) y variabilidad no explicada 
asociada con el error (SSE). 
SSESSRSST += 
 
Para obtener cada una de estas medidas, aplicamos las siguientes 
fórmulas de cálculo basadas en la parte del desvío respecto de la 
media que les corresponde. 
 
Suma de cuadrados debida a la regresión: 
∑
=
−=
n
i
i YYSSR
1
2)ˆ( 
Suma de cuadrados debida al error: 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 19  
 
∑
=
−=
n
i
ii YYSSE
1
2)ˆ( 
A partir de estas sumas de cuadrados, se puede definir una medida, 
el coeficiente de determinación o R2, que mide el grado en que 
la regresión explica la variabilidad total del conjunto de datos: 
SST
SSRR =2 
 
Figura: Relación entre SSR y SSE 
En la barra 
se indica 
qué 
proporción 
correspond
e a SSR (en 
verde) y a 
SSE (en 
rosa) de la 
variabilidad 
total para la 
recta 
obtenida. 
 
Fuente: Elaboración propia con la herramienta de simulación 
provista por: 
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml 
 
 
Obtengamos ahora el coeficiente de determinación para el ejemplo 
que estábamos desarrollando. 
 
 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 20  
 
 
 
Para ello, completemos la tabla que teníamos, con los desvíos que 
necesitamos y las respectivas sumas de desvíos al cuadrado: 
 
X Y 
iŶ ii YY ˆ− 
2)ˆ( ii YY − YYi −ˆ 
2)ˆ( YYi − 
60 23 25,637 -2,637 6,951 -2,113 4,466 
62 23 24,646 -1,646 2,708 -3,104 9,636 
61 25 25,141 -0,141 0,019 -2,609 6,806 
55 25 28,114 -3,114 9,694 0,364 0,132 
53 26 29,104 -3,104 9,636 1,354 1,834 
60 26 25,637 0,363 0,132 -2,113 4,466 
63 29 24,150 4,850 23,518 -3,600 12,957 
53 30 29,104 0,896 0,8022 1,354 1,834 
52 30 29,600 0,400 0,160 1,850 3,422 
48 32 31,581 0,419 0,175 3,831 14,679 
49 33 31,086 1,914 3,663 3,336 11,128 
53 31 29,104 1,896 3,593 1,354 1,834 
 Suma: 0,096 61,057 73,195 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 21  
 
 
X Y 
iŶ 
2)ˆ( ii YY − 
2)ˆ( YYi − YYi − 
2)( YYi − 
60 23 25,637 6,951 4,466 -4,75 22,5625 
62 23 24,646 2,708 9,636 -4,75 22,5625 
61 25 25,141 0,019 6,806 -2,75 7,5625 
55 25 28,114 9,694 0,132 -2,75 7,5625 
53 26 29,104 9,636 1,834 -1,75 3,0625 
60 26 25,637 0,132 4,466 -1,75 3,0625 
63 29 24,150 23,518 12,957 1,25 1,5625 
53 30 29,104 0,8022 1,834 2,25 5,0625 
52 30 29,600 0,160 3,422 2,25 5,0625 
48 32 31,581 0,175 14,679 4,25 18,0625 
49 33 31,086 3,663 11,128 5,25 27,5625 
53 31 29,104 3,593 1,834 3,25 10,5625 
 Suma: 61,057 73,195 0 134,25 
 
La suma de cuadrados debida a la regresión: 
∑
=
−=
n
i
i YYSSR
1
2)ˆ( 
 
195,73=SSR 
 
La suma de cuadrados debida al error: 
∑
=
−=
n
i
ii YYSSE
1
2)ˆ( 
067,61=SSE 
La suma de cuadrados total: 
∑
=
−=
n
i
i YYSST
1
2)( 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 22  
 
25,134=SST 
 
El coeficiente de determinación: 
SST
SSRR =2 
 
25,134
195,732 =R 
 
545,02 =R 
 
Por lo tanto, la regresión a través de la recta obtenida, explica el 
54,5% de la variabilidad total de la variable Y observada. 
 
 
 
6.2 ANÁLISIS DE CORRELACIÓN 
 
El objetivo del análisis de correlación es cuantificar la intensidad 
de relación lineal entre dos variables cuantitativas. 
 
El coeficiente de correlación, “r” es un indicador que se ubica en el 
intervalo [-1, 1], donde estos valores extremos indican correlaciones 
exactas entre las variables: 
 
-1 Correlación negativa perfecta 
 
1 Correlación positiva perfecta 
 
 
En problemas orientados a la regresión, el coeficiente de 
correlación, r, puede obtenerse a partir del coeficiente de 
determinación: 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 23  
 
 
2Rr = 
 
En estos casos, en que corresponda a una regresión, el signo de r 
será el signo de b1. 
 
 
Sin embargo, en muchas ocasiones hacemos un análisis de 
correlación independiente del análisis de regresión. En particular, 
debido a que el análisis de correlación no exige fijar a ninguna de las 
variables como dependiente de la otra. 
 
 
Diferentes grados de correlación 
 
En este caso, existe una 
correlación negativa 
perfecta. 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 24  
 
Vemos una correlación 
negativa, que si bien no 
es perfecta es claramente 
una correlación fuerte 
entre las variables. 
 
 
El grado de relación es 
inferior. 
 
La correlación negativa 
es menos intensa. 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 25  
 
 
 
 
 
 
Este gráfico ilustra una 
situación en la cual no 
hay correlación lineal 
entre las variables. 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 26  
 
Si bien existe una 
correlación lineal 
positiva, ésta es muy 
débil. 
 
 
 
 
La correlación es algo 
mayor que en los casos 
anteriores. 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 27  
 
Ahora vemos una 
correlación positiva 
fuerte. 
 
 
Una correlación positiva 
aún mas marcada. 
 
Y, finalmente, una 
correlación positiva 
perfecta entre las 
variables. 
 
 
Fuente: Elaboración propia con la herramienta de simulación 
provista por: 
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 28  
 
Tras analizar estos gráficos, con su conocimiento de estadística, ¿qué 
información está faltando? Haga un comentario crítico al respecto. 
En los casos en los cuales no se aplica el análisis de regresión, el coeficiente 
de correlación se calcula a través de las siguientes fórmulas: 
Opción 1: 
 
∑∑
∑
==
=
−−
−−
=
n
i
i
n
i
i
n
i
ii
YYXX
YYXX
r
1
2
1
2
1
)(.)(
))((
 
 
 
Opción 2: 
∑∑
∑
==
=
−−
−
=
n
i
i
n
i
i
n
i
ii
YnYXnX
YXnYX
r
1
22
1
22
1
..
.
 
 
Supuestos del análisis de regresión 
 
Los supuestos en este caso, son similares a los que mencionamos para el 
ANOVA. 
 
Los cuatro supuestos básicos que deben controlarse son: 
 
1. Normalidad 
Es necesario que los valores de Y se distribuyan de manera normal 
para cada valor de X. No obstante, el análisis de regresión es 
bastante robusto en cuanto a este supuesto, en tanto la distribución 
no sea demasiado asimétrica. 
A través de gráficos Q-Q o P-P, que tienen en cuenta la prueba de 
normalidad de Kolmogorff-Smirnov es posible diagnosticar la 
normalidad de las distribuciones. 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 29  
 
2. Homocedasticidad 
Para cada nivel de la variable X, la variabilidad o dispersión de los 
valores de Y debe ser la misma. Es muy importante el cumplimiento 
de este supuesto para la aplicación del método de mínimos 
cuadrados ordinarios. Este supuesto es más frecuentemente 
vulnerado en los estudios de corte transversal. 
Existen diferentes herramientas para diagnosticarla, una de ellas es 
la prueba de Levene sobre igualdad de varianzas. 
 
3. Independencia de error 
Los residuos o errores (diferencia entre el valor observado y el 
predicho) no debe estar correlacionado con el valorde X. Este 
supuesto se ve afectado con frecuencia en los estudios de series de 
tiempo. 
Para verificar su cumplimiento, se analiza el estadístico Durbin 
Watson (DW). Este indicador toma el valor de 2 cuando los residuos 
son completamente independientes, en tanto si el DW resulta 
inferior a 2, indica autocorrelación positiva, y si DW es mayor que 
dos, hay autocorrelación negativa. 
 
4. Linealidad 
La relación entre X e Y es lineal. 
Como medida de diagnóstico se recomienda el análisis gráfico de la 
nube de puntos a través de los diagramas de dispersión. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 30  
 
Ejercicios 
 
Resuelva los siguientes ejercicios, si tiene dudas o consultas, envíelas a su 
tutor virtual. 
 
1. Con los siguientes datos, plantee y resuelva 2 problemas 
distintos de regresión lineal 
 
Empleo (en miles) Turismo: 
Número de viajeros (miles) 
Turismo: 
Estancia media 
28,4 11.902,5 3,1 
3,6 1.848,0 2,1 
2,4 1.088,2 2,3 
25,9 6.716,0 7,2 
27,2 4.875,7 7,8 
2,0 933,8 2,4 
6,2 3.647,6 1,7 
2,8 1.805,1 1,7 
23,5 10.771,7 3,4 
13,4 5.579,7 3,9 
2,2 1.000,7 1,7 
6,3 3.040,5 2,1 
10,7 5.748,9 2,1 
2,0 882,5 3,0 
1,1 557,7 2,0 
3,2 1.540,6 1,9 
0,7 446,2 1,8 
 
 
Los datos corresponden a distintas ciudades turísticas del un país. 
Anexo de Ejercitación 
Además de estos ejercicios, 
Ud. encontrará en el anexo 
del módulo una guía de 
ejercicios y sus 
respectivas soluciones. 
Le recomendamos que 
realice toda la ejercitación 
posible para identificar con 
claridad las situaciones en 
las que se aplica cada 
prueba estudiada. 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 31  
 
Empleo: indica el número de personas en cada ciudad que tienen un empleo 
asociado con el turismo. 
La variable número de viajeros, indica la cantidad total de viajeros o 
turistas que le ciudad recibe por año 
La estancia media indica cuántos días en promedio, permanece un turista 
en la ciudad. 
Actividades: 
1. Determine si existe correlación entre la series. 
2. Relacione las variables y trate de armar una vinculación entre dos 
variables de las listadas, en las cuales pueda existir una causalidad. 
3. Plantee el modelo de regresión lineal simple a estimar 
4. Grafique la nube de puntos a través de un diagrama de dispersión 
5. Obtenga los estimadores de los parámetros del modelo 
6. Calcule una medida de bondad de ajuste y explique su significado 
 
2. Con la siguiente información, analice la correlación 
entre las variables 
 
Año PIB 
construcción 
Consumo 
de 
Cemento 
Hipotecas 
(valores 
constantes) 
Viviendas 
a 
Construir 
Empleo 
1995 403.822 296.432 162.909 3.383 65.294 
1996 377.465 287.559 179.347 3.607 63.612 
1997 396.944 310.719 215.490 5.116 64.268 
1998 451.070 349.314 277.880 6.375 75.728 
1999 529.679 373.310 344.324 6.264 86.031 
2000 593.644 444.370 390.794 7.486 90.260 
2001 638.578 501.691 428.410 7.763 97.318 
2002 702.334 485.614 534.140 7.910 103.272 
2003 723.412 497.092 698.667 7.822 107.684 
2004 743.513 504.946 806.633 7.132 110.478 
2005 775.183 507.362 958.913 10.496 115.640 
2006 818.717 525.357 1.121.994 12.966 125.699 
2007 531.342 1.318.888 14.906 137.097 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 32  
 
Obtenga los coeficientes de correlación entre las series y explique su 
significado. 
 
 
 
3. La tabla siguiente resume las puntuaciones de 10 
individuos (N=10) en dos variables X e Y. 
 
X Y 
1 1 
2 4 
3 9 
4 16 
5 25 
-5 25 
-4 16 
-3 9 
-2 4 
-1 1 
 
Actividades: 
a. Calcular el coeficiente de correlación de Pearson 
b. En este caso ¿el coeficiente calculado es adecuado para 
representar el patrón de covariación que muestran los 
datos?. ¿por qué?. Ayuda: construya el diagrama de 
dispersión. Elabore una conclusión 
c. ¿Qué relación podría estar descripta por esas variables? 
Indicar un ejemplo. 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 33  
 
4. La tabla siguiente recoge las puntuaciones de 10 
individups (N=10) en dos variables X e Y. 
 
 
X Y 
1 2 
2 4 
3 6 
4 8 
5 10 
6 12 
7 14 
8 16 
9 18 
10 20 
 
Actividades: 
a. Calcular el coeficiente de correlación de Pearson 
b. En este caso ¿el coeficiente calculado es adecuado para 
representar el patrón de covariación que muestran los 
datos?. ¿por qué?. Ayuda: construya el diagrama de 
dispersión. Elabore una conclusión 
c. ¿Qué relación podría estar descripta por esas variables? 
Indicar un ejemplo. 
 
 
 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 34  
 
5. La tabla siguiente recoge las puntuaciones de 10 
individuos (N=10) en dos variables X e Y. 
 
X Y 
4 5 
4 6 
4 4 
4 5 
4 6 
4 7 
4 4 
4 3 
4 5 
10 15 
 
Actividades: 
a. Calcular el coeficiente de correlación de Pearson 
b. En este caso ¿el coeficiente calculado es adecuado para 
representar el patrón de covariación que muestran los 
datos?. ¿por qué?. Ayuda: construya el diagrama de 
dispersión. Elabore una conclusión 
c. ¿Qué relación podría estar descripta por esas variables? 
Indicar un ejemplo. 
d. En base a los ejercicios 3, 4 y 5, elabore una conclusión 
general. 
 
 
 
6. En una muestra de 10 personas se obtuvo información 
referida al grado de extroversión, y se desea evaluar su 
posible relación lineal con la dimensión de 
personalidad estabilidad emocional. Estas variables se 
han medido a través un test y se han obtenido las 
puntuaciones para cada sujeto en una escala de 0 a 10. 
Los valores obtenidos se presentan en la siguiente 
tabla: 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 35  
 
Sujetos X: Grado de 
Extroversión 
Y: Estabilidad 
Emocional 
1 5 6 
2 10 6 
3 4 3 
4 7 8 
5 6 6 
6 5 3 
7 4 5 
8 4 9 
9 4 10 
10 3 9 
 
Actividades 
a. Realice un diagrama de dispersión. Sugerencia: intente hacerlo 
usando alguna herramienta informática como Excel. 
b. Estime la ecuación de regresión lineal simple. 
c. ¿Cuál es el nivel de estabilidad predicho para un sujeto cuyo 
grado de extroversión es cero?. ¿Este valor corresponde a algún 
coeficiente de la recta calculada? 
d. ¿En cuánto se diferenciarían las puntuaciones ajustadas de dos 
sujetos con puntuaciones consecutivas en grado de extroversión? 
¿Este valor corresponde a algún coeficiente de la recta 
calculada? 
e. Complete la tabla anterior añadiendo para cada sujeto su 
puntuación predicha ( Ŷ ) y el error cometido. 
f. Identifique al sujeto mejor ajustado por la relación lineal 
estimada y al peor. 
 
7. Se obtienen los siguientes estadísticos con las notas de 
100 alumnos en las asignaturas X= Estadística 1, e Y= 
Estadística 2. 
 
( ) ( ) ( )( ) 300,240,360,7,6 22 =−−=−=−== ∑∑∑ YYXXYYXXYX
 
a. Estimar la ecuación de regresión de Y sobre X 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 36  
 
8. Con los datos de una muestra de 300 individuos hemos 
estimado la ecuación de regresión que relaciona años 
trabajados y estrés laboral y hemos obtenido la 
siguiente ecuación: 
 
XY 05,010ˆ +−= 
 
Tenga en cuenta que: 
• la escala de estrés puede tomar valores entre 1 y 30 
• que la media fue de 15 
 
Indicar cuáles de las siguientes afirmaciones son correctas y justificar: 
a) A mayor número de años trabajados mayor estrés. 
 
b) 0,05 es la media de estrés de los sujetos que no trabajan 
 
c) A mayor número de años trabajados menor es el estrés. 
 
d) -10 es el estrés medio estimado de aquellas personas que no 
trabajan 
 
e) El año próximo, si sigues trabajando, tu nivel medio de estrés se 
incrementará en 0,05 puntos. 
 
9. A un propietario de departamentos para alquilar le 
interesaaveriguar si la renta de sus departamentos son 
típicas 
Para ello, ha escogido una muestra aleatoria de 11 
alquileres y del tamaño de los departamentos de 
edificios similares. Los datos se transcriben a 
continuación. 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 37  
 
 
Renta Número de 
habitaciones 
230 2 
190 1 
450 3 
310 2 
218 2 
185 2 
340 2 
245 1 
125 1 
350 2 
280 1 
 
 
a. Desarrollar el modelo de regresión lineal simple que mejor 
describa estos datos e interpretar los coeficientes de regresión. 
 
b. Graficar los datos y ajuste al grafico la línea recta obtenida. 
 
c. Calcular, interpretar los coeficientes de correlación y de 
determinación, y estimar la renta de un departamento de 2 
habitaciones. 
 
 
 
 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 38  
 
 
10. Un encargado de costos desea predecir los costos C (en 
millones de pesos), basándose en la cantidad de 
insumos de materias primas M (cientos de kilos) que 
recibe un fabricante de pantalones. 
 
Costos Materia prima 
10 25 
7 20 
5 16 
6 17 
7 19 
6 18 
 
 
a. Determinar el modelo de regresión lineal simple. 
b. Graficar la nube de puntos y la recta de regresión obtenida 
c. Obtener un indicador de bondad de ajuste y explicarlo 
 
 
 
11. Una cadena nacional de tiendas ha tenido grandes 
fluctuaciones en sus ingresos durante los últimos años. 
Bastantes ofertas, nuevos productos y técnicas de 
publicidad se han utilizado durante este tiempo, por lo 
cual es difícil determinar cuáles de esos factores tienen 
la influencia más profunda en las ventas. 
 
El área de marketing ha estudiado varias relaciones y 
piensa que los gastos mensuales destinados a carteles 
pueden ser significativos. Realizó una muestra de 7 
meses y descubrió lo siguiente: 
 
 
 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 39  
 
 
Gasto mensual en carteles (en 
miles de pesos) 
Ingresos mensuales por venta 
(millones de pesos) 
250 340 
260 140 
420 480 
340 320 
100 260 
210 290 
190 200 
 
a. Desarrollar el modelo de regresión lineal simple que mejor 
describa estos datos y calcular el error estándar de 
estimación. 
12. En la contabilidad de costos, con frecuencia se trata de 
estimar los gastos indirectos basándose en el número 
de unidades producidas. La gerencia de una empresa 
manufacturera, ha reunido información sobre esos 
gastos y las unidades producidas en diferentes plantas 
y le gustaría estimar una ecuación de regresión para 
predecir los gastos indirectos en el futuro. 
Gastos indirectos (en miles de 
pesos) 
Unidades producidas (en 
miles) 
191 40 
170 42 
272 53 
155 35 
280 56 
173 39 
234 48 
116 30 
153 37 
178 40 
 
 
  Materia: Herramientas Matemáticas V (Estadística II) 
 Profesora: Mgter. Verónica Herrero | 40  
 
a. Desarrollar la ecuación de regresión 
b. Interpretar los parámetros del modelo 
c. Estimar el gasto general cuando se producen 50 unidades. 
d. Calcular e interpretar el error estándar de estimación, los 
coeficientes de correlación y de determinación. 
 
13. ¿Qué tipo de correlación (positiva, negativa o cero) 
debemos esperar de estas variables? 
 
a) Capacidad de los supervisores y productividad de sus 
subordinados 
b) Antigüedad en su trabajo de tiempo completo y número de años 
de escolaridad 
 
 
 
Bibliografía Lectura 4 
Berenson & Levine (1996). Estadística para administración y 
economía. Sexta Edición. Ed. Prentice Hall Hispanoamericana. México. 
 
 
 
www.uesiglo21.edu.ar

Continuar navegando

Otros materiales