Logo Studenta

INTRODUCCION AL ANALISIS DE CORRELACION Y DE REGRESION LINEAL

¡Este material tiene más páginas!

Vista previa del material en texto

14
Introducción al Análisis de Correlación y de Regresión Lineal
14-1
Correlación y Regresión lineal
Se dan situaciones donde el análisis involucra considerar la relación de dos o más variables…..
14-2
Ejemplos
Un analista financiero podría estar interesado en la relación entre el comportamiento de los precios de las acciones y la política de dividendos de las compañías del mercado de valores.
Un gerente de ventas puede estar interesado en examinar la relación entre las ventas y el gasto en publicidad.
El gerente de créditos de un banco podría estar interesado en la relación entre el precio de una casa y diversos factores, como su área, antigüedad, etc.
El análisis de correlación y el de regresión lineal son técnicas estadísticas de aplicación difundida para estas situaciones.
14-3
Objetivos
Calcular e interpretar la correlación entre dos variables.
Determinar si la correlación es significativa.
Calcular e interpretar la ecuación de regresión lineal simple para un conjunto de datos.
Entender los supuestos detrás del análisis de regresión.
Determinar si el modelo de regresión es significativo.
Continua….
14-4
Objetivos
Calcular e interpretar intervalos de confianza para coeficientes de regresión.
Reconocer aplicaciones de análisis de regresión para situaciones de predicción y descripción.
Reconocer algunos problemas portenciales si el análisis de regresión es usado incorrectamente.
14-5
(continuación)
Gráficos de Dispersión
Un gráfico de dispersión (o diagrama de dispersión) es usado para mostrar la relación entre dos variables cuantitativas.
La relación lineal puede ser:
Positiva – cuando “x” crece, “y” crece
Cuando la inversión en publicidad crece, las ventas crecen.
Negativa – cuando “x” crece, “y” decrece
Cuando el gasto crece, el ingreso neto decrece.
14-6
Gráficos de Dispersión: Ejemplo
14-7
y
x
y
x
y
y
x
x
Relaciones lineales
Relaciones curvilíneas
Gráficos de Dispersión: Ejemplo
14-8
y
x
y
x
y
y
x
x
Relaciones fuertes
Relaciones débiles
(continuación)
Gráficos de Dispersión: Ejemplo
14-9
y
x
y
x
No hay relación
(continuación)
Coeficiente de Correlación
La correlación mide la intensidad de la asociación lineal (relación lineal) entre dos variables.
Enfocada solamente en la intensidad de la relación.
No implica relaciones de causa-efecto.
El coeficiente de correlación muestral r es una medida de la intensidad de la relación lineal entre dos variables, basado en observaciones muestrales.
Se tiene una correlación espuria cuando existe una asociación lineal entre variables aparentemente no relacionadas.
Ejemplo, la correlación entre las ventas de las compañías y el número de hijos que tienen los empleados.
14-10
Características de r
No tiene unidad de medida.
Varía entre -1 y 1.
La cercanía a -1 indica fuerte relación lineal negativa.
La cercanía a 1 indica fuerte relación lineal positiva.
La cercanía a 0 indica débil relación lineal.
+1 ó -1 son correlaciones perfectas donde todos los datos (puntos) caen sobre una línea recta.
14-11
Ejemplos de Valores Aproximados de r
14-12
r = +.3
r = +1
y
x
y
x
y
x
y
x
y
x
r = -1
r = -.6
r = 0
Calculando el Coeficiente de Correlación
14-13
Donde:
	 r = Coeficiente de correlación muestral
	n = Tamaño muestral
	x = Valor de una variable (eje horizontal)
	y = Valor de la otra variable (eje vertical)
Coeficiente de correlación muestral:
O el equivalente algebraico:
Correlación: Ejemplo
14-14
	Altura del árbol	Diámetro del tronco			
	y	x	xy	y2	x2
	35	8	280	1225	64
	49	9	441	2401	81
	27	7	189	729	49
	33	6	198	1089	36
	60	13	780	3600	169
	21	7	147	441	49
	45	11	495	2025	121
	51	12	612	2601	144
	=321	=73	=3142	=14111	=713
Correlación: Ejemplo
14-15
Diámetro del tronco, x
Altura del árbol, y
(continuación)
r = 0.886 → Asociación lineal positiva relativamente fuerte entre x e y
Gráfico de dispersión
Correlación: Usando Excel
14-16
Pasos en Excel para calular la correlación
Datos / Análisis de datos / Coeficiente de correlation:
Correlación entre altura del árbol y diámetro del tronco
Prueba de Significancia para la Correlación
Hipótesis 
	H0: ρ = 0 (No hay correlación) 
	HA: ρ ≠ 0 (Existe correlación)
Estadístico de prueba
 (con n – 2 grados de libertad)
 			
14-17
La letra griega ρ (rho) representa el coeficiente de correlación poblacional
Supuestos:
La medida de los datos es de intervalo o de razón
x e y están normalmente distribuidos
Se pierde 1 grado de libertad por cada media muestral
Prueba de Significancia para la Correlación
14-18
¿Es significativa la relación lineal entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05?
H0: ρ = 0 (No hay correlación)
H1: ρ ≠ 0 (Existe correlación)
  =0.05 , gl = 8 - 2 = 6
(continuación)
Prueba de Significancia para la Correlación
14-19
Rechazar H0
Rechazar H0
a/2=0.025
-tα/2
No rechazar H0
0
tα/2
a/2=0.025
-2.4469
2.4469
g.l. = 8-2 = 6
Estadístico de prueba:
Región de rechazo:
Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0 
Conclusión: Hay suficiente evidencia para concluir que existe relación lineal significativa entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05.
(continuación)
Prueba de Significancia para la Correlación
La prueba t para la determinación de si la correlación poblacional es significativamente diferente de cero requiere de los siguientes dos supuestos:
La data es de intervalo o de ratio.
Las dos variables (x e y) se distribuyen según una distribución normal bivariada (la distribución conjunta es normal).
Sin embargo, respecto del supuesto de normalidad, la prueba es robusta; esto es, las inferencias son correctas, aún cuando se tenga algunas desviaciones respecto de la distribución mormal.
14-20
Advertencia
La correlación entre dos variables no implica ninguna relación de causa-efecto. El cálculo de una alta correlación positiva entre años de experiencia y ventas en los vendedores de una empresa no es una prueba estadística que los años de experiencia tenga como consecuencia mayores ventas, solo significa que marchan en forma conjunta.
Para un período determinado se podría calcular una alta correlación entre el salario promedio de los ingenieros del Ecuador y el precio de las uvas en Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está ante lo que se denomina correlación espúrea.
La correlación también se puede dar por los efectos de un factor común que incide sobre las dos variables en cuestión. Por ejemplo las mayores ventas de los vendedores de mayor experiencia podría ser debido a que los vendedores de más edad se les asigna los mejores territorios.
Relaciones de causa-efecto requieren de construcción de modelos vinculados al fenómeno que se analiza.
14-21
image1.png
oleObject1.bin
image2.wmf
å
å
å
-
-
-
-
=
]
)
y
y
(
][
)
x
x
(
[
)
y
y
)(
x
x
(
r
2
2
oleObject2.bin
image3.wmf
å
å
å
å
å
å
å
-
-
-
=
]
)
y
(
)
y
(
n
][
)
x
(
)
x
(
n
[
y
x
xy
n
r
2
2
2
2
image4.wmf
oleObject3.bin
Chart1
		8
		9
		7
		6
		13
		7
		11
		12
35
49
27
33
60
21
45
51
Sheet1
		Tree Height		Trunk Diameter
		y		x
		35		8
		49		9
		27		7
		33		6
		60		13
		21		7
		45		11
		51		12
Sheet1
		0
		0
		0
		0
		0
		0
		0
		0
0
0
0
0
0
0
0
0
Sheet2
		
Sheet3
		
image5.emf
0
10
20
30
40
50
60
70
02468101214
oleObject4.bin
image6.wmf
0.886
]
(321)
][8(14111)
(73)
[8(713)
(73)(321)
8(3142)
]
y)
(
)
y
][n(
x)
(
)
x
[n(
y
x
xy
n
r
2
2
2
2
2
2
=
-
-
-
=
-
-
-
=
å
å
å
å
å
å
å
image7.png
oleObject5.binimage8.wmf
2
n
r
1
r
t
2
-
-
=
oleObject6.bin
image9.wmf
4.68
2
8
.886
0
1
0.886
2
n
r
1
r
t
2
2
=
-
-
=
-
-
=
oleObject7.bin
image10.wmf
4.68
2
8
.886
0
1
0.886
2
n
r
1
r
t
2
2
=
-
-
=
-
-
=