Logo Studenta

Regresión y Correlación lineal simple 2021

¡Este material tiene más páginas!

Vista previa del material en texto

REGRESION Y CORRELACION LINEAL SIMPLE (JL Pérez Miranda)
 
	Una de las técnicas mas usadas en la investigación en ciencias administrativas, ciencias biológicas, ciencias de la salud, sociales, la economía y el medio ambiente, es el análisis de regresión y correlación.
 
REGRESION. Es un método útil para averiguar la forma probable de relación entre dos o mas variables.
 
CORRELACION. Es un método que indica el grado de asociación entre dos o más variables.
	El propósito del investigador al efectuar estos análisis posiblemente 
sea su interés por estudiar relaciones tales como:
Presión Sanguínea y Edad de las personas
 Tipo de Alimentación y Nivel de Colesterol
 La Estatura y el Peso de los niños
 Uso de Insecticidas y Desaparición de Especies
 Dosis de Fertilizante y Rendimiento óptimo de maíz
 Producción de leche en función de alfalfa consumida por el ganado
 Tipo de empaques y Total de Ventas
 Tabaquismo y Cáncer pulmonar
OBJETIVO DE LA REGRESION
	Por lo general es predecir o estimar el valor de una variable, correspondiente al valor dado de otra variable.
SIR FRANCIS GALTON (1822-1911) fue quien aclaró esta idea en sus investigaciones sobre la herencia en chícharos y después en la estatura humana.
	Describió una tendencia del hijo adulto que tiene padres altos a no ser tan altos como sus padres e hijos de padres de estatura pequeña a no ser tan pequeños como ellos, esto es, que regresa o tienden a la estatura promedio de la población general.
	Este mismo investigador fue quien utilizó primero la palabra correlación en el año de 1888.
Sir Francis Galton
(Duddeston, 1822 - Haslemere, 1911) Antropólogo y geógrafo inglés. Estudió medicina en el hospital de Birmingham, en Londres y en Cambridge. Terminados los estudios en 1844, emprendió (como su primo el gran Charles Darwin, y también como muchos estudiosos ingleses de la época) una larga serie de viajes: así, entre 1845 y 1846 estuvo en Sudáfrica, y en 1850 exploró el Damaraland en el sudoeste africano. Su contribución a la teoría de la herencia (leyes de la regresión filial y de la herencia ancestral) gozó de mucha popularidad en su tiempo, pero pronto se vería superada por el desarrollo de la genética de Mendel y Weismann.
En cambio, sus estudios de estadística, dedicados sobre todo a la investigación de las correlaciones de los caracteres cuantitativos, conservan todavía un cierto valor.
EL MODELO DE REGRESION
	Es importante que el investigador comprenda la naturaleza de la población de 
interés, tanto como para ser capaz de construir un modelo que la represente, como para 
determinar si puede ajustarse a un modelo matemático preestablecido.
	Se tiene la población real o hipotética y se representa por una muestra:
		Los modelos de regresión tienen 4 tipos de usos fundamentales:
	
		Descripción y Explicación
		Predicción
		Control
		Calibración.
SUPUESTOS QUE FUNDAMENTAN AL MODELO DE LA REGRESION LINEAL SIMPLE.
	En el modelo de regresión lineal simple interesa encontrar la forma de relación 
 	entre dos variables X y Y. Por lo general a 
		X se le conoce como variable independiente y a
		Y se le conoce como variable dependiente 
Supuesto 	 l. Los valores de la variable independiente X son “fijos”, esto es, están bajo el 	 control del investigador
	2. La variable X se mide sin error
	3. Para cada valor de X existe una subpoblación de Y. Dichas subpoblaciones deben 	 tener una distribución normal
	4. Las varianzas de las subpoblaciones de Y son todas iguales. 	 	 	 Supuesto conocido como supuesto de homogeneidad de varianza	
	5. Todas las medias de las subpoblaciones de Y están sobre la misma recta. 
	 Este se conoce como supuesto de linealidad, y se expresa como:
			μ y/x = α + β X
	 donde: μ y/x = media de la subpoblación de Y para un valor particular 	 de X.
		
	 	α y β = coeficientes de regresión.
 
 6. Los valores de Y son estadísticamente independientes.
	
	Estas suposiciones pueden resumirse por la ecuación que se 	conoce como modelo de regresión:
 
		y = α + β x + e
 
	donde:	y = valor típico de una de las subpoblaciones de y
			
	α= ordenada al origen
 
	β= pendiente de la recta
 
	e = y – (α + β x) término de error.
 
Los errores están independientes y normalmente distribuidos.
Ejemplo: A continuación aparecen 15 lecturas sobre el volumen de tráfico y la concentración de monóxido de 	carbono en un punto de muestreo de la calidad del aire de una ciudad 	determinada.
 	Se desea conocer el modelo de regresión que mejor se ajusta a la relación entre las variables X y Y
	VOLUMEN DEL TRAFICO
(Automóviles por hora)
(X)	CO (ppm)
 
(Y)	 
 
X²	 
 
Y²	 
 
XY
	100
110
125
150
175
190
200
225
250
275
300
325
350
375
400	8.8
9.0
9.5
10.0
10.5
10.5
10.5
10.6
11.0
12.1
12.1
12.5
13.0
13.2
14.5	10,000
12,100
15,625
22,500
30,625
36,100
40,000
50,625
62,500
75,625
90,000
122,500
105,625
140,625
160,000	77.44
81.00
90.25
 100.00
 110.25
 110.25
 110.25
 112.36
 121.00
 146.41
 146.41
 156.25
 169.00
 174.24
 210.25	 880.00
 990.00
1,187.50
1,500.00
1,837.50
1,995.00
2,100.00
2,385.00
2,750.00
3,327.50
3,630.00
4,062.50
4,550.00
4,950.00
5,800.00
	 3,550	167.80	 974,450	 1,915.36	 41,945.00
			LA RECTA DE LOS MINIMOS CUADRADOS 
 
	El método que por lo común se emplea para obtener la recta que pase por entre los 	puntos, a la distancia mínima posible, es decir, la que debe ajustarse a los puntos se 	conoce como: 
	
	Método de los Mínimos Cuadrados y a la recta resultante: Recta de los Mínimos 	Cuadrados
				
				y = a + b x
	donde: a = ordenada al origen, donde la recta corta al eje vertical
	 	b = pendiente de la recta.
	Ahora se requiere calcular a y b numéricamente para obtener la ecuación de la 	recta, con esta ecuación se pueden escoger dos puntos y a través de ellos trazar la 	recta de mínimos cuadrados.
	Para generar la ecuación, se procede a establecer las ecuaciones normales y al resolver como ecuaciones simultáneas se obtienen los valores de a y b.
	 Σ yi = n a + b Σ xi
 	 Σxi yi = 	a Σ xi + b Σ xi²
	 
	 167.8 = 15 a + 3,550 b
	 41,945.0 = 3550 a + 974,450 b	
 
	
	Se considera a esta la recta de regresión encontrada como la mejor en este sentido: 
	La suma de las desviaciones verticales al cuadrado de los puntos (yi) respecto de la recta de los mínimos cuadrados, es menor que la suma de las desviaciones verticales al cuadrado de los puntos ( yi ) respecto a cualquier otra recta.
	EVALUACION DE LA ECUACION DE REGRESION
	Esta evaluación es para determinar si la ecuación describe adecuadamente 	la relación entre las dos variables, y si puede emplearse eficientemente 	para 	predicción y estimación.
	
	El coeficiente de determinación
	
	Una manera de evaluar la ecuación de regresión es comparar la dispersión 	de los puntos alrededor de la recta de regresión con la dispersión alrededor 	de la recta promedio y.
	Si se observa la dispersión alrededor de la recta promedio, es obvio, que la 	dispersión es menor para la recta de regresión, pero esto no es suficiente 	para decir que esta es la mejor, se debe contar con una medida que sea 	objetiva y es cuando surge el llamado coeficiente de determinación 
Antes de calcular tomemos un punto observado , donde su distancia vertical hasta la recta y, 
le llamaremos desviación total ( yi – ).
	La distancia de la recta de regresión a la recta , se denomina desviación explicada 
 (yc – ).
	Finalmente la distancia vertical del punto hasta la recta de regresión es la desviación 
 inexplicada ( – yc ).  Por lo que simbólicamente se tiene:
 
		( – ) 	= 		(yc – ) 	+	 ( – yc )
	Desviación Total 	= Desviación explicada	+ Desviación inexplicada
 
	Si se elevan al cuadrado estas desviaciones tenemos 
 
	 Ʃ	( – ) ² 	= 	Ʃ (yc – ) ² 	 +	 Ʃ ( – yc ) ²
	Suma Total de= Suma explicada de	 Suma inexplicada de
	Cuadrados		 Cuadrados Cuadrados
 
	Estas desviaciones al cuadrado o sumas de cuadrados se pueden considerar como 
 medidas de dispersión o variabilidad.
	Esta relación puede escribirse aún en otra forma como:
	
 SC TOTAL	= 	SC EXPLICADA	+ SC INEXPLICADA
SC TOTAL = Ʃ ( yi – ) ² = = 
					 = 38.237
 
SC EXPLICADA = 	Ʃ (yc – ) ² = b² [ 
= 0.00028 ( ) = 37.599 
SC INEXPLICADA = SC TOTAL - SC EXPLICADA
	 = 38.237 - 37.599	 = 0.638
Coeficiente de Determinación R²	- SC EXPLICADA 
				 SC TOTAL
R² - 37.599 - 0.98
 38.237
R² Mide la proximidad del ajuste de la ecuación de regresión de la 
 muestra a los valores observados de y.
 Toma valores de: 0 ≤ R² ≤ 1
PRUEBA DE HIPOTESIS PARA β
 
1.- Hipótesis estadísticas
  Hipótesis Nula: β = 0
	 Hipótesis alterna β ≠ 0
 
2.- Cálculos: puede emplearse Z, sin embargo generalmente se 
 desconoce σ y debe emplearse
Donde Sb es una estimación de σb y t es una distribución t de Student con n-2 g.l. 
 La t de tablas con α = 0.01 y 13 gl. en una prueba bilateral es 3.0123 
3.- Decisión: Como t calculada de 27,49 es mucho mayor que t de tablas de 3.0123 se concluye que la pendiente de la recta de regresión no es cero, y esto es evidencia de relación lineal significativa entre X y Y.
 
EL MODELO DE CORRELACION
 
Para ver si el valor de r de Pearson es de magnitud suficiente como para indicar que las dos variables de interés están correlacionadas, se efectúa una prueba de hipótesis:
 
1.- Hipótesis estadísticas
	Ho: ρ = 0 	no existe correlación lineal entre X y Y
 Ha: ρ ≠ 0 	 existe correlación lineal entre X e Y
2.- Cálculo de la Estadística de Prueba
3.- Decisión: Dado que t calculada de 25.24 es mayor a t de tablas de 3.0123 se rechaza Ho. Se concluye que existe correlación lineal entre X y Y de manera significativa.
b
S
b
t
b
-
=
49
.
27
0006046
.
0
01662
.
0
9
0000003654
.
0
0
01662
.
0
=
=
-
=
t
24
.
25
98
.
0
1
13
99
.
0
1
2
2
=
-
=
-
-
=
r
n
r
t

Continuar navegando