Logo Studenta

COEFICIENTE DE CORRELACION DE SPEARMAN

¡Este material tiene más páginas!

Vista previa del material en texto

FACULTAD DE CIENCIAS AGROPECUARIAS 
 ESCUELA PROFESIONAL DE INGENIERÍA AMBIENTAL
“COEFICIENTE DE CORRELACIÓN DE SPEARMAN”
DOCENTE: 		Luis Asunción López Puycan
INTEGRANTES:
· Jean Carlos Lauracio Marca
· Jhasmín Lajo Huayta
· Grecia Gomez Cáceres
ASIGNATURA: 	Estadística Aplicada
TEMA: 		Coeficiente de Correlación de Spearman.
SEMESTRE: 	Tercero.
AÑO: 			Segundo
TACNA – PERÚ
2016
8. Los datos brutos usados en este ejemplo se ven debajo.
	CI
	Horas de TV a la semana
	106
	7
	86
	0
	100
	28
	100
	50
	99
	28
	103
	28
	97
	20
	113
	12
	113
	7
	110
	17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas ‘orden (i)' y ‘orden (t)'.
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden (i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor.
Para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría
 T = {0, 7, 7, 12, 17, 20, 28, 28, 28, 50}
Para este caso, el orden sería para cada elemento, respectivamente:
 Orden (t) = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = (2 + 3) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = (7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
	CI (i)
	Horas de TV a la semana (t)
	orden(i)
	orden(t)
	d
	d2
	86
	0
	1
	1
	0
	0
	97
	20
	2
	6
	4
	16
	99
	28
	3
	8
	5
	25
	100
	50
	4.5
	10
	5.5
	30.25
	100
	28
	4.5
	8
	3.5
	12.25
	103
	28
	6
	8
	2
	4
	106
	7
	7
	2.5
	4.5
	20.25
	110
	17
	8
	5
	3
	9
	113
	7
	9.5
	2.5
	7
	49
	113
	12
	9.5
	4
	5.5
	30.25
Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar {\displaystyle \sum d_{i}^{2}=196}. El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula. 
9). {\displaystyle \rho =1-{\frac {6\times 196}{10(10^{2}-1)}}}
	
		= 1 - ( 6 * 8 / 216 -6 ) = 0.77
10. Un psicólogo organizacional está interesado la influencia, del clima organizacional sobre le tres trabajadores, de una empresa. Para saberlo administro dos escalas, una que mide clima organizacional y otro que mide estrés, entre 10 trabajadores, el psicólogo cree el psicólogo entre varias variables están soluciones.
Ho = No existe relación significativa entre clima organizacional y estrés
H1 = existe una relación significativa entre clima organizacional y estrés.
Nivelde confianza 95 % 
Nivel de significancia = 0.05%
Al obtener las 2 escalar al emplear de menor a mayor. Y sacar su d que es la sumatoria de la diferencia de sus modelos Xd
11. La tabla siguiente contiene los resultados de las calificaciones en Matemáticas (X) y Lengua (Y) de un grupo de 40 alumnos de Secundaria:
	X
	Y
	n
	3
	4
	3
	3
	5
	5
	5
	5
	12
	6
	6
	4
	6
	7
	5
	6
	8
	3
	7
	7
	6
	8
	8
	2
a) Calcule e interprete el coeficiente de correlación lineal
Tabla de cálculos: 
Coeficiente de correlación de Pearson. 
Conocidos los coeficientes de regresión puede calcularse como: 
Existe una elevada relación entre las calificaciones en Matemáticas y Lengua. Dicha relación es positiva 
(Directa); es decir, alumnos con altas calificaciones en Matemáticas se corresponden con altas calificaciones en 
Podemos afirmar que las rectas de regresión obtenidas son buenas rectas de ajuste. Es decir, expresan con una elevada aproximación la relación matemática (lineal) existente entre las calificaciones en Matemáticas y Lengua.
12. De la distribución bivariante siguiente:
 
a) Obtenga la recta de regresión de Y sobre X. 
b) Obtenga la recta de regresión de X sobre Y. 
c) Calcule e interprete el coeficiente de correlación lineal. 
Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas:
De la siguiente distribución bivariante: 
La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada:
Como puede observarse, sólo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
Utilicemos las medias y varianzas de X e Y, así como la covarianza, en los cálculos solicitados.
c) Coeficiente de correlación: Utilizando la expresión r = = 
= ±0'9648 podemos tener duda en cuanto al signo del coeficiente de correlación. Este signo es el de b y b', ya que es el que proporciona la covarianza. No se planteará tal dificultad.
13. De la siguiente distribución bivariante:
a) Calcule e interprete el valor de la covarianza. 
b) Obtenga la recta de regresión de Y sobre X. 
c) Obtenga la recta de regresión de X sobre Y. 
d) Calcule el coeficiente de correlación lineal.
Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y: 
Interpretación: 
Las variables son independientes. 
Siendo nula la covarianza, también los serán los coeficientes de regresión, el coeficiente de correlación y el de determinación, dado que en sus cálculos interviene la covarianza en el numerador. 
Al ser nulos los coeficientes de regresión, a coincidirá con la media de Y y a' con la de X. 
d) Coeficiente de correlación y de determinación: 
Como se indicó en el apartado a), al ser nula la covarianza, ambos coeficientes también lo son
14. Se desea estudiar la relación entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo del alumno que lo realiza. Los resultados observados fueron:
a) Mida el grado de asociación existente entre las dos variables mediante el coeficiente más adecuado. 
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.
Desarrollo: 
a) Siendo dicotómica la segunda variable, calcularemos el coeficiente de correlación biserial puntual: 
Denominando Y a la variable sexo (asignamos: 1=Hombre; 0=Mujer) y X a la variable puntuación en el test, procederemos a los cálculos necesarios para su obtención. Ello nos conduce a calcular las medias de los valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, así como la desviación típica de X. 
Las siguientes tablas facilitan nuestras operaciones:
b) Coeficiente de correlación de Pearson:
El propósito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de correlación de Pearson y biserial puntual. Calculemos la media y desviación típica de Y, así como la covarianza:
	
15. La siguiente tabla nos muestra la distribución por sexo de un grupo de 167 personas, indicando si fuman o no.
a) Calcule el coeficiente de más adecuado para medir el grado de asociación existente entre el sexo y el ser o no fumador. 
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.
Desarrollo: 
a) Las dos variables son dicotómicas: El coeficiente específico para esta situación es el coeficiente de correlación ϕ (phi). Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos:
Doce atletas (A, B, C,..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso. 
Las clasificaciones en dichas pruebas fueron: 
100 metros : A , B , C , D , E , F , G , H , I , J , K , L 
Peso : K , I , J , L , G , H , F , D , E , B , C , A 
a) Determine la relación existente entre las dos clasificaciones en las pruebas descritas, mediante el coeficiente más adecuado. 
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.
Desarrollo:
Nos encontramos ante dos reordenacionesdistintas de los 12 individuos. Calcularemos pues el coeficiente de correlación por el método de los rangos de Spearman. 
a) Coeficiente de correlación ρ:
A continuación se ofrecen las tablas auxiliares de cálculos de ρ y r, calculados para comprobar que coinciden.
b) Coeficiente de correlación de Pearson: 
En efecto coinciden los coeficientes de correlación obtenidos por los dos métodos. 
Su alto valor negativo (próximo a -1) nos indica que existe una fuerte relación entre las dos clasificaciones en las pruebas atléticas, quedando mejor clasificados en una los peor clasificados en la otra.
16. A partir de los seis pares de valores, correspondientes a una variable bidimensional (X, Y), 
(1, 4), (2, 5), (3, 5), (4, 6), (5, 7)
a) Calcule la ecuación de la recta de regresión de Y sobre X. 
b) Calcule e interprete el coeficiente de correlación.
Cálculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza):
 b) 
Elevada relación entre las variables y de signo positivo. 
La recta de regresión es una buena función de ajuste, siendo creciente (r > 0). 
Para representar gráficamente la recta de regresión, localizamos dos puntos cualesquiera de ella: 
Y = 3'3 + 0’7. X
17. La recta de regresión de Y sobre X, calculada en el estudio de la relación existente entre dos variables, tiene por ecuación Y' = 5'4 - 0’9. X, siendo la varianza de la variable dependiente e igual a 1'84. 
Si la distribución de las predicciones de Y tiene como media 3'6 y varianza 1'619936.
a) calcule la media y varianza de X 
b) determine la ecuación de la recta de regresión de X sobre Y 
c) obtenga el valor del coeficiente de correlación.
Iniciamos aquí una serie de ejemplos que requieren para su resolución el empleo de las diferentes relaciones funcionales (fórmulas para entendernos) tratadas en el tema. 
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores conocidos. Tal vez así podamos obtener los que nos pida el problema.
18. La recta de regresión de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la proporción de varianza no explicada por X del 25'58%. 
a) Calcule los coeficientes de correlación y de determinación. 
b) Siendo X = 5, ¿qué pronóstico diferencial corresponde a una puntuación directa X = 4?
Desarrollo:
a) Los coeficientes de correlación y de determinación se obtienen directamente de la proporción de varianza no explicada:
Luego: 
Coeficiente de determinación: 
Coeficiente de correlación: 
Para determinar si el coeficiente de correlación es positivo o negativo se pueden seguir distintos procedimientos. Uno podría consistir en dibujar la recta de regresión (enlazando los dos puntos conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). Así resulta que es creciente y, por tanto, r = 0'8627.
19. Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de COU, seleccionamos seis alumnos. Clasificados por orden de puntuación final en cada materia resultó:
Utilizando el índice adecuado, basado en el concepto de correlación de Pearson, establezca el grado de relación que existe entre las calificaciones de las dos asignaturas. 
Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). 
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemáticas y en Filosofía. 
Ordenando las primeras (X), calculamos sus diferencias con las segundas:
20. Los datos brutos usados en este ejemplo se ven debajo.
	CI
	Horas de TV a la semana
	106
	7
	86
	0
	100
	28
	100
	50
	99
	28
	103
	28
	97
	20
	113
	12
	113
	7
	110
	17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas ‘orden (i)' y ‘orden (t)'
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden (i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría
 T = {0, 7, 7, 12, 17, 20, 28, 28, 28, 50}
Para este caso, el orden sería para cada elemento, respectivamente:
 Orden (t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
Sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = (2 + 3) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = (7 + 8 + 9) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
	CI (i)
	Horas de TV a la semana (t)
	orden(i)
	orden(t)
	d
	d2
	86
	0
	1
	1
	0
	0
	97
	20
	2
	6
	4
	16
	99
	28
	3
	8
	5
	25
	100
	50
	4.5
	10
	5.5
	30.25
	100
	28
	4.5
	8
	3.5
	12.25
	103
	28
	6
	8
	2
	4
	106
	7
	7
	2.5
	4.5
	20.25
	110
	17
	8
	5
	3
	9
	113
	7
	9.5
	2.5
	7
	49
	113
	12
	9.5
	4
	5.5
	30.25
Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar. {\displaystyle \sum d_{i}^{2}=196}. .El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula:
{\displaystyle \rho =1-{\frac {6\times 196}{10(10^{2}-1)}}}

Otros materiales