Logo Studenta

Datos - Tema 5

¡Este material tiene más páginas!

Vista previa del material en texto

Tema 5. Relación entre 
variables II
CORRELACIÓN ENTRE DOS VARIABLES 
CUANTITATIVAS
 Nos presentan una tabla de datos conjuntos Lo primero 
que hacemos es elaborar el diagrama de dispersión o nube 
de puntos
 Una vez realizado el diagrama y tan sólo observándolo, 
podemos decir que existe una relación lineal en las 
variables X e Y. Es decir, a valores mayores de X 
corresponderán valores mayores de Y y viceversa.
 Una vez llegados a este punto calculamos 2 índices que nos 
permiten ponerle números a todo esto que llevamos 
analizado
 El primero de estos índices es la covarianza y hace 
referencia a la variación conjunta de dos variables.
Diagrama de dispersión
 El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos 
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada 
conjunto). El diagrama muestra estos pares como una nube de puntos.
 Las relaciones entre los conjuntos asociados de datos se infieren a partir de la 
forma de las nubes.
 Una relación positiva entre x y y significa que los valores crecientes de x 
están asociados con los valores crecientes de y.
 Una relación negativa significa que los valores crecientes de x están asociados 
con los valores decrecientes de y.
 Ejemplos 5.1, 5.2 y 5.3
 Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una 
nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible 
relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con 
diferentes porcentajes de la nueva materia prima y toma los siguientes datos:
En este caso, tendremos una correlación negativa (a medida que aumentamos el % de la 
nueva materia prima, disminuye el número de productos no conformes). Con estos 
resultados la empresa podría plantearse la introducción de la nueva materia prima, 
aunque debería combinarlo con otras herramientas para una mejor toma de decisiones.
la covarianza
Si el signo de la covarianza es positivo, diremos que existe relación lineal 
directa.
Si el signo de la covarianza es negativo, diremos que existe relación lineal 
inversa.
Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de 
la misma manera que con el estadístico X2 no sabíamos su límite superior y 
teníamos que calcular el coeficiente de contingencia) , por lo tanto para la 
covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson 
(rxy)
Coeficiente de Correlación de Pearson (rxy)
- Toma valores comprendidos entre -1 y +1
- Cuando vale 0 no existe relación lineal entre X e Y
- Cuando vale exactamente +1 o -1 diremos que una variable es una transformación
lineal de la otra
- Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relación
lineal entre las dos variables es más fuerte.
- Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden
a corresponder valores mayores de la variable Y y a valores menores de la variable
X tienden a corresponder valores menores de la variable Y. Es una relación
directa.
- Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden
a corresponder valores menores de la variable Y, y a valores menores de la
variable X tienden a corresponder valores mayores de la variable Y. Es una
relación inversa. Ejemplo 5.5
Coeficiente de Correlación por Rangos 
de Spearman
Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los
atletas. Los datos hay que traducirlos u ordenarlos en rangos. A los
puntajes más bajos le asignamos el rango 1 al siguiente el rango 2 y así
sucesivamente. Si se repiten dos puntajes o más se calculan las medias
aritméticas. Se deriva del coeficiente de correlación de Pearson. No
coinciden cuando hay empates de rangos Ejemplo 5.6
Se calcula aplicando la siguiente ecuación:
Relación entre dicotómicas
 El coeficiente phi se deriva del coeficiente de correlación 
lineal de Pearson. El resultado de ambas fórmulas es el 
mismo si codificamos las variables dicotómicas con ceros y 
unos. Ejemplo 5.8
Relación entre una variable dicotómica y 
otra cuantitativa. Ejemplo 5.9
Regresión lineal simple 
 En un modelo de regresión lineal simple tratamos de explicar la relación que existe 
entre la variable respuesta Y y una única variable explicativa X. 
 El modelo de regresión lineal simple tiene la siguiente expresión: Y´= a+bXi
 En donde a es la ordenada en el origen (el valor que toma Y cuando X vale 0), b es la 
pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad). X e Y son 
variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre 
ellas.
 Tres fases:
 1. identificación del modelo de regresión, que supone obtener los índices de regresión 
que caracterizan
 2. la valoración del modelo, que supone el estudio de la capacidad predictiva del 
mismo
 3. la aplicación del modelo para predecir variables. 
Cálculo de los coeficientes de regresión
Para hacer una estimación del modelo de regresión lineal simple, 
trataremos de buscar una recta de la forma: Y´= a+bXi
de modo que se ajuste a la nube de puntos. 
Para esto utilizaremos el método de mínimos cuadrados. Este 
método consiste en minimizar la suma de los cuadrados de los 
errores: 
Es decir, la suma de los cuadrados de las diferencias entre los 
valores reales observados (yi) y los valores estimados (Ŷi). 
O lo que es lo mismo b = rxy .SY /SX
Ya que rxy = SXY / SX . SY ejemplo 5.10
Valoración del modelo
 Además de la aproximación gráfica, se pueden utilizar dos índices: la 
varianza error y el coeficiente de determinación.
 La varianza error es la varianza de los errores cometidos al pronosticar 
la variable Y a partir de la variables X, definiendo estos errores o 
residuos como la diferencia entre la puntuación que realmente 
obtendría el sujeto en esa variable Y, y la puntuación que se le ha 
pronosticado con el modelo de regresión. Es conocida como error 
cuadrático medio
 𝑆𝐸
2 = 𝑆𝑦
2. 𝑥 =
σ 𝐸𝑖
2
𝑛
− ത𝐸
2
 Cuanto menor sea el valor de la varianza error, más similares serán las 
puntuaciones pronosticadas por el modelo y las puntuaciones que 
realmente obtendrían los sujetos en el criterio. Ejemplo 5.11
Coeficiente de determinación
 El coeficiente de determinación es igual al 
coeficiente de correlación de Pearson elevado al 
cuadrado. Indica la proporción de varianza de la 
variable pronosticada o criterio (Y) que es 
explicada por el modelo lineal, esto es, por la 
variable predictora X
 𝑟𝑥𝑦
2 = coeficiente de determinación
 Toma valores entre 0 y 1. Cuanto mayor sea mejor 
pronostico
Características del modelo de regresión
 La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de 
correlación lineal de Pearson 𝑏 = 𝑟𝑥𝑌
𝑠𝑌
𝑠𝑥
 La media de los errores de predicción o residuos 𝐸 = 𝑌 − 𝑌′ es 0; ത𝐸 = 0
 La media de las puntuaciones pronosticadas coincide con la media de las verdaderas 
puntuaciones 𝑌′ = ത𝑌
 La varianza de las puntuaciones en Y, es igual a la suma de la varianza de los pronósticos, 
más la varianza de los errores 𝑠𝑌
2 = 𝑠𝑌′
2 + 𝑆𝑌⋅𝑥
2
 El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones 
pronosticadas y la varianza de las puntuaciones en Y
𝑟2𝑥𝑌=
𝑠
𝑦′
2
𝑠𝑦
2
El complemento del coeficiente de determinación es igual al cociente entre la varianza de los 
errores y la varianza de las puntuaciones en Y, e indica la proporción de varianza del criterio 
que no queda explicada por el modelo de regresión. 1- 𝑟2𝑥𝑌=
𝑠𝑦𝑥
2
𝑠𝑦
2
Regresión lineal múltiple
 Más de una variable predictora

Continuar navegando