Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Tema 5. Relación entre variables II CORRELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS Nos presentan una tabla de datos conjuntos Lo primero que hacemos es elaborar el diagrama de dispersión o nube de puntos Una vez realizado el diagrama y tan sólo observándolo, podemos decir que existe una relación lineal en las variables X e Y. Es decir, a valores mayores de X corresponderán valores mayores de Y y viceversa. Una vez llegados a este punto calculamos 2 índices que nos permiten ponerle números a todo esto que llevamos analizado El primero de estos índices es la covarianza y hace referencia a la variación conjunta de dos variables. Diagrama de dispersión El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama muestra estos pares como una nube de puntos. Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las nubes. Una relación positiva entre x y y significa que los valores crecientes de x están asociados con los valores crecientes de y. Una relación negativa significa que los valores crecientes de x están asociados con los valores decrecientes de y. Ejemplos 5.1, 5.2 y 5.3 Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con diferentes porcentajes de la nueva materia prima y toma los siguientes datos: En este caso, tendremos una correlación negativa (a medida que aumentamos el % de la nueva materia prima, disminuye el número de productos no conformes). Con estos resultados la empresa podría plantearse la introducción de la nueva materia prima, aunque debería combinarlo con otras herramientas para una mejor toma de decisiones. la covarianza Si el signo de la covarianza es positivo, diremos que existe relación lineal directa. Si el signo de la covarianza es negativo, diremos que existe relación lineal inversa. Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la misma manera que con el estadístico X2 no sabíamos su límite superior y teníamos que calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson (rxy) Coeficiente de Correlación de Pearson (rxy) - Toma valores comprendidos entre -1 y +1 - Cuando vale 0 no existe relación lineal entre X e Y - Cuando vale exactamente +1 o -1 diremos que una variable es una transformación lineal de la otra - Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relación lineal entre las dos variables es más fuerte. - Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden a corresponder valores mayores de la variable Y y a valores menores de la variable X tienden a corresponder valores menores de la variable Y. Es una relación directa. - Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden a corresponder valores menores de la variable Y, y a valores menores de la variable X tienden a corresponder valores mayores de la variable Y. Es una relación inversa. Ejemplo 5.5 Coeficiente de Correlación por Rangos de Spearman Este coeficiente se emplea cuando una o ambas escalas de medidas de las variables son ordinales, es decir, cuando una o ambas escalas de medida son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los atletas. Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes más bajos le asignamos el rango 1 al siguiente el rango 2 y así sucesivamente. Si se repiten dos puntajes o más se calculan las medias aritméticas. Se deriva del coeficiente de correlación de Pearson. No coinciden cuando hay empates de rangos Ejemplo 5.6 Se calcula aplicando la siguiente ecuación: Relación entre dicotómicas El coeficiente phi se deriva del coeficiente de correlación lineal de Pearson. El resultado de ambas fórmulas es el mismo si codificamos las variables dicotómicas con ceros y unos. Ejemplo 5.8 Relación entre una variable dicotómica y otra cuantitativa. Ejemplo 5.9 Regresión lineal simple En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta Y y una única variable explicativa X. El modelo de regresión lineal simple tiene la siguiente expresión: Y´= a+bXi En donde a es la ordenada en el origen (el valor que toma Y cuando X vale 0), b es la pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad). X e Y son variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre ellas. Tres fases: 1. identificación del modelo de regresión, que supone obtener los índices de regresión que caracterizan 2. la valoración del modelo, que supone el estudio de la capacidad predictiva del mismo 3. la aplicación del modelo para predecir variables. Cálculo de los coeficientes de regresión Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: Y´= a+bXi de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizar la suma de los cuadrados de los errores: Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados (Ŷi). O lo que es lo mismo b = rxy .SY /SX Ya que rxy = SXY / SX . SY ejemplo 5.10 Valoración del modelo Además de la aproximación gráfica, se pueden utilizar dos índices: la varianza error y el coeficiente de determinación. La varianza error es la varianza de los errores cometidos al pronosticar la variable Y a partir de la variables X, definiendo estos errores o residuos como la diferencia entre la puntuación que realmente obtendría el sujeto en esa variable Y, y la puntuación que se le ha pronosticado con el modelo de regresión. Es conocida como error cuadrático medio 𝑆𝐸 2 = 𝑆𝑦 2. 𝑥 = σ 𝐸𝑖 2 𝑛 − ത𝐸 2 Cuanto menor sea el valor de la varianza error, más similares serán las puntuaciones pronosticadas por el modelo y las puntuaciones que realmente obtendrían los sujetos en el criterio. Ejemplo 5.11 Coeficiente de determinación El coeficiente de determinación es igual al coeficiente de correlación de Pearson elevado al cuadrado. Indica la proporción de varianza de la variable pronosticada o criterio (Y) que es explicada por el modelo lineal, esto es, por la variable predictora X 𝑟𝑥𝑦 2 = coeficiente de determinación Toma valores entre 0 y 1. Cuanto mayor sea mejor pronostico Características del modelo de regresión La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de correlación lineal de Pearson 𝑏 = 𝑟𝑥𝑌 𝑠𝑌 𝑠𝑥 La media de los errores de predicción o residuos 𝐸 = 𝑌 − 𝑌′ es 0; ത𝐸 = 0 La media de las puntuaciones pronosticadas coincide con la media de las verdaderas puntuaciones 𝑌′ = ത𝑌 La varianza de las puntuaciones en Y, es igual a la suma de la varianza de los pronósticos, más la varianza de los errores 𝑠𝑌 2 = 𝑠𝑌′ 2 + 𝑆𝑌⋅𝑥 2 El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones pronosticadas y la varianza de las puntuaciones en Y 𝑟2𝑥𝑌= 𝑠 𝑦′ 2 𝑠𝑦 2 El complemento del coeficiente de determinación es igual al cociente entre la varianza de los errores y la varianza de las puntuaciones en Y, e indica la proporción de varianza del criterio que no queda explicada por el modelo de regresión. 1- 𝑟2𝑥𝑌= 𝑠𝑦𝑥 2 𝑠𝑦 2 Regresión lineal múltiple Más de una variable predictora
Compartir