Datos - Tema 5

•

Humanas / Sociais

0

Angelo Aguero

3/4/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Psicología

248.905 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Tema 5. Relación entre
variables II
CORRELACIÓN ENTRE DOS VARIABLES
CUANTITATIVAS
 Nos presentan una tabla de datos conjuntos Lo primero
que hacemos es elaborar el diagrama de dispersión o nube
de puntos
 Una vez realizado el diagrama y tan sólo observándolo,
podemos decir que existe una relación lineal en las
variables X e Y. Es decir, a valores mayores de X
corresponderán valores mayores de Y y viceversa.
 Una vez llegados a este punto calculamos 2 índices que nos
permiten ponerle números a todo esto que llevamos
analizado
 El primero de estos índices es la covarianza y hace
referencia a la variación conjunta de dos variables.
Diagrama de dispersión
 El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.
 Las relaciones entre los conjuntos asociados de datos se infieren a partir de la
forma de las nubes.
 Una relación positiva entre x y y significa que los valores crecientes de x
están asociados con los valores crecientes de y.
 Una relación negativa significa que los valores crecientes de x están asociados
con los valores decrecientes de y.
 Ejemplos 5.1, 5.2 y 5.3
 Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una
nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible
relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con
diferentes porcentajes de la nueva materia prima y toma los siguientes datos:
En este caso, tendremos una correlación negativa (a medida que aumentamos el % de la
nueva materia prima, disminuye el número de productos no conformes). Con estos
resultados la empresa podría plantearse la introducción de la nueva materia prima,
aunque debería combinarlo con otras herramientas para una mejor toma de decisiones.
la covarianza
Si el signo de la covarianza es positivo, diremos que existe relación lineal
directa.
Si el signo de la covarianza es negativo, diremos que existe relación lineal
inversa.
Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de
la misma manera que con el estadístico X2 no sabíamos su límite superior y
teníamos que calcular el coeficiente de contingencia) , por lo tanto para la
covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson
(rxy)
Coeficiente de Correlación de Pearson (rxy)
- Toma valores comprendidos entre -1 y +1
- Cuando vale 0 no existe relación lineal entre X e Y
- Cuando vale exactamente +1 o -1 diremos que una variable es una transformación
lineal de la otra
- Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relación
lineal entre las dos variables es más fuerte.
- Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden
a corresponder valores mayores de la variable Y y a valores menores de la variable
X tienden a corresponder valores menores de la variable Y. Es una relación
directa.
- Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden
a corresponder valores menores de la variable Y, y a valores menores de la
variable X tienden a corresponder valores mayores de la variable Y. Es una
relación inversa. Ejemplo 5.5
Coeficiente de Correlación por Rangos
de Spearman
Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los
atletas. Los datos hay que traducirlos u ordenarlos en rangos. A los
puntajes más bajos le asignamos el rango 1 al siguiente el rango 2 y así
sucesivamente. Si se repiten dos puntajes o más se calculan las medias
aritméticas. Se deriva del coeficiente de correlación de Pearson. No
coinciden cuando hay empates de rangos Ejemplo 5.6
Se calcula aplicando la siguiente ecuación:
Relación entre dicotómicas
 El coeficiente phi se deriva del coeficiente de correlación
lineal de Pearson. El resultado de ambas fórmulas es el
mismo si codificamos las variables dicotómicas con ceros y
unos. Ejemplo 5.8
Relación entre una variable dicotómica y
otra cuantitativa. Ejemplo 5.9
Regresión lineal simple
 En un modelo de regresión lineal simple tratamos de explicar la relación que existe
entre la variable respuesta Y y una única variable explicativa X.
 El modelo de regresión lineal simple tiene la siguiente expresión: Y´= a+bXi
 En donde a es la ordenada en el origen (el valor que toma Y cuando X vale 0), b es la
pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad). X e Y son
variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre
ellas.
 Tres fases:
 1. identificación del modelo de regresión, que supone obtener los índices de regresión
que caracterizan
 2. la valoración del modelo, que supone el estudio de la capacidad predictiva del
mismo
 3. la aplicación del modelo para predecir variables.
Cálculo de los coeficientes de regresión
Para hacer una estimación del modelo de regresión lineal simple,
trataremos de buscar una recta de la forma: Y´= a+bXi
de modo que se ajuste a la nube de puntos.
Para esto utilizaremos el método de mínimos cuadrados. Este
método consiste en minimizar la suma de los cuadrados de los
errores:
Es decir, la suma de los cuadrados de las diferencias entre los
valores reales observados (yi) y los valores estimados (Ŷi).
O lo que es lo mismo b = rxy .SY /SX
Ya que rxy = SXY / SX . SY ejemplo 5.10
Valoración del modelo
 Además de la aproximación gráfica, se pueden utilizar dos índices: la
varianza error y el coeficiente de determinación.
 La varianza error es la varianza de los errores cometidos al pronosticar
la variable Y a partir de la variables X, definiendo estos errores o
residuos como la diferencia entre la puntuación que realmente
obtendría el sujeto en esa variable Y, y la puntuación que se le ha
pronosticado con el modelo de regresión. Es conocida como error
cuadrático medio
 𝑆𝐸
2 = 𝑆𝑦
2. 𝑥 =
σ 𝐸𝑖
2
𝑛
− ത𝐸
2
 Cuanto menor sea el valor de la varianza error, más similares serán las
puntuaciones pronosticadas por el modelo y las puntuaciones que
realmente obtendrían los sujetos en el criterio. Ejemplo 5.11
Coeficiente de determinación
 El coeficiente de determinación es igual al
coeficiente de correlación de Pearson elevado al
cuadrado. Indica la proporción de varianza de la
variable pronosticada o criterio (Y) que es
explicada por el modelo lineal, esto es, por la
variable predictora X
 𝑟𝑥𝑦
2 = coeficiente de determinación
 Toma valores entre 0 y 1. Cuanto mayor sea mejor
pronostico
Características del modelo de regresión
 La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de
correlación lineal de Pearson 𝑏 = 𝑟𝑥𝑌
𝑠𝑌
𝑠𝑥
 La media de los errores de predicción o residuos 𝐸 = 𝑌 − 𝑌′ es 0; ത𝐸 = 0
 La media de las puntuaciones pronosticadas coincide con la media de las verdaderas
puntuaciones 𝑌′ = ത𝑌
 La varianza de las puntuaciones en Y, es igual a la suma de la varianza de los pronósticos,
más la varianza de los errores 𝑠𝑌
2 = 𝑠𝑌′
2 + 𝑆𝑌⋅𝑥
2
 El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones
pronosticadas y la varianza de las puntuaciones en Y
𝑟2𝑥𝑌=
𝑠
𝑦′
2
𝑠𝑦
2
El complemento del coeficiente de determinación es igual al cociente entre la varianza de los
errores y la varianza de las puntuaciones en Y, e indica la proporción de varianza del criterio
que no queda explicada por el modelo de regresión. 1- 𝑟2𝑥𝑌=
𝑠𝑦𝑥
2
𝑠𝑦
2
Regresión lineal múltiple
 Más de una variable predictora