Logo Studenta

Apunte Analisis Cuantitativo

¡Este material tiene más páginas!

Vista previa del material en texto

1 
Análisis Cuantitativo II 
Unidad 10: Análisis de Regresión y Correlación 
 
 En esta unidad conoceremos el análisis de regresión lineal y correlación que busca 
establecer cuál es el comportamiento de dos variables, es decir, qué modificaciones sufre una de 
las variables cuando cambia o se modifica la segunda. 
Análisis De Regresión 
 El análisis de regresión se le adjudica a Francis Galton ya que fue uno de los primeros 
investigadores que estudió las relaciones entre dos variables. Su estudio se refería a la relación 
que pudiera existir entre las estaturas de los padres y la estatura de los hijos; según sus 
observaciones los hijos de padres muy altos no eran tan altos como sus padres y los hijos de 
padres muy bajos no lo eran tanto; esto lo llevó a concluir que las estaturas de los hijos regresaban 
a un promedio o "valor normal"; de allí surge el término regresión. 
 En la actualidad el término regresión se utiliza para establecer la naturaleza de la relación 
que dos variables pueden tener, para ello se trata de establecer una recta que caracterice esta 
relación y con ese modelo matemático poder predecir cuál es el valor que puede tomar una de las 
variables cuando se modifica la otra. 
 
Diagramas de dispersión 
 Un diagrama de dispersión es una 
herramienta gráfica que ayuda a identificar la 
posible relación entre dos variables cuantitativas 
sobre un mismo grupo de individuos. 
 Los datos se muestran como un conjunto de 
puntos, cada uno con el valor de una variable que 
determina la posición en el eje horizontal (x) y el 
valor de la otra variable determinado por la posición 
en el eje vertical (y). 
 
 2 
 Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de 
datos y confirmar relaciones anticipadas sobre dicho conjunto. 
 
Regresión por mínimos cuadrados 
 
La regresión por mínimos cuadrados consiste 
en obtener una función de aproximación que se ajuste 
a la forma o a la tendencia general de los datos, sin 
coincidir necesariamente en todos los puntos. Por 
ejemplo, en la figura 1 se muestran siete datos 
obtenidos experimentalmente que presentan una 
variabilidad significativa. Una inspección visual de esos 
datos sugiere una posible relación entre “y” y “x”. Es 
decir, la tendencia general indica que valores altos de y 
están asociados con valores altos de x. 
 
Una estrategia en tales casos consiste en 
obtener una función de aproximación que se ajuste a 
la forma o a la tendencia general de los datos, sin 
coincidir necesariamente en todos los puntos. La 
figura 2 ilustra cómo se utiliza una línea recta para 
caracterizar de manera general la tendencia de los 
datos sin pasar a través de algún punto específico. 
Una manera para determinar la línea de la figura 2 es 
inspeccionar en forma visual los datos graficados y 
después trazar una “mejor” línea a través de los 
puntos. Aunque tales procedimientos “a ojo” apelan 
al sentido común y son válidos para cálculos “superficiales”, resultan deficientes por ser 
arbitrarios. Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la 
interpolación resultaría apropiada), diferentes analistas dibujarían líneas distintas. Para dejar a un 
Figura 2 
Figura 1 
 
 3 
lado dicha subjetividad se debe encontrar algún criterio para establecer una base para el ajuste. 
Una forma de hacerlo es obtener una recta que minimice la discrepancia entre los puntos y la 
recta. Una técnica para lograr tal objetivo es llamada regresión por mínimos cuadrados. 
 
Recta de regresión 
El ejemplo más simple de una aproximación por mínimos cuadrados es ajustar una línea 
recta a un conjunto de observaciones definidas por puntos: (x1, y1), (x2, y2),…, (xi, yi). La expresión 
matemática para la línea recta es: 
𝑦 = 𝑎0 + 𝑎1𝑥 + 𝑒 (1) 
 Donde 𝑎0 es la ordenada al origen, 𝑎1 es la pendiente y 𝑒 es el error, o diferencia entre 
el modelo y las observaciones, el cual se representa al ordenar la ecuación (1) 
 𝑒 = 𝑦 − 𝑎0 − 𝑎1𝑥 (2) 
 
Una estrategia para ajustar una “mejor” línea a través de los datos será minimizar la suma 
de los errores residuales de todos los datos disponibles, como sigue: 
∑ 𝑒𝑖
𝑛
𝑖=1
= ∑(𝑦𝑖
𝑛
𝑖=1
− 𝑎0 − 𝑎1𝑥𝑖) (3) 
∑ 𝑒𝑖
𝑛
𝑖=1
= ∑(𝑦𝑖
𝑛
𝑖=1
− �̌�𝑖) (4) 
𝐷𝑜𝑛𝑑𝑒 �̌�𝑖 𝑒𝑠 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 
�̌�𝒊 = 𝒂𝟎 + 𝒂𝟏𝒙𝒊 
 
 
 4 
 
 Gráficamente se puede apreciar mejor. Podemos observar un diagrama de dispersión 
compuesto por pares ordenados ( Xi, Yi ), estos puntos son datos conocidos, medidos u 
observados, mientras que los puntos pertenecientes a la recta son valores estimados, 
corresponden a la recta de regresión. Entonces la diferencia entre el valor observado o medido 
( 𝑦𝑖 ) y el valor estimado ( �̌�𝑖 ) es igual al error ( 𝑒𝑖 ). 
 En resumen, se debe minimizar la suma de todos los errores para encontrar la recta que 
mejor se ajuste a la dispersión. Para ello se deben encontrar los valores de los coeficientes 𝑎0 y 𝑎1. 
En este curso no desarrollaremos la demostración para determinar estos coeficientes por lo que a 
continuación se presentan las fórmulas de cada uno. 
 
𝑎1 =
𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑛 ∑ 𝑥𝑖
2 − (∑ 𝑥𝑖)
2
 
 
𝑎0 = �̅� − 𝑎1�̅� 
Dónde: 
 
 5 
• 𝑛 es la números de pares ordenados (𝑥𝑖 , 𝑦𝑖) (puntos en el diagrama de 
dispersión) 
• �̅� , �̅� corresponden al promedio de todos los valores de 𝑥𝑖 , 𝑦𝑖 
 
Ejemplo. 
El diagrama de dispersión de la figura 1 se armó en base a los datos proporcionados por la 
siguiente tabla: 
 
 
 
 
 
 
 
Ajuste a una línea recta los valores x e y 
Xi yi 
1 0,5 
2 2,5 
3 2 
4 4 
5 3,5 
6 6 
7 5,5 
 
 6 
Recordemos que para encontrar la recta que mejor se ajuste a la dispersión de datos 
debemos encontrar el valor de los coeficientes 𝒂𝟎 y 𝒂𝟏 
�̌�𝒊 = 𝒂𝟎 + 𝒂𝟏𝒙𝒊 
𝑎1 =
𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑛 ∑ 𝑥𝑖
2 − (∑ 𝑥𝑖)
2
 
𝑎0 = �̅� − 𝑎1�̅� 
 
Es recomendable armar una tabla para tener la información más organizada 
 
 
 
 
n = 7 
𝒙𝒊 𝒚𝒊 𝒙𝒊𝒚𝒊 𝒙𝒊
 𝟐 
1 0,5 0,5 1 
2 2,5 5 4 
3 2 6 9 
4 4 16 16 
5 3,5 17,5 25 
6 6 36 36 
7 5,5 38,5 49 
∑(𝒔𝒖𝒎𝒂𝒕𝒐𝒓𝒊𝒂) 28 24 119,5 140 
 
Con la tabla completa reemplazamos los valores obtenidos en la formulas: 
 
𝑎1 =
7 ∗ 119,5 − 28 ∗ 24
7 ∗ 140 − (28)2
 = 
47
56
~0,84 
x̅ = 
∑ xi
n
=
28
7
= 4 
y̅ = 
∑ 𝑦𝑖
n
=
24
7
= 3,43 
𝑎0 = 3,43 − 0,84 ∗ 4 = 0,07 
 
 
 7 
Reemplazamos los coeficientes en la fórmula de la recta de regresión. Entonces, el ajuste 
por mínimos cuadrados es: 
 
𝑦 = 0,07 + 0,84 𝑥 
 
 
 
Error estándar de estimación 𝑺𝒆 
 El error estándar de estimación mide la dispersión de los valores observados alrededor de 
la recta de regresión. 
𝑺𝒆 = √
∑ 𝒚𝒊
 𝟐 − 𝒂𝟎 ∑ 𝒚𝒊
 − 𝒂𝟏 ∑ 𝒙𝒊𝒚𝒊
 
𝒏 − 𝟐
 
 
Mientras mayor sea el 𝑺𝒆 mayor será la dispersión que los datos presentan.8 
Ejemplo: 
Calcular el error estándar de estimación para el ejemplo anterior 
Por empezar armo una tabla para organizar la información y poder calcular con mayor facilidad 
 
 
 
 
 
 
 
n = 7 
𝒙𝒊 𝒚𝒊 𝒙𝒊𝒚𝒊 𝒚𝒊
 𝟐 
1 0,5 0,5 0,25 
2 2,5 5 6,25 
3 2 6 4 
4 4 16 16 
5 3,5 17,5 12,25 
6 6 36 36 
7 5,5 38,5 30,25 
∑(𝒔𝒖𝒎𝒂𝒕𝒐𝒓𝒊𝒂) 28 24 119,5 105 
 
Se = √
105 − 0,07 ∗ 24 − 0,84 ∗ 119,5
7 − 2
= √
2,94
5
= 0,76 
 
Tipos de correlación en un gráfico de dispersión 
Con base en el comportamiento que toman las variables de estudio, podemos encontrar 3 
tipos de correlación: Positiva, negativa y nula. 
 
Correlación positiva 
Se presenta cuando una variable aumenta o 
disminuye y la otra también, respectivamente. Hay una 
relación proporcional. Por ejemplo para un vendedor de 
autos, si él vende más autos (variable 1), va a ganar más 
dinero (variable 2). 
 
 9 
Correlación negativa 
Se presenta cuando una variable se comporta de 
forma contraria a la otra, es decir que si una variable 
aumenta, la otra disminuye. Hay una relación inversa 
proporcional. Por ejemplo para la construcción de un 
edificio, entre más trabajadores estén construyendo un 
edificio (variable 1), menos tiempo se necesitará para 
tenerlo listo (variable 2). 
 
Correlación nula 
Si no se encuentra un comportamiento entre las variables, 
existe una correlación nula. 
 
 
 
 
Ejemplo: 
Vamos a ver desde una problemática empresarial, un ejemplo resuelto de diagrama de 
dispersión para el área de calidad. 
Imagina que una litográfica está abriendo una nueva área de producción para la impresión 
de posters, y en este momento se encuentra haciendo todos los ensayos y pruebas para 
determinar la cantidad de tinta de cada color que deberían tener las maquinas. 
Como prueba inicial, han decidido establecer la relación de errores de impresión según el 
grado de llenado de los recipientes de tinta de la máquina. 
Las variables a estudiar para este ejemplo de grafico de dispersión en calidad son: 
 
 10 
• Cantidad de tinta en litros 
• Número de errores de impresión 
El departamento de control de calidad hace 50 corridas o pruebas durante 5 días continuos. 
Los resultados, a continuación: 
 
Ubicamos los ejes según las variables que tenemos. Al estar el 
número de errores influenciado por la cantidad de tinta, lo 
ubicamos como el eje y. Por consiguiente, el eje x es la 
cantidad de tinta. 
Ahora sí, hacemos el gráfico de dispersión. 
 
 
Podemos ver claramente que la relación entre un aumento en los litros de tinta, impacta 
directamente en el número de errores en la impresión de posters, es decir que hay una 
correlación positiva. 
 
 
 11 
Coeficiente de determinación 
Explica qué porcentaje de las variaciones de la variable dependiente “y” puede explicarse 
por las variaciones de la variable independiente “x”, de esta manera si todos los puntos del 
diagrama de dispersión se encontraran perfectamente ubicados sobre la recta de regresión este 
coeficiente seria uno, es decir, existe una correlación perfecta entre ambas variables en estudio. A 
medida que disminuye este valor también disminuye la fuerza con que estas dos variables están 
relacionadas. 
 Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. 
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos 
intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo 
y, por tanto, menos fiable será. 
El coeficiente de determinación se calcula como: 
r2 = (
Sxy
SxSy
)
2
 
Dónde: 
• Sxy es la covarianza 
 Sxy =
∑(𝑥 − �̅�)(𝑦 − �̅�)
𝑛
 
• Sx es la desviación estándar para la variable x 
Sx = √
∑(𝑥 − �̅�)2
𝑛
 
• Sy es la desviación estándar para la variable y 
Sy = √
∑(𝑦 − �̅�)2
𝑛
 
 
 12 
Coeficiente de correlación 
El coeficiente de correlación de Pearson mide la fuerza y el sentido de una relación lineal 
entre dos variables cuantitativas. El coeficiente de correlación toma valores entre -1 y +1. Si el 
valor es positivo se dice que hay una relación directa o positiva, si el valor es negativo se dice que 
la relación es inversa o negativa. La fuerza de la asociación lineal la determina el valor absoluto del 
coeficiente, mientras más cerca este del valor 1 más fuerte será la relación. Si el valor de 
coeficiente es próximo a cero, se dice que la relación es débil. 
El coeficiente de correlación se calcula como la raíz cuadrada del coeficiente de 
determinación. 
𝑟 = √𝑟2 
Por lo que: 
r =
Sxy
SxSy
 
Como habíamos dicho anteriormente el coeficiente de correlación puede tomar valores 
entre -1 y 1. A partir de esto podemos establecer la siguiente tabla. 
 
𝟎 , −
+ 𝟎, 𝟎𝟗 −
+ NULA 
𝟎, 𝟏𝟎 , −
+ 𝟎, 𝟏𝟗 −
+ MUY DÉBIL 
𝟎, 𝟐𝟎 , −
+ 𝟎, 𝟒𝟗 −
+ DÉBIL 
𝟎, 𝟓𝟎 , −
+ 𝟎, 𝟔𝟗 −
+ MODERADA 
𝟎, 𝟕𝟎 , −
+ 𝟎, 𝟖𝟒 −
+ SIGNIFICATIVA 
𝟎, 𝟖𝟓 , −
+ 𝟎, 𝟗𝟓 −
+ FUERTE 
 𝟎, 𝟗𝟔 , −
+ 𝟏 −
+ PERFECTA 
 
 
 
 
 13 
Esta tabla indica que tan fuerte o tan débil es la relación entre las variables, podemos ver 
que a medida que el valor absoluto del coeficiente de correlación se aproxima a 1, la relación que 
hay entre la recta estimada y la dispersión de datos es perfecta, mientras que si toma valores 
cercanos a cero la relación será débil o nula. 
 
 En el primer diagrama podemos ver que el coeficiente de correlación es cero ya que no se 
observa que haya algún tipo de relación lineal, mientras que en el último diagrama el coeficiente 
de correlación es 1 porque la relación entre las variables x e y es prácticamente lineal. 
 
 
 
 
 
 14 
Ejemplo: 
Calculemos el coeficiente de correlación para el primer ejemplo. 
 
 
 
 
n = 7 
𝒙𝒊 𝒚𝒊 (𝒙 − �̅�) (𝒚 − �̅�) (𝒙 − �̅�)
𝟐 (𝒚 − �̅�)𝟐 (𝒙 − �̅�)(𝒚 − �̅�) 
1 0,5 -3 -2,93 9 8,5849 8,79 
2 2,5 -2 -0,93 4 0,8649 1,86 
3 2 -1 -1,43 1 2,0449 1,43 
4 4 0 0,57 0 0,3249 0 
5 3,5 1 0,07 1 0,0049 0,07 
6 6 2 2,57 4 6,6049 5,14 
7 5,5 3 2,07 9 4,2849 6,21 
∑. 28 24 0 -0,01 28 22,7143 23,5 
 
x̅ = 
∑ xi
n
=
28
7
= 4 
y̅ = 
∑ 𝑦𝑖
n
=
24
7
= 3,43 
Sxy =
∑(𝑥 − �̅�)(𝑦 − �̅�)
𝑛
=
23,5
7
= 3,36 
Sx = √
∑(𝑥 − �̅�)2
𝑛
 = √
28
7
= 2 
Sy = √
∑(𝑦 − �̅�)2
𝑛
 = √
22,7143
7
= 1,80 
r =
Sxy
SxSy
=
3,36
2 ∗ 1,80
= 0,93 
Conclusión: el coeficiente de correlación es positivo por lo que la correlación es positiva y 
de acuerdo al valor obtenido podemos decir que hay una correlación fuerte por lo tanto la relación 
entre las variables x e y es casi lineal.

Continuar navegando