Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Análisis Cuantitativo II Unidad 10: Análisis de Regresión y Correlación En esta unidad conoceremos el análisis de regresión lineal y correlación que busca establecer cuál es el comportamiento de dos variables, es decir, qué modificaciones sufre una de las variables cuando cambia o se modifica la segunda. Análisis De Regresión El análisis de regresión se le adjudica a Francis Galton ya que fue uno de los primeros investigadores que estudió las relaciones entre dos variables. Su estudio se refería a la relación que pudiera existir entre las estaturas de los padres y la estatura de los hijos; según sus observaciones los hijos de padres muy altos no eran tan altos como sus padres y los hijos de padres muy bajos no lo eran tanto; esto lo llevó a concluir que las estaturas de los hijos regresaban a un promedio o "valor normal"; de allí surge el término regresión. En la actualidad el término regresión se utiliza para establecer la naturaleza de la relación que dos variables pueden tener, para ello se trata de establecer una recta que caracterice esta relación y con ese modelo matemático poder predecir cuál es el valor que puede tomar una de las variables cuando se modifica la otra. Diagramas de dispersión Un diagrama de dispersión es una herramienta gráfica que ayuda a identificar la posible relación entre dos variables cuantitativas sobre un mismo grupo de individuos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal (x) y el valor de la otra variable determinado por la posición en el eje vertical (y). 2 Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de datos y confirmar relaciones anticipadas sobre dicho conjunto. Regresión por mínimos cuadrados La regresión por mínimos cuadrados consiste en obtener una función de aproximación que se ajuste a la forma o a la tendencia general de los datos, sin coincidir necesariamente en todos los puntos. Por ejemplo, en la figura 1 se muestran siete datos obtenidos experimentalmente que presentan una variabilidad significativa. Una inspección visual de esos datos sugiere una posible relación entre “y” y “x”. Es decir, la tendencia general indica que valores altos de y están asociados con valores altos de x. Una estrategia en tales casos consiste en obtener una función de aproximación que se ajuste a la forma o a la tendencia general de los datos, sin coincidir necesariamente en todos los puntos. La figura 2 ilustra cómo se utiliza una línea recta para caracterizar de manera general la tendencia de los datos sin pasar a través de algún punto específico. Una manera para determinar la línea de la figura 2 es inspeccionar en forma visual los datos graficados y después trazar una “mejor” línea a través de los puntos. Aunque tales procedimientos “a ojo” apelan al sentido común y son válidos para cálculos “superficiales”, resultan deficientes por ser arbitrarios. Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación resultaría apropiada), diferentes analistas dibujarían líneas distintas. Para dejar a un Figura 2 Figura 1 3 lado dicha subjetividad se debe encontrar algún criterio para establecer una base para el ajuste. Una forma de hacerlo es obtener una recta que minimice la discrepancia entre los puntos y la recta. Una técnica para lograr tal objetivo es llamada regresión por mínimos cuadrados. Recta de regresión El ejemplo más simple de una aproximación por mínimos cuadrados es ajustar una línea recta a un conjunto de observaciones definidas por puntos: (x1, y1), (x2, y2),…, (xi, yi). La expresión matemática para la línea recta es: 𝑦 = 𝑎0 + 𝑎1𝑥 + 𝑒 (1) Donde 𝑎0 es la ordenada al origen, 𝑎1 es la pendiente y 𝑒 es el error, o diferencia entre el modelo y las observaciones, el cual se representa al ordenar la ecuación (1) 𝑒 = 𝑦 − 𝑎0 − 𝑎1𝑥 (2) Una estrategia para ajustar una “mejor” línea a través de los datos será minimizar la suma de los errores residuales de todos los datos disponibles, como sigue: ∑ 𝑒𝑖 𝑛 𝑖=1 = ∑(𝑦𝑖 𝑛 𝑖=1 − 𝑎0 − 𝑎1𝑥𝑖) (3) ∑ 𝑒𝑖 𝑛 𝑖=1 = ∑(𝑦𝑖 𝑛 𝑖=1 − �̌�𝑖) (4) 𝐷𝑜𝑛𝑑𝑒 �̌�𝑖 𝑒𝑠 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 �̌�𝒊 = 𝒂𝟎 + 𝒂𝟏𝒙𝒊 4 Gráficamente se puede apreciar mejor. Podemos observar un diagrama de dispersión compuesto por pares ordenados ( Xi, Yi ), estos puntos son datos conocidos, medidos u observados, mientras que los puntos pertenecientes a la recta son valores estimados, corresponden a la recta de regresión. Entonces la diferencia entre el valor observado o medido ( 𝑦𝑖 ) y el valor estimado ( �̌�𝑖 ) es igual al error ( 𝑒𝑖 ). En resumen, se debe minimizar la suma de todos los errores para encontrar la recta que mejor se ajuste a la dispersión. Para ello se deben encontrar los valores de los coeficientes 𝑎0 y 𝑎1. En este curso no desarrollaremos la demostración para determinar estos coeficientes por lo que a continuación se presentan las fórmulas de cada uno. 𝑎1 = 𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑛 ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖) 2 𝑎0 = �̅� − 𝑎1�̅� Dónde: 5 • 𝑛 es la números de pares ordenados (𝑥𝑖 , 𝑦𝑖) (puntos en el diagrama de dispersión) • �̅� , �̅� corresponden al promedio de todos los valores de 𝑥𝑖 , 𝑦𝑖 Ejemplo. El diagrama de dispersión de la figura 1 se armó en base a los datos proporcionados por la siguiente tabla: Ajuste a una línea recta los valores x e y Xi yi 1 0,5 2 2,5 3 2 4 4 5 3,5 6 6 7 5,5 6 Recordemos que para encontrar la recta que mejor se ajuste a la dispersión de datos debemos encontrar el valor de los coeficientes 𝒂𝟎 y 𝒂𝟏 �̌�𝒊 = 𝒂𝟎 + 𝒂𝟏𝒙𝒊 𝑎1 = 𝑛 ∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑛 ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖) 2 𝑎0 = �̅� − 𝑎1�̅� Es recomendable armar una tabla para tener la información más organizada n = 7 𝒙𝒊 𝒚𝒊 𝒙𝒊𝒚𝒊 𝒙𝒊 𝟐 1 0,5 0,5 1 2 2,5 5 4 3 2 6 9 4 4 16 16 5 3,5 17,5 25 6 6 36 36 7 5,5 38,5 49 ∑(𝒔𝒖𝒎𝒂𝒕𝒐𝒓𝒊𝒂) 28 24 119,5 140 Con la tabla completa reemplazamos los valores obtenidos en la formulas: 𝑎1 = 7 ∗ 119,5 − 28 ∗ 24 7 ∗ 140 − (28)2 = 47 56 ~0,84 x̅ = ∑ xi n = 28 7 = 4 y̅ = ∑ 𝑦𝑖 n = 24 7 = 3,43 𝑎0 = 3,43 − 0,84 ∗ 4 = 0,07 7 Reemplazamos los coeficientes en la fórmula de la recta de regresión. Entonces, el ajuste por mínimos cuadrados es: 𝑦 = 0,07 + 0,84 𝑥 Error estándar de estimación 𝑺𝒆 El error estándar de estimación mide la dispersión de los valores observados alrededor de la recta de regresión. 𝑺𝒆 = √ ∑ 𝒚𝒊 𝟐 − 𝒂𝟎 ∑ 𝒚𝒊 − 𝒂𝟏 ∑ 𝒙𝒊𝒚𝒊 𝒏 − 𝟐 Mientras mayor sea el 𝑺𝒆 mayor será la dispersión que los datos presentan.8 Ejemplo: Calcular el error estándar de estimación para el ejemplo anterior Por empezar armo una tabla para organizar la información y poder calcular con mayor facilidad n = 7 𝒙𝒊 𝒚𝒊 𝒙𝒊𝒚𝒊 𝒚𝒊 𝟐 1 0,5 0,5 0,25 2 2,5 5 6,25 3 2 6 4 4 4 16 16 5 3,5 17,5 12,25 6 6 36 36 7 5,5 38,5 30,25 ∑(𝒔𝒖𝒎𝒂𝒕𝒐𝒓𝒊𝒂) 28 24 119,5 105 Se = √ 105 − 0,07 ∗ 24 − 0,84 ∗ 119,5 7 − 2 = √ 2,94 5 = 0,76 Tipos de correlación en un gráfico de dispersión Con base en el comportamiento que toman las variables de estudio, podemos encontrar 3 tipos de correlación: Positiva, negativa y nula. Correlación positiva Se presenta cuando una variable aumenta o disminuye y la otra también, respectivamente. Hay una relación proporcional. Por ejemplo para un vendedor de autos, si él vende más autos (variable 1), va a ganar más dinero (variable 2). 9 Correlación negativa Se presenta cuando una variable se comporta de forma contraria a la otra, es decir que si una variable aumenta, la otra disminuye. Hay una relación inversa proporcional. Por ejemplo para la construcción de un edificio, entre más trabajadores estén construyendo un edificio (variable 1), menos tiempo se necesitará para tenerlo listo (variable 2). Correlación nula Si no se encuentra un comportamiento entre las variables, existe una correlación nula. Ejemplo: Vamos a ver desde una problemática empresarial, un ejemplo resuelto de diagrama de dispersión para el área de calidad. Imagina que una litográfica está abriendo una nueva área de producción para la impresión de posters, y en este momento se encuentra haciendo todos los ensayos y pruebas para determinar la cantidad de tinta de cada color que deberían tener las maquinas. Como prueba inicial, han decidido establecer la relación de errores de impresión según el grado de llenado de los recipientes de tinta de la máquina. Las variables a estudiar para este ejemplo de grafico de dispersión en calidad son: 10 • Cantidad de tinta en litros • Número de errores de impresión El departamento de control de calidad hace 50 corridas o pruebas durante 5 días continuos. Los resultados, a continuación: Ubicamos los ejes según las variables que tenemos. Al estar el número de errores influenciado por la cantidad de tinta, lo ubicamos como el eje y. Por consiguiente, el eje x es la cantidad de tinta. Ahora sí, hacemos el gráfico de dispersión. Podemos ver claramente que la relación entre un aumento en los litros de tinta, impacta directamente en el número de errores en la impresión de posters, es decir que hay una correlación positiva. 11 Coeficiente de determinación Explica qué porcentaje de las variaciones de la variable dependiente “y” puede explicarse por las variaciones de la variable independiente “x”, de esta manera si todos los puntos del diagrama de dispersión se encontraran perfectamente ubicados sobre la recta de regresión este coeficiente seria uno, es decir, existe una correlación perfecta entre ambas variables en estudio. A medida que disminuye este valor también disminuye la fuerza con que estas dos variables están relacionadas. Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será. El coeficiente de determinación se calcula como: r2 = ( Sxy SxSy ) 2 Dónde: • Sxy es la covarianza Sxy = ∑(𝑥 − �̅�)(𝑦 − �̅�) 𝑛 • Sx es la desviación estándar para la variable x Sx = √ ∑(𝑥 − �̅�)2 𝑛 • Sy es la desviación estándar para la variable y Sy = √ ∑(𝑦 − �̅�)2 𝑛 12 Coeficiente de correlación El coeficiente de correlación de Pearson mide la fuerza y el sentido de una relación lineal entre dos variables cuantitativas. El coeficiente de correlación toma valores entre -1 y +1. Si el valor es positivo se dice que hay una relación directa o positiva, si el valor es negativo se dice que la relación es inversa o negativa. La fuerza de la asociación lineal la determina el valor absoluto del coeficiente, mientras más cerca este del valor 1 más fuerte será la relación. Si el valor de coeficiente es próximo a cero, se dice que la relación es débil. El coeficiente de correlación se calcula como la raíz cuadrada del coeficiente de determinación. 𝑟 = √𝑟2 Por lo que: r = Sxy SxSy Como habíamos dicho anteriormente el coeficiente de correlación puede tomar valores entre -1 y 1. A partir de esto podemos establecer la siguiente tabla. 𝟎 , − + 𝟎, 𝟎𝟗 − + NULA 𝟎, 𝟏𝟎 , − + 𝟎, 𝟏𝟗 − + MUY DÉBIL 𝟎, 𝟐𝟎 , − + 𝟎, 𝟒𝟗 − + DÉBIL 𝟎, 𝟓𝟎 , − + 𝟎, 𝟔𝟗 − + MODERADA 𝟎, 𝟕𝟎 , − + 𝟎, 𝟖𝟒 − + SIGNIFICATIVA 𝟎, 𝟖𝟓 , − + 𝟎, 𝟗𝟓 − + FUERTE 𝟎, 𝟗𝟔 , − + 𝟏 − + PERFECTA 13 Esta tabla indica que tan fuerte o tan débil es la relación entre las variables, podemos ver que a medida que el valor absoluto del coeficiente de correlación se aproxima a 1, la relación que hay entre la recta estimada y la dispersión de datos es perfecta, mientras que si toma valores cercanos a cero la relación será débil o nula. En el primer diagrama podemos ver que el coeficiente de correlación es cero ya que no se observa que haya algún tipo de relación lineal, mientras que en el último diagrama el coeficiente de correlación es 1 porque la relación entre las variables x e y es prácticamente lineal. 14 Ejemplo: Calculemos el coeficiente de correlación para el primer ejemplo. n = 7 𝒙𝒊 𝒚𝒊 (𝒙 − �̅�) (𝒚 − �̅�) (𝒙 − �̅�) 𝟐 (𝒚 − �̅�)𝟐 (𝒙 − �̅�)(𝒚 − �̅�) 1 0,5 -3 -2,93 9 8,5849 8,79 2 2,5 -2 -0,93 4 0,8649 1,86 3 2 -1 -1,43 1 2,0449 1,43 4 4 0 0,57 0 0,3249 0 5 3,5 1 0,07 1 0,0049 0,07 6 6 2 2,57 4 6,6049 5,14 7 5,5 3 2,07 9 4,2849 6,21 ∑. 28 24 0 -0,01 28 22,7143 23,5 x̅ = ∑ xi n = 28 7 = 4 y̅ = ∑ 𝑦𝑖 n = 24 7 = 3,43 Sxy = ∑(𝑥 − �̅�)(𝑦 − �̅�) 𝑛 = 23,5 7 = 3,36 Sx = √ ∑(𝑥 − �̅�)2 𝑛 = √ 28 7 = 2 Sy = √ ∑(𝑦 − �̅�)2 𝑛 = √ 22,7143 7 = 1,80 r = Sxy SxSy = 3,36 2 ∗ 1,80 = 0,93 Conclusión: el coeficiente de correlación es positivo por lo que la correlación es positiva y de acuerdo al valor obtenido podemos decir que hay una correlación fuerte por lo tanto la relación entre las variables x e y es casi lineal.
Compartir