Logo Studenta

ANALISIS DE REGRESION Y CORRELACION

¡Este material tiene más páginas!

Vista previa del material en texto

Lección 4.1: Análisis de regresión y correlación
1. Definiciones
Definiciones
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias, a través de este análisis se trata de determinar el grado de relación o correspondencia entre dos conjuntos de valores denominados variables. Cuando la relación tiene un valor positivo significa que a valores altos en una variable corresponden valores altos en la otra variable, y la relación con signo negativo significa que las variables están relacionadas de manera inversa de modo que cuando el valor aumenta en una, disminuye en la otra, las variables estudiadas asumen los nombres de: variable dependiente representada por Y, la variable independiente representada por X.
Variable dependiente (Y): 
la variable que se pronostica o estima.
Variable independiente (X):
la variable que proporciona la base para la estimación.
A partir de estas variables se puede realizar:
Análisis de correlación:
para lo cual se usa un grupo de técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables.
Diagrama de dispersión: 
Es la gráfica que describe la relación entre las dos variables de interés.
El coeficiente de determinación, r2 
es la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X.  El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.
El coeficiente de correlación (r)
es una medida de la intensidad de la relación entre dos variables.  Requiere datos con escala de intervalo o de razón (variables),
y puede tomar valores entre -1.00 y 1.00.
2. Análisis de regresión y correlación simple
Análisis de regresión y correlación simple
Es común que las personas tomen decisiones personales y profesionales basadas en predicciones de sucesos futuros, para hacer estos pronósticos, se basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar, si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con un evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones.
Cualquier método estadístico que busque establecer una ecuación que permita estimar el valor desconocido de una variable a partir del valor conocido de una o más variables, se denomina análisis de regresión.
Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza de una relación entre dos variables.
El término regresión fue utilizado por primera vez por el genetista y estadístico inglés Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la altura de los hijos de padres altos tendía a retroceder, o “regresar”, hacia la talla media de la población. regresión fue el nombre que le dio al proceso general de predecir una variable, (la talla de los niños) a partir de otra (la talla de los padres).
Hoy en día, esta tendencia de miembros de cualquier población que están en una posición extrema (arriba o debajo de la media poblacional) en un momento, y luego en una posición menos extrema en otro momento, (ya sea por sí o por medio de sus descendientes), se llama efecto de regresión.
En el análisis de regresión se desarrolla una ecuación de estimación, es decir, una fórmula matemática que relaciona las variables conocidas con las desconocidas, luego de obtener el patrón de dicha relación, se aplica el análisis de correlación para determinar el grado de relación que hay entre las variables.
3. Diagrama de dispersión
Diagrama de dispersión
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta de una dispersión de puntos tal que cada punto representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información, visualmente se pueden determinar los patrones que indican como las variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de línea o ecuación de estimación que describe a dicha relación.
El diagrama de dispersión es muy útil para estudiar relaciones entre dos variables cuantitativas. Se dibuja un sistema de coordenadas cartesianas en el que se representan los valores que toman las dos variables para cada sujeto o unidad de análisis. Se acostumbra asignar la variable independiente al eje horizontal (comúnmente denominado eje X) y la variable dependiente al eje vertical (eje Y). 
La nube resultante de puntos permite evaluar si existe relación entre las dos variables y la naturaleza de tal relación, pudiendo ser lineal, curvilínea, exponencial, logarítmica, cíclica, creciente, decreciente, etc. o podemos visualizar también si no hay relación aparente entre las variables.
Para interpretar un gráfico de dispersión debe mirarse el patrón general que siguen los puntos, este patrón debería revelar la dirección, forma y fuerza de la relación entre las dos variables.
Para poder entender los mencionado anteriormente podemos considerar los siguientes ejemplos:
Los gráficos de las figuras a y b corresponden a datos de una muestra aleatoria de 56 hospitales participantes en el proyecto SENIC (Study on the Efficacy of Nosocomial Infection Control). El objetivo fundamental del Proyecto era determinar si los programas de vigilancia y control de infecciones habían reducido la tasa de infección hospitalaria en una localidad.
En el grafico a) se está representado el número promedio de camas en el hospital durante el período de estudio y el número promedio de pacientes hospitalizados por día durante el período de estudio. En el gráfico b) se muestra la relación entre duración promedio de la estadía de todos los pacientes en el hospital (en días) y edad promedio de todos los pacientes del hospital (en años). 
¿Qué nos dicen o como se tendría que interpretar los gráficos acerca de la relación entre las variables respectivas?
El grafico que corresponde al inciso a) nos muestra que el número de camas y número de pacientes están fuertemente relacionados, cuando una variable aumenta la otra también aumenta, es decir, entre ambas variables existe una asociación positiva, además podemos proponer que la relación entre ambas variables es lineal ya que una línea recta aproximaría bastante bien la tendencia general de la nube de puntos.
El grafico correspondiente a b) evidencia que no parece haber relación entre el tiempo de internación y la edad del paciente. Si nos ubicamos en alguna edad particular, digamos 50 años, podemos encontrar pacientes cuya internación tuvo una duración de cualquier magnitud. La nube de puntos no presenta una tendencia particular.
Como un segundo ejemplo podemos analizar las siguientes figuras:
En la figura correspondiente al inciso a) se ha representado la tasa de nacimiento cruda (número de nacimientos cada 1000 habitantes) y el número de televisores cada 100 habitantes para 26 naciones (desarrolladas y en vías de desarrollo). Fuente: Statistical Abstract of the United States, 1995 and Human Development  Report, 1995, Oxford University Press.  En la Figura b) se muestran datos ficticios de dos variables X e Y.
¿Qué nos dicen o como se interpretaría los gráficos de estas Figuras acerca de la relación entre las variables?
La figura a) muestra que la tasa de natalidad está inversamente relacionada con el número de televisores cada 100 habitantes. Cuando el número de televisores aumenta, la tasa de natalidad disminuye, además, el decrecimiento no es lineal (una línea recta no es un buen modelo para el tipo de relación que se observa entre las dos variables); cuando el número
de televisores es bajo (cercano a cero), un aumento de 20 televisores por cada 100 habitantes produce una importante disminución de la tasa de natalidad, mientras quesi el número de televisores es alto (más de 40), un aumento de la misma magnitud en el número de televisores produce una disminución despreciable en la tasa de natalidad; la relación entre las dos variables podría describirse como exponencial negativa.
La figura correspondiente al inciso b). X; Y están fuertemente relacionadas, podemos proponer que la relación entre ambas es curvilínea. No podemos hablar de dirección de la relación ya que es en parte creciente y en parte decreciente. 
Al estudiar la relación entre dos variables CUANTITATIVAS. En general interesa:
·         Investigar si existe asociación entre las dos variables.
·         Cuantificar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación.
·         Estudiar la forma de la relación y en lo posible proponer un modelo matemático para la relación.
·         Predecir una variable a partir de la otra usando el modelo propuesto (REGRESIÓN)
4. Regresión de función lineal
Regresión de función lineal
Una técnica estadística que establece una ecuación para estimar el valor desconocido de una variable, a partir del valor conocido de otra variable, (en vez de valores de muchas otras variables) se denomina análisis de regresión simple.” Por lo tanto, el análisis de regresión lineal simple, es el proceso general de predecir una variable (Y) a partir de otra (X).
Un modelo matemático es una función matemática que propone la forma de relación entre la variable dependiente (Y) y la o las variables independientes.  La función más simple para la relación entre dos variables es la función lineal, cuya ecuación seria.
Y = a + b * x
Un modelo determinístico supone que, bajo condiciones ideales, el comportamiento de la variable dependiente puede ser totalmente descripto por una función matemática de las variables independientes (o por un conjunto de ecuaciones que relacionen las variables). Es decir, en condiciones ideales el modelo permite predecir sin error el valor de la variable dependiente.   
Por ejemplo: Ley de la Gravedad: Podemos predecir exactamente la posición, en cada instante de tiempo, de un objeto que cae libremente en el vacío.
Un modelo estadístico permite incorporar un componente aleatorio en la relación. Debido a este componente aleatorio, las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de predicción.
Ejemplo: Relación de la altura con la edad en niños. Niños de la misma edad seguramente no tendrán la misma altura. Sin embargo, a través de un modelo estadístico es posible concluir que la altura aumenta con la edad, es más, podríamos predecir la altura de un niño de cierta edad y asociarle un error de predicción que tiene en cuenta los errores de medición y la variabilidad entre individuos.   En problemas biológicos, trabajando en “condiciones ideales” es posible evitar los errores de medición, pero no la variabilidad individual, por eso es indispensable incluir el componente aleatorio en los modelos estadísticos. 
Las relaciones entre las variables pueden ser directas o también inversas.
Relación directa: 
la pendiente de esta línea es positiva, porque la variable Y crece a medida que la variable X también lo hace
Relación inversa: 
La pendiente de esta línea es negativa, porque a medida que aumenta el valor de la variable Y, el valor de la variable X disminuye.
Variable independiente (x)
En el análisis de regresión una variable cuyo valor se suponga conocido y que se utilice para explicar o predecir el valor de otra variable de interés se llama variable independiente; se simboliza con la letra X. Otros nombres alternativos para la variable independiente (X), son variable explicatoria, variable predictora y en ocasiones variable regresora.
Variable dependiente (y) 
En el análisis de regresión una variable cuyo valor se supone desconocido y que se explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y. La variable dependiente, al igual que la variable independiente es llamada de diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.
4. Regresión de función lineal
4.1. Métodos de mínimos cuadrados
Métodos de mínimos cuadrados
El método común que se utiliza para ajustar una línea a los datos muéstrales indicados en el diagrama de dispersión, se llama método de mínimos cuadrados. La línea se deriva en forma tal que la suma de los cuadrados de las desviaciones verticales entre la línea y los puntos individuales de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a los datos muéstrales, y los supuestos de este método son:
·         El error es cero.
·         Los datos obtenidos de las muestras son estadísticamente independientes.
·         La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muéstrales, por el método de mínimos cuadrados se llama línea de regresión estimada o línea de regresión muestral. dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es aquella en que la distancia que hay entre los datos y la supuesta recta es la menor posible, y se calcula mediante la siguiente formula:
Para calcular el valor de b (pendiente), que representa el grado de inclinación que tiene la recta, se emplea la siguiente formula:
Para calcular el valor de a (ordenada al origen), que representa el punto en que la recta corta al eje de las Y, se emplea la siguiente formula:
Las variables a y b son constantes numéricas que son las que se calculan mediante el método de mínimos cuadrados.
4. Regresión de función lineal
4.2. Error estándar de estimación
Error estándar de estimación
El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo medir la confiabilidad de la ecuación de estimación que hemos desarrollado. El error estándar de estimación mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión y se representa como Se. Su fórmula es la siguiente:
Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si Se= 0, se espera que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente, en este caso todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos, como se muestra en la siguiente figura:
El error estándar de estimación tiene la misma aplicación que de la desviación estándar que se vio en los temas anteriores. Esto es, suponiendo que los puntos observados tienen una distribución normal alrededor de la recta de regresión, podemos esperar que:
·         68% de los puntos están dentro de ± 1Se
·         95.5% de los puntos están dentro de ± 2Se
·         99.7% de los puntos están dentro de ± 3Se
El error estándar de la estimación se mide a lo largo del eje “Y”, y no perpendicularmente desde la recta de regresión. Las suposiciones son:
·         Los valores observados para Y tienen distribución normal alrededor de cada valor estimado de yˆ
·         La varianza de las distribuciones alrededor de cada valor posible de yˆ es la misma. Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de la recta de regresión podría diferir del error estándar en otro punto.
4. Regresión de función lineal
4.3. Procedimiento para realizar un análisis de regresión lineal simple
Procedimiento para realizar un análisis de regresión lineal simple
1 obtención de los datos muéstrales.
2.      Los datos obtenidos se tabulan. (tener cuidado en determinar correctamente quien es la variable independiente y dependiente)
3.      La información se gráfica en un diagrama de dispersión, estableciéndose la posible relación entre las dos variables
4. Se calcula la pendiente.
5. Se calcula la ordenada al origen.
6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.7. Se traza la línea estimada en el diagrama de dispersión.
8. Se calcula el error estándar de estimación.
Ejemplo
Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.
Realice una regresión para estimar las ventas de dos sucursales que tienen 14,000 y 30,000 personas como potenciales clientes respectivamente
Datos
n = 10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos
1. Tabular los datos obtenidos:
2.      Graficar los datos en un diagrama de dispersión y determinar la posible relación entre las variables X Y.
3. Realizar los cálculos correspondientes
4.      Calculo de la pendiente.
5.    Calculo de la ordenada al origen
6.    Obtener la ecuación que mejor se ajuste
7.      Trazar la línea estimada
8.      Calcular el error estándar de estimación.
Tiene un error estimado de 13.000 pesos.
5. Regresión de función Parabólica
Regresión de función Parabólica
Supongamos que, al hacer la representación gráfica correspondiente a la distribución bidimensional, hemos obtenido la figura en la cual se observa una clara relación entre las dos variables, pero desde luego, esa relación no es lineal. Por tanto, debemos buscar la función que ha de describir la dependencia entre las dos variables.
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.
La expresión general de un polinomio de 2º grado es:
donde a sigue siendo la intersección con el eje de ordenadas Y, y b y c están relacionados con la pendiente y la tasa de variación. 
La ecuación de predicción de la parábola que ajusta un conjunto de n  puntos de la forma (xi ,yi ), 1= 1, 2, ……….., n, tiene por ecuación:
Donde  son los estimadores mínimo cuadráticos de a , b  y c  determinados al resolver el sistema de ecuaciones normales:
Estas ecuaciones se las puede resolver por calculo diferencial y por cálculos algebraicos y matrices, en esta ocasión aplicaremos el cálculo de matrices. De tal manera que si:
·         ∆: matriz de coeficientes.
·         ∆a: matriz de coeficientes en la que la columna de coeficientes de a es reemplazada por la columna de los segundos miembros de las ecuaciones.
·         ∆b: matriz de coeficientes en la que la columna de coeficientes de b es reemplazada por la columna de los segundos miembros de las ecuaciones.
·         ∆c: matriz de coeficientes en la que la columna de coeficientes de c es reemplazada por la columna de los segundos miembros de las ecuaciones.
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss igual que en el caso de la regresión lineal simple.
6. Regresión de función exponencial
Regresión de función exponencial
El problema de ajustar un modelo potencial, de la forma Y=ABX se reduce al de la función lineal, con solo tomar logaritmos.
Tomando logaritmos en la expresión de la función exponencial, obtendremos:
Y=ABX
logY = logA + logB X
También se trata de la ecuación de una recta Y=a+bX, pero ahora ajustándola a logY y a X; de modo que, para obtener el parámetro A del modelo exponencial, basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).
También este tipo de modelos lo podemos ver de esta manera:
Si el modelo exponencial es del tipo  , el modelo exponencial se convierte en un modelo lineal definiendo las nuevas variables
y•= log(y); a• =log(a) y b•= log (b), pues en este caso y• = a• + b• x. después de haber aplicado logaritmo decimal y obtenido: log(y) = log(a) + log(b) * x
Así, el coeficiente de correlación lineal estará dado por
Los estimadores de a y b serán:
El modelo de predicción será: 
Para estimar un valor de y dado un valor  
7. Regresión de función potencial
Regresión de función potencial
El problema de ajustar un modelo potencial, de la forma Y=AXb 
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:
Y = AXb
logY = logA +b logX
Como vemos es la ecuación de una recta: Y=a+bX, donde ahora a = logA. De modo que el problema es sencillo, basta con transformar Y en logY y X en logX y ajustar una recta a los valores transformados. El parámetro b del modelo potencial coincide con el coeficiente de regresión de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).
También este tipo de modelos lo podemos ver de esta manera:
Si el modelo exponencial es del tipo ,  el modelo exponencial se convierte en un modelo lineal definiendo las nuevas variables
y•= log(y), a• =log(a), b•= b y x• = log (x), pues en este caso y• = a• + b• x. después de haber aplicado logaritmo decimal y obtenido: log(y) = log(a) + log(x) * b
Así, el coeficiente de correlación lineal estará dado por
Los estimadores de a y b serán:
8. Análisis de correlación
Análisis de correlación
Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos responder a las siguientes preguntas
·         ¿Existe dependencia estocástica entre ellas?
·         ¿Cuál es el grado de dependencia?
El análisis de correlación nos dará respuesta a dichas preguntas, mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos variables, el análisis de correlación es la herramienta estadística que podemos usar para describir el grado o fuerza en el que una variable esta linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se mueven dos variables, y por lo tanto, con cuanta confiabilidad se puede estimar una variable con ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número, una medida de la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.
El análisis de correlación es la herramienta estadística de que nos valemos para describir el grado de relación que hay entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión lineal simple para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente, a continuación podemos observar diagramas de dispersión con correlación débil y fuerte.
Existen dos medidas para describir la correlación entre dos variables: el  coeficiente de determinación y el coeficiente de correlación.
9. Coeficiente de correlación y determinación
Coeficiente de correlación y determinación
La medida más importante que también ajusta la línea de regresión estimada en los datos muestrales en los que está basada, es el coeficiente de determinación muestral, este es igual a la proporción de la variación total de los valores de la variable dependiente, “Y”, que puede explicarse por medio de la asociación de Y con X medida por la línea de regresión estimada.
El coeficiente de determinación es la manera primaria de medir el grado, o fuerza, de la relación que existe entre dos variables, X y Y.
El coeficiente de determinación muestral se representa como r2, y mide
exclusivamente la fuerza de una relación lineal entre dos variables.
El Cálculo del coeficiente de determinación se lleva a cabo con la siguiente
formula:
9. Coeficiente de correlación y determinación
9.1. Coeficiente muestral de correlación
Coeficiente muestral de correlación
La raíz cuadrada del coeficiente de determinación muestral, es un índice alternativo común del grado de asociación entre dos variables cuantitativas.  Esta medida se llama coeficiente de correlación muestral (r) y es unestimador puntual del coeficiente de correlación poblacional (ρ).
El coeficiente de correlación muestral es la segunda medida con que puede describirse la eficacia con que una variable es explicada por otra, así pues, el signo de r indica la dirección de la relación entre las dos variables X y Y.
El siguiente esquema representa adecuadamente la intensidad y la dirección del coeficiente de correlación muestral.
El cálculo del coeficiente de correlación muestral se lleva a cabo con la siguiente formula:
10. Error típico de la estima y margen de seguridad
Error típico de la estima y margen de seguridad
Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar un intervalo de confianza que le dé seguridad a nuestros cálculos.
Como se ha visto, cuando se utilice el método de mínimos cuadrados, coeficientes de regresión, a y b son estimadores insesgados, eficientes y consistentes de α y β, también aquí es muchas ocasiones es deseable establecer intervalos de confianza. Los intervalos de confianza se calculan con la siguiente fórmula:
Aplicando todos los acápites descritos anteriormente a continuación sugerimos un procedimiento para realizar un análisis de correlación lineal Simple con todos los estadígrafos necesarios y utilizados en este tipo de análisis y su respectiva interpretación.
1. Obtención y tabulación de los datos muestrales.
2. La información se gráfica en un diagrama de dispersión.
3. Calcular la pendiente y ordenada al origen.
4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
5. Se traza la línea estimada en el diagrama de dispersión.
6. Calcular el error estándar de estimación.
7. Calcular el coeficiente de determinación.
8. Determinar el coeficiente de correlación.
9. Determinar el intervalo de confianza.
10. Determinar el intervalo de predicción.
Ejemplo numérico
Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales en miles de pesos y los años de experiencia de diez vendedores. Estime las ventas anuales para un vendedor con 7 años de experiencia.
1. Obtención y tabulación de los datos muéstrales.
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la pendiente y ordenada al origen.
4.- Ecuación que mejor se ajusta.
5. Trazo de la línea estimada en el diagrama de dispersión
6. Calcular el error estándar de estimación.
7. Calcular el Coeficiente de Determinación.
El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de debe a otros factores.
8. Calcular el Coeficiente de Correlación
Este número nos indica que las variables X Y tienen una correlación positiva intensa. o fuerte.
9. Determinar el intervalo de confianza al 95%
10. Determinar el intervalo de predicción para un vendedor con 9 años de experiencia se tiene
Sustituyendo tenemos
Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.

Continuar navegando