Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA UNIDAD N°7: Teoría 1.- Regresión Hemos visto hasta ahora diversas técnicas estadísticas que nos sirven para analizar el comportamiento de las variables pero en forma separada una de otra, sin detenernos a ver si existe alguna vinculación entre el comportamiento de una con respecto a otra. Sin embargo, en muchas situaciones de la realidad podemos observar que una variable puede influir sobre otra. Por ejemplo, decimos que si aumenta el número de horas, durante un cultivo de bacterias, éstas aumentarán también por unidad de volumen. Cuando se estudian empíricamente dos variables y de forma conjunta, la relación entre ellas puede ser debida, bien a una verdadera dependencia entre las variables en cuestión, o bien, a relaciones directas o indirectas con otras variables no observadas incluso pueden ser debidas a la casualidad. Hay muchas situaciones prácticas en las cuales se presume la existencia de una relación de dependencia entre las variables, por ejemplo, el consumo de combustible de un vehículo y el kilometraje realizado; la cantidad de precipitación caída y el rendimiento de cosechas; etc. Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir, en mayor o menor grad, valores en una variable a partir de otra. Dentro del estudio de las variables estadísticas bidimensionales vamos a abordar el análisis de la existencia de relaciones o dependencias entre las dos variables x e y que forman la variable bidimensional. Básicamente, la relación entre las dos variables puede ser de dos tipos: funcional, cuando exista una relación matemática exacta que ligue ambas variables (ej. el radio y el área de un círculo), o aleatoria, cuando, aunque no exista entre las variables una relación exacta, se puede observar (aunque no siempre es el caso) una cierta tendencia entre los comportamientos de ambas (ej. el peso y la altura de un individuo). El primer paso para el estudio de la relación entre las variables consiste en la construcción y observación de un diagrama de dispersión. El problema de la regresión se concreta entonces en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función permitirá entonces obtener, al menos de forma aproximada, una estimación del valor de una de las variables a partir del valor que tome la otra. Cuando la función sea del tipo 𝒚 = 𝒇(𝒙), hablaremos de regresión de y sobre x (a partir de los valores de x se pueden estimar los de y). Al contrario, la regresión de x sobre y se basará en una función del tipo 𝑥 = 𝑓(𝑦). Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de puntos del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección del tipo de línea de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el tipo de línea se elegirá a partir de la forma de la nube de puntos. Cuando dicha nube se distribuya aproximadamente a lo largo de una línea recta ajustaremos una recta de regresión. Será el caso particular de la regresión lineal. En este caso importante, la regresión de y sobre x vendrá dada entonces por 𝑦 = 𝑎 + 𝑏𝑥 (1) donde a y b son dos parámetros que habremos de determinar. Gráficamente “a” será la ordenada de la recta en el origen (es decir el valor de y para x = 0) y “b” la pendiente de ésta. Aunque aquí nos concentraremos, por simplicidad, en la regresión lineal, la línea de regresión puede responder a otras formas funcionales. Como se muestra a continuación: 2.-Ajuste de una recta de regresión Dentro del estudio de la regresión lineal vamos a analizar cómo se pueden determinar los parámetros a y b de la recta de regresión dada por (1), es decir, en el caso de la regresión de y sobre x (el caso contrario es similar). Como ya se ha indicado dicha recta de regresión nos permitirá obtener valores aproximados de y conocidos los de x. Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos cuadrados. Veamos a continuación en qué consiste. Sea una muestra de tamaño en que la variable estadística bidimensional toma los valores (𝑥 , 𝑦 ), (𝑥 , 𝑦 ), . . . , (𝑥 , 𝑦 ). A cada valor xi de la variable x le corresponde entonces un valor yi de la variable y, pudiendo además asociársele un valor y*i, que sería el dado por la recta que queremos calcular. Es decir y * i = a + bxi . Llamemos di a la diferencia entre los dos valores, observado y dado por la recta, de la variable y en cada punto (ver Figura 2) di = y * i – yi . Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas las rectas posibles, dichas distancias di deberán ser lo más pequeñas posible. Es decir, hay que minimizar los di . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen desviaciones positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión o, utilizando la expresión para y*i Diferencia entre el valor observado yi y el valor ajustado y*i . Para encontrar los valores de a y b que hacen mínima esa expresión se deriva M respecto a esos dos parámetros y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios y no se indica que el índice va desde i = 1 hasta n). No resolveremos aquí el sistema que se plante a, sino que, solamente escribimos las expresiones resultantes de dichas valores de a y b respectivamente: (3) Donde �̅� = ∑ e 𝑦 = ∑ La expresión (3) es además interesante ya que indica que la recta de regresión debe pasar por (�̅�,𝑦 ), es decir, por el centro de la nube de puntos. 3.- Covarianza y coeficientes de regresión Las expresiones para los parámetros de la recta de regresión se pueden simplificar más introduciendo una importante definición. Se define la covarianza de una muestra bidimensional a 𝐶𝑜𝑣: 𝑠 = ∑ (𝑥 − �̅�). (𝑦 − 𝑦) 𝑛 − 1 (2) Por otra parte, como s2x se escribe como: 𝑠 = ∑ (𝑥 − �̅�) 𝑛 − 1 De forma que la expresión para el coeficiente b de la recta de regresión de y sobre x puede escribirse como la razón entre la covarianza y la varianza de x. A dicho coeficiente se le llama coeficiente de regresión de y sobre x y se denota por byx. 𝑏 = Observaciones: a) De igual manera se puede obtener la recta de regresión de X sobre Y (X = a + bY), minimizando en este caso las distancias horizontales (x *i – xi) a la recta. El resultado es que el coeficiente de regresión de x sobre y (denotado por bxy ). b) Ambas rectas de regresión no coinciden en general y ambas se cortan en el punto (�̅�, 𝑦). c) La recta de mínimos cuadrados es un modelo de ajuste que llamamos Regresión lineal muestral, se lo como : 𝒀 = 𝒂 + 𝒃𝒙 ,siendo a la ordenada al origen (el valor de cuando vale 0) y b (coeficiente de regresión) la pendiente de la recta de regresión: el cambio que se produce en Y cuando X varía una unidad. Si b > 0 , las dos variablesaumentan o disminuyen a la vez. Si b < 0, cuando una variable aumenta la otra disminuye. d) El estimador del parámetro σ2 no puede obtenerse por los métodos anteriores. e) Para la regresión de, X sobre Y, sacamos conclusiones análogas cuando intentamos hacer la regresión de X sobre Y, pero para calcular la recta de regresión de X sobre Y es INCORRECTO despejar de la ecuación anterior, ya que esta relación expresa la regresión de X sobre 𝑌. La regresión de X sobre Y se hace aproximando X por 𝑋. PREDICCIÓN: Cuando hemos estimado un modelo de regresión, por ejemplo el lineal: Y= a+ b X puede que deseemos interpolar o extrapolar con la función de ajuste y así predecir valores de la variable explicada, para distintos valores de la variable explicativa X . Al hacerlo así se está empleando el modelo con la finalidad de inferencia estadística. Siempre se debe ser cuidadoso con las predicciones, pues a medida que nos alejemos de los datos de partida menos explicativo será el modelo; y hay que tener en consideración que siempre se predicen valores promedios. Todo modelo debe ir acompañado de una medida de la bondad del ajuste para conocer el grado de confianza o fiabilidad del mismo, pero hay que saber que al usarlo con fines de predicción, si el coeficiente de determinación es elevado, lo único que podemos decir es que el modelo es bueno para hacer predicciones que sean interpolaciones entre los datos observados, pero al hacer extrapolaciones la confianza siempre disminuye. Esto se debe tener en cuenta siempre que se emplee un modelo de regresión con fines predictivos 4.-El Análisis de Correlación Simple En oposición al análisis de regresión, el análisis de correlación mide el grado de relación entre las variables. Nos limitamos al análisis de correlación lineal simple que se relaciona con la medición de la relación entre sólo una variable independiente y la variable dependiente. Los supuestos de población implícitas en el análisis de correlación simple son: Las dos variables son aleatorias. La relación entre las variables es lineal. Para cada variable, las varianzas de las distribuciones condicionales, dados valores diferentes de la otra variable, son iguales (homocedasticidad). 5.-El Coeficiente de correlación lineal La utilidad de la covarianza como medida de correlación está limitada por el hecho de que depende de las unidades de medida en que se trabaje. Para construir una medida adimensional de la correlación habrá que dividir la varianza por un término con sus mismas dimensiones. De esta forma, se define el coeficiente de correlación lineal r como el cociente entre la covarianza y las desviaciones típicas (o raices cuadradas de las varianzas) de x e y. El coeficiente de correlación de la población es el parámetro 𝜌 y su cuadrado se conoce como coeficiente de determinación. Para la información muestral, el valor estimado del coeficiente de determinación se puede obtener por la fórmula: El valor de r cumple que : -1≤ 𝑟 ≤ 1 y no depende de las unidades en que se miden las variables. Por otra parte, se puede demostrar que la relación entre el coeficiente de correlación ( r) y los coeficientes de regresión es: b yx= r . De igual forma cuando la regresión es x sobre y es : b xy= r Teniendo en cuenta las relaciones vistas anteriormente, se desprende que: −1 ≤ 𝑟 ≤ 1 𝑟 ≥ 0 ↔ 𝐶𝑜𝑣 ≥ 0 (Es decir, cuando el coeficiente de correlación sea positivo, la pendiente de la recta será positiva (al igual que la varianza) y tendremos una correlación directa o positiva). Si |𝑟| ≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Es decir, la nube de puntos está muy próxima a una recta. El signo de la pendiente de la recta coincide con el de r. Si |𝑟| ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo, no es seguro que las dos variables no posean ninguna relación en el caso r=0 , ya que si bien el ajuste lineal puede no ser procedente, tal vez otro tipo de ajuste sí lo sea. Observaciones: Aunque el análisis de la regresión lineal y la derivación del coeficiente de correlación parecen un método muy adecuado para estudiar la relación entre dos variables, hay que indicar que tiene importantes debilidades. En particular: Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. No hay que olvidar que el coeficiente de correlación no es más que una medida resumen. En ningún caso puede substituir al diagrama de dispersión, que siempre habrá que construir para extraer más información. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeficiente de correlación. El que en un caso se obtenga un coeficiente de correlación bajo no significa que no pueda existir correlación entre las variables. De lo único que nos informa es de que la correlación no es lineal (no se ajusta a una recta), pero es posible que pueda existir una buena correlación de otro tipo. Un coeficiente de correlación alto no significa que exista una dependencia directa entre las variables. Es decir, no se puede extraer una conclusión de causa y efecto basándose únicamente en el coeficiente de correlación. En general hay que tener en cuenta que puede existir una tercera variable escondida que puede producir una correlación que, en muchos casos, puede no tener sentido. 6.-Inferencia estadística sobre la regresión En primer lugar es importante hacer la distinción entre las dos variables x e y que intervienen en la regresión lineal. Por una parte, (y ) se considera como la variable dependiente (o respuesta), que tomará diferentes valores dependiendo del valor de x, o variable independiente (o de regresión). Supongamos que en el experimento se toma una muestra aleatoria representada por los pares (xi , yi), donde i = 1, 2, . . . , n. Normalmente, los valores de xi se fijan a priori (antes de realizar el experimento) y por tanto serán los mismos para las diferentes muestras que se puedan tomar. Se consideran entonces que tienen asociado un error despreciable y no son variables aleatorias. Por el contrario, para un valor de x fijo, el yi particular medido podrá variar de una muestra a otra, de forma que, para cada xi , la variable Yi , que engloba a todos los posibles valores de y que se pueden obtener para x = xi , se considerará una variable aleatoria en el muestreo. Tendrá, por lo tanto, una distribución de probabilidad asociada y se podrán definir su valor medio y varianza. Llamaremos µY/x al valor medio de la variable Y para un valor fijo de x y σ 2 Y |x a su varianza. Dichos valores medios dependerán entonces del valor concreto de x que se considere. La hipótesis básica de la regresión lineal es que µY/x está linealmente relacionado con x por la ecuación 𝝁𝒀/𝒙 = 𝜶 + 𝜷𝒙 (4) Esta es la ecuación de regresión lineal poblacional. Donde α y β serán los parámetros poblacionales correspondientes que tendrán que estimarse a partir de una muestra. Los coeficientes de la recta a y b se usarán como los estimadores de dichos parámetros poblacionales. De esta forma, 𝝁𝒀/𝒙 se estimará por : 𝒚∗ = 𝒂 + 𝒃𝒙 (5) que será la ecuación de regresión lineal ajustada o de la muestra. Es importante destacar que para diferentes muestras se obtendrán diferentes valores concretos de a y b, y por lo tanto diferentes rectas de regresión ajustadas, que en general no coincidirán con la recta poblacional dada en (4). El modelo estadístico parala regresión se basa entonces en suponer que todas las 𝝁𝒀/𝒙 caen sobre la recta poblacional y las diferencias encontradas se basan en la limitación del muestreo. En particular, para cada valor fijo de x = xi, un valor concreto de Yi (denotado por yi) podrá expresarse como: 𝑦 = 𝜇 / +𝜀 =∝ +𝛽𝑥 + 𝜀 donde εi es el error aleatorio que tiene en cuenta la diferencia entre el valor observado y el valor medio esperado. Lógicamente se cumplirá que µεi = 0. De aquí, que llamamos a: 𝑦 = ᾳ + 𝛽𝑥 + 𝜀 el modelo de regresión lineal poblacional Por otra parte, al usar la recta ajustada (5), los valores yi medidos se podrán expresar como : 𝑦 = 𝑦∗+ei=𝑎 + 𝑏𝑥 + 𝑒i , donde 𝑒 es el residuo y representa el error en el ajuste. De aquí, que llamamos a: 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 el modelo de regresión lineal muestral Observación: 1.-Una suposición adicional que se debe hacer para simplificar el estudio estadístico de la regresión lineal es que los errores 𝜀 para cada xi tienen todos la misma varianza, denotada por σ 2 . Esto quiere decir que para cada xi los valores muestrales de Yi se distribuyen todos alrededor de su correspondiente µY/xi con la misma dispersión. Es decir, los errores en la medida no han de depender del valor concreto de la variable independiente x. Bajo estas condiciones se puede expresar entonces que σ 2Yi = σ 2𝜀 = σ 2 . σ 2 es por tanto la varianza de las diferentes variables aleatorias Yi . 2.-Otra suposición importante es considerar que las variables aleatorias Yi , para cada x = xi , siguen una distribución normal, es decir, sus errores se distribuyen normalmente alrededor del valor medio. Por tanto, cada Yi tendrá una distribución N(α+βxi , σ). 6.-Contraste de hipótesis Utilizando los conceptos básicos de la teoría muestral y el contraste de hipótesis, ya estudiados en los temas anteriores, se puede elaborar un modelo estadístico de la regresión lineal simple. Ello permite estudiar desde un punto de vista probabilístico los parámetros de la recta de regresión y el concepto de correlación. Si bien podemos realizar contraste de hipótesis para los parámetros poblacionales: ∝ , β y 𝜌 , nos centraremos solamente en el contraste de la hipótesis para este último. Generalmente, la hipótesis nula de interés es que la correlación de población sea 𝜌 = 0, porque si se rechaza esta hipótesis a un nivel 𝛼 específico concluimos que hay una relación real entre las variables. Para ello, tenemos que : H0: 𝜌 = 0 vs. H1: 𝜌 ≠ 0 . Aquí la variable pivotal o estadístico de prueba es 𝑡 = √ √ ~𝑡 . Nota :El que un valor de r sea o no indicativo de correlación dependerá también del número de puntos. Si n es grande, será fácil rechazar H0 y existirá correlación.
Compartir