Logo Studenta

UNIDAD 07-Teoría

¡Estudia con miles de materiales!

Vista previa del material en texto

ESTADÍSTICA 
 UNIDAD N°7: Teoría 
 
 1.- Regresión 
Hemos visto hasta ahora diversas técnicas estadísticas que nos sirven para analizar el comportamiento de las 
variables pero en forma separada una de otra, sin detenernos a ver si existe alguna vinculación entre el 
comportamiento de una con respecto a otra. 
Sin embargo, en muchas situaciones de la realidad podemos observar que una variable puede influir sobre otra. 
Por ejemplo, decimos que si aumenta el número de horas, durante un cultivo de bacterias, éstas aumentarán 
también por unidad de volumen. 
Cuando se estudian empíricamente dos variables y de forma conjunta, la relación entre ellas puede ser debida, 
bien a una verdadera dependencia entre las variables en cuestión, o bien, a relaciones directas o indirectas con 
otras variables no observadas incluso pueden ser debidas a la casualidad. Hay muchas situaciones prácticas en 
las cuales se presume la existencia de una relación de dependencia entre las variables, por ejemplo, el consumo 
de combustible de un vehículo y el kilometraje realizado; la cantidad de precipitación caída y el rendimiento de 
cosechas; etc. 
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables. 
Frecuentemente resulta de interés conocer el efecto que una o varias variables pueden causar sobre otra, e 
incluso predecir, en mayor o menor grad, valores en una variable a partir de otra. 
Dentro del estudio de las variables estadísticas bidimensionales vamos a abordar el análisis de la existencia de 
relaciones o dependencias entre las dos variables x e y que forman la variable bidimensional. Básicamente, la 
relación entre las dos variables puede ser de dos tipos: funcional, cuando exista una relación matemática exacta 
que ligue ambas variables (ej. el radio y el área de un círculo), o aleatoria, cuando, aunque no exista entre las 
variables una relación exacta, se puede observar (aunque no siempre es el caso) una cierta tendencia entre los 
comportamientos de ambas (ej. el peso y la altura de un individuo). 
 El primer paso para el estudio de la relación entre las variables consiste en la construcción y observación de un 
diagrama de dispersión. El problema de la regresión se concreta entonces en ajustar una función a la nube de 
puntos representada en dicho diagrama. Esta función permitirá entonces obtener, al menos de forma 
aproximada, una estimación del valor de una de las variables a partir del valor que tome la otra. Cuando la 
función sea del tipo 𝒚 = 𝒇(𝒙), hablaremos de regresión de y sobre x (a partir de los valores de x se pueden 
estimar los de y). Al contrario, la regresión de x sobre y se basará en una función del tipo 𝑥 = 𝑓(𝑦). 
Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de puntos 
del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección del tipo de línea 
de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el tipo de línea se elegirá a 
partir de la forma de la nube de puntos. Cuando dicha nube se distribuya aproximadamente a lo largo de una 
línea recta ajustaremos una recta de regresión. Será el caso particular de la regresión lineal. En este caso 
importante, la regresión de y sobre x vendrá dada entonces por 
 𝑦 = 𝑎 + 𝑏𝑥 (1) 
donde a y b son dos parámetros que habremos de determinar. Gráficamente “a” será la ordenada de la recta en 
el origen (es decir el valor de y para x = 0) y “b” la pendiente de ésta. Aunque aquí nos concentraremos, por 
simplicidad, en la regresión lineal, la línea de regresión puede responder a otras formas funcionales. Como se 
muestra a continuación: 
 
 
 
 
 
2.-Ajuste de una recta de regresión 
Dentro del estudio de la regresión lineal vamos a analizar cómo se pueden determinar los parámetros a y b de la 
recta de regresión dada por (1), es decir, en el caso de la regresión de y sobre x (el caso contrario es similar). 
Como ya se ha indicado dicha recta de regresión nos permitirá obtener valores aproximados de y conocidos los 
de x. Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos 
cuadrados. Veamos a continuación en qué consiste. Sea una muestra de tamaño en que la variable estadística 
bidimensional toma los valores 
 (𝑥 , 𝑦 ), (𝑥 , 𝑦 ), . . . , (𝑥 , 𝑦 ). 
 A cada valor xi de la variable x le corresponde entonces un valor yi de la variable y, pudiendo además 
asociársele un valor y*i, que sería el dado por la recta que queremos calcular. Es decir y
*
i = a + bxi . 
Llamemos di a la diferencia entre los dos valores, observado y dado por la recta, de la variable y en cada punto 
(ver Figura 2) di = y
*
i – yi . Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre 
todas las rectas posibles, dichas distancias di deberán ser lo más pequeñas posible. Es decir, hay que minimizar 
los di . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen desviaciones 
positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión 
 
o, utilizando la expresión para y*i 
 
 
 Diferencia entre el valor observado yi y el valor ajustado y*i . 
 
Para encontrar los valores de a y b que hacen mínima esa expresión se deriva M respecto a esos dos parámetros 
y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios y no se indica que el 
índice va desde i = 1 hasta n). 
No resolveremos aquí el sistema que se plante 
a, sino que, solamente escribimos las expresiones resultantes de dichas valores de a y b respectivamente: 
(3) 
Donde �̅� =
∑
 e 𝑦 =
∑
 
 
 
 La expresión (3) es además interesante ya que indica que la recta de regresión debe pasar por (�̅�,𝑦 ), es decir, 
por el centro de la nube de puntos. 
 
 
3.- Covarianza y coeficientes de regresión 
Las expresiones para los parámetros de la recta de regresión se pueden simplificar más introduciendo una 
importante definición. Se define la covarianza de una muestra bidimensional a 
𝐶𝑜𝑣: 𝑠 =
∑ (𝑥 − �̅�). (𝑦 − 𝑦)
𝑛 − 1
 
 (2) 
 
Por otra parte, como s2x se escribe como: 
𝑠 =
∑ (𝑥 − �̅�)
𝑛 − 1
 
De forma que la expresión para el coeficiente b de la recta de regresión de y sobre x puede escribirse como la 
razón entre la covarianza y la varianza de x. A dicho coeficiente se le llama coeficiente de regresión de y sobre 
x y se denota por byx. 
 
 𝑏 = 
 
Observaciones: 
a) De igual manera se puede obtener la recta de regresión de X sobre Y (X = a + bY), minimizando en este caso 
las distancias horizontales (x *i – xi) a la recta. El resultado es que el coeficiente de regresión de x sobre y 
(denotado por bxy ). 
b) Ambas rectas de regresión no coinciden en general y ambas se cortan en el punto (�̅�, 𝑦). 
c) La recta de mínimos cuadrados es un modelo de ajuste que llamamos Regresión lineal muestral, se lo 
como : 𝒀 = 𝒂 + 𝒃𝒙 ,siendo a la ordenada al origen (el valor de cuando vale 0) y b (coeficiente de regresión) 
la pendiente de la recta de regresión: el cambio que se produce en Y cuando X varía una unidad. 
 Si b > 0 , las dos variablesaumentan o disminuyen a la vez. 
 Si b < 0, cuando una variable aumenta la otra disminuye. 
 
 
 
d) El estimador del parámetro σ2 no puede obtenerse por los métodos anteriores. 
e) Para la regresión de, X sobre Y, sacamos conclusiones análogas cuando intentamos hacer la regresión de 
X sobre Y, pero para calcular la recta de regresión de X sobre Y es INCORRECTO despejar de la ecuación 
anterior, ya que esta relación expresa la regresión de X sobre 𝑌. La regresión de X sobre Y se hace 
aproximando X por 𝑋. 
PREDICCIÓN: 
Cuando hemos estimado un modelo de regresión, por ejemplo el lineal: Y= a+ b X puede que deseemos 
interpolar o extrapolar con la función de ajuste y así predecir valores de la variable explicada, para distintos 
valores de la variable explicativa X . 
Al hacerlo así se está empleando el modelo con la finalidad de inferencia estadística. Siempre se debe ser 
cuidadoso con las predicciones, pues a medida que nos alejemos de los datos de partida menos explicativo será 
el modelo; y hay que tener en consideración que siempre se predicen valores promedios. 
Todo modelo debe ir acompañado de una medida de la bondad del ajuste para conocer el grado de confianza o 
fiabilidad del mismo, pero hay que saber que al usarlo con fines de predicción, si el coeficiente de 
determinación es elevado, lo único que podemos decir es que el modelo es bueno para hacer predicciones que 
sean interpolaciones entre los datos observados, pero al hacer extrapolaciones la confianza siempre disminuye. 
Esto se debe tener en cuenta siempre que se emplee un modelo de regresión con fines predictivos 
 
4.-El Análisis de Correlación Simple 
En oposición al análisis de regresión, el análisis de correlación mide el grado de relación entre las variables. 
Nos limitamos al análisis de correlación lineal simple que se relaciona con la medición de la relación entre sólo 
una variable independiente y la variable dependiente. 
Los supuestos de población implícitas en el análisis de correlación simple son: 
 Las dos variables son aleatorias. 
 La relación entre las variables es lineal. 
 Para cada variable, las varianzas de las distribuciones condicionales, dados valores diferentes de la otra 
variable, son iguales (homocedasticidad). 
 
5.-El Coeficiente de correlación lineal 
La utilidad de la covarianza como medida de correlación está limitada por el hecho de que depende de las 
unidades de medida en que se trabaje. Para construir una medida adimensional de la correlación habrá que 
dividir la varianza por un término con sus mismas dimensiones. De esta forma, se define el coeficiente de 
correlación lineal r como el cociente entre la covarianza y las desviaciones típicas (o raices cuadradas de las 
varianzas) de x e y. 
El coeficiente de correlación de la población es el parámetro 𝜌 y su cuadrado se conoce como coeficiente de 
determinación. 
Para la información muestral, el valor estimado del coeficiente de determinación se puede obtener por la 
fórmula: 
 
El valor de r cumple que : -1≤ 𝑟 ≤ 1 y no depende de las unidades en que se miden las variables. Por otra 
parte, se puede demostrar que la relación entre el coeficiente de correlación ( r) y los coeficientes de regresión 
es: b yx= r . De igual forma cuando la regresión es x sobre y es : b xy= r 
Teniendo en cuenta las relaciones vistas anteriormente, se desprende que: 
 −1 ≤ 𝑟 ≤ 1 
 𝑟 ≥ 0 ↔ 𝐶𝑜𝑣 ≥ 0 (Es decir, cuando el coeficiente de correlación sea positivo, la pendiente de la recta 
será positiva (al igual que la varianza) y tendremos una correlación directa o positiva). 
 Si |𝑟| ≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y 
viceversa). Es decir, la nube de puntos está muy próxima a una recta. El signo de la pendiente de la 
recta coincide con el de r. 
 Si |𝑟| ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene 
sentido hacer un ajuste lineal. Sin embargo, no es seguro que las dos variables no posean ninguna 
relación en el caso r=0 , ya que si bien el ajuste lineal puede no ser procedente, tal vez otro tipo de 
ajuste sí lo sea. 
 
Observaciones: 
Aunque el análisis de la regresión lineal y la derivación del coeficiente de correlación parecen un método muy 
adecuado para estudiar la relación entre dos variables, hay que indicar que tiene importantes debilidades. En 
particular: 
 Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de que 
resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. 
 No hay que olvidar que el coeficiente de correlación no es más que una medida resumen. En ningún 
caso puede substituir al diagrama de dispersión, que siempre habrá que construir para extraer más 
información. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeficiente de 
correlación. 
 El que en un caso se obtenga un coeficiente de correlación bajo no significa que no pueda existir 
correlación entre las variables. De lo único que nos informa es de que la correlación no es lineal (no se 
ajusta a una recta), pero es posible que pueda existir una buena correlación de otro tipo. 
 Un coeficiente de correlación alto no significa que exista una dependencia directa entre las variables. Es 
decir, no se puede extraer una conclusión de causa y efecto basándose únicamente en el coeficiente de 
correlación. En general hay que tener en cuenta que puede existir una tercera variable escondida que 
puede producir una correlación que, en muchos casos, puede no tener sentido. 
 
 
6.-Inferencia estadística sobre la regresión 
En primer lugar es importante hacer la distinción entre las dos variables x e y que intervienen en la regresión 
lineal. Por una parte, (y ) se considera como la variable dependiente (o respuesta), que tomará diferentes 
valores dependiendo del valor de x, o variable independiente (o de regresión). Supongamos que en el 
experimento se toma una muestra aleatoria representada por los pares (xi , yi), donde i = 1, 2, . . . , n. 
Normalmente, los valores de xi se fijan a priori (antes de realizar el experimento) y por tanto serán los mismos 
para las diferentes muestras que se puedan tomar. Se consideran entonces que tienen asociado un error 
despreciable y no son variables aleatorias. Por el contrario, para un valor de x fijo, el yi particular medido podrá 
variar de una muestra a otra, de forma que, para cada xi , la variable Yi , que engloba a todos los posibles 
valores de y que se pueden obtener para x = xi , se considerará una variable aleatoria en el muestreo. Tendrá, 
por lo tanto, una distribución de probabilidad asociada y se podrán definir su valor medio y varianza. 
Llamaremos µY/x al valor medio de la variable Y para un valor fijo de x y σ
2
Y |x a su varianza. Dichos valores 
medios dependerán entonces del valor concreto de x que se considere. La hipótesis básica de la regresión lineal 
es que µY/x está linealmente relacionado con x por la ecuación 
 𝝁𝒀/𝒙 = 𝜶 + 𝜷𝒙 (4) 
Esta es la ecuación de regresión lineal poblacional. Donde α y β serán los parámetros poblacionales 
correspondientes que tendrán que estimarse a partir de una muestra. Los coeficientes de la recta a y b se usarán 
como los estimadores de dichos parámetros poblacionales. De esta forma, 𝝁𝒀/𝒙 se estimará por : 
 𝒚∗ = 𝒂 + 𝒃𝒙 (5) 
que será la ecuación de regresión lineal ajustada o de la muestra. Es importante destacar que para diferentes 
muestras se obtendrán diferentes valores concretos de a y b, y por lo tanto diferentes rectas de regresión 
ajustadas, que en general no coincidirán con la recta poblacional dada en (4). 
 El modelo estadístico parala regresión se basa entonces en suponer que todas las 𝝁𝒀/𝒙 caen sobre la recta 
poblacional y las diferencias encontradas se basan en la limitación del muestreo. En particular, para cada valor 
fijo de x = xi, un valor concreto de Yi (denotado por yi) podrá expresarse como: 𝑦 = 𝜇 / +𝜀 =∝ +𝛽𝑥 + 𝜀 
donde εi es el error aleatorio que tiene en cuenta la diferencia entre el valor observado y el valor medio 
esperado. Lógicamente se cumplirá que µεi = 0. De aquí, que llamamos a: 
 𝑦 = ᾳ + 𝛽𝑥 + 𝜀 el modelo de regresión lineal poblacional 
Por otra parte, al usar la recta ajustada (5), los valores yi medidos se podrán expresar como : 𝑦 = 𝑦∗+ei=𝑎 +
𝑏𝑥 + 𝑒i , donde 𝑒 es el residuo y representa el error en el ajuste. De aquí, que llamamos a: 
 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 el modelo de regresión lineal muestral 
 
Observación: 
1.-Una suposición adicional que se debe hacer para simplificar el estudio estadístico de la regresión lineal es 
que los errores 𝜀 para cada xi tienen todos la misma varianza, denotada por σ 
2 . Esto quiere decir que para 
cada xi los valores muestrales de Yi se distribuyen todos alrededor de su correspondiente µY/xi con la misma 
dispersión. Es decir, los errores en la medida no han de depender del valor concreto de la variable independiente 
x. Bajo estas condiciones se puede expresar entonces que 
 σ 2Yi = σ 2𝜀 = σ 2 . 
σ 2 es por tanto la varianza de las diferentes variables aleatorias Yi . 
2.-Otra suposición importante es considerar que las variables aleatorias Yi , para cada x = xi , siguen una 
distribución normal, es decir, sus errores se distribuyen normalmente alrededor del valor medio. Por tanto, cada 
Yi tendrá una distribución N(α+βxi , σ). 
 
6.-Contraste de hipótesis 
Utilizando los conceptos básicos de la teoría muestral y el contraste de hipótesis, ya estudiados en los temas 
anteriores, se puede elaborar un modelo estadístico de la regresión lineal simple. Ello permite estudiar desde un 
punto de vista probabilístico los parámetros de la recta de regresión y el concepto de correlación. 
Si bien podemos realizar contraste de hipótesis para los parámetros poblacionales: ∝ , β y 𝜌 , nos centraremos 
solamente en el contraste de la hipótesis para este último. 
Generalmente, la hipótesis nula de interés es que la correlación de población sea 𝜌 = 0, porque si se rechaza 
esta hipótesis a un nivel 𝛼 específico concluimos que hay una relación real entre las variables. Para ello, 
tenemos que : 
H0: 𝜌 = 0 vs. H1: 𝜌 ≠ 0 . 
Aquí la variable pivotal o estadístico de prueba es 𝑡 = √
√
 ~𝑡 . 
 
Nota :El que un valor de r sea o no indicativo de correlación dependerá también del número de puntos. Si n es 
grande, será fácil rechazar H0 y existirá correlación.

Continuar navegando

Materiales relacionados