UNIDAD 07-Teoría

Estadística Aplicada

•

SIN SIGLA

Agustina Maité Simón Casco

24/9/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística Aplicada

24.031 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

ESTADÍSTICA
UNIDAD N°7: Teoría

1.- Regresión
Hemos visto hasta ahora diversas técnicas estadísticas que nos sirven para analizar el comportamiento de las
variables pero en forma separada una de otra, sin detenernos a ver si existe alguna vinculación entre el
comportamiento de una con respecto a otra.
Sin embargo, en muchas situaciones de la realidad podemos observar que una variable puede influir sobre otra.
Por ejemplo, decimos que si aumenta el número de horas, durante un cultivo de bacterias, éstas aumentarán
también por unidad de volumen.
Cuando se estudian empíricamente dos variables y de forma conjunta, la relación entre ellas puede ser debida,
bien a una verdadera dependencia entre las variables en cuestión, o bien, a relaciones directas o indirectas con
otras variables no observadas incluso pueden ser debidas a la casualidad. Hay muchas situaciones prácticas en
las cuales se presume la existencia de una relación de dependencia entre las variables, por ejemplo, el consumo
de combustible de un vehículo y el kilometraje realizado; la cantidad de precipitación caída y el rendimiento de
cosechas; etc.
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables.
Frecuentemente resulta de interés conocer el efecto que una o varias variables pueden causar sobre otra, e
incluso predecir, en mayor o menor grad, valores en una variable a partir de otra.
Dentro del estudio de las variables estadísticas bidimensionales vamos a abordar el análisis de la existencia de
relaciones o dependencias entre las dos variables x e y que forman la variable bidimensional. Básicamente, la
relación entre las dos variables puede ser de dos tipos: funcional, cuando exista una relación matemática exacta
que ligue ambas variables (ej. el radio y el área de un círculo), o aleatoria, cuando, aunque no exista entre las
variables una relación exacta, se puede observar (aunque no siempre es el caso) una cierta tendencia entre los
comportamientos de ambas (ej. el peso y la altura de un individuo).
El primer paso para el estudio de la relación entre las variables consiste en la construcción y observación de un
diagrama de dispersión. El problema de la regresión se concreta entonces en ajustar una función a la nube de
puntos representada en dicho diagrama. Esta función permitirá entonces obtener, al menos de forma
aproximada, una estimación del valor de una de las variables a partir del valor que tome la otra. Cuando la
función sea del tipo 𝒚 = 𝒇(𝒙), hablaremos de regresión de y sobre x (a partir de los valores de x se pueden
estimar los de y). Al contrario, la regresión de x sobre y se basará en una función del tipo 𝑥 = 𝑓(𝑦).
Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de puntos
del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección del tipo de línea
de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el tipo de línea se elegirá a
partir de la forma de la nube de puntos. Cuando dicha nube se distribuya aproximadamente a lo largo de una
línea recta ajustaremos una recta de regresión. Será el caso particular de la regresión lineal. En este caso
importante, la regresión de y sobre x vendrá dada entonces por
𝑦 = 𝑎 + 𝑏𝑥 (1)
donde a y b son dos parámetros que habremos de determinar. Gráficamente “a” será la ordenada de la recta en
el origen (es decir el valor de y para x = 0) y “b” la pendiente de ésta. Aunque aquí nos concentraremos, por
simplicidad, en la regresión lineal, la línea de regresión puede responder a otras formas funcionales. Como se
muestra a continuación:

2.-Ajuste de una recta de regresión
Dentro del estudio de la regresión lineal vamos a analizar cómo se pueden determinar los parámetros a y b de la
recta de regresión dada por (1), es decir, en el caso de la regresión de y sobre x (el caso contrario es similar).
Como ya se ha indicado dicha recta de regresión nos permitirá obtener valores aproximados de y conocidos los
de x. Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos
cuadrados. Veamos a continuación en qué consiste. Sea una muestra de tamaño en que la variable estadística
bidimensional toma los valores
(𝑥 , 𝑦 ), (𝑥 , 𝑦 ), . . . , (𝑥 , 𝑦 ).
A cada valor xi de la variable x le corresponde entonces un valor yi de la variable y, pudiendo además
asociársele un valor y*i, que sería el dado por la recta que queremos calcular. Es decir y
*
i = a + bxi .
Llamemos di a la diferencia entre los dos valores, observado y dado por la recta, de la variable y en cada punto
(ver Figura 2) di = y
*
i – yi . Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre
todas las rectas posibles, dichas distancias di deberán ser lo más pequeñas posible. Es decir, hay que minimizar
los di . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen desviaciones
positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión

o, utilizando la expresión para y*i

Diferencia entre el valor observado yi y el valor ajustado y*i .

Para encontrar los valores de a y b que hacen mínima esa expresión se deriva M respecto a esos dos parámetros
y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios y no se indica que el
índice va desde i = 1 hasta n).
No resolveremos aquí el sistema que se plante
a, sino que, solamente escribimos las expresiones resultantes de dichas valores de a y b respectivamente:
(3)
Donde �̅� =
∑
e 𝑦 =
∑

La expresión (3) es además interesante ya que indica que la recta de regresión debe pasar por (�̅�,𝑦 ), es decir,
por el centro de la nube de puntos.

3.- Covarianza y coeficientes de regresión
Las expresiones para los parámetros de la recta de regresión se pueden simplificar más introduciendo una
importante definición. Se define la covarianza de una muestra bidimensional a
𝐶𝑜𝑣: 𝑠 =
∑ (𝑥 − �̅�). (𝑦 − 𝑦)
𝑛 − 1

(2)

Por otra parte, como s2x se escribe como:
𝑠 =
∑ (𝑥 − �̅�)
𝑛 − 1

De forma que la expresión para el coeficiente b de la recta de regresión de y sobre x puede escribirse como la
razón entre la covarianza y la varianza de x. A dicho coeficiente se le llama coeficiente de regresión de y sobre
x y se denota por byx.

𝑏 =

Observaciones:
a) De igual manera se puede obtener la recta de regresión de X sobre Y (X = a + bY), minimizando en este caso
las distancias horizontales (x *i – xi) a la recta. El resultado es que el coeficiente de regresión de x sobre y
(denotado por bxy ).
b) Ambas rectas de regresión no coinciden en general y ambas se cortan en el punto (�̅�, 𝑦).
c) La recta de mínimos cuadrados es un modelo de ajuste que llamamos Regresión lineal muestral, se lo
como : 𝒀 = 𝒂 + 𝒃𝒙 ,siendo a la ordenada al origen (el valor de cuando vale 0) y b (coeficiente de regresión)
la pendiente de la recta de regresión: el cambio que se produce en Y cuando X varía una unidad.
 Si b > 0 , las dos variablesaumentan o disminuyen a la vez.
 Si b < 0, cuando una variable aumenta la otra disminuye.

d) El estimador del parámetro σ2 no puede obtenerse por los métodos anteriores.
e) Para la regresión de, X sobre Y, sacamos conclusiones análogas cuando intentamos hacer la regresión de
X sobre Y, pero para calcular la recta de regresión de X sobre Y es INCORRECTO despejar de la ecuación
anterior, ya que esta relación expresa la regresión de X sobre 𝑌. La regresión de X sobre Y se hace
aproximando X por 𝑋.
PREDICCIÓN:
Cuando hemos estimado un modelo de regresión, por ejemplo el lineal: Y= a+ b X puede que deseemos
interpolar o extrapolar con la función de ajuste y así predecir valores de la variable explicada, para distintos
valores de la variable explicativa X .
Al hacerlo así se está empleando el modelo con la finalidad de inferencia estadística. Siempre se debe ser
cuidadoso con las predicciones, pues a medida que nos alejemos de los datos de partida menos explicativo será
el modelo; y hay que tener en consideración que siempre se predicen valores promedios.
Todo modelo debe ir acompañado de una medida de la bondad del ajuste para conocer el grado de confianza o
fiabilidad del mismo, pero hay que saber que al usarlo con fines de predicción, si el coeficiente de
determinación es elevado, lo único que podemos decir es que el modelo es bueno para hacer predicciones que
sean interpolaciones entre los datos observados, pero al hacer extrapolaciones la confianza siempre disminuye.
Esto se debe tener en cuenta siempre que se emplee un modelo de regresión con fines predictivos

4.-El Análisis de Correlación Simple
En oposición al análisis de regresión, el análisis de correlación mide el grado de relación entre las variables.
Nos limitamos al análisis de correlación lineal simple que se relaciona con la medición de la relación entre sólo
una variable independiente y la variable dependiente.
Los supuestos de población implícitas en el análisis de correlación simple son:
 Las dos variables son aleatorias.
 La relación entre las variables es lineal.
 Para cada variable, las varianzas de las distribuciones condicionales, dados valores diferentes de la otra
variable, son iguales (homocedasticidad).

5.-El Coeficiente de correlación lineal
La utilidad de la covarianza como medida de correlación está limitada por el hecho de que depende de las
unidades de medida en que se trabaje. Para construir una medida adimensional de la correlación habrá que
dividir la varianza por un término con sus mismas dimensiones. De esta forma, se define el coeficiente de
correlación lineal r como el cociente entre la covarianza y las desviaciones típicas (o raices cuadradas de las
varianzas) de x e y.
El coeficiente de correlación de la población es el parámetro 𝜌 y su cuadrado se conoce como coeficiente de
determinación.
Para la información muestral, el valor estimado del coeficiente de determinación se puede obtener por la
fórmula:

El valor de r cumple que : -1≤ 𝑟 ≤ 1 y no depende de las unidades en que se miden las variables. Por otra
parte, se puede demostrar que la relación entre el coeficiente de correlación ( r) y los coeficientes de regresión
es: b yx= r . De igual forma cuando la regresión es x sobre y es : b xy= r
Teniendo en cuenta las relaciones vistas anteriormente, se desprende que:
 −1 ≤ 𝑟 ≤ 1
 𝑟 ≥ 0 ↔ 𝐶𝑜𝑣 ≥ 0 (Es decir, cuando el coeficiente de correlación sea positivo, la pendiente de la recta
será positiva (al igual que la varianza) y tendremos una correlación directa o positiva).
 Si |𝑟| ≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y
viceversa). Es decir, la nube de puntos está muy próxima a una recta. El signo de la pendiente de la
recta coincide con el de r.
 Si |𝑟| ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene
sentido hacer un ajuste lineal. Sin embargo, no es seguro que las dos variables no posean ninguna
relación en el caso r=0 , ya que si bien el ajuste lineal puede no ser procedente, tal vez otro tipo de
ajuste sí lo sea.

Observaciones:
Aunque el análisis de la regresión lineal y la derivación del coeficiente de correlación parecen un método muy
adecuado para estudiar la relación entre dos variables, hay que indicar que tiene importantes debilidades. En
particular:
 Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de que
resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general.
 No hay que olvidar que el coeficiente de correlación no es más que una medida resumen. En ningún
caso puede substituir al diagrama de dispersión, que siempre habrá que construir para extraer más
información. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeficiente de
correlación.
 El que en un caso se obtenga un coeficiente de correlación bajo no significa que no pueda existir
correlación entre las variables. De lo único que nos informa es de que la correlación no es lineal (no se
ajusta a una recta), pero es posible que pueda existir una buena correlación de otro tipo.
 Un coeficiente de correlación alto no significa que exista una dependencia directa entre las variables. Es
decir, no se puede extraer una conclusión de causa y efecto basándose únicamente en el coeficiente de
correlación. En general hay que tener en cuenta que puede existir una tercera variable escondida que
puede producir una correlación que, en muchos casos, puede no tener sentido.

6.-Inferencia estadística sobre la regresión
En primer lugar es importante hacer la distinción entre las dos variables x e y que intervienen en la regresión
lineal. Por una parte, (y ) se considera como la variable dependiente (o respuesta), que tomará diferentes
valores dependiendo del valor de x, o variable independiente (o de regresión). Supongamos que en el
experimento se toma una muestra aleatoria representada por los pares (xi , yi), donde i = 1, 2, . . . , n.
Normalmente, los valores de xi se fijan a priori (antes de realizar el experimento) y por tanto serán los mismos
para las diferentes muestras que se puedan tomar. Se consideran entonces que tienen asociado un error
despreciable y no son variables aleatorias. Por el contrario, para un valor de x fijo, el yi particular medido podrá
variar de una muestra a otra, de forma que, para cada xi , la variable Yi , que engloba a todos los posibles
valores de y que se pueden obtener para x = xi , se considerará una variable aleatoria en el muestreo. Tendrá,
por lo tanto, una distribución de probabilidad asociada y se podrán definir su valor medio y varianza.
Llamaremos µY/x al valor medio de la variable Y para un valor fijo de x y σ
2
Y |x a su varianza. Dichos valores
medios dependerán entonces del valor concreto de x que se considere. La hipótesis básica de la regresión lineal
es que µY/x está linealmente relacionado con x por la ecuación
𝝁𝒀/𝒙 = 𝜶 + 𝜷𝒙 (4)
Esta es la ecuación de regresión lineal poblacional. Donde α y β serán los parámetros poblacionales
correspondientes que tendrán que estimarse a partir de una muestra. Los coeficientes de la recta a y b se usarán
como los estimadores de dichos parámetros poblacionales. De esta forma, 𝝁𝒀/𝒙 se estimará por :
𝒚∗ = 𝒂 + 𝒃𝒙 (5)
que será la ecuación de regresión lineal ajustada o de la muestra. Es importante destacar que para diferentes
muestras se obtendrán diferentes valores concretos de a y b, y por lo tanto diferentes rectas de regresión
ajustadas, que en general no coincidirán con la recta poblacional dada en (4).
El modelo estadístico parala regresión se basa entonces en suponer que todas las 𝝁𝒀/𝒙 caen sobre la recta
poblacional y las diferencias encontradas se basan en la limitación del muestreo. En particular, para cada valor
fijo de x = xi, un valor concreto de Yi (denotado por yi) podrá expresarse como: 𝑦 = 𝜇 / +𝜀 =∝ +𝛽𝑥 + 𝜀
donde εi es el error aleatorio que tiene en cuenta la diferencia entre el valor observado y el valor medio
esperado. Lógicamente se cumplirá que µεi = 0. De aquí, que llamamos a:
𝑦 = ᾳ + 𝛽𝑥 + 𝜀 el modelo de regresión lineal poblacional
Por otra parte, al usar la recta ajustada (5), los valores yi medidos se podrán expresar como : 𝑦 = 𝑦∗+ei=𝑎 +
𝑏𝑥 + 𝑒i , donde 𝑒 es el residuo y representa el error en el ajuste. De aquí, que llamamos a:
𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 el modelo de regresión lineal muestral

Observación:
1.-Una suposición adicional que se debe hacer para simplificar el estudio estadístico de la regresión lineal es
que los errores 𝜀 para cada xi tienen todos la misma varianza, denotada por σ
2 . Esto quiere decir que para
cada xi los valores muestrales de Yi se distribuyen todos alrededor de su correspondiente µY/xi con la misma
dispersión. Es decir, los errores en la medida no han de depender del valor concreto de la variable independiente
x. Bajo estas condiciones se puede expresar entonces que
σ 2Yi = σ 2𝜀 = σ 2 .
σ 2 es por tanto la varianza de las diferentes variables aleatorias Yi .
2.-Otra suposición importante es considerar que las variables aleatorias Yi , para cada x = xi , siguen una
distribución normal, es decir, sus errores se distribuyen normalmente alrededor del valor medio. Por tanto, cada
Yi tendrá una distribución N(α+βxi , σ).

6.-Contraste de hipótesis
Utilizando los conceptos básicos de la teoría muestral y el contraste de hipótesis, ya estudiados en los temas
anteriores, se puede elaborar un modelo estadístico de la regresión lineal simple. Ello permite estudiar desde un
punto de vista probabilístico los parámetros de la recta de regresión y el concepto de correlación.
Si bien podemos realizar contraste de hipótesis para los parámetros poblacionales: ∝ , β y 𝜌 , nos centraremos
solamente en el contraste de la hipótesis para este último.
Generalmente, la hipótesis nula de interés es que la correlación de población sea 𝜌 = 0, porque si se rechaza
esta hipótesis a un nivel 𝛼 específico concluimos que hay una relación real entre las variables. Para ello,
tenemos que :
H0: 𝜌 = 0 vs. H1: 𝜌 ≠ 0 .
Aquí la variable pivotal o estadístico de prueba es 𝑡 = √
√
~𝑡 .

Nota :El que un valor de r sea o no indicativo de correlación dependerá también del número de puntos. Si n es
grande, será fácil rechazar H0 y existirá correlación.