TEMA_2_Descriptiva_Bivariante_2016_II

Estadística I

•
SIN SIGLA

Sebastian Sanchez Guerrero
26/5/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística I

57.459 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Capítulo 2
Estadística Descriptiva Bivariante
1. Introducción.
2. Descripción de datos mediante de frecuencias bivariantes.
3. Descripción de datos bivariantes mediante grá�cos de dispersión.
4. Relación lineal entre dos variables.
5. La recta de regresión simple.
0Apuntes realizados por Ismael Sánchez. Todos los derechos reservados.
2 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
2.1. Introducción
En este capítulo continuamos describiendo un conjunto de datos, pero ahora los datos tienen
información de dos variables. Por ejemplo, para una misma persona podemos tener su edad y su
salario. Para un artículo manufacturado podemos tener información de más de una dimensión. Nos
interesa el estudio conjunto de ambas variables y, en particular, saber si están relacionadas o no.
En el caso en el que estén relacionadas, nos interesará poder describir cómo es su relación: lineal
o no lineal.
Nos interesará especialmente el caso en el que ambas variables estén relacionadas de forma
lineal. En ese caso, es fácil construir un modelo lineal que resuma dicha relación. Este modelo
puede utilizarse, por ejemplo, para predecir qué valor tomará una variable en un individuo a partir
del valor de la otra varable. La técnica estadística que emplearemos para modelizar esta relación
lineal es la de regresión simple por mínimos cuadrados.
2.2. Descripción de datos mediante tablas de frecuencias
bivariantes. Distribución marginal y condicionada
Si se tiene más de una variable de cada individuo, puede realizarse una tabla de frecuencias
como en el caso univariante. Por ejemplo, con dos variables se tendrá una tabla de doble entrada
donde cada dimensión corresponderá a una variable y cada celda de la tabla tendrá el número de
individuos que tengan los correspondientes valores según la �la y columna en que se encuentre.
Dicho valor recibe el nombre de frecuencia conjunta (absoluta o relativa).
La tabla siguiente muestra la tabla de distribución de frecuencias conjunta para las vari-
ables: número de hermanos (columnas) y sexo (�las) de 95 estudiantes ((�chero AlumnosIndus-
triales).
Número de hermanos en función del sexo del alumno
En esta tabla puede verse, por ejemplo, que hay 9 alumnos que son hijos únicos, de los cuales 3
son chicas y 6 son chicos. En los márgenes de la tabla aparecen también los totales por �las y por
columnas, que son precisamente las frecuencias de cada variable por separado. A esta distribución
de frecuencias univariante que aparece en las tablas multivariantes se les denomina distribuciones
marginales, por estar situados en los márgenes. Las distribuciones marginales son por tanto las
2.2. DESCRIPCIÓN DE DATOS MEDIANTE TABLAS DE FRECUENCIAS
BIVARIANTES. DISTRIBUCIÓN MARGINAL Y CONDICIONADA 3
distribuciones univariantes. Cada una de las �las o columnas por separado nos mostrará la dis-
tribución de frecuencias de una variable cuando la otra variable toma un valor determinado. A
esta distribución de frecuencias, que es también univariante, se le denomina distribución condi-
cionada. Por ejemplo, los valores de la primera columna de la tabla es la distribución por sexo de
los estudiantes que son hijos únicos..
Las tablas de frecuencias multivariantes también pueden contener frecuencias relativas. En este
caso es importante distinguir si el interés está en la frecuencia relativa conjunta o condicionada,
pues el número por el que hay que dividir la frecuencia absoluta sería diferente. Por ejemplo, la tabla
anterior muestra la distribución de frecuencias relativa conjunta, donde en cada celda se encuentra
el porcentaje que representan los elementos de dicha celda respecto al total (95 alumnos).
Por ejemplo, los 6 chicos que son hijos únicos son el 6.3% de los estudiantes del aula en que se
tomaron estos datos. Si lo que se desea es la distribución de frecuencias relativas condicionada a
la variable número de hermanos, los porcentajes se obtendrán dividiendo las frecuencias absolutas
entre el total de la �la. Se tendrá la siguiente tabla:
Número de hermanos en función del sexo del alumno
En esta tabla puede verse, por ejemplo, que de los 37 estudiantes que tienen 2 hermanos el
70,27% (26/37�100) son chicos.
Ejercicio 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1. Un proceso productivo tiene dos líneas de producción: línea A y línea B que funcionan de
forma totalmente independiente (distintas máquinas, distintos operarios, etc). Un analista
toma nota al �nal de cada línea del número de defectos que tienen los artículos que van
produciendo ambas líneas. Primero toma nota de 50 artículos de la línea A y después va a
la línea B y toma nota de 50 artículos de dicha línea. La tabla siguiente muestra un ejemplo
de cómo son los datos:
Número de defectos
Artículo Línea A Línea B
1 0 1
2 1 1
3 2 0
...
...
...
50 1 0
4 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
Cuando tiene 50 artículos inspeccionados por cada línea construye una tabla de frecuencias
bivariante, resultando la siguiente tabla:
¿Qué opinión te merece la realización de esta tabla?
2. En un aula con 25 chicos y 14 chicas se pregunta quién fuma, resultando la siguiente tabla
Fuma No fuma total
Chico 12 13 25
Chica 8 6 14
total 20 19 39
a) ¿Qué proporción de estudiantes fuma?
b) ¿Qué propoción de chicas no fuma?
c) ¿Qué proporción de estudiantes son chicos y fumadores?¿Qué son el resto de los alum-
nos?
d) ¿Cuál es la distribución marginal de frecuencias relativas del sexo de los alumnos?
e) ¿Cuál es la distribución marginal de frecuencias absolutas del sexo de los alumnos?
f) ¿Cuál es la distribución de frecuencias relativas de la variable sexo condicionada a que
son alumnos fumadores?
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Descripción de datos bivariantes mediante grá�cos de
dispersión
Este grá�co, también conocido como grá�co bivariante o grá�co XY representa la información
de dos variables para un conjunto de individuos. Para cada individuo se tiene un dato bivariante:
2.3. DESCRIPCIÓN DE DATOS BIVARIANTES MEDIANTE GRÁFICOS DE
DISPERSIÓN 5
la información de la variable x y la de la variable y. En unos ejes de ordenadas se representa cada
punto colocando en el eje x el valor de la primera variable y en el y el de la segunda. Se tendrán
tantos puntos como tamaño de la muestra.
Ejemplo 1 El siguiente grá�co muestra la información de una muestra de 40 vehículos. Para cada
vehículo se tiene la potencia del motor (eje x) y la velocidad máxima (eje y). El grá�co de estos
40 puntos, uno por vehículo, revela que a mayor potencia mayor velocidad máxima, siendo esta
relación lineal (la nube de puntos se extiende a lo largo de una línea recta imaginaria)
Grá�co de dispersión para la velocidad y la
potencia de un conjunto de coches
Ejemplo 2 La siguiente �gura muestra el grá�co de dispersión de la energía generada en un parque
eólico y la velocidad del viento (�chero parqueeolico1(por con�dencialidad estos datos han sido
contaminados con un ruido)). Cada punto tiene dos valores: la energía producida en una hora
y la velocidad registrada del viento en dicha hora. El eje X representa la velocidad (m/s) media
registrada en una hora, mientras que el eje Y representa la energía (kwh) generada en ese tiempo.
Puede verse en la �gura que hay una clara relación entre la velocidad del viento y la energía, pero
en este caso dicha relación es no lineal. A velocidades bajas, la producción energética es casi nula.
A partir de cierta velocidad mínima, la energía aumenta de forma creciente. A partir de cierta
velocidad máxima, la energía generada en una hora apenas varía y se mantiene próxima a cierto
nivel máximo, que es la capacidad máxima de la instalación.
6 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE0 5 10 15 20 25
0
0.5
1
1.5
2
2.5
3
x 104
Velocidad horaria media del viento (m/s)
kW
h
Energía horaria generada
Potencia horaria media generada en un
parque eólico en función de la velocidad del
viento
2.4. Relación lineal entre dos variables
En esta sección presentaremos medidas que resuman la asociación entre dos variables cuantita-
tivas. Estas medidas serán resúmenes numéricos de las relaciones que se hayan detectado usando los
grá�cos de dispersión presentados anteriormente. Nos centraremos sólamente en relaciones lineales
entre dos variables. En esos casos, el grá�co de dispersión mostrará una nube de puntos alrededor
de cierta línea recta imaginaria. Para resumir el grado de relación lineal entre dos variables se
usan las siguientes medidas: (1) coe�ciente de covarianza, (2) coe�ciente de correlación (3) recta
de regresión.
2.4.1. Coe�ciente de covarianza
Supongamos que para un conjunto de n individuos se tiene información de dos variables x e y
(datos bidimensionales). Entonces la covarianza o coe�ciente de covarianza se de�ne como
cov(x; y) � sxy =
Pn
i=1 (xi � �x) (yi � �y)
n
:
Este coe�ciente de covarianza tomará valores positivos si hay una relación lineal positiva entre
ambas variables; es decir, si al aumentar una de ellas también lo hace la otra. El siguiente grá�co
de dispersión ilustra esta covarianza positiva. El grá�co (a) muestra el precio del coche y su potencia
para un conjunto de 90 coches europeos, donde la covarianza es 302764. Por el contario, si la relación
lineal es negativa, el coe�ciente de covarianza será negativo, como sucede con los datos de peso del
2.4. RELACIÓN LINEAL ENTRE DOS VARIABLES 7
coche y la distancia que recorrerá con un litro de combustible, que posee una covarianza de -1600.
(a) Relación entre precio y potencia de 90 coches (b) Relación entre peso y consumo de 90 coches
Si entre ambas variables no hay relación, la covarianza será próxima a cero. En estos casos, el
diagrama de dispersión muestra una nube de puntos sin ningún patrón de relación. El signo del
coe�ciente de covarianza nos indica claramente el signo de la relación lineal que exista entre las
variables. Sin embargo, al depender el coe�ciente de covarianza de las unidades de x y de y , el
valor concreto no es fácil de interpretar. Por ejemplo, en los dos grá�cos anteriores, no sabríamos
decir, a partir de los valores de covarianzas, que relación lineal es más fuerte. Para el grá�co (a)
la covarianza es 302764 dólares�CV, mientras que para el grá�co (b) la covarianza es de -1600
kilogramos�millas, que no son unidades comparable con dólares�CV.
Sería conveniente por tanto utilizar alguna medida característica que resuma la relación lineal
de forma adimensional. Esta medida es el coe�ciente de correlación, que se muestra a continuación.
2.4.2. Coe�ciente de correlación
La información que suministra el coe�ciente de correlación es la misma que la covarianza. Es
un coe�ciente que mide el grado de relación lineal entre dos variables tomadas en los mismos
individuos, pero usando un valor adimensional. Se de�ne como
r � rxy � r(x; y) =
cov(x; y)
sxsy
:
Puede demostarse que estará siempre entre -1 y 1. Su interpretación es
r = 0; no hay relación lineal
r > 0; relación lineal positiva
r < 0; relación lineal negativa
Si r = 1 tendremos una relación lineal positiva perfecta, en el sentido de que los datos estarán
perfectamente alineados según una recta de pendiente positiva. Análogamente, si r = �1 tendremos
8 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
una relación lineal negativa perfecta. En el caso de las variables precio y potencia mostradas
anteriormente la correlación es 0.73 que es positiva y alta. En el caso de las variables peso y
distancia recorrida, la correlación es -0.82 que es negativa y muy alta. Cuanto más próxima esté
la nube de puntos a una línea recta más próximo estará el coe�ciente de correlación a la unidad
(en valor absoluto). Por el contrario, cuanto más dispersa esté la nube de puntos, la correlación
estará más próxima a cero. A continuación se muestra una serie de �guras donde se representan
conjuntos de datos de diferente coe�ciente de correlación.
r=1r=1 r=0.8r=0.8 r=0.06r=0.06
r=-0.94r=-0.94 r=-0.83r=-0.83 r=-0.08r=-0.08
2.4.3. Matrices de covarianzas y correlaciones
Una forma habitual de presentar las medidas de dependencia lineal entre las variables de un
conjunto de datos bidimensionales es en forma de matriz. Para el caso de covarianzas se de�ne la
matriz de covarianzas muestral M a la siguiente matriz
M =
"
s2x cov(x; y)
cov(y; x) s2y
#
;
que es simétrica porque cov(x; y) =cov(y; x): Análogamente, se de�ne la matriz de correlaciones
muestral R a la siguiente matriz
R =
"
1 corr(x; y)
corr(y; x) 1
#
;
que de nuevo es simétrica porque corr(x; y) =corr(y; x):Esta matriz tiene unos en la diagonal porque
representarían la correlación de cada variable consigo misma. Es decir, corr(x; x)=1, y corr(y; y)=1.
2.5. LA RECTA DE REGRESIÓN SIMPLE 9
2.5. La recta de regresión simple
2.5.1. De�nición de la recta de regresión simple
Nuestro interés en el cálculo de la correlación está en medir la proximidad de la nube de puntos
a una línea recta imaginaria. Lo que vamos a hacer ahora es obtener la ecuación de esa línea recta
que sirva de resumen de la relación entre ambas variables. Es importante recalcar que esta línea
recta es sólo una aproximación de la relación entre ambas variables. Cuando más próximo a �1
esté el coe�ciente de correlación, mayor será la capacidad de aproximación o explicación de dicha
recta como resumen de la relación entre ambas variables. A este procedimiento de buscar una recta
que aproxime el comportamiento de una nube de puntos le llamaremos ajuste de una recta.
Nuestro objetivo es encontrar la recta �0+�1x que mejor resuma esa tendencia lineal que muestra
la nube de puntos, como se ilustra en esta �gura.
A la variable que queremos saber su valor le denominamos variable respuesta, y se le suele
reservar la letra y: A la variable que vamos a usar para predecir el valor de la variable respuesta
le denominaremos variable explicativa, y se le suele reservar la letra x: Nuestro interés es en la
recta que nos ayude a predecir el valor de y a partir de la observación de x. Si la nube de puntos
formase una línea recta perfecta (lo que ocurrá sólo si la correlación entre ambas es �1) tendríamos
que y = �0 + �1x; y los valores de �0 y �1 los podríamos calcular usando sólo un par de puntos.
En cualquier otro caso, si la correlación es diferente a �1, es imposible encontrar una línea recta
que pase por todos los puntos. Dada una nube de puntos formada por un conjunto de datos de
dos variables, existen muchos criterios para ajustar una línea recta que pase por su interior, lo que
llevaría a calcular rectas diferentes según el criterio que empleemos. Sin embargo, sólo una será la
recta de regresión simple que nos interesa.
Para de�nir la recta de regresión simple, vamos a asumir que los diferentes valores de y vienen
explicados, en parte, y de forma lineal, por otra variable x: Esta relación puede escribirse como
yi = �0 + �1xi + ei; (2.1)
donde yi es el valor observado de la variable y para el individuo i-ésimo, xi es el valor observado de
la variable x para ese mismo individuo, y ei es la parte de yi que no viene explicada por la recta, y
10 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
recibe el nombre de residuo o error de predicción. A la expresión (2.1) se le denominamodelo
de regresión simple, pues supone un modelo lineal de cómo se comporta y para determinados
valores de x a través de un modelo con sólo una variable explicativa. Al valor que resulta de
aplicar la recta �0+�1x para un valor de x = xi dado, le llamaremos predicción, y lo denotaremos
por el símbolo ŷ(xi), o simplemente ŷi: La recta que predice el valor de y cuando se conoce que
x = xi puede expresar entonces como
ŷi = �0 + �1xi: (2.2)
Por tanto, el residuo puede calcularse comoei = yi � ŷi
= yi � (�0 + �1xi)
La siguiente �gura muestra la diferencia entre un valor observado yi y un valor previsto ŷi para el
valor xi; usando la recta ŷ = �0 + �1x:
En este caso, el residuo ei es positivo.
2.5.2. La recta de mínimos cuadrados
Como hemos dicho antes, la recta de regresión simple se utilizará para predecir y a partir de
x: Esta utilización nos ayudará a determinar cómo construir esa recta dentro de las múltiples
rectas que pueden pasar por la nube de puntos. Nuestro problema entonces es cómo, a partir de un
conjunto de datos, encontrar los valores óptimos de �0 y �1 que proporcionen mejores predicciones
de y a partir de x:
Diremos que una recta de regresión simple es mejor que otra (que unos valores de �0 y �1son
más apropiados que otros) si las predicciones son mejores en el sentido de que los residuos sean, en
conjunto, menores. La forma más habitual de determinar el tamaño de los residuos es usando su
2.5. LA RECTA DE REGRESIÓN SIMPLE 11
suma cuadrática
P
e2i : A esta suma cuadrática le denominaremos función de pérdida S(�0; �1);
que es una función de �0 y �1, es decir
S(�0; �1) =
nX
i=1
e2i =
nX
i=1
[yi � (�0 + �1xi)]
2
:
Se denomina función de pérdida porque resume lo que se �pierde�al usar una recta de regresión
simple. Es decir, S(�0; �1) cuanti�ca la parte de y que no viene explicada por x: El objetivo es
encontrar los valores de �0 y �1 que minimicen S(�0; �1) para unos datos dados. A los valores que
minimizan S(�0; �1) los denotaremos por �̂0 y �̂1: La teoría estadística nos dice que esos valores
óptimos son (vr apéndice)
�̂1 =
cov(x; y)
s2x
; (2.3)
�̂0 = �y � �̂1�x: (2.4)
A la recta ŷ = �̂0 + �̂1x que utiliza los valores (2.4) y (2.3) le denominaremos recta de
regresión simple de mínimos cuadrados.
Ejemplo 3 El �chero cardata tiene datos de 155 vehículos. Entre estos datos tenemos las vari-
ables mpg=distancia (millas) recorrida con un galón de combustible, y la variable weight=peso del
vehículo. La �gura siguiente muestra el grá�co de dispersión basado en estos 155 vehículos.
Datos de peso y consumo de coches
En esta �gura puede verse que hay una fuerte tendencia lineal negativa, con un coe�ciente de cor-
relación de -0.82. Queremos calcular la recta de regresión que me ayude a dar un valor aproximado
12 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
de la distancia que recorrera un vehículo a partir de su peso. Del análisis de los datos tenemos que
cov(mpg,weight)=�3688.24
var(mpg)=54.42
var(weight)=363630
media mpg=28.79
media weight=2672.2
Calcularemos la recta de regresión que nos ayude a predecir la distancia recorrida (mpg) en función
del peso (weight). Por tanto nuestras variables son y =mpg y x =weight. La recta de regresión es
entonces
�̂1 =
cov(x; y)
s2x
=
�3688;24
363630
= �0;01014
�̂0 = �y � �̂1�x = 28;79� (�0;01014)� 2672;2 = 55;89
Supongamos ahora que tenemos un vehículo que pesa 2600 unidades y que no conozcamos su con-
sumo. Usando como aproximación la anterior recta de regresión podemos predecir que la distancia
que recorra con un galón de combustible será
Distancia prevista=ŷ(x = 2600) = �̂0 + �̂1 � 2600 = 55;89 + (�0;01014)� 2600 = 29;52 millas.
Hay que mencionar que la recta de regresión de mínimos cuaadrados �̂0 + �̂1x es óptima para
predecir y a partir de x y no debemos usarla para predecir un valor de x dado y: Es decir, si
observamos un valor de y y predecimos el valor de x despejando de la recta de regresión tal que
haciendo x̂ =
�
y � �̂0
�
=�̂1 ya no estamos usando la mejor recta posible que prediga x a partir de
y. No estamos haciendo el mejor uso de nuestros datos. Debemos en ese caso calcular una nueva
recta intercambiando los papeles de x e y: Volviendo al Ejemplo 3, si nuestro interés es encontrar
la predicción del peso de un vehículo si conociésemos la distancia que recorre con un galón de
combustible, lo mejor es volver a construir una nueva regresión especí�ca para esa predicción.
Ahora la variable explicativa es x =mpg y la variable respuesta es y =weight, y tendremos que
�̂
�
1 =
cov(x; y)
s2x
=
�3688;24
54;42
= �67;774
�̂
�
0 = �y � �̂
�
1�x = 2672;2� (�67;774)� 28;79 = 4623;4:
Entonces, si sabemos que un vehículo ha recorrido 10 millas con un galón de combustible, el peso
que podemos predecir para ese vehículo será de
Peso previsto=ŷ(x = 10) = �̂
�
0 + �̂
�
1 � 10 = 4623;4 + (�67;774)� 10 = 3945;7.
2.5. LA RECTA DE REGRESIÓN SIMPLE 13
2.5.3. Interpretación de los coe�cientes de una regresión simple
La interpretación de los coe�cientes es muy sencilla, y es la misma independientemente de si
hemos obtenido los coe�cientes con el criterio de mínimos cuadrados o cualquier otro, pues se basa
en interpretar el signi�cado de una linea recta. A partir de (2.2) puede verse que
dy
dx
= �1;
por lo que �1 es la pendiente de la recta (en ingés, slope). La interpretación más habitual de �1
es interpretarlo como el incremento que se produce en ŷ cuando x aumenta en una unidad. Este
resultado puede verse del siguiente desarrrollo:
�ŷ = ŷ(xi + 1)� ŷ(xi) = f�0 + �1(xi + 1)g � f�0 + �1xig = �1:
Por ejemplo, en el caso de la regresión anterior en la que se relaciona el peso del coche con su
consumo, se tiene que un peso adicional de una unidad reduce la distancia que puede recorrerse
con un galón en 0;01014 millas.
El término constante �0 es el valor de la recta cuando x = 0; ya que ŷ(0) = �0 + �1 � 0 = �0
(en inglés, intercept). En muchas ocasiones no tiene mucho interés interpretar esta constante, pues
el caso x = 0 no siempre está dentro del rango de los datos. Por ejemplo, en el caso de la regresión
anterior, un coche de peso 0 no tiene sentido.
2.5.4. Evaluación de la recta de regresión simple. Análisis de los residuos
¿Cómo sabemos que la recta de regresión simple es una buena herramienta para predecir y a
partir de x? Para contestar adecuadamente deberemos esperar a capítulos posteriores, donde se
desarrollarán técnicas estadísticas especí�cas para responder a esta pregunta. No obstante, en este
tema podemos dar una contestación aproximada que resulta útil.
Para considerar que una regresión simple es una buena idea para predecir y a partir de x
necesitamos cumplir dos condiciones. En primer lugar, y como condición mínima, necesitamos que
la relación entre y y x sea sea verdaderamente lineal. Es decir, la nube de puntos debe seguir un
patrón lineal, como sucede en el grá�co que se observa en el Ejemplo 3 y no un patrón curvilíneo
u otro tipo de estructura diferente a una linea recta. En segundo lugar, la nube de puntos debe
ser lo más estrecha posible alrededor de la recta de regresión, para que el error de prediocción sea
reducido.
La linealidad de la relación
Respecto a la condición de linealidad, lo más fácil para comprobarla es hacer representaciones
grá�cas. En muchos casos un simple grá�co de dispersión XY puede decirnos si una línea recta
es un buen resumen de los datos. Por ejemplo, la �gura siguiente muestra la relación entre la
velocidad del viento (metros/segundo) que sopla en una hora y la energía eólica generada por un
14 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
parque eólico (kWh) en ese miso periodo (datos parqueeolico1). En esta �gura puede verse que
la relación es no lineal con una forma parecida a una S. Sin embargo el coe�ciente de correlación
entre ambas variables es elevado, de 0.96. Este coe�ciente es, en este caso, engañoso. No es ninguna
medida-resumen de ninguna relación lineal pues no hay relación lineal entre las variables.
Esta �gura tiene en color rojo la recta de mínimos cuadrados, que en este caso es
ŷi = �5103 + 1983xi:
Según esta ecuación de la recta, al aumentar la velocidad del viento en una unidad la energía
generada por el parque aumentaría en 1983 unidades. Si la hipótesis de linealidad fuese cierta,
esta relación (1 m/s adicional =1938 unidades de energía adicionales (kWh)) sería la misma para
todos los niveles de velocidad de viento. Ese es precisamente el signi�cadodel término �lineal�. Sin
embargo, vemos en el grá�co que la realidad es diferente ya que a partir de 12 unidades de velocidad
(metros/segundo) al aumentar la velocidad del viento ya no se aumenta la energía generada, sino
que se mantiene en un nivel constante. Un comentario parecido puede realizarse para velocidades
inferiores a 4 m/s.
Además del grá�co anterior, se suele emplear el grá�co de valores previstos frente a
valores observados. En este grá�co, en el eje X ponemos las predicciones ŷ; y en el eje Y los
valores reales y. De esta forma representamos los pares de puntos (ŷi; yi); i = 1; :::; n: En el caso
en el que exista relación lineal, dicha �gura debe mostrar una nube de puntos con estructura lineal
agrupados alrededor de la diagonal. La �guras siguiente muestra a la izquierda el grá�co de valores
previstos frente a observados con los datos del Ejemplo 3, y a la derecha el grá�co con los datos
de energía eólica. En esta �gura puede verse que los datos relacionados con el consumo de los
2.5. LA RECTA DE REGRESIÓN SIMPLE 15
automóviles tienen una mayor relación lineal que los de la energía eólica.
Aparte de estos grá�cos, el grá�co que más se emplea para evaluar la idoneidad de una regresión
es el grá�co de residuos frente a valores previstos. En este grá�co, el eje X representa los
valores previstos ŷ; y el eje Y los residuos e: De esta forma se representan los n pares de puntos
(ŷi; ei): Este grá�co ilustra la información que tienen los residuos, una vez que a los datos originales
les hemos extraído la información que viene explicada por la recta de regresión. Si los datos tienen
una relación lineal, los residuos no deben tener ya ningún tipo de información, y deben aparecer
como una nube de puntos dispuestos al azar alrededor de la horizontal. La �gura siguiente muestra el
grá�co de residuos frente a valores previstos de los datos del consumo de combustible de los coches
y la energía eólica. Mientras que en el caso de los datos del consumo de combustible el grá�co
muestra una nube con distribución aleatoria, en el caso de la energía eólica se nota claramente la
falta de linealidad. Como la relación entre la velocidad de viento y la energía producida es no lineal
los residuos re�ejan esa falta de linealidad que no ha sido capaz de captar la regresión.
A la hora de interpretar el grá�co de residuos frente a valores previstos (que habitualmente se le
denomina sólo �grá�co de residuos�) debemos �jarnos en la presencia de estructuras en los datos
que sean muy claras, como la que aparece en el grá�co de la derecha de la �gura de arriba. La
pregunta que debemos hacerlos al mirar este grá�co es: ¿si hubiese dispuesto unos puntos al azar
sobre el grá�co, sería plausible obtener esa representación? Si la respuesta es a�rmativa, entonces
podemos concluir que la hipótesis de linealidad entre x e y es razonable. Si por el contrario pensamos
16 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
que la nube de los residuos tiene una estructura que no parezca debida al azar, pensaremos que el
modelo lineal no es adecuado.
En el ejemplo siguiente se muestra más claramente la utilidad del grá�co de residuos frente a
valores previstos. Los datos corresponden a un conjunto de experimentos en los que se hierve agua
a diferentes alturas en la cordillera del Himalaya, y están extraídos del texto Weisberg, S (1985).
Applied Linear Regression, 2nd edition. John Wiley and Sons, p. 28. Los datos se encuentran en
el �chero ebullicionhimalaya. Este �chero tiene dos variables. La variable Temperatura tiene la
temperatura en oC a la que hierve el agua en el experimento, y la variable Presión tiene la presión
atmosférica, en atmósferas, a la que se realiza el experimento. A mayor altura menor presión
atmosférica (a nivel del mar, la presión es de 1 atmósfera). La Figura 2.1 muestra el grá�co de
dispersión junto con la recta de mínimos cuadrados que predice la temperatura de ebullición a
partir de la presión atmosférica, así como el grá�co de residuos frente a valores previstos. En este
caso, el grá�co de dispersión de la izquierda parece sugerir que la relación es lineal, sin embargo
ésta no lo es. El grá�co de residuos frente a valores previstos nos muestra una curvatura que nos
dice que la relación real entre ambas variables es no lineal. Esta falta de linealidad no es muy
acusada y por eso es más difícil de ver en el grá�co de dispersión, aunque mirándolo con atención
también puede apreciarse. Este ejemplo ilustra la utilidad del grá�co de residuos frente a valores
previstos para evaluar la linealidad entre dos variables.
(a) Presión atmosférica y punto de ebullición del agua (b) Residuos frente a valores previstos.
Figura 2.1: Resultados de la regresión que explica el punto de ebullición en función de la presión atmosférica.
En este caso concreto de la relación entre el punto de ebullición y la presión, puede mejorarse
el modelo de regresión si, por ejemplo, buscamos una transformación no lineal entre las variables.
Por ejemplo puede observarse que entre el logaritmo de la presión y la temperatura sí hay una
relación lineal. Si hacemos la regresión con x = log(Presión) frente a y =Temperatura obtenemos
la siguiente recta de mínimos cuadrados
ŷ = 99;9 + 26;5� log(Temperatura);
y los grá�cos de evaluación, que se muestran en la Figura 2.2 ya resultan bastante más satisfactorios.
2.5. LA RECTA DE REGRESIÓN SIMPLE 17
Figura 2.2: Resultados de la regresión que explica el punto de ebullición en función del logaritmo de la presión
atmosférica.
Vemos por tanto que la recta de regresión simple puede utilizarse también, con un poco de
ingenio y experiencia, para modelizar algunos tipos de relaciones no lineales. Basta con transformar
las variables observadas en otras entre las que sí exista una relación lineal. En el siguiente apartado
analizaremos este tipo de transformaciones para algunos casos sencillos, pero muy frecuentes.
Bondad del ajuste lineal
Una vez que podemos asumir (tras el análisis de los residuos de la regresión) que la relación
entre x e y es lineal, el siguiente paso es cuanti�car cómo de precisa es la predicción de y utilizando
la recta de regresión simple. Desde un punto de vista grá�co, la predicción que se haga con la
regresión simple será tanto mejor cuanto más estrecha sea la nube de puntos alrededor de la recta.
Es decir, cuanto más próximos a cero sean los residuos. El siguiente ejemplo ilustra esta idea. Se
desea predecir el recorrido que hará un coche con 1 galón de combustible (variable y =mpg del
�chero cardata), y estamos pensando en elegir entre dos variables x alternativas. Una es el peso
del vehículo (variable weight), pues a mayor peso mayor será el consumo y menor la distancia que
recorrerá con una unidad de combustible. El grá�co de dispersión de las variables mpg y weight
con la recta de regresión superpuesta se encuentra en la �gura de la izquierda. La segunda opción
es emplear la aceleración del vehículo (variable accel) que mide el tiempo que tarda en alcanzar
cierta velocidad. El grá�co de dispersión con la recta de regresión para esta segunda opción está
en la �gura de la derecha. Parece que a mayor capacidad de aceleración, el coche es más e�ciente y
consume menos. ¿Cuál de las dos regresiones elegiríamos para predecir mpg? Parece evidente que
la variable weight es mejor pues la nube de puntos está más próxima a la recta que en el caso de
la variable accel.
18 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
Esta menor dispersión de la nube de puntos viene cuanti�cada por el coe�ciente de correlación
entre x e y. Las correlaciones en estos datos son las siguientes
corr(weight,mpg) =-0.83,
corr(accel,mpg) =0.22.
Por tanto, y dado que las relaciones son lineales, la variable weight será mejor predictor que la
variable accel en el sentido de que los errores que cometamos al predecir con la regresión simple
tenderán a ser menores.
Aunque el coe�ciente de correlación sea fácil de utilizar,vamos a emplear otro coe�ciente para
medir la bondad de ajuste de la recta de regresión simple. Este coe�ciente se denomina coe�ciente
de determinación R2. El coe�ciente de determinación se de�ne como
R2 = 1�
Pn
i=1 e
2
iPn
i=1 (yi � �y)
2 : (2.5)
Este coe�ciente proporciona un valor entre 0 y 1 tal que cuanto más estrecha sea la línea de puntos
alrededor de la recta de regresión más próximo será su valor a 1. En este sentido es bastante similar
al coe�ciente de correlación. Se puede demostrar que
R2 = corr(x; y)2:
¿Qué utilidad tiene entonces utilizar R2 en lugar de la correlación para medir la bondad del
ajuste del a regresión? En primer lugar, la utilidad será evidente más adelante,en un capítulo
posterior, cuando se construyan regresiones con más de una variable explicativa, pues en ese caso
habrá varias correlaciones en juego, una por variable explicativa, y éstas dejarán de ser útiles
para comparar modelos. En segundo lugar está la interpretación del coe�ciente R2. El términoPn
i=1 (yi � �y)
2 que aparece en (2.5) cuanti�ca la dispersión que tienen las observaciones de y:
Además, como los residuos tienen media cero podemos escribir que
Pn
i=1 e
2
i =
Pn
i=1 (ei � �e)
2
; por
lo que el término
Pn
i=1 e
2
i cuanti�ca la dispersión que tienen los residuos. Por tanto el coe�ciente
de determinación compara la variabilidad inicial de los datos
Pn
i=1 (yi � �y)
2 con la que todavía
2.5. LA RECTA DE REGRESIÓN SIMPLE 19
queda en los residuos,
Pn
i=1 e
2
i tras extraer de los datos de y la parte que viene explicada por la
relación lineal con x. Cuanto más explicativa sea la regresión menor será
Pn
i=1 e
2
i con respecto aPn
i=1 (yi � �y)
2
: Por tanto el coe�ciente de determinación nos dice qué proporción de la
dispersión de la variable respuesta y viene explicada por la recta de la regresión. En
el caso de las dos regresiones que se proponen para explicar mpg se tiene que:
regresión de mpg con weight : R2 = 68;73%;
regresión de mpg con accel : R2 = 5;15%:
Por tanto, el peso del vehículo es mejor predictor que la aceleración al explicar el 68.73% de la
variabilidad de la variable mpg frente al 5.15% que explica accel.
2.5.5. Transformaciones para mejorar la linealidad
Si x e y están relacionadas de forma no lineal, la utilización de una regresión lineal para
modelizar dicha relación no sería adecuado. Sin embargo, en muchas ocasiones, es fácil transformar
las variables en otras x� e y� tales que entre ellas sí exista una relación lineal y construir con ellas
una regresión lineal. Las Figuras 2.1 y 2.2 son un ejemplo de este tipo de variables. En este caso la
relación entre x =Presión e y =Temperatura no es lineal, y presenta cierta curvatura. Sin embargo,
la relación entre x� = log(Presion) e y =Temperatura sí lo es. Lo que consigue esta transformación
es, en cierta forma, enderezar la curva no lineal que siguen los datos. Este efecto se puede conseguir
de varias maneras. A continuación vamos a presentar un procedimiento basado en transformaciones
del tipo x� = xc donde c > 1 ó c < 1 dependiendo del tipo de transformación que necesiten los
datos. Para explicar esta metodología vamos a utilizar la Figura 2.3.
(a) (b) (c)
Figura 2.3: Transformaciones usando potencias para conseguir linealidad.
En la Figura 2.3 (a) tenemos dos variables que tienen claramente una relación no lineal. La línea
roja representaría la curva que nos gustaría utilizar para predecir y a partir de x. Lo que vamos a
20 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
hacer entonces es corregir esa curvatura. Con este �n vamos a aplicar una transformación a x tal
que los valores muy altos se reduzcan mucho y los valores más bajos se reduzcan menos, tal y como
se ilustra en la Figura 2.3 (b). Esta compresión creciente a medida que aumenta x se consigue con
transformaciones del tipo xc con c < 1: El valor de c puede buscarse probando diferentes valores y
analizando los residuos. Hay que encontrar el valor justo de c: Un valor demasiado pequeño podría
no ser su�ciente para corregir la no linealidad, y un valor demasiado alto puede provocar una no
linealidad con la curvatura en dirección opuesta. La transformación x� = log(x); que es la que se
ha usado en la Figura 2.2, también produce este tipo de compresión creciente con x (obviamente si
x > 0). En este caso, el tipo de transformación que se obtiene puede interpretarse como equivalente
a la transformación con c � 0: De esta forma se subsana la discontinuidad que tiene este método
en c = 0; pues en ese caso se tendría que xc = 1 y la transformación sería absurda.
Otra opción para corregir la curvatura es manipulando y en lugar de x: En el caso del ejemplo
de la Figura 2.3, el grá�co muestra que para corregir la curvatura lo que hay que hacer es expandir
los valores de y de tal manera que los valores altos se expandan mucho más que los bajos, tal y
como se ilustra en la Figura 2.3 (c). Este tipo de transformaciones se consigue usando c > 1: Hay
que tener cuidado con valores de c que sean pares pues si y tiene valores positivos y negativos,
la variable transformada carecerá de sentido. Este tipo de transformaciones sólo funcionará si los
datos tienen cierto rango de variabilidad, de forma que sea observable un comportamiento distinto
en los valores altos respecto a los bajos.
La Figura 2.4 muestra tres transformaciones diferentes realizadas sobre la variable x de la Figura
2.3 (a), así como los respectivos grá�cos de residuos frente a valores previstos de las respectivas
regresiones de y con x�: Las Figuras 2.4 (a.1) y (a.2) utilizan la transformación x� = x0;9: Esta
transformación parece insu�ciente para corregir la no linealidad. Las Figuras 2.4 (b.1) y (b.2)
utilizan la transformación x� = x0;5; que parece que resuelven el problema de la no linealidad. Las
Figuras 2.4 (c.1) y (c.2) utilizan la transformación x� = x0;1 que ya es excesiva, y por eso produce
de nuevo no linealidad.
La Figura 2.5 muestra un esquema de cuál debería ser la transformación que debe realizarse
sobre x (x� = xc) para conseguir corregir la no linealidad. La línea punteada simboliza la curva
alrededor de la cuál se agruparían los datos sin transformar. ¿Cómo debería ser la transformación
si decidimos hacerla sobre la variable y (y� = yc)?
Anexo: demostración de la ecuación de la recta de mínimos cuadrados
Dado un conjunto de n observaciones bidimensionales (y1; x1); :::; (yn; xn); de las variables (y; x)
buscamos la recta de regresión simple y = �0 + �1x+ e tal que se minimice la función de pérdida
S(�0; �1) donde
S(�0; �1) =
nX
i=1
e2i =
nX
i=1
[yi � (�0 + �1xi)]
2
:
2.5. LA RECTA DE REGRESIÓN SIMPLE 21
(a.1) (b.1) (c.1)
(a.2) (b.2) (c.2)
Figura 2.4: Grá�cos xy con recta de regresión (arriba) y grá�co de residuos frente a valores previstos (abajo). (a)
transformación x0;9. (b) transformación x0;5. (c) transformación x0;1.
A los valores de �0 y b que minimizan S(�0; �1) los denotaremos por �̂0 y �̂1: Por tanto, la primera
derivada se anulará en dichos valores, es decir,
@S
@�0
����
�0=�̂0
= 0;
@S
@�1
����
�1=�̂1
= 0;
de donde se obtiene que
@S
@�0
����
�0=�̂0
= �2
nX
i=1
�
yi � �̂0 � �̂1xi
�
= 0; (2.6)
@S
@�1
����
b=�̂1
= �2
nX
i=1
�
yi � �̂0 � �̂1xi
�
(xi) = 0: (2.7)
22 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE
Figura 2.5: Transformaciones que, en cada caso, pueden corregir la no linealidad.
De estas equaciones resulta
nX
i=1
yi = n�̂0 + �̂1
nX
i=1
xi
nX
i=1
yixi = �̂0
nX
i=1
xi + �̂1
nX
i=1
x2i
de donde se obtiene que
�̂0 =
Pn
i=1 yi
n
� �̂1
Pn
i=1 xi
n
= �y � �̂1�x;
�̂1 =
Pn
i=1 (yi � �y) (xi � �x)Pn
i=1 (xi � �x)
2 =
cov(x; y)
s2x
:
Además de este resultado, de (2.6) puede escribirse que
nX
i=1
�
yi �
h
�̂0 + �̂1xi
i�
=
nX
i=1
(yi � ŷi) =
nX
i=1
ei = 0;
por lo que los residuos de la regresión de mínimos cuadrados tienen media cero.