Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 2 Estadística Descriptiva Bivariante 1. Introducción. 2. Descripción de datos mediante de frecuencias bivariantes. 3. Descripción de datos bivariantes mediante grá�cos de dispersión. 4. Relación lineal entre dos variables. 5. La recta de regresión simple. 0Apuntes realizados por Ismael Sánchez. Todos los derechos reservados. 2 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE 2.1. Introducción En este capítulo continuamos describiendo un conjunto de datos, pero ahora los datos tienen información de dos variables. Por ejemplo, para una misma persona podemos tener su edad y su salario. Para un artículo manufacturado podemos tener información de más de una dimensión. Nos interesa el estudio conjunto de ambas variables y, en particular, saber si están relacionadas o no. En el caso en el que estén relacionadas, nos interesará poder describir cómo es su relación: lineal o no lineal. Nos interesará especialmente el caso en el que ambas variables estén relacionadas de forma lineal. En ese caso, es fácil construir un modelo lineal que resuma dicha relación. Este modelo puede utilizarse, por ejemplo, para predecir qué valor tomará una variable en un individuo a partir del valor de la otra varable. La técnica estadística que emplearemos para modelizar esta relación lineal es la de regresión simple por mínimos cuadrados. 2.2. Descripción de datos mediante tablas de frecuencias bivariantes. Distribución marginal y condicionada Si se tiene más de una variable de cada individuo, puede realizarse una tabla de frecuencias como en el caso univariante. Por ejemplo, con dos variables se tendrá una tabla de doble entrada donde cada dimensión corresponderá a una variable y cada celda de la tabla tendrá el número de individuos que tengan los correspondientes valores según la �la y columna en que se encuentre. Dicho valor recibe el nombre de frecuencia conjunta (absoluta o relativa). La tabla siguiente muestra la tabla de distribución de frecuencias conjunta para las vari- ables: número de hermanos (columnas) y sexo (�las) de 95 estudiantes ((�chero AlumnosIndus- triales). Número de hermanos en función del sexo del alumno En esta tabla puede verse, por ejemplo, que hay 9 alumnos que son hijos únicos, de los cuales 3 son chicas y 6 son chicos. En los márgenes de la tabla aparecen también los totales por �las y por columnas, que son precisamente las frecuencias de cada variable por separado. A esta distribución de frecuencias univariante que aparece en las tablas multivariantes se les denomina distribuciones marginales, por estar situados en los márgenes. Las distribuciones marginales son por tanto las 2.2. DESCRIPCIÓN DE DATOS MEDIANTE TABLAS DE FRECUENCIAS BIVARIANTES. DISTRIBUCIÓN MARGINAL Y CONDICIONADA 3 distribuciones univariantes. Cada una de las �las o columnas por separado nos mostrará la dis- tribución de frecuencias de una variable cuando la otra variable toma un valor determinado. A esta distribución de frecuencias, que es también univariante, se le denomina distribución condi- cionada. Por ejemplo, los valores de la primera columna de la tabla es la distribución por sexo de los estudiantes que son hijos únicos.. Las tablas de frecuencias multivariantes también pueden contener frecuencias relativas. En este caso es importante distinguir si el interés está en la frecuencia relativa conjunta o condicionada, pues el número por el que hay que dividir la frecuencia absoluta sería diferente. Por ejemplo, la tabla anterior muestra la distribución de frecuencias relativa conjunta, donde en cada celda se encuentra el porcentaje que representan los elementos de dicha celda respecto al total (95 alumnos). Por ejemplo, los 6 chicos que son hijos únicos son el 6.3% de los estudiantes del aula en que se tomaron estos datos. Si lo que se desea es la distribución de frecuencias relativas condicionada a la variable número de hermanos, los porcentajes se obtendrán dividiendo las frecuencias absolutas entre el total de la �la. Se tendrá la siguiente tabla: Número de hermanos en función del sexo del alumno En esta tabla puede verse, por ejemplo, que de los 37 estudiantes que tienen 2 hermanos el 70,27% (26/37�100) son chicos. Ejercicio 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Un proceso productivo tiene dos líneas de producción: línea A y línea B que funcionan de forma totalmente independiente (distintas máquinas, distintos operarios, etc). Un analista toma nota al �nal de cada línea del número de defectos que tienen los artículos que van produciendo ambas líneas. Primero toma nota de 50 artículos de la línea A y después va a la línea B y toma nota de 50 artículos de dicha línea. La tabla siguiente muestra un ejemplo de cómo son los datos: Número de defectos Artículo Línea A Línea B 1 0 1 2 1 1 3 2 0 ... ... ... 50 1 0 4 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE Cuando tiene 50 artículos inspeccionados por cada línea construye una tabla de frecuencias bivariante, resultando la siguiente tabla: ¿Qué opinión te merece la realización de esta tabla? 2. En un aula con 25 chicos y 14 chicas se pregunta quién fuma, resultando la siguiente tabla Fuma No fuma total Chico 12 13 25 Chica 8 6 14 total 20 19 39 a) ¿Qué proporción de estudiantes fuma? b) ¿Qué propoción de chicas no fuma? c) ¿Qué proporción de estudiantes son chicos y fumadores?¿Qué son el resto de los alum- nos? d) ¿Cuál es la distribución marginal de frecuencias relativas del sexo de los alumnos? e) ¿Cuál es la distribución marginal de frecuencias absolutas del sexo de los alumnos? f) ¿Cuál es la distribución de frecuencias relativas de la variable sexo condicionada a que son alumnos fumadores? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Descripción de datos bivariantes mediante grá�cos de dispersión Este grá�co, también conocido como grá�co bivariante o grá�co XY representa la información de dos variables para un conjunto de individuos. Para cada individuo se tiene un dato bivariante: 2.3. DESCRIPCIÓN DE DATOS BIVARIANTES MEDIANTE GRÁFICOS DE DISPERSIÓN 5 la información de la variable x y la de la variable y. En unos ejes de ordenadas se representa cada punto colocando en el eje x el valor de la primera variable y en el y el de la segunda. Se tendrán tantos puntos como tamaño de la muestra. Ejemplo 1 El siguiente grá�co muestra la información de una muestra de 40 vehículos. Para cada vehículo se tiene la potencia del motor (eje x) y la velocidad máxima (eje y). El grá�co de estos 40 puntos, uno por vehículo, revela que a mayor potencia mayor velocidad máxima, siendo esta relación lineal (la nube de puntos se extiende a lo largo de una línea recta imaginaria) Grá�co de dispersión para la velocidad y la potencia de un conjunto de coches Ejemplo 2 La siguiente �gura muestra el grá�co de dispersión de la energía generada en un parque eólico y la velocidad del viento (�chero parqueeolico1(por con�dencialidad estos datos han sido contaminados con un ruido)). Cada punto tiene dos valores: la energía producida en una hora y la velocidad registrada del viento en dicha hora. El eje X representa la velocidad (m/s) media registrada en una hora, mientras que el eje Y representa la energía (kwh) generada en ese tiempo. Puede verse en la �gura que hay una clara relación entre la velocidad del viento y la energía, pero en este caso dicha relación es no lineal. A velocidades bajas, la producción energética es casi nula. A partir de cierta velocidad mínima, la energía aumenta de forma creciente. A partir de cierta velocidad máxima, la energía generada en una hora apenas varía y se mantiene próxima a cierto nivel máximo, que es la capacidad máxima de la instalación. 6 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE0 5 10 15 20 25 0 0.5 1 1.5 2 2.5 3 x 104 Velocidad horaria media del viento (m/s) kW h Energía horaria generada Potencia horaria media generada en un parque eólico en función de la velocidad del viento 2.4. Relación lineal entre dos variables En esta sección presentaremos medidas que resuman la asociación entre dos variables cuantita- tivas. Estas medidas serán resúmenes numéricos de las relaciones que se hayan detectado usando los grá�cos de dispersión presentados anteriormente. Nos centraremos sólamente en relaciones lineales entre dos variables. En esos casos, el grá�co de dispersión mostrará una nube de puntos alrededor de cierta línea recta imaginaria. Para resumir el grado de relación lineal entre dos variables se usan las siguientes medidas: (1) coe�ciente de covarianza, (2) coe�ciente de correlación (3) recta de regresión. 2.4.1. Coe�ciente de covarianza Supongamos que para un conjunto de n individuos se tiene información de dos variables x e y (datos bidimensionales). Entonces la covarianza o coe�ciente de covarianza se de�ne como cov(x; y) � sxy = Pn i=1 (xi � �x) (yi � �y) n : Este coe�ciente de covarianza tomará valores positivos si hay una relación lineal positiva entre ambas variables; es decir, si al aumentar una de ellas también lo hace la otra. El siguiente grá�co de dispersión ilustra esta covarianza positiva. El grá�co (a) muestra el precio del coche y su potencia para un conjunto de 90 coches europeos, donde la covarianza es 302764. Por el contario, si la relación lineal es negativa, el coe�ciente de covarianza será negativo, como sucede con los datos de peso del 2.4. RELACIÓN LINEAL ENTRE DOS VARIABLES 7 coche y la distancia que recorrerá con un litro de combustible, que posee una covarianza de -1600. (a) Relación entre precio y potencia de 90 coches (b) Relación entre peso y consumo de 90 coches Si entre ambas variables no hay relación, la covarianza será próxima a cero. En estos casos, el diagrama de dispersión muestra una nube de puntos sin ningún patrón de relación. El signo del coe�ciente de covarianza nos indica claramente el signo de la relación lineal que exista entre las variables. Sin embargo, al depender el coe�ciente de covarianza de las unidades de x y de y , el valor concreto no es fácil de interpretar. Por ejemplo, en los dos grá�cos anteriores, no sabríamos decir, a partir de los valores de covarianzas, que relación lineal es más fuerte. Para el grá�co (a) la covarianza es 302764 dólares�CV, mientras que para el grá�co (b) la covarianza es de -1600 kilogramos�millas, que no son unidades comparable con dólares�CV. Sería conveniente por tanto utilizar alguna medida característica que resuma la relación lineal de forma adimensional. Esta medida es el coe�ciente de correlación, que se muestra a continuación. 2.4.2. Coe�ciente de correlación La información que suministra el coe�ciente de correlación es la misma que la covarianza. Es un coe�ciente que mide el grado de relación lineal entre dos variables tomadas en los mismos individuos, pero usando un valor adimensional. Se de�ne como r � rxy � r(x; y) = cov(x; y) sxsy : Puede demostarse que estará siempre entre -1 y 1. Su interpretación es r = 0; no hay relación lineal r > 0; relación lineal positiva r < 0; relación lineal negativa Si r = 1 tendremos una relación lineal positiva perfecta, en el sentido de que los datos estarán perfectamente alineados según una recta de pendiente positiva. Análogamente, si r = �1 tendremos 8 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE una relación lineal negativa perfecta. En el caso de las variables precio y potencia mostradas anteriormente la correlación es 0.73 que es positiva y alta. En el caso de las variables peso y distancia recorrida, la correlación es -0.82 que es negativa y muy alta. Cuanto más próxima esté la nube de puntos a una línea recta más próximo estará el coe�ciente de correlación a la unidad (en valor absoluto). Por el contrario, cuanto más dispersa esté la nube de puntos, la correlación estará más próxima a cero. A continuación se muestra una serie de �guras donde se representan conjuntos de datos de diferente coe�ciente de correlación. r=1r=1 r=0.8r=0.8 r=0.06r=0.06 r=-0.94r=-0.94 r=-0.83r=-0.83 r=-0.08r=-0.08 2.4.3. Matrices de covarianzas y correlaciones Una forma habitual de presentar las medidas de dependencia lineal entre las variables de un conjunto de datos bidimensionales es en forma de matriz. Para el caso de covarianzas se de�ne la matriz de covarianzas muestral M a la siguiente matriz M = " s2x cov(x; y) cov(y; x) s2y # ; que es simétrica porque cov(x; y) =cov(y; x): Análogamente, se de�ne la matriz de correlaciones muestral R a la siguiente matriz R = " 1 corr(x; y) corr(y; x) 1 # ; que de nuevo es simétrica porque corr(x; y) =corr(y; x):Esta matriz tiene unos en la diagonal porque representarían la correlación de cada variable consigo misma. Es decir, corr(x; x)=1, y corr(y; y)=1. 2.5. LA RECTA DE REGRESIÓN SIMPLE 9 2.5. La recta de regresión simple 2.5.1. De�nición de la recta de regresión simple Nuestro interés en el cálculo de la correlación está en medir la proximidad de la nube de puntos a una línea recta imaginaria. Lo que vamos a hacer ahora es obtener la ecuación de esa línea recta que sirva de resumen de la relación entre ambas variables. Es importante recalcar que esta línea recta es sólo una aproximación de la relación entre ambas variables. Cuando más próximo a �1 esté el coe�ciente de correlación, mayor será la capacidad de aproximación o explicación de dicha recta como resumen de la relación entre ambas variables. A este procedimiento de buscar una recta que aproxime el comportamiento de una nube de puntos le llamaremos ajuste de una recta. Nuestro objetivo es encontrar la recta �0+�1x que mejor resuma esa tendencia lineal que muestra la nube de puntos, como se ilustra en esta �gura. A la variable que queremos saber su valor le denominamos variable respuesta, y se le suele reservar la letra y: A la variable que vamos a usar para predecir el valor de la variable respuesta le denominaremos variable explicativa, y se le suele reservar la letra x: Nuestro interés es en la recta que nos ayude a predecir el valor de y a partir de la observación de x. Si la nube de puntos formase una línea recta perfecta (lo que ocurrá sólo si la correlación entre ambas es �1) tendríamos que y = �0 + �1x; y los valores de �0 y �1 los podríamos calcular usando sólo un par de puntos. En cualquier otro caso, si la correlación es diferente a �1, es imposible encontrar una línea recta que pase por todos los puntos. Dada una nube de puntos formada por un conjunto de datos de dos variables, existen muchos criterios para ajustar una línea recta que pase por su interior, lo que llevaría a calcular rectas diferentes según el criterio que empleemos. Sin embargo, sólo una será la recta de regresión simple que nos interesa. Para de�nir la recta de regresión simple, vamos a asumir que los diferentes valores de y vienen explicados, en parte, y de forma lineal, por otra variable x: Esta relación puede escribirse como yi = �0 + �1xi + ei; (2.1) donde yi es el valor observado de la variable y para el individuo i-ésimo, xi es el valor observado de la variable x para ese mismo individuo, y ei es la parte de yi que no viene explicada por la recta, y 10 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE recibe el nombre de residuo o error de predicción. A la expresión (2.1) se le denominamodelo de regresión simple, pues supone un modelo lineal de cómo se comporta y para determinados valores de x a través de un modelo con sólo una variable explicativa. Al valor que resulta de aplicar la recta �0+�1x para un valor de x = xi dado, le llamaremos predicción, y lo denotaremos por el símbolo ŷ(xi), o simplemente ŷi: La recta que predice el valor de y cuando se conoce que x = xi puede expresar entonces como ŷi = �0 + �1xi: (2.2) Por tanto, el residuo puede calcularse comoei = yi � ŷi = yi � (�0 + �1xi) La siguiente �gura muestra la diferencia entre un valor observado yi y un valor previsto ŷi para el valor xi; usando la recta ŷ = �0 + �1x: En este caso, el residuo ei es positivo. 2.5.2. La recta de mínimos cuadrados Como hemos dicho antes, la recta de regresión simple se utilizará para predecir y a partir de x: Esta utilización nos ayudará a determinar cómo construir esa recta dentro de las múltiples rectas que pueden pasar por la nube de puntos. Nuestro problema entonces es cómo, a partir de un conjunto de datos, encontrar los valores óptimos de �0 y �1 que proporcionen mejores predicciones de y a partir de x: Diremos que una recta de regresión simple es mejor que otra (que unos valores de �0 y �1son más apropiados que otros) si las predicciones son mejores en el sentido de que los residuos sean, en conjunto, menores. La forma más habitual de determinar el tamaño de los residuos es usando su 2.5. LA RECTA DE REGRESIÓN SIMPLE 11 suma cuadrática P e2i : A esta suma cuadrática le denominaremos función de pérdida S(�0; �1); que es una función de �0 y �1, es decir S(�0; �1) = nX i=1 e2i = nX i=1 [yi � (�0 + �1xi)] 2 : Se denomina función de pérdida porque resume lo que se �pierde�al usar una recta de regresión simple. Es decir, S(�0; �1) cuanti�ca la parte de y que no viene explicada por x: El objetivo es encontrar los valores de �0 y �1 que minimicen S(�0; �1) para unos datos dados. A los valores que minimizan S(�0; �1) los denotaremos por �̂0 y �̂1: La teoría estadística nos dice que esos valores óptimos son (vr apéndice) �̂1 = cov(x; y) s2x ; (2.3) �̂0 = �y � �̂1�x: (2.4) A la recta ŷ = �̂0 + �̂1x que utiliza los valores (2.4) y (2.3) le denominaremos recta de regresión simple de mínimos cuadrados. Ejemplo 3 El �chero cardata tiene datos de 155 vehículos. Entre estos datos tenemos las vari- ables mpg=distancia (millas) recorrida con un galón de combustible, y la variable weight=peso del vehículo. La �gura siguiente muestra el grá�co de dispersión basado en estos 155 vehículos. Datos de peso y consumo de coches En esta �gura puede verse que hay una fuerte tendencia lineal negativa, con un coe�ciente de cor- relación de -0.82. Queremos calcular la recta de regresión que me ayude a dar un valor aproximado 12 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE de la distancia que recorrera un vehículo a partir de su peso. Del análisis de los datos tenemos que cov(mpg,weight)=�3688.24 var(mpg)=54.42 var(weight)=363630 media mpg=28.79 media weight=2672.2 Calcularemos la recta de regresión que nos ayude a predecir la distancia recorrida (mpg) en función del peso (weight). Por tanto nuestras variables son y =mpg y x =weight. La recta de regresión es entonces �̂1 = cov(x; y) s2x = �3688;24 363630 = �0;01014 �̂0 = �y � �̂1�x = 28;79� (�0;01014)� 2672;2 = 55;89 Supongamos ahora que tenemos un vehículo que pesa 2600 unidades y que no conozcamos su con- sumo. Usando como aproximación la anterior recta de regresión podemos predecir que la distancia que recorra con un galón de combustible será Distancia prevista=ŷ(x = 2600) = �̂0 + �̂1 � 2600 = 55;89 + (�0;01014)� 2600 = 29;52 millas. Hay que mencionar que la recta de regresión de mínimos cuaadrados �̂0 + �̂1x es óptima para predecir y a partir de x y no debemos usarla para predecir un valor de x dado y: Es decir, si observamos un valor de y y predecimos el valor de x despejando de la recta de regresión tal que haciendo x̂ = � y � �̂0 � =�̂1 ya no estamos usando la mejor recta posible que prediga x a partir de y. No estamos haciendo el mejor uso de nuestros datos. Debemos en ese caso calcular una nueva recta intercambiando los papeles de x e y: Volviendo al Ejemplo 3, si nuestro interés es encontrar la predicción del peso de un vehículo si conociésemos la distancia que recorre con un galón de combustible, lo mejor es volver a construir una nueva regresión especí�ca para esa predicción. Ahora la variable explicativa es x =mpg y la variable respuesta es y =weight, y tendremos que �̂ � 1 = cov(x; y) s2x = �3688;24 54;42 = �67;774 �̂ � 0 = �y � �̂ � 1�x = 2672;2� (�67;774)� 28;79 = 4623;4: Entonces, si sabemos que un vehículo ha recorrido 10 millas con un galón de combustible, el peso que podemos predecir para ese vehículo será de Peso previsto=ŷ(x = 10) = �̂ � 0 + �̂ � 1 � 10 = 4623;4 + (�67;774)� 10 = 3945;7. 2.5. LA RECTA DE REGRESIÓN SIMPLE 13 2.5.3. Interpretación de los coe�cientes de una regresión simple La interpretación de los coe�cientes es muy sencilla, y es la misma independientemente de si hemos obtenido los coe�cientes con el criterio de mínimos cuadrados o cualquier otro, pues se basa en interpretar el signi�cado de una linea recta. A partir de (2.2) puede verse que dy dx = �1; por lo que �1 es la pendiente de la recta (en ingés, slope). La interpretación más habitual de �1 es interpretarlo como el incremento que se produce en ŷ cuando x aumenta en una unidad. Este resultado puede verse del siguiente desarrrollo: �ŷ = ŷ(xi + 1)� ŷ(xi) = f�0 + �1(xi + 1)g � f�0 + �1xig = �1: Por ejemplo, en el caso de la regresión anterior en la que se relaciona el peso del coche con su consumo, se tiene que un peso adicional de una unidad reduce la distancia que puede recorrerse con un galón en 0;01014 millas. El término constante �0 es el valor de la recta cuando x = 0; ya que ŷ(0) = �0 + �1 � 0 = �0 (en inglés, intercept). En muchas ocasiones no tiene mucho interés interpretar esta constante, pues el caso x = 0 no siempre está dentro del rango de los datos. Por ejemplo, en el caso de la regresión anterior, un coche de peso 0 no tiene sentido. 2.5.4. Evaluación de la recta de regresión simple. Análisis de los residuos ¿Cómo sabemos que la recta de regresión simple es una buena herramienta para predecir y a partir de x? Para contestar adecuadamente deberemos esperar a capítulos posteriores, donde se desarrollarán técnicas estadísticas especí�cas para responder a esta pregunta. No obstante, en este tema podemos dar una contestación aproximada que resulta útil. Para considerar que una regresión simple es una buena idea para predecir y a partir de x necesitamos cumplir dos condiciones. En primer lugar, y como condición mínima, necesitamos que la relación entre y y x sea sea verdaderamente lineal. Es decir, la nube de puntos debe seguir un patrón lineal, como sucede en el grá�co que se observa en el Ejemplo 3 y no un patrón curvilíneo u otro tipo de estructura diferente a una linea recta. En segundo lugar, la nube de puntos debe ser lo más estrecha posible alrededor de la recta de regresión, para que el error de prediocción sea reducido. La linealidad de la relación Respecto a la condición de linealidad, lo más fácil para comprobarla es hacer representaciones grá�cas. En muchos casos un simple grá�co de dispersión XY puede decirnos si una línea recta es un buen resumen de los datos. Por ejemplo, la �gura siguiente muestra la relación entre la velocidad del viento (metros/segundo) que sopla en una hora y la energía eólica generada por un 14 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE parque eólico (kWh) en ese miso periodo (datos parqueeolico1). En esta �gura puede verse que la relación es no lineal con una forma parecida a una S. Sin embargo el coe�ciente de correlación entre ambas variables es elevado, de 0.96. Este coe�ciente es, en este caso, engañoso. No es ninguna medida-resumen de ninguna relación lineal pues no hay relación lineal entre las variables. Esta �gura tiene en color rojo la recta de mínimos cuadrados, que en este caso es ŷi = �5103 + 1983xi: Según esta ecuación de la recta, al aumentar la velocidad del viento en una unidad la energía generada por el parque aumentaría en 1983 unidades. Si la hipótesis de linealidad fuese cierta, esta relación (1 m/s adicional =1938 unidades de energía adicionales (kWh)) sería la misma para todos los niveles de velocidad de viento. Ese es precisamente el signi�cadodel término �lineal�. Sin embargo, vemos en el grá�co que la realidad es diferente ya que a partir de 12 unidades de velocidad (metros/segundo) al aumentar la velocidad del viento ya no se aumenta la energía generada, sino que se mantiene en un nivel constante. Un comentario parecido puede realizarse para velocidades inferiores a 4 m/s. Además del grá�co anterior, se suele emplear el grá�co de valores previstos frente a valores observados. En este grá�co, en el eje X ponemos las predicciones ŷ; y en el eje Y los valores reales y. De esta forma representamos los pares de puntos (ŷi; yi); i = 1; :::; n: En el caso en el que exista relación lineal, dicha �gura debe mostrar una nube de puntos con estructura lineal agrupados alrededor de la diagonal. La �guras siguiente muestra a la izquierda el grá�co de valores previstos frente a observados con los datos del Ejemplo 3, y a la derecha el grá�co con los datos de energía eólica. En esta �gura puede verse que los datos relacionados con el consumo de los 2.5. LA RECTA DE REGRESIÓN SIMPLE 15 automóviles tienen una mayor relación lineal que los de la energía eólica. Aparte de estos grá�cos, el grá�co que más se emplea para evaluar la idoneidad de una regresión es el grá�co de residuos frente a valores previstos. En este grá�co, el eje X representa los valores previstos ŷ; y el eje Y los residuos e: De esta forma se representan los n pares de puntos (ŷi; ei): Este grá�co ilustra la información que tienen los residuos, una vez que a los datos originales les hemos extraído la información que viene explicada por la recta de regresión. Si los datos tienen una relación lineal, los residuos no deben tener ya ningún tipo de información, y deben aparecer como una nube de puntos dispuestos al azar alrededor de la horizontal. La �gura siguiente muestra el grá�co de residuos frente a valores previstos de los datos del consumo de combustible de los coches y la energía eólica. Mientras que en el caso de los datos del consumo de combustible el grá�co muestra una nube con distribución aleatoria, en el caso de la energía eólica se nota claramente la falta de linealidad. Como la relación entre la velocidad de viento y la energía producida es no lineal los residuos re�ejan esa falta de linealidad que no ha sido capaz de captar la regresión. A la hora de interpretar el grá�co de residuos frente a valores previstos (que habitualmente se le denomina sólo �grá�co de residuos�) debemos �jarnos en la presencia de estructuras en los datos que sean muy claras, como la que aparece en el grá�co de la derecha de la �gura de arriba. La pregunta que debemos hacerlos al mirar este grá�co es: ¿si hubiese dispuesto unos puntos al azar sobre el grá�co, sería plausible obtener esa representación? Si la respuesta es a�rmativa, entonces podemos concluir que la hipótesis de linealidad entre x e y es razonable. Si por el contrario pensamos 16 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE que la nube de los residuos tiene una estructura que no parezca debida al azar, pensaremos que el modelo lineal no es adecuado. En el ejemplo siguiente se muestra más claramente la utilidad del grá�co de residuos frente a valores previstos. Los datos corresponden a un conjunto de experimentos en los que se hierve agua a diferentes alturas en la cordillera del Himalaya, y están extraídos del texto Weisberg, S (1985). Applied Linear Regression, 2nd edition. John Wiley and Sons, p. 28. Los datos se encuentran en el �chero ebullicionhimalaya. Este �chero tiene dos variables. La variable Temperatura tiene la temperatura en oC a la que hierve el agua en el experimento, y la variable Presión tiene la presión atmosférica, en atmósferas, a la que se realiza el experimento. A mayor altura menor presión atmosférica (a nivel del mar, la presión es de 1 atmósfera). La Figura 2.1 muestra el grá�co de dispersión junto con la recta de mínimos cuadrados que predice la temperatura de ebullición a partir de la presión atmosférica, así como el grá�co de residuos frente a valores previstos. En este caso, el grá�co de dispersión de la izquierda parece sugerir que la relación es lineal, sin embargo ésta no lo es. El grá�co de residuos frente a valores previstos nos muestra una curvatura que nos dice que la relación real entre ambas variables es no lineal. Esta falta de linealidad no es muy acusada y por eso es más difícil de ver en el grá�co de dispersión, aunque mirándolo con atención también puede apreciarse. Este ejemplo ilustra la utilidad del grá�co de residuos frente a valores previstos para evaluar la linealidad entre dos variables. (a) Presión atmosférica y punto de ebullición del agua (b) Residuos frente a valores previstos. Figura 2.1: Resultados de la regresión que explica el punto de ebullición en función de la presión atmosférica. En este caso concreto de la relación entre el punto de ebullición y la presión, puede mejorarse el modelo de regresión si, por ejemplo, buscamos una transformación no lineal entre las variables. Por ejemplo puede observarse que entre el logaritmo de la presión y la temperatura sí hay una relación lineal. Si hacemos la regresión con x = log(Presión) frente a y =Temperatura obtenemos la siguiente recta de mínimos cuadrados ŷ = 99;9 + 26;5� log(Temperatura); y los grá�cos de evaluación, que se muestran en la Figura 2.2 ya resultan bastante más satisfactorios. 2.5. LA RECTA DE REGRESIÓN SIMPLE 17 Figura 2.2: Resultados de la regresión que explica el punto de ebullición en función del logaritmo de la presión atmosférica. Vemos por tanto que la recta de regresión simple puede utilizarse también, con un poco de ingenio y experiencia, para modelizar algunos tipos de relaciones no lineales. Basta con transformar las variables observadas en otras entre las que sí exista una relación lineal. En el siguiente apartado analizaremos este tipo de transformaciones para algunos casos sencillos, pero muy frecuentes. Bondad del ajuste lineal Una vez que podemos asumir (tras el análisis de los residuos de la regresión) que la relación entre x e y es lineal, el siguiente paso es cuanti�car cómo de precisa es la predicción de y utilizando la recta de regresión simple. Desde un punto de vista grá�co, la predicción que se haga con la regresión simple será tanto mejor cuanto más estrecha sea la nube de puntos alrededor de la recta. Es decir, cuanto más próximos a cero sean los residuos. El siguiente ejemplo ilustra esta idea. Se desea predecir el recorrido que hará un coche con 1 galón de combustible (variable y =mpg del �chero cardata), y estamos pensando en elegir entre dos variables x alternativas. Una es el peso del vehículo (variable weight), pues a mayor peso mayor será el consumo y menor la distancia que recorrerá con una unidad de combustible. El grá�co de dispersión de las variables mpg y weight con la recta de regresión superpuesta se encuentra en la �gura de la izquierda. La segunda opción es emplear la aceleración del vehículo (variable accel) que mide el tiempo que tarda en alcanzar cierta velocidad. El grá�co de dispersión con la recta de regresión para esta segunda opción está en la �gura de la derecha. Parece que a mayor capacidad de aceleración, el coche es más e�ciente y consume menos. ¿Cuál de las dos regresiones elegiríamos para predecir mpg? Parece evidente que la variable weight es mejor pues la nube de puntos está más próxima a la recta que en el caso de la variable accel. 18 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE Esta menor dispersión de la nube de puntos viene cuanti�cada por el coe�ciente de correlación entre x e y. Las correlaciones en estos datos son las siguientes corr(weight,mpg) =-0.83, corr(accel,mpg) =0.22. Por tanto, y dado que las relaciones son lineales, la variable weight será mejor predictor que la variable accel en el sentido de que los errores que cometamos al predecir con la regresión simple tenderán a ser menores. Aunque el coe�ciente de correlación sea fácil de utilizar,vamos a emplear otro coe�ciente para medir la bondad de ajuste de la recta de regresión simple. Este coe�ciente se denomina coe�ciente de determinación R2. El coe�ciente de determinación se de�ne como R2 = 1� Pn i=1 e 2 iPn i=1 (yi � �y) 2 : (2.5) Este coe�ciente proporciona un valor entre 0 y 1 tal que cuanto más estrecha sea la línea de puntos alrededor de la recta de regresión más próximo será su valor a 1. En este sentido es bastante similar al coe�ciente de correlación. Se puede demostrar que R2 = corr(x; y)2: ¿Qué utilidad tiene entonces utilizar R2 en lugar de la correlación para medir la bondad del ajuste del a regresión? En primer lugar, la utilidad será evidente más adelante,en un capítulo posterior, cuando se construyan regresiones con más de una variable explicativa, pues en ese caso habrá varias correlaciones en juego, una por variable explicativa, y éstas dejarán de ser útiles para comparar modelos. En segundo lugar está la interpretación del coe�ciente R2. El términoPn i=1 (yi � �y) 2 que aparece en (2.5) cuanti�ca la dispersión que tienen las observaciones de y: Además, como los residuos tienen media cero podemos escribir que Pn i=1 e 2 i = Pn i=1 (ei � �e) 2 ; por lo que el término Pn i=1 e 2 i cuanti�ca la dispersión que tienen los residuos. Por tanto el coe�ciente de determinación compara la variabilidad inicial de los datos Pn i=1 (yi � �y) 2 con la que todavía 2.5. LA RECTA DE REGRESIÓN SIMPLE 19 queda en los residuos, Pn i=1 e 2 i tras extraer de los datos de y la parte que viene explicada por la relación lineal con x. Cuanto más explicativa sea la regresión menor será Pn i=1 e 2 i con respecto aPn i=1 (yi � �y) 2 : Por tanto el coe�ciente de determinación nos dice qué proporción de la dispersión de la variable respuesta y viene explicada por la recta de la regresión. En el caso de las dos regresiones que se proponen para explicar mpg se tiene que: regresión de mpg con weight : R2 = 68;73%; regresión de mpg con accel : R2 = 5;15%: Por tanto, el peso del vehículo es mejor predictor que la aceleración al explicar el 68.73% de la variabilidad de la variable mpg frente al 5.15% que explica accel. 2.5.5. Transformaciones para mejorar la linealidad Si x e y están relacionadas de forma no lineal, la utilización de una regresión lineal para modelizar dicha relación no sería adecuado. Sin embargo, en muchas ocasiones, es fácil transformar las variables en otras x� e y� tales que entre ellas sí exista una relación lineal y construir con ellas una regresión lineal. Las Figuras 2.1 y 2.2 son un ejemplo de este tipo de variables. En este caso la relación entre x =Presión e y =Temperatura no es lineal, y presenta cierta curvatura. Sin embargo, la relación entre x� = log(Presion) e y =Temperatura sí lo es. Lo que consigue esta transformación es, en cierta forma, enderezar la curva no lineal que siguen los datos. Este efecto se puede conseguir de varias maneras. A continuación vamos a presentar un procedimiento basado en transformaciones del tipo x� = xc donde c > 1 ó c < 1 dependiendo del tipo de transformación que necesiten los datos. Para explicar esta metodología vamos a utilizar la Figura 2.3. (a) (b) (c) Figura 2.3: Transformaciones usando potencias para conseguir linealidad. En la Figura 2.3 (a) tenemos dos variables que tienen claramente una relación no lineal. La línea roja representaría la curva que nos gustaría utilizar para predecir y a partir de x. Lo que vamos a 20 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE hacer entonces es corregir esa curvatura. Con este �n vamos a aplicar una transformación a x tal que los valores muy altos se reduzcan mucho y los valores más bajos se reduzcan menos, tal y como se ilustra en la Figura 2.3 (b). Esta compresión creciente a medida que aumenta x se consigue con transformaciones del tipo xc con c < 1: El valor de c puede buscarse probando diferentes valores y analizando los residuos. Hay que encontrar el valor justo de c: Un valor demasiado pequeño podría no ser su�ciente para corregir la no linealidad, y un valor demasiado alto puede provocar una no linealidad con la curvatura en dirección opuesta. La transformación x� = log(x); que es la que se ha usado en la Figura 2.2, también produce este tipo de compresión creciente con x (obviamente si x > 0). En este caso, el tipo de transformación que se obtiene puede interpretarse como equivalente a la transformación con c � 0: De esta forma se subsana la discontinuidad que tiene este método en c = 0; pues en ese caso se tendría que xc = 1 y la transformación sería absurda. Otra opción para corregir la curvatura es manipulando y en lugar de x: En el caso del ejemplo de la Figura 2.3, el grá�co muestra que para corregir la curvatura lo que hay que hacer es expandir los valores de y de tal manera que los valores altos se expandan mucho más que los bajos, tal y como se ilustra en la Figura 2.3 (c). Este tipo de transformaciones se consigue usando c > 1: Hay que tener cuidado con valores de c que sean pares pues si y tiene valores positivos y negativos, la variable transformada carecerá de sentido. Este tipo de transformaciones sólo funcionará si los datos tienen cierto rango de variabilidad, de forma que sea observable un comportamiento distinto en los valores altos respecto a los bajos. La Figura 2.4 muestra tres transformaciones diferentes realizadas sobre la variable x de la Figura 2.3 (a), así como los respectivos grá�cos de residuos frente a valores previstos de las respectivas regresiones de y con x�: Las Figuras 2.4 (a.1) y (a.2) utilizan la transformación x� = x0;9: Esta transformación parece insu�ciente para corregir la no linealidad. Las Figuras 2.4 (b.1) y (b.2) utilizan la transformación x� = x0;5; que parece que resuelven el problema de la no linealidad. Las Figuras 2.4 (c.1) y (c.2) utilizan la transformación x� = x0;1 que ya es excesiva, y por eso produce de nuevo no linealidad. La Figura 2.5 muestra un esquema de cuál debería ser la transformación que debe realizarse sobre x (x� = xc) para conseguir corregir la no linealidad. La línea punteada simboliza la curva alrededor de la cuál se agruparían los datos sin transformar. ¿Cómo debería ser la transformación si decidimos hacerla sobre la variable y (y� = yc)? Anexo: demostración de la ecuación de la recta de mínimos cuadrados Dado un conjunto de n observaciones bidimensionales (y1; x1); :::; (yn; xn); de las variables (y; x) buscamos la recta de regresión simple y = �0 + �1x+ e tal que se minimice la función de pérdida S(�0; �1) donde S(�0; �1) = nX i=1 e2i = nX i=1 [yi � (�0 + �1xi)] 2 : 2.5. LA RECTA DE REGRESIÓN SIMPLE 21 (a.1) (b.1) (c.1) (a.2) (b.2) (c.2) Figura 2.4: Grá�cos xy con recta de regresión (arriba) y grá�co de residuos frente a valores previstos (abajo). (a) transformación x0;9. (b) transformación x0;5. (c) transformación x0;1. A los valores de �0 y b que minimizan S(�0; �1) los denotaremos por �̂0 y �̂1: Por tanto, la primera derivada se anulará en dichos valores, es decir, @S @�0 ���� �0=�̂0 = 0; @S @�1 ���� �1=�̂1 = 0; de donde se obtiene que @S @�0 ���� �0=�̂0 = �2 nX i=1 � yi � �̂0 � �̂1xi � = 0; (2.6) @S @�1 ���� b=�̂1 = �2 nX i=1 � yi � �̂0 � �̂1xi � (xi) = 0: (2.7) 22 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE Figura 2.5: Transformaciones que, en cada caso, pueden corregir la no linealidad. De estas equaciones resulta nX i=1 yi = n�̂0 + �̂1 nX i=1 xi nX i=1 yixi = �̂0 nX i=1 xi + �̂1 nX i=1 x2i de donde se obtiene que �̂0 = Pn i=1 yi n � �̂1 Pn i=1 xi n = �y � �̂1�x; �̂1 = Pn i=1 (yi � �y) (xi � �x)Pn i=1 (xi � �x) 2 = cov(x; y) s2x : Además de este resultado, de (2.6) puede escribirse que nX i=1 � yi � h �̂0 + �̂1xi i� = nX i=1 (yi � ŷi) = nX i=1 ei = 0; por lo que los residuos de la regresión de mínimos cuadrados tienen media cero.
Compartir