Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1ESTADÍSTICA BÁSICA 2ESTADÍSTICA BÁSICA 2. Estadística Descriptiva Bivariante 3ESTADÍSTICA BÁSICA Tema 2: Estadística descriptiva bivariante 1. Tablas de frecuencias bivariantes. 2. Gráficos de dispersión. 3. Medidas de relación lineal 4. La recta de regresión simple. 4ESTADÍSTICA BÁSICA Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos realizar una tabla de doble entrada que resuma la información. Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata) 1. Tablas de frecuencias bivariantes 5ESTADÍSTICA BÁSICA Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf) Cada celda: frecuencias conjuntas 1. Tablas de frecuencias bivariantes Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos realizar una tabla de doble entrada que resuma la información. 6ESTADÍSTICA BÁSICA Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf) Las univariantes: frecuencias marginales 1. Tablas de frecuencias bivariantes Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos realizar una tabla de doble entrada que resuma la información. 7ESTADÍSTICA BÁSICA Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf) Cada fila o columna: frecuencia condicionada (al valor de la fila o columna) 1. Tablas de frecuencias bivariantes 8ESTADÍSTICA BÁSICA 8 Tema 2: Estadística descriptiva bivariante 1. Tablas de frecuencias bivariantes. 2. Gráficos de dispersión. 3. Medidas de relación lineal 4. La recta de regresión simple. 9ESTADÍSTICA BÁSICA 2. Gráfico de dispersión Para cada unidad experimental tenemos información de dos variables: X e Y. Las representamos en el plano. Datos=coordenadas del plano. Cada punto es un auto (unidad experimental) Auto de 220 hp de potencia y 230 km/h de velocidad máxima 10ESTADÍSTICA BÁSICA 0 5 10 15 20 25 0 0.5 1 1.5 2 2.5 3 x 10 4 Velocidad horaria media del viento (m/s) k W h Energía horaria generada P o te n c ia g e n e ra d a p o r u n m o li n o d e v ie n to Para cada individuo (unidad experimental) tenemos información de dos variables: X e Y 2. Gráfico de dispersión Hay una relación evidente, pero no lineal Este punto indica la potencia generada en una hora, dada una velocidad media del viento en dicha hora. Las ‘unidades experimentales’ son las horas 11ESTADÍSTICA BÁSICA 11 Tema 2: Estadística descriptiva bivariante 1. Tablas de frecuencias bivariantes. 2. Gráficos de dispersión. 3. Medidas de relación lineal 4. La recta de regresión simple. 12ESTADÍSTICA BÁSICA 3. Medidas de dependencia lineal • Coeficiente de covarianza 𝑐𝑜𝑣 (𝑥, 𝑦) • Coeficiente de correlación 𝜌 Entre estas variables no hay relación lineal Entre estas variables hay relación lineal La línea roja podría ser un buen resumen de esa relación 13ESTADÍSTICA BÁSICA Para n individuos, tenemos datos de 2 variables Individuo x y 1 x1 y1 2 x2 y2 : : : n xn yn Covarianza Correlación Covarianza y correlación positivas Covarianza y correlación negativas 𝜌 = 𝜌 𝑥, 𝑦 = 𝜌𝑥𝑦 = 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠𝑥𝑠𝑦 14ESTADÍSTICA BÁSICA • La covarianza tiene unidades (unidades_x)(unidades_y) • La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR • Se puede demostrar que -1r1 r=1 r=0.06 r=-0.94 r=-0.83 r=-0.08 r=0.8 𝜌 = 𝜌 𝑥, 𝑦 = 𝜌𝑥𝑦 = 𝑐𝑜𝑣(𝑥, 𝑦) 𝑠𝑥𝑠𝑦 15ESTADÍSTICA BÁSICA 15 Tema 2: Estadística descriptiva bivariante 1. Tablas de frecuencias bivariantes. 2. Gráficos de dispersión. 3. Medidas de relación lineal 4. La recta de regresión simple. 16ESTADÍSTICA BÁSICA 4. La recta de regresión X Y ( , )i ix y 𝛽0 + 𝛽1𝑥 ¿Cómo encontramos esa “recta resumen”? 17ESTADÍSTICA BÁSICA X Ecuación de la recta: 𝑌 = 𝛽0 + 𝛽1𝑋 Si tiene que pasar por dos puntos: solución única 4. La recta de regresión Y 18ESTADÍSTICA BÁSICA X ( , )i ix y Es imposible que una recta pase por todos los puntos ¿Cómo elegir la que más nos interesa? 4. La recta de regresión Y 19ESTADÍSTICA BÁSICA X ( , )i ix y Buscamos una recta muy concreta llamada RECTA DE REGRESIÓN (de regresión simple) La recta de regresión que buscamos es la recta que, dado el valor de X me da la mejor predicción de Y ො𝑦 = 𝛽0 + 𝛽1𝑥 Predicción de 𝑦 Factor, o variable explicativa Y 20ESTADÍSTICA BÁSICA X ( , )i ix y iy ix ˆ iy Valor observado Valor previsto por la recta valor observado Buscamos la recta que, dado el valor de X me dé la mejor predicción de Y Error de predicción o residuo: 𝑒𝑖 4. La recta de regresión ො𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 𝛽0 + 𝛽1𝑥 Y 𝑒𝑖 = 𝑦𝑖 − ො𝑦𝑖 21ESTADÍSTICA BÁSICA X y ( , )i ix y iy ix ˆ iy valor observado Buscamos la recta que minimiza los errores de predicción: 2 1 min N i i e (recta de mínimos cuadrados) 4. La recta de regresión 𝑒𝑖 𝛽0 + 𝛽1𝑥 22ESTADÍSTICA BÁSICA Derivación de la recta de regresión ‘optima’ 23ESTADÍSTICA BÁSICA Derivación de la recta de regresión ‘optima’ (cont.) Si cambian los datos, cambia la recta estimada. 24ESTADÍSTICA BÁSICA La recta de regresión X y ( , )i ix y x y SOLUCIÓN ො𝑦 = መ𝛽0 + መ𝛽1𝑥 𝜷𝟏 = 𝒄𝒐𝒗(𝒙, 𝒚) 𝒔𝒙 𝟐 𝜷𝟎 = ഥ𝒚 − 𝜷𝟏ഥ𝒙 Si cambian los datos, cambia la recta 25ESTADÍSTICA BÁSICA En este ejemplo, si estimamos una recta de regresión usando sólo los datos del recuadro, vamos a predecir mal los datos de fuera, debido a la falta de linealidad que hay cuando 𝑥 > 25. La recta estimada sólo debe emplearse para predecir dentro del rango de datos observados DATOS Fuera del rango de datos, no sabemos si sigue habiendo linealidad o no Y X 26ESTADÍSTICA BÁSICA Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas En la localización 1 se va a establecer un sistema informático para la telemedida de la velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión que permita predecir la velocidad de la Localización 2 sabiendo la de la Localización 1 Loc.1: media: 2.51 varianza: 1.91 Loc.2: media: 3.28 varianza: 2.36 cov (V1,V2)=1.995 27ESTADÍSTICA BÁSICA Loc.1: media: 2.51 varianza: 1.91 Loc.2: media: 3.28 varianza: 2.36 cov (V1,V2)=1.995 3.28 1.045 2.51 0.657a y bx b=cov(x,y)/var(x)=1.995/1.91=1.045 2 1 ˆ 0.657 1.045V V Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de 0.657+1.045x5=5.88 m/s Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas 28ESTADÍSTICA BÁSICA • si 𝑥 aumenta en una unidad, ො𝑦 aumenta en 𝛽1 unidades ൠ ො𝑦1 = 𝛽0 + 𝛽1𝑥1 ො𝑦2 = 𝛽0 + 𝛽1(𝑥1+1) Δ𝑦 = ො𝑦2 − ො𝑦1 = 𝛽1 • Pendiente de la recta de regresión 𝑑 ො𝑦 𝑑𝑥 = 𝛽1 Interpretación de 𝜷𝟏: Ejemplo ො𝑦 = 10 − 5𝑥 Relación negativa con pendiente -5. Si 𝑥 aumenta en una unidad, el valor previsto para 𝑦 disminuye en 5 unidades ො𝑦 = 2 + 3𝑥 Relación positiva con pendiente 3. Si 𝑥 aumenta en una unidad, el valor previsto para 𝑦 aumenta en 3 unidades 1 𝛽1 29ESTADÍSTICA BÁSICA 2 1 ˆ 0.657 1.045V V Ejemplo Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en la localización 2 se prevé que lo hará en 1.045 m/s. El comportamiento del viento es casi idéntico en ambas localizaciones. La variable V1 tiene la velocidad del viento registrada cada hora en la localización 1,mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas horarias 30ESTADÍSTICA BÁSICA • Es el valor previsto para 𝑦 si 𝑥 toma el valor 0. Interpretación de 𝜷𝟎: Ejemplo ො𝑦 = 𝛽0 + 𝛽1 × 0 = 𝛽0 • Es el punto de corte de la recta en el eje Y (intercepto) 2 1 ˆ 0.657 1.045V V Si en la localización 1 no hay viento, en la localización 2 se prevé 0.657 m/s, que es muy pequeño (no siempre la situación 𝑥 = 0 va a tener sentido para nuestros datos) Esta predicción puede ser poco precisa, pues el valor 𝑥 = 0 está fuera del rango de datos empleado en la estimación. 1 𝛽1 𝛽0 31ESTADÍSTICA BÁSICA 2 1 ˆ 0.657 1.045V V Ejemplo Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en la localización 2 se prevé que lo hará en 1.045 m/s. El comportamiento del viento es casi idéntico en ambas localizaciones. La variable V1 tiene la velocidad del viento registrada cada hora en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas horarias 32ESTADÍSTICA BÁSICA Evaluación de la regresión La regresión para predecir y a partir de x será buena idea si: 1. La relación entre x e y es lineal 2. La relación es fuerte (alta correlación) Gráficos Correlación y Coeficiente de determinación R2 4. La recta de regresión 33ESTADÍSTICA BÁSICA Evaluación de la regresión La regresión para predecir y a partir de x será buena idea si: 1.1 Gráfico xy 1.2 Gráfico de predicciones vs observaciones 1.3 Gráfico de residuos vs valores previstos Este simple gráfico xy nos dice que no hay relación lineal. La regresión va a predecir mal 1.1 Gráfico xy Datos: parqueeolico.sf3 1. La relación entre x e y es lineal 34ESTADÍSTICA BÁSICA La regresión para predecir y a partir de x será buena idea si: 1. La relación entre x e y es lineal 1.1 Gráfico xy 1.2 Gráfico de predicciones vs observaciones 1.3 Gráfico de residuos vs valores previstos 1.2 Gráfico de predicciones frente a observaciones (fichero cardata) Queremos explicar mpg (millas por galón) en función del peso (weight) Queremos explicar la energía generada en función de la velocidad del viento) Hay linealidad No hay linealidad Evaluación de la regresión 35ESTADÍSTICA BÁSICA 1.3 Gráfico de residuos frente a valores previstos Es la representación gráfica más importante para evaluar una regresión Valores observados Valores previstos Evaluación de la regresión 36ESTADÍSTICA BÁSICA 1.3 Gráfico de residuos frente a valores previstos Es la representación gráfica más importante para evaluar una regresión Energia- PREDICCION Valores previstos Evaluación de la regresión 37ESTADÍSTICA BÁSICA Energia- PREDICCION Valores previstos La no linealidad es muy clara. La regresión no es adecuada. 38ESTADÍSTICA BÁSICA 2 1 ˆ 0.657 1.045V V Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas Estos residuos no muestran ninguna estructura evidente. Es señal de que el modelo lineal es adecuado 39ESTADÍSTICA BÁSICA Estos gráficos de residuos SÍ son aceptables Estos gráficos de residuos NO son aceptables 40ESTADÍSTICA BÁSICA 40 Algunos tipos de no linealidades se pueden corregir transformando la variable Esta curva es la que nos gustaría usar como resumen de la relación… … Pero la técnica de regresión simple sólo nos proporciona este tipo de soluciones Buscamos otras variables y*=f(y) , x*=g(x) tales que entre ellas haya relación lineal x Y 41ESTADÍSTICA BÁSICA 41 Buscamos una transformación que ‘enderece’ la nube de puntos Si c<1, los valores más grandes se comprimen más. En este caso, aplicado sobre X ‘enderezamos’ la curvatura. Si c>1, el efecto es el opuesto: los valores más grandes se expanden más. En este caso, aplicado sobre Y también ‘enderezamos’ la curvatura. y=a+bxc yc=a+bx y=a+bxc c=0.9 insuficiente c=0.5 ¡perfecto! c=0.1 nos hemos pasado!! y y y x0.9 x0.5 x0.1 42ESTADÍSTICA BÁSICA 43ESTADÍSTICA BÁSICA 43 X Y •Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos) •Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos) •Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos) •Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos) 4. La recta de regresión 44ESTADÍSTICA BÁSICA Ejemplo Dado el siguiente gráfico de dispersión: ¿Qué transformación podría hacerse a la variable 𝑥 para conseguir una relación lineal? Hay que usar una transformación que expanda, en sentido horizontal, los números más grandes, en mayor medida que los pequeños. Esto se consigue con transformaciones del tipo ℎ 𝑥 = 𝑥𝑐 con 𝑐 > 1 45ESTADÍSTICA BÁSICA Ejemplo Dado el siguiente gráfico de dispersión: ¿Qué transformación podría hacerse a la variable 𝑦 para conseguir una relación lineal? En este caso, también hay que usar una transformación que expanda, en sentido vertical, los números más grandes, en mayor medida que a los pequeños. Esto se consigue con transformaciones del tipo ℎ 𝑦 = 𝑦𝑐 con 𝑐 > 1 46ESTADÍSTICA BÁSICA Evaluación de la regresión La regresión para predecir y a partir de x será buena idea si: 1. La relación entre x e y es lineal 2. La relación es fuerte (alta correlación) Gráficos Correlación y Coeficiente de determinación R2 • Entre 0 y 1 • •El coeficiente de determinación nos dice qué proporción de la dispersión de la variable respuesta y viene explicada por la recta de la regresión 47ESTADÍSTICA BÁSICA Ejercicio El fichero Concreto_datos.xlsx tiene datos sobre la resistencia a la compresión de un conjunto de mezclas de concreto. Cada fila corresponde a una mezcla diferente, donde se utilizan diferentes combinaciones de componentes. La variable respuesta es ‘Resistencia’, que mide la resistencia a la compresión de la probeta realizada con la mezcla de concreto (MPa) 48ESTADÍSTICA BÁSICA ¿Qué factores afectan a la resistencia de un concreto? a) La relación agua/cemento: La resistencia disminuye con el aumento de a/c b) El contenido de cemento: la resistencia disminuye conforme se reduce el contenido de cemento. c) La presencia de agregados, tales como agregado fino (arena), grueso (grava) escoria y cenizas (del mismo proceso de elaboración), y agregado plastificante Analiza mediante un conjunto de regresiones simples, qué componente es mejor predictor de la resistencia a la compresión de concreto. Escribe dicha ecuación de predicción. Ejercicio
Compartir