Logo Studenta

TEMA_2_DescBivariante_Diapositivas_EDB_2016-II

¡Este material tiene más páginas!

Vista previa del material en texto

1ESTADÍSTICA BÁSICA
2ESTADÍSTICA BÁSICA
2. Estadística Descriptiva Bivariante
3ESTADÍSTICA BÁSICA
Tema 2: Estadística descriptiva bivariante
1. Tablas de frecuencias bivariantes.
2. Gráficos de dispersión.
3. Medidas de relación lineal
4. La recta de regresión simple.
4ESTADÍSTICA BÁSICA
Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos 
realizar una tabla de doble entrada que resuma la información.
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación 
(cardata)
1. Tablas de frecuencias bivariantes
5ESTADÍSTICA BÁSICA
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación 
(cardata.sf)
Cada celda: frecuencias 
conjuntas
1. Tablas de frecuencias bivariantes
Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos 
realizar una tabla de doble entrada que resuma la información.
6ESTADÍSTICA BÁSICA
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación 
(cardata.sf)
Las univariantes: frecuencias 
marginales
1. Tablas de frecuencias bivariantes
Si tenemos, para cada individuo, datos correspondientes a dos variables, podemos 
realizar una tabla de doble entrada que resuma la información.
7ESTADÍSTICA BÁSICA
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación 
(cardata.sf)
Cada fila o columna: frecuencia condicionada (al valor 
de la fila o columna)
1. Tablas de frecuencias bivariantes
8ESTADÍSTICA BÁSICA 8
Tema 2: Estadística descriptiva bivariante
1. Tablas de frecuencias bivariantes.
2. Gráficos de dispersión.
3. Medidas de relación lineal
4. La recta de regresión simple.
9ESTADÍSTICA BÁSICA
2. Gráfico de dispersión
Para cada unidad experimental tenemos información de dos variables: X e Y. 
Las representamos en el plano. Datos=coordenadas del plano.
Cada punto
es un auto
(unidad
experimental)
Auto de 220 hp de
potencia y 230 km/h
de velocidad máxima
10ESTADÍSTICA BÁSICA
0 5 10 15 20 25
0
0.5
1
1.5
2
2.5
3
x 10
4
Velocidad horaria media del viento (m/s)
k
W
h
Energía horaria generada
P
o
te
n
c
ia
 g
e
n
e
ra
d
a
 p
o
r 
u
n
 
m
o
li
n
o
 d
e
 v
ie
n
to
Para cada individuo (unidad experimental) tenemos información de dos variables: X e Y
2. Gráfico de dispersión
Hay una relación
evidente, pero no lineal
Este punto indica la potencia
generada en una hora, dada
una velocidad media del
viento en dicha hora. Las
‘unidades experimentales’
son las horas
11ESTADÍSTICA BÁSICA 11
Tema 2: Estadística descriptiva bivariante
1. Tablas de frecuencias bivariantes.
2. Gráficos de dispersión.
3. Medidas de relación lineal
4. La recta de regresión simple.
12ESTADÍSTICA BÁSICA
3. Medidas de dependencia lineal
• Coeficiente de covarianza 𝑐𝑜𝑣 (𝑥, 𝑦)
• Coeficiente de correlación 𝜌
Entre estas variables no hay 
relación lineal
Entre estas variables hay 
relación lineal
La línea roja podría ser un 
buen resumen de esa relación
13ESTADÍSTICA BÁSICA
Para n individuos, tenemos datos de 2 variables
Individuo x y
1 x1 y1
2 x2 y2
: : :
n xn yn
Covarianza
Correlación
Covarianza y correlación positivas
Covarianza y correlación negativas
𝜌 = 𝜌 𝑥, 𝑦 = 𝜌𝑥𝑦 =
𝑐𝑜𝑣(𝑥, 𝑦)
𝑠𝑥𝑠𝑦
14ESTADÍSTICA BÁSICA
• La covarianza tiene unidades (unidades_x)(unidades_y)
• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR
• Se puede demostrar que -1r1
r=1 r=0.06
r=-0.94 r=-0.83 r=-0.08
r=0.8
𝜌 = 𝜌 𝑥, 𝑦 = 𝜌𝑥𝑦 =
𝑐𝑜𝑣(𝑥, 𝑦)
𝑠𝑥𝑠𝑦
15ESTADÍSTICA BÁSICA 15
Tema 2: Estadística descriptiva bivariante
1. Tablas de frecuencias bivariantes.
2. Gráficos de dispersión.
3. Medidas de relación lineal
4. La recta de regresión simple.
16ESTADÍSTICA BÁSICA
4. La recta de regresión
X
Y
( , )i ix y
𝛽0 + 𝛽1𝑥
¿Cómo encontramos
esa “recta resumen”?
17ESTADÍSTICA BÁSICA
X
Ecuación de la recta: 
𝑌 = 𝛽0 + 𝛽1𝑋
Si tiene que pasar por dos 
puntos: solución única
4. La recta de regresión
Y
18ESTADÍSTICA BÁSICA
X
( , )i ix y
Es imposible que una 
recta pase por todos los 
puntos
¿Cómo elegir la que más 
nos interesa?
4. La recta de regresión
Y
19ESTADÍSTICA BÁSICA
X
( , )i ix y
Buscamos una recta muy concreta llamada RECTA DE REGRESIÓN
(de regresión simple)
La recta de regresión 
que buscamos es la 
recta que, dado el valor 
de X me da la mejor 
predicción de Y
ො𝑦 = 𝛽0 + 𝛽1𝑥
Predicción de 𝑦
Factor, o 
variable 
explicativa
Y
20ESTADÍSTICA BÁSICA
X
( , )i ix y
iy
ix
ˆ
iy
Valor observado
Valor previsto
por la recta
valor observado
Buscamos la recta que, dado el 
valor de X me dé la mejor 
predicción de Y
Error de predicción
o residuo: 
𝑒𝑖
4. La recta de regresión
ො𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖
𝛽0 + 𝛽1𝑥
Y
𝑒𝑖 = 𝑦𝑖 − ො𝑦𝑖
21ESTADÍSTICA BÁSICA
X
y
( , )i ix y
iy
ix
ˆ
iy
valor observado
Buscamos la recta que minimiza 
los errores de predicción:
2
1
min
N
i
i
e


(recta de mínimos cuadrados)
4. La recta de regresión
𝑒𝑖
𝛽0 + 𝛽1𝑥
22ESTADÍSTICA BÁSICA
Derivación de la recta de regresión ‘optima’
23ESTADÍSTICA BÁSICA
Derivación de la recta de regresión ‘optima’ (cont.)
Si cambian los
datos, cambia la
recta estimada.
24ESTADÍSTICA BÁSICA
La recta de regresión
X
y
( , )i ix y
x
y
SOLUCIÓN
ො𝑦 = መ𝛽0 + መ𝛽1𝑥 ෡𝜷𝟏 =
𝒄𝒐𝒗(𝒙, 𝒚)
𝒔𝒙
𝟐
෡𝜷𝟎 = ഥ𝒚 − ෡𝜷𝟏ഥ𝒙
Si cambian los
datos, cambia
la recta
25ESTADÍSTICA BÁSICA
En este ejemplo, si estimamos una recta de regresión usando sólo los
datos del recuadro, vamos a predecir mal los datos de fuera, debido a la
falta de linealidad que hay cuando 𝑥 > 25.
La recta estimada sólo debe emplearse para predecir 
dentro del rango de datos observados
DATOS
Fuera del rango de 
datos, no sabemos si 
sigue habiendo 
linealidad o no
Y
X
26ESTADÍSTICA BÁSICA
Ejemplo La variable V1 tiene la velocidad del viento registrada en la
localización 1, mientras que la variable V2 tiene las velocidades
registradas en esos mismos instantes en la localización 2. Se
tiene un total de 115 pares de medidas
En la localización 1 se va a establecer un sistema informático para la
telemedida de la velocidad del viento, pero no para la localización 2. Se
quiere calcular la recta de regresión que permita predecir la velocidad de la
Localización 2 sabiendo la de la Localización 1
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
27ESTADÍSTICA BÁSICA
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
3.28 1.045 2.51 0.657a y bx     
b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1
ˆ 0.657 1.045V V  
Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 
m/s, la predicción en la Localización 2 es de un viento de
0.657+1.045x5=5.88 m/s
Ejemplo La variable V1 tiene la velocidad del viento registrada en la
localización 1, mientras que la variable V2 tiene las velocidades
registradas en esos mismos instantes en la localización 2. Se
tiene un total de 115 pares de medidas
28ESTADÍSTICA BÁSICA
• si 𝑥 aumenta en una unidad, ො𝑦 aumenta en 𝛽1
unidades
ൠ
ො𝑦1 = 𝛽0 + 𝛽1𝑥1
ො𝑦2 = 𝛽0 + 𝛽1(𝑥1+1)
Δ𝑦 = ො𝑦2 − ො𝑦1 = 𝛽1
• Pendiente de la recta de regresión
𝑑 ො𝑦
𝑑𝑥
= 𝛽1
Interpretación de 𝜷𝟏:
Ejemplo
ො𝑦 = 10 − 5𝑥
Relación negativa con pendiente -5. Si 𝑥
aumenta en una unidad, el valor previsto
para 𝑦 disminuye en 5 unidades
ො𝑦 = 2 + 3𝑥 Relación positiva con pendiente 3. Si 𝑥
aumenta en una unidad, el valor previsto
para 𝑦 aumenta en 3 unidades
1
𝛽1
29ESTADÍSTICA BÁSICA
2 1
ˆ 0.657 1.045V V  
Ejemplo
Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en 
la localización 2 se prevé que lo hará en 1.045 m/s. El 
comportamiento del viento es casi idéntico en ambas localizaciones.
La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1,mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias
30ESTADÍSTICA BÁSICA
• Es el valor previsto para 𝑦 si 𝑥 toma el valor 0.
Interpretación de 𝜷𝟎:
Ejemplo
ො𝑦 = 𝛽0 + 𝛽1 × 0 = 𝛽0
• Es el punto de corte de la recta en el eje Y 
(intercepto)
2 1
ˆ 0.657 1.045V V  
Si en la localización 1 no hay viento, en la localización 2 se prevé 0.657 m/s, que
es muy pequeño
(no siempre la situación 𝑥 = 0 va a tener
sentido para nuestros datos)
Esta predicción puede ser poco precisa, pues el valor 𝑥 = 0 está fuera
del rango de datos empleado en la estimación.
1
𝛽1
𝛽0
31ESTADÍSTICA BÁSICA
2 1
ˆ 0.657 1.045V V  
Ejemplo
Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en 
la localización 2 se prevé que lo hará en 1.045 m/s. El 
comportamiento del viento es casi idéntico en ambas localizaciones.
La variable V1 tiene la velocidad del viento registrada cada hora
en la localización 1, mientras que la variable V2 tiene las
velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas horarias
32ESTADÍSTICA BÁSICA
Evaluación de la regresión
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal
2. La relación es fuerte (alta correlación)
Gráficos
Correlación y 
Coeficiente de 
determinación R2
4. La recta de regresión
33ESTADÍSTICA BÁSICA
Evaluación de la regresión
La regresión para predecir y a partir de x será buena idea si:
1.1 Gráfico xy
1.2 Gráfico de predicciones vs observaciones
1.3 Gráfico de residuos vs valores previstos
Este simple gráfico xy nos 
dice que no hay relación 
lineal. La regresión va a 
predecir mal
1.1 Gráfico xy
Datos: parqueeolico.sf3
1. La relación entre x e y es lineal
34ESTADÍSTICA BÁSICA
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal
1.1 Gráfico xy
1.2 Gráfico de predicciones vs observaciones
1.3 Gráfico de residuos vs valores previstos
1.2 Gráfico de predicciones frente a observaciones
(fichero cardata) Queremos explicar 
mpg (millas por galón) en función del 
peso (weight)
Queremos explicar la energía 
generada en función de la velocidad 
del viento)
Hay 
linealidad
No hay 
linealidad
Evaluación de la regresión
35ESTADÍSTICA BÁSICA
1.3 Gráfico de residuos frente a valores previstos
Es la representación gráfica más importante para evaluar una regresión
Valores 
observados
Valores 
previstos
Evaluación de la regresión
36ESTADÍSTICA BÁSICA
1.3 Gráfico de residuos frente a valores previstos
Es la representación gráfica más importante para evaluar una regresión
Energia-
PREDICCION
Valores 
previstos
Evaluación de la regresión
37ESTADÍSTICA BÁSICA
Energia-
PREDICCION
Valores 
previstos
La no linealidad es muy clara. La regresión no es adecuada.
38ESTADÍSTICA BÁSICA
2 1
ˆ 0.657 1.045V V  
Ejemplo La variable V1 tiene la velocidad del viento registrada en la
localización 1, mientras que la variable V2 tiene las velocidades
registradas en esos mismos instantes en la localización 2. Se
tiene un total de 115 pares de medidas
Estos residuos no 
muestran ninguna 
estructura evidente. Es 
señal de que el modelo 
lineal es adecuado
39ESTADÍSTICA BÁSICA
Estos gráficos de residuos SÍ son aceptables
Estos gráficos de residuos NO son aceptables
40ESTADÍSTICA BÁSICA 40
Algunos tipos de no linealidades se pueden 
corregir transformando la variable 
Esta curva es la que nos 
gustaría usar como resumen 
de la relación…
… Pero la técnica de regresión 
simple sólo nos proporciona este 
tipo de soluciones
Buscamos otras variables 
y*=f(y) , x*=g(x) tales que 
entre ellas haya relación 
lineal
x
Y
41ESTADÍSTICA BÁSICA 41
Buscamos una 
transformación que 
‘enderece’ la nube de 
puntos
Si c<1, los valores más grandes 
se comprimen más. En este caso, 
aplicado sobre X ‘enderezamos’ 
la curvatura.
Si c>1, el efecto es el opuesto: los 
valores más grandes se expanden 
más. En este caso, aplicado sobre Y 
también ‘enderezamos’ la curvatura.
y=a+bxc
yc=a+bx
y=a+bxc
c=0.9 insuficiente c=0.5 ¡perfecto!
c=0.1 nos hemos pasado!!
y y y
x0.9 x0.5 x0.1
42ESTADÍSTICA BÁSICA
43ESTADÍSTICA BÁSICA 43
X
Y
•Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos)
4. La recta de regresión
44ESTADÍSTICA BÁSICA
Ejemplo 
Dado el siguiente gráfico de
dispersión:
¿Qué transformación podría
hacerse a la variable 𝑥 para
conseguir una relación lineal?
Hay que usar una transformación 
que expanda, en sentido horizontal, 
los números más grandes, en mayor 
medida que los pequeños. Esto se 
consigue con transformaciones del 
tipo ℎ 𝑥 = 𝑥𝑐 con 𝑐 > 1
45ESTADÍSTICA BÁSICA
Ejemplo 
Dado el siguiente gráfico de
dispersión:
¿Qué transformación podría
hacerse a la variable 𝑦 para
conseguir una relación lineal?
En este caso, también hay que 
usar una transformación que 
expanda, en sentido vertical, los 
números más grandes, en mayor 
medida que a los pequeños. 
Esto se consigue con 
transformaciones del tipo ℎ 𝑦 =
𝑦𝑐 con 𝑐 > 1
46ESTADÍSTICA BÁSICA
Evaluación de la regresión
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal
2. La relación es fuerte (alta correlación)
Gráficos
Correlación y 
Coeficiente de 
determinación R2
• Entre 0 y 1
•
•El coeficiente de determinación nos dice qué proporción de 
la dispersión de la variable respuesta y viene explicada por 
la recta de la regresión
47ESTADÍSTICA BÁSICA
Ejercicio
El fichero Concreto_datos.xlsx
tiene datos sobre la resistencia a
la compresión de un conjunto de
mezclas de concreto. Cada fila
corresponde a una mezcla
diferente, donde se utilizan
diferentes combinaciones de
componentes. La variable
respuesta es ‘Resistencia’, que
mide la resistencia a la
compresión de la probeta realizada
con la mezcla de concreto (MPa)
48ESTADÍSTICA BÁSICA
¿Qué factores afectan a la resistencia de un concreto? 
a) La relación agua/cemento: La resistencia disminuye con el aumento de a/c
b) El contenido de cemento: la resistencia disminuye conforme se reduce el 
contenido de cemento.
c) La presencia de agregados, tales como agregado fino (arena), grueso 
(grava) escoria y cenizas (del mismo proceso de elaboración), y agregado 
plastificante
Analiza mediante un conjunto de regresiones simples, qué componente es mejor 
predictor de la resistencia a la compresión de concreto. Escribe dicha ecuación 
de predicción.
Ejercicio

Continuar navegando

Materiales relacionados