Estatística Bivariada

•
Engenharias

JDMA 2000
8/10/2021
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Probabilidad I

4484 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
6. Estad́ısitica Bivariada
Ahora, supongamos que queremos estudiar el comportamiento de la variable de clasificación
bidimensional (X, Y ), asociada a dos variables de clasificación unidimensionales X e Y , respectiva-
mente, en una muestra de tamaño n de la población. Entonces dividimos la muestra en r clases Ai,
según la variable X, y en s clases Bj, según Y .
Llamamos nij al número de elementos de la muestra que pertenecen simultáneamente a la clase
Ai y la clase Bj. Podemos luego considerar una clase o modalidad AiBj formada por elementos de
la muestra que pertenecen simultáneamente a Ai y a Bj. Se observa que hay r ·s modalidades AiBj.
6.1. Frecuencia Absoluta y Frecuencia Relativa
Definiciones de interés:
nij: frecuencia absoluta del número de elementos pertenecientes a Ai ∩Bj
fij: frecuencia relativa del número de elementos en Ai ∩Bj con respecto al total n, donde
fij =
nij
n
, ∀ i = 1, . . . , r; ∀ j = 1, . . . , s
6.2. Tablas de Contingencia
Cuadro de doble entrada donde se puede resumir la información acerca de las frecuencias, ya
sean absolutas o relativas, como se muestra a continuación:
Y
B1 B2 . . . Bs
X A1 n11 n12 . . . n1s n1+
A2 n21 n22 . . . n2s n2+
...
...
...
...
...
...
Ar nr1 nr2 . . . nrs nr+
n+1 n+2 . . . n+s n
6.3. Distribuciones Marginales
ni+: es el número de elementos de la muestra que pertenecen a la clase Ai, sin importar la clase
Bj a la que estén asociados (suma de los valores de la fila i-ésima de la tabla de contingencia de
frecuencias)
ni+ =
s∑
j=1
nij, ∀ i = 1, . . . , r
n+j: es el número de elementos de la muestra que pertenecen a la clase Bj según Y, sin importar
la clase Ai a la que estén asociados (suma de los valores de la columna j-ésima de la tabla de
contin-gencia de frecuencias)
n+j =
r∑
i=1
nij, ∀ j = 1, . . . , s
15
fi+: frecuencia relativa de las clases Ai sin importar las clases Bj.
fi+ =
ni+
n
, ∀ i = 1, . . . , r
f+j: frecuencia relativa de las clases Bj sin importar las clases Ai.
f+j =
n+j
n
, ∀ j = 1, . . . , s
6.4. Distribuciones Condicionales
La distribución condicional consiste en estudiar las frecuencias asociadas a las clases de una
variable cuando nos restringimos a los elementos de una clase dada según la otra variable, esto es,
estudiar el comportamiento de una variable dado un valor fijo de la otra. Para calcular la proporción
de individuos muestrales que según Y caen en B, conociendo que según X ya pertenećıan a A, se
debe evaluar:
fB/A =
nB/A
n
donde fB/A es la frecuencia relativa condicional del subconjunto B de Y dado que X pertenece
al subconjunto A.
La distribución de X condicionada a Y se define como
fi/j =
fi/j
f+j
=
nij
n+j
∀ i = 1, . . . , r
y
r∑
i=1
fi/j = 1
La distribución de Y condicionada a X se define como
fj/i =
fj/i
fi+
=
nij
ni+
∀ j = 1, . . . , s
y
s∑
j=1
fj/i = 1
Ejemplo 6.1 Sea X la edad e Y la categoŕıa correspondiente al puesto de trabajo. Dada la siguiente
tabla de contingencia, calcular la distribución condicional de Y, dado que X es 25-30 y 35-45.
X\Y I II III ni+
15-20 20 20 5 45
20-25 15 12 8 35
25-30 10 15 10 35
30-35 5 20 25 50
35-40 5 10 30 45
n+j 55 77 78 210
16
6.5. Independencia
Dada una información en una Tabla de Contingencia, se dice que las variables X e Y son
independientes, śı y solo śı, la frecuencia relativa conjunta es igual al producto de las frecuencias
relativas marginales.
fij = fi+ · f+j ∀i = 1, . . . , r ∀ j = 1, . . . , s
Si las variables X e Y no son independientes entre śı, se dice que existe una asociación entre
ellas. De modo que el conocimiento de una de las variables presente alguna información respecto de
la otra. Nuestro objetivo es medir de alguna forma ésta relación existente y poder además describir
de que forma (lineal, exponencial, potencial, etc.) están relacionadas.
6.6. Asociación, Dependencia o Correlación
En estad́ıstica Descriptiva se dice que dos variables cuantitativas “están asociadas”, “son depen-
dientes”, o “están correlacionadas” si cuando se aumentan los valores de una variable, los valores
de la otra tienden a:
i) o bien a aumentar (y se dice que la asociación dependencia es directa o que la correlación es
positiva)
ii) o bien a disminuir (y se dice que la asociación o dependencia es inversa o que la correlación
es negativa)
Cuando no se presenta esta tendencia se dice que las variables no están asociadas o no son depen-
dientes o no están correlacionadas.
La asociación, correlación o dependencia en Estad́ıstica Descriptiva, no implica relación causa-
efecto. En otras palabras, si cuando una variable aumenta la otra tiende a aumentar (o a disminuir)
no es posible afirmar que esta última aumenta (o disminuye) PORQUE la primera variable aumenta.
6.6.1. Indicadores de Asociación: Covarianza
La covarianza entre dos variables, X e Y está dada por:
cov(X, Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)
n
o equvalentemente
cov(X, Y ) =
1
n
n∑
i=1
xiyi − x̄ȳ
La covarianza es una medida de asociación lineal, pero tiene la desventaja que su interpretación
depende de las unidades de medición.
Si cov(X,Y)> 0, la asociación o correlación es directa o positiva.
Si cov(X,Y)< 0, la asociación o correlación es inversa o negativa.
Si cov(X,Y)≈ 0, no hay asociación o correlación lineal.
17
6.6.2. Indicadores de Asociación: Correlación
La correlación lineal entre dos variables se define como
corr(X, Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)√√√√ n∑
i=1
(xi − x̄)2
n∑
i=1
(yi − ȳ)2
Si corr(X, Y ) = 1, la correlación es la máxima correlación positiva o directa.
Si corr(X, Y ) = −1, la correlación es la máxima correlación negativa o inversa.
Si corr(X, Y ) ≈ 0, no existe correlación o dependencia.
Una fórmula alternativa para calcular ρX,Y es
corr(X, Y ) =
sXY
sXsY
donde sX y sY son las desviaciones estándar de X e Y , respectivamente, y donde sXY es la covarianza
entre X e Y .
Otra fórmula alternativa es
ρ(X, Y ) =
∑
xiyi −
(∑
xi
)(∑
yi
)
/n√∑
x2i −
(∑
xi
)2
/n
√∑
y2i −
(∑
yi
)2
/n
Si bien no existe una regla general para decir si una correlación es alta media o baja, en este
curso podemos adoptar el siguiente criterio:
18
Ejemplo 6.2 .
1. Consideremos los siguientes datos, donde X indica la temperatura media diaria en grados
Farenheit e Y , el consumo diario correspondiente de gas natural en pies cúbicos.
X,F◦ 50 45 40 38 32 40 55
Y,ft3 2.5 5.0 6.2 7.4 8.3 4.7 1.8
Realice un diagrama de dispersión y calcule el coeficiente de correlación ρX,Y , si además cuenta
con las siguientes medidas de resumen:∑
xi = 300;
∑
yi = 35,9;
∑
xi
2 = 13218;
∑
y2i = 218,67;
∑
xiyi = 1431,8
2. Considere los siguientes datos donde X, representa el número de sucursales que 10 bancos di-
ferentes tienen en un área metropolitana, e Y es la correspondiente cuota del total de depósitos
mantenidos por los bancos.
X 198 186 116 89 120 109 28 58 34 31
Y 22.7 16.6 15.9 12.5 10.2 6.8 6.8 4.0 2.7 2.8
a) Construya un diagrama de dispersión entre X e Y.
b) Calcule covarianza y correlación.
19
6.7. Ajuste de Curvas
En el problema de ajuste a curvas se desea que dado un par de variables (X, Y ) encontrar una
curva que se ajuste de la mejor manera a los datos. La curva está definida en forma paramétrica, y se
deben encontrar los valores de sus parámetros para hacer que alguna medida de error se minimice.
6.7.1. Regresión Lineal Simple
Con la regresión lineal simple se pretende ir más allá de ver la asociación entre dos variables.
En concreto se quiere:
(i) Investigar la naturaleza de la asociación.
(ii) Construir un modelo que describa la relación entre ambas variables.
(iii) Predecir
Supongamos que un diagrama de dispersión de los datos de los puntos (xi, yi) indica una relación
lineal entre las variables X eY o, alternativamente, que el coeficiente de correlación es cercano a 1
o -1. Entonces el siguiente paso es encontrar la recta L que en lagúnsentido ajuste los datos.
En general, el modelo de regresión linealsimple lo podemos plantear como la recta :
yi = a+ bxi, i = 1, . . . , n. (1)
donde
yi: es la variable respuesta o dependiente para el individuo i;
xi: es la variable esplicativa o independiente para el individuo i, i = 1, . . ., n.
a: representa el intercepto con el eje Y, y se interpreta como el valor que toma y cuando x=0.
b: representa la pendiente de la recta, y se interpreta como la cantidad que aumenta(disminuye) y
cuando x aumenta(disminuye) en una unidad.
La pendiente y el intercepto pueden calcularse de la siguiente manera:
b =
rsy
sx
=
cov(X, Y )
s2X
y a = ȳ − bx̄
Ejemplo 6.3 Considere los datos de los ejemplo 6.2 y 6.3, y encuentre la recta que se ajusta a los
datos.
Algunas veces el diagrama de puntos no indica una relación lineal entre las variables X e Y pero
se podrá observar alguna otra curva t́ıpica y bien conocida Y = f(X) que puede aproximar los datos;
se le llama curva de aproximación. Algunas de esas curvas t́ıpicas son las siguientes analizamos la
relación entres X e Y y determinamos que esta no se ajusta auna recta podemos analizar, entre
otros, los dos siguientes casos:
20
6.7.2. Ajuste Exponencial
Si entre log(y) y x observamos una relación lineal, usaremos la curva exponencial:
yi = ae
bxi , i = 1, . . . , n.
Este ajuste se puede reducir a una regresión lineal de la siguiente forma
log(yi) = a
′ + b′xi, i = 1, . . . , n.
donde
a′ =log(a)
b′ =b
6.7.3. Ajuste Polinomial
En este caso lo que hacemos es ajustar la relación entre x e y a través de un polinomio de grado
p:
yi = β0 + β1xi + β2x
2
i + β3x
3
i , . . . , βpx
p
i i = 1, . . . , n.
Al incluir potencias de X logramos mayor flexibilidad en el modelo.
Si p=1, estamos en el caso de regresión lineal.
Si p=2, la regresión se llama cuadrática.
6.7.4. Otros Ajustes
Hipérbola
Si entre 1/y y x observamos un relación lineal usaremos la hiperbola:
y =
1
a+ bx
o
1
y
= a+ bx
Curva Geométrica
Si entre log(y) y log(x) observamos una relación lineal usaremos la curva potencial:
y = axb o log(y) = log(a) + b · log(x)
21
	Página en blanco