Logo Studenta

Estatística Bivariada

¡Estudia con miles de materiales!

Vista previa del material en texto

6. Estad́ısitica Bivariada
Ahora, supongamos que queremos estudiar el comportamiento de la variable de clasificación
bidimensional (X, Y ), asociada a dos variables de clasificación unidimensionales X e Y , respectiva-
mente, en una muestra de tamaño n de la población. Entonces dividimos la muestra en r clases Ai,
según la variable X, y en s clases Bj, según Y .
Llamamos nij al número de elementos de la muestra que pertenecen simultáneamente a la clase
Ai y la clase Bj. Podemos luego considerar una clase o modalidad AiBj formada por elementos de
la muestra que pertenecen simultáneamente a Ai y a Bj. Se observa que hay r ·s modalidades AiBj.
6.1. Frecuencia Absoluta y Frecuencia Relativa
Definiciones de interés:
nij: frecuencia absoluta del número de elementos pertenecientes a Ai ∩Bj
fij: frecuencia relativa del número de elementos en Ai ∩Bj con respecto al total n, donde
fij =
nij
n
, ∀ i = 1, . . . , r; ∀ j = 1, . . . , s
6.2. Tablas de Contingencia
Cuadro de doble entrada donde se puede resumir la información acerca de las frecuencias, ya
sean absolutas o relativas, como se muestra a continuación:
Y
B1 B2 . . . Bs
X A1 n11 n12 . . . n1s n1+
A2 n21 n22 . . . n2s n2+
...
...
...
...
...
...
Ar nr1 nr2 . . . nrs nr+
n+1 n+2 . . . n+s n
6.3. Distribuciones Marginales
ni+: es el número de elementos de la muestra que pertenecen a la clase Ai, sin importar la clase
Bj a la que estén asociados (suma de los valores de la fila i-ésima de la tabla de contingencia de
frecuencias)
ni+ =
s∑
j=1
nij, ∀ i = 1, . . . , r
n+j: es el número de elementos de la muestra que pertenecen a la clase Bj según Y, sin importar
la clase Ai a la que estén asociados (suma de los valores de la columna j-ésima de la tabla de
contin-gencia de frecuencias)
n+j =
r∑
i=1
nij, ∀ j = 1, . . . , s
15
fi+: frecuencia relativa de las clases Ai sin importar las clases Bj.
fi+ =
ni+
n
, ∀ i = 1, . . . , r
f+j: frecuencia relativa de las clases Bj sin importar las clases Ai.
f+j =
n+j
n
, ∀ j = 1, . . . , s
6.4. Distribuciones Condicionales
La distribución condicional consiste en estudiar las frecuencias asociadas a las clases de una
variable cuando nos restringimos a los elementos de una clase dada según la otra variable, esto es,
estudiar el comportamiento de una variable dado un valor fijo de la otra. Para calcular la proporción
de individuos muestrales que según Y caen en B, conociendo que según X ya pertenećıan a A, se
debe evaluar:
fB/A =
nB/A
n
donde fB/A es la frecuencia relativa condicional del subconjunto B de Y dado que X pertenece
al subconjunto A.
La distribución de X condicionada a Y se define como
fi/j =
fi/j
f+j
=
nij
n+j
∀ i = 1, . . . , r
y
r∑
i=1
fi/j = 1
La distribución de Y condicionada a X se define como
fj/i =
fj/i
fi+
=
nij
ni+
∀ j = 1, . . . , s
y
s∑
j=1
fj/i = 1
Ejemplo 6.1 Sea X la edad e Y la categoŕıa correspondiente al puesto de trabajo. Dada la siguiente
tabla de contingencia, calcular la distribución condicional de Y, dado que X es 25-30 y 35-45.
X\Y I II III ni+
15-20 20 20 5 45
20-25 15 12 8 35
25-30 10 15 10 35
30-35 5 20 25 50
35-40 5 10 30 45
n+j 55 77 78 210
16
6.5. Independencia
Dada una información en una Tabla de Contingencia, se dice que las variables X e Y son
independientes, śı y solo śı, la frecuencia relativa conjunta es igual al producto de las frecuencias
relativas marginales.
fij = fi+ · f+j ∀i = 1, . . . , r ∀ j = 1, . . . , s
Si las variables X e Y no son independientes entre śı, se dice que existe una asociación entre
ellas. De modo que el conocimiento de una de las variables presente alguna información respecto de
la otra. Nuestro objetivo es medir de alguna forma ésta relación existente y poder además describir
de que forma (lineal, exponencial, potencial, etc.) están relacionadas.
6.6. Asociación, Dependencia o Correlación
En estad́ıstica Descriptiva se dice que dos variables cuantitativas “están asociadas”, “son depen-
dientes”, o “están correlacionadas” si cuando se aumentan los valores de una variable, los valores
de la otra tienden a:
i) o bien a aumentar (y se dice que la asociación dependencia es directa o que la correlación es
positiva)
ii) o bien a disminuir (y se dice que la asociación o dependencia es inversa o que la correlación
es negativa)
Cuando no se presenta esta tendencia se dice que las variables no están asociadas o no son depen-
dientes o no están correlacionadas.
La asociación, correlación o dependencia en Estad́ıstica Descriptiva, no implica relación causa-
efecto. En otras palabras, si cuando una variable aumenta la otra tiende a aumentar (o a disminuir)
no es posible afirmar que esta última aumenta (o disminuye) PORQUE la primera variable aumenta.
6.6.1. Indicadores de Asociación: Covarianza
La covarianza entre dos variables, X e Y está dada por:
cov(X, Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)
n
o equvalentemente
cov(X, Y ) =
1
n
n∑
i=1
xiyi − x̄ȳ
La covarianza es una medida de asociación lineal, pero tiene la desventaja que su interpretación
depende de las unidades de medición.
Si cov(X,Y)> 0, la asociación o correlación es directa o positiva.
Si cov(X,Y)< 0, la asociación o correlación es inversa o negativa.
Si cov(X,Y)≈ 0, no hay asociación o correlación lineal.
17
6.6.2. Indicadores de Asociación: Correlación
La correlación lineal entre dos variables se define como
corr(X, Y ) =
n∑
i=1
(xi − x̄)(yi − ȳ)√√√√ n∑
i=1
(xi − x̄)2
n∑
i=1
(yi − ȳ)2
Si corr(X, Y ) = 1, la correlación es la máxima correlación positiva o directa.
Si corr(X, Y ) = −1, la correlación es la máxima correlación negativa o inversa.
Si corr(X, Y ) ≈ 0, no existe correlación o dependencia.
Una fórmula alternativa para calcular ρX,Y es
corr(X, Y ) =
sXY
sXsY
donde sX y sY son las desviaciones estándar de X e Y , respectivamente, y donde sXY es la covarianza
entre X e Y .
Otra fórmula alternativa es
ρ(X, Y ) =
∑
xiyi −
(∑
xi
)(∑
yi
)
/n√∑
x2i −
(∑
xi
)2
/n
√∑
y2i −
(∑
yi
)2
/n
Si bien no existe una regla general para decir si una correlación es alta media o baja, en este
curso podemos adoptar el siguiente criterio:
18
Ejemplo 6.2 .
1. Consideremos los siguientes datos, donde X indica la temperatura media diaria en grados
Farenheit e Y , el consumo diario correspondiente de gas natural en pies cúbicos.
X,F◦ 50 45 40 38 32 40 55
Y,ft3 2.5 5.0 6.2 7.4 8.3 4.7 1.8
Realice un diagrama de dispersión y calcule el coeficiente de correlación ρX,Y , si además cuenta
con las siguientes medidas de resumen:∑
xi = 300;
∑
yi = 35,9;
∑
xi
2 = 13218;
∑
y2i = 218,67;
∑
xiyi = 1431,8
2. Considere los siguientes datos donde X, representa el número de sucursales que 10 bancos di-
ferentes tienen en un área metropolitana, e Y es la correspondiente cuota del total de depósitos
mantenidos por los bancos.
X 198 186 116 89 120 109 28 58 34 31
Y 22.7 16.6 15.9 12.5 10.2 6.8 6.8 4.0 2.7 2.8
a) Construya un diagrama de dispersión entre X e Y.
b) Calcule covarianza y correlación.
19
6.7. Ajuste de Curvas
En el problema de ajuste a curvas se desea que dado un par de variables (X, Y ) encontrar una
curva que se ajuste de la mejor manera a los datos. La curva está definida en forma paramétrica, y se
deben encontrar los valores de sus parámetros para hacer que alguna medida de error se minimice.
6.7.1. Regresión Lineal Simple
Con la regresión lineal simple se pretende ir más allá de ver la asociación entre dos variables.
En concreto se quiere:
(i) Investigar la naturaleza de la asociación.
(ii) Construir un modelo que describa la relación entre ambas variables.
(iii) Predecir
Supongamos que un diagrama de dispersión de los datos de los puntos (xi, yi) indica una relación
lineal entre las variables X eY o, alternativamente, que el coeficiente de correlación es cercano a 1
o -1. Entonces el siguiente paso es encontrar la recta L que en lagúnsentido ajuste los datos.
En general, el modelo de regresión linealsimple lo podemos plantear como la recta :
yi = a+ bxi, i = 1, . . . , n. (1)
donde
yi: es la variable respuesta o dependiente para el individuo i;
xi: es la variable esplicativa o independiente para el individuo i, i = 1, . . ., n.
a: representa el intercepto con el eje Y, y se interpreta como el valor que toma y cuando x=0.
b: representa la pendiente de la recta, y se interpreta como la cantidad que aumenta(disminuye) y
cuando x aumenta(disminuye) en una unidad.
La pendiente y el intercepto pueden calcularse de la siguiente manera:
b =
rsy
sx
=
cov(X, Y )
s2X
y a = ȳ − bx̄
Ejemplo 6.3 Considere los datos de los ejemplo 6.2 y 6.3, y encuentre la recta que se ajusta a los
datos.
Algunas veces el diagrama de puntos no indica una relación lineal entre las variables X e Y pero
se podrá observar alguna otra curva t́ıpica y bien conocida Y = f(X) que puede aproximar los datos;
se le llama curva de aproximación. Algunas de esas curvas t́ıpicas son las siguientes analizamos la
relación entres X e Y y determinamos que esta no se ajusta auna recta podemos analizar, entre
otros, los dos siguientes casos:
20
6.7.2. Ajuste Exponencial
Si entre log(y) y x observamos una relación lineal, usaremos la curva exponencial:
yi = ae
bxi , i = 1, . . . , n.
Este ajuste se puede reducir a una regresión lineal de la siguiente forma
log(yi) = a
′ + b′xi, i = 1, . . . , n.
donde
a′ =log(a)
b′ =b
6.7.3. Ajuste Polinomial
En este caso lo que hacemos es ajustar la relación entre x e y a través de un polinomio de grado
p:
yi = β0 + β1xi + β2x
2
i + β3x
3
i , . . . , βpx
p
i i = 1, . . . , n.
Al incluir potencias de X logramos mayor flexibilidad en el modelo.
Si p=1, estamos en el caso de regresión lineal.
Si p=2, la regresión se llama cuadrática.
6.7.4. Otros Ajustes
Hipérbola
Si entre 1/y y x observamos un relación lineal usaremos la hiperbola:
y =
1
a+ bx
o
1
y
= a+ bx
Curva Geométrica
Si entre log(y) y log(x) observamos una relación lineal usaremos la curva potencial:
y = axb o log(y) = log(a) + b · log(x)
21
	Página en blanco

Continuar navegando

Materiales relacionados

44 pag.
Estadistica Descriptiva

SIN SIGLA

User badge image

Vale Clau

15 pag.
1_Estadistica descriptiva - Eliana Benavides

User badge image

Desafío COL y ARG Veintitrés