Logo Studenta

preditor,Coordinadordeproducción,2007-nov-dic-art-9

¡Estudia con miles de materiales!

Vista previa del material en texto

903
Recibido: Octubre, 2006. Aprobado: Septiembre, 2007.
Publicado como ENSAYO en Agrociencia 41: 903-912. 2007.
RESUMEN
Los análisis estadísticos con una sola variable tienen la limita-
ción de proveer conocimientos parciales no suficientes para ca-
racterizar fenómenos multivariados complejos como las precipi-
taciones, tormentas, escorrentías e inundaciones. Para el enten-
dimiento integral de estos fenómenos se requiere estudiar la den-
sidad conjunta de las variables correlacionadas que los caracte-
rizan. En hidrología se ha supuesto que las variables de interés
siguen una distribución gamma, por lo que la distribución gamma
bivariada es la más utilizada en esta disciplina. En este trabajo
se presenta la generalización de una distribución gamma bivariada
a una familia de distribuciones bivariadas. Esta familia (que da
la posibilidad de utilizar cualquier distribución continua como
marginal, por ejemplo, la lognormal, inversa de Gauss o logísti-
ca), aunada a las familias existentes, puede ser útil para modelar
los fenómenos hidrológicos. Una ventaja de esta familia es que su
distribución conjunta tiene una expresión explícita simple que
permite su utilización con paquetes matemáticos como
Mathematica o Matlab.
Palabras clave: Distribución bivariada, distribución gamma, distri-
bución inversa de Gauss, distribuciones marginales, familias
multivariadas.
INTRODUCCIÓN
Yue et al. (2001) revisaron algunas distribucio-
nes bivariadas propuestas para las aplicacio-
nes hidrológicas y mencionan que su compli-
cación matemática es el principal obstáculo para su
uso. La generalización bivariada de una distribución
univariada generalmente no es única como en el caso
de la distribución normal; para la distribución gamma,
por ejemplo, cualquier distribución bivariada con mar-
ginales gamma puede considerarse una distribución
gamma bivariada. Plackett (1965), cita a Fréchet, quien
considerando dos variables aleatorias X y Y, con distri-
bución conjunta H(x, y) y distribuciones marginales
F(x) y G(y), obtuvo las siguientes desigualdades cono-
cidas como cotas de Fréchet (Kotz et al., 2000).
UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y
SUS APLICACIONES EN HIDROLOGÍA
A FAMILY OF BIVARIATE DISTRIBUTIONS AND ITS APPLICATIONS IN HYDROLOGY
R. Antonio Salazar-Gómez1 e I. Roberto Cruz-Medina2
1Instituto Tecnológico del Valle del Yaqui. Block 611 Valle del Yaqui, Bácum Sonora
(rasalazarg@hotmaillcom) 2Instituto Tecnológico de Sonora, Cinco de Febrero 818 Obregón, Sono-
ra. 85000 (rcruz@itson.mx)
ABSTRACT
Statistical analyses with a single variable have the limitation of
providing partial knowledge that is insufficient for characterizing
complex multivariate phenomena such as precipitations, storms,
run-offs and floods. For the integral understanding of these
phenomena, it is necessary to study the joint density of the
correlated variables that characterize them. In hydrology, it has
been assumed that the variables of interest follow a gamma
distribution, therefore, the bivariate gamma distribution is the
most widely used distribution in this discipline. In this paper a
generalization of a bivariate gamma to a family of bivariate
distributions is presented. This family (which provides the
possibility of using any continuous distribution as marginal, for
example, the lognormal, inverse Gaussian or logistic), added to
the existing families, can be useful for modeling hydrological
phenomena. One advantage of this family is that its joint
distribution has a simple explicit expression that permits its use
with mathematical packages such as Mathematica or Matlab.
Key words: Bivariate distribution, gamma distribution, inverse
Gaussian distribution, marginal distributions, multivariate families.
INTRODUCTION
Yue et al. (2001) revised some bivariate
distributions proposed for hydrological
applications and mentioned that their
mathematical complication is the principal obstacle for
their use. The bivariate generalization of a univariate
distribution is generally not unique, as in the case of
the normal distribution; for the gamma distribution,
for example, any bivariate distribution with gamma
marginals can be considered a bivariate gamma
distribution. Plackett (1965) cites Fréchet, who,
considering two random variables X and Y, with joint
distribution H(x, y) and marginal distributions F(x) and
G(y), obtained the following inequalities known as the
Fréchet bounds (Kotz et al., 2000).
H(x, y) ≤ min [F(x), G(y)] (1)
H (x, y) ≤ min F(x) + G(y)−1 (2)
904 VOLUMEN 41, NÚMERO 8
AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007
H(x, y) ≤ min [F(x), G(y)] (1)
H(x, y) ≥ min F(x) + G(y)−1 (2)
Morgenstern, citado por D’este (1981) propuso la dis-
tribución bivariada con distribuciones marginales F(x)
y F(y):
H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3)
y Farlie (1960), la generalizó con la expresión:
H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4)
donde las funciones A(F) y B(G) son funciones acota-
das, con sus primeras diferenciales también acotadas,
α es un parámetro de asociación y si se acepta, sin
pérdida de generalidad, que las cotas superiores de
A(F) y B(G) son iguales a uno, la expresión
para la función bivariada (4) es única. La familia (4)
de distribuciones bivariadas se conoce como las distri-
buciones Farlie-Gumbel-Morgenstern. D’este (1981)
puntualiza que la distribución gamma bivariada deri-
vada de la ecuación (3) de Morgenstern tiene una cota
superior de 1/π=0.3183 para el coeficiente de correla-
ción y concluye que esta distribución gamma bivariada
sólo es útil para variables con correlación débil.
El método de Plackett (1965) para la construcción
de una distribución conjunta H(x,y), satisface la ecua-
ción (5) y depende del parámetro Ψ≥0 donde:
Ψ =
− − +( )
−( ) −( )
H F G H
F H G H
1
(5)
Karian y Dudewics (2000) proporcionan una des-
cripción completa del método, cuando Ψ=1 las varia-
bles son independientes y se alcanzan las cotas de
Fréchet; la función de densidad conjunta, denominada
familia lambda generalizada (FLG), tiene la expresión:
h x y
f x g y F G FG
S FG
, /
a f a f
c h
=
( ) + −( ) + −( )
− −( )
Ψ Ψ
Ψ Ψ
1 1 2
4 12 3 2 (6)
donde, S=1+(F+G)(Ψ−1); f(x) y g(y) representan las
funciones de densidad de las distribuciones F(x) y G(y).
Koehler y Symanowsky (1995) presentan una fa-
milia multivariada con funciones de distribución y de
densidad en forma explícita que se denotará como FKS.
Morgenstern, cited by D’este (1981), proposed the
bivariate distribution with marginal distributions F(x)
and F(y):
H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3)
and Farlie (1960), generalized it with the expression:
H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4)
where functions A(F) and B(G) are bounded functions,
with first differentials also bounded, α is an association
parameter, and if it is accepted, without loss of
generality, that the upper bounds of |A(F)| and |B(G)|
are equal to one, the expression for the bivariate function
(4) is unique. The family (4) of bivariate distributions
is known as the Farlie-Gumbel-Morgenstern
distributions. D’este (1981) points out that the bivariate
gamma distribution derived from equation (3) of
Morgenstern has an upper bound of 1/π=0.3183 for
the correlation coefficient and concludes that this
bivariate gamma distribution is only useful for variables
with weak correlation.
 The Plackett method (1965) for the construction of a
joint distribution H(x,y), satisfies equation (5) and
depends on the parameter Ψ≥0 where:
Ψ =
− − +( )
−( ) −( )
H F G H
F H G H
1
(5)
Karian and Dudewics (2000) provide a complete
description of the method, when Ø = 1 the variables
are independent and the Fréchet bounds are attained;
the joint density function, known as the generalized
lambda family (GLF), has the following expression:
h x y
f x g y F G FG
S FG
, /
a f a f
c h
=
( ) + −( ) + −( )
− −( )
Ψ Ψ
Ψ Ψ
1 1 2
4 12 3 2 (6)
where, S=1+(F+G)(Ψ−1); f(x) and g(y) represent the
densityfunctions of the distributions F(x) and G(y).
Koehler and Symanowsky (1995) present a
multivariate family with explicit distribution and density
functions that will be denoted as FKS. To generate this
family the authors define a group of exponential
variables and a group of independent gamma variables,
define various transformations to the p-dimensional
hypercube with uniform margins (0, 1) to obtain p
905SALAZAR-GÓMEZ y CRUZ-MEDINA
UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA
Para generar esta familia los autores definen un con-
junto de variables exponenciales y un conjunto de va-
riables gamma independientes, definen varias trans-
formaciones al hipercubo p-dimensional con márgenes
uniformes (0, 1) para obtener p variables uniformes
Ui, y se reemplazan las variables Ui por las funciones
de distribución Fi(xi). Para dos variables, la función de
densidad contiene tres parámetros de asociación (α11,
α12 y α22), sin embargo, la función puede simplificarse
de forma que contenga únicamente al parámetro α12,
(α11=α22=0) y si este parámetro se denota por α, la
densidad bivariada es:
h x y f x g y F x G y
C C
,
/ /a f a f a f= ( ) ( )
+
F
HG
I
KJ
− +( ) −α+
1 1
12
2
12
21
α α
α
α
(7)
donde:
C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8)
Johnson y Tenenbein (1981), generaron una fami-
lia de distribuciones bivariadas por el método de la
combinaciones lineales ponderadas (CLP), el cual se
inicia con dos variables independientes e idénticamente
distribuidas (iid) U’ y V’ con función de densidad w(t),
para definir las variables U y V:
U=U’ y (9.a)
V=cU’+(1−c)V’ (9.b)
donde, c∈(0,1) es una constante que afecta la depen-
dencia entre las variables; w(t) una función de densi-
dad que se puede utilizar para evaluar la sensibilidad
de la distribución conjunta H(x,y). Los autores utilizan
como distribución w (t) a las distribuciones uniforme,
normal, exponencial y doble exponencial, pero no pro-
porcionan la expresión explícita de la función de den-
sidad conjunta h(x, y) generada por estas distribucio-
nes.
Las familias de distribuciones presentadas no se
aplican frecuentemente debido a la complejidad de sus
funciones de densidad. El objetivo del presente trabajo
fue obtener una familia de distribuciones bivariadas de
menor complejidad. La hipótesis que se plantea es que
el procedimiento de Moran (1969), descrito en la si-
guiente sección para obtener una distribución gamma
bivariada, se puede generalizar para cumplir el objeti-
vo buscado.
uniform variables Ui, and the Ui variables are replaced
by the distribution functions Fi(xi). For two variables,
the density function contains three association
parameters (α11, α12, α22), however, the function can
be simplified in such a way that it contains only the
parameter α12, (α11=α22=0), and if this parameter is
denoted by α, the bivariate density is:
h x y f x g y F x G y
C C
,
/ /a f a f a f= ( ) ( )
+
F
HG
I
KJ
− +( ) −α+
1 1
12
2
12
21
α α
α
α
(7)
where:
C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8)
Johnson and Tenenbein (1981) generated a family
of bivariate distributions by the weighted linear
combination method (WLC), which starts with two
independent variables that are identically distributed
(iid) U’ and V’ with density function w(t), to define the
variables U and V:
U=U’ and (9.a)
V=cU’+(1−c)V’ (9.b)
where, c∈(0,1) is a constant that affects the dependence
among the variables; w(t) is a density function that can
be used to evaluate the sensitivity of the joint distribution
H(x,y). These authors use the uniform, normal,
exponential and double exponential distribution as w(t),
but do not provide the explicit expression of the joint
density function h(x, y) generated by these distributions.
The families of distributions presented in this section
are not frequently applied due to the complexity of
their density functions. The objective of the present
study was to obtain a family of bivariate distributions
of lower complexity. The hypothesis proposed in this
paper is that the procedure of Moran (1969), described
in the following section to obtain a bivariate gamma
distribution, can be generalized to comply with the
objective.
MATERIALS AND METHODS
Moran (1969), starting from a bivariate normal distribution with
correlation coefficient ρ, obtained one of the first generalizations of
the bivariate gamma distribution using the following results:
1) Dependence among variables with a bivariate normal distribution
is completely specified by the correlation coefficient; this property
906 VOLUMEN 41, NÚMERO 8
AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007
MATERIALES Y MÉTODOS
Moran (1969), partiendo de una distribución normal bivariada
con coeficiente de correlación ρ, obtuvo una de las primeras genera-
lizaciones de la distribución gamma bivariada utilizando los siguien-
tes resultados:
1) La dependencia entre variables con una distribución normal
bivariada está completamente especificada por el coeficiente de
correlación; esta propiedad de la distribución normal bivariada
la hace ideal para expresar la dependencia lineal entre varia-
bles.
2) La función acumulativa de probabilidad o función de distribu-
ción (FD) de cualquier variable univariada continua tiene distri-
bución uniforme U(0,1), en el intervalo (0, 1).
3) El teorema de cambio de variable que permite la obtención de la
función de densidad de una función de una variable aleatoria
con cierta distribución específica (Casella y Berger 1990).
Moran (1969) supone dos variables aleatorias W y Z, con distri-
bución normal bivariada, cuya densidad es:
f w z w wz zw z, , expa f
d i d i d i=
−
−
−
− +
R
S|
T|
U
V|
W|
1
2 1
1
2 1
2
2 1/2 2
2 2
π ρ ρ
ρ
(10)
y define a las variables aleatorias U y V como las distribuciones
acumulativas de W y Z, por medio de las expresiones:
U W e dt
tw
= =
−
−∞
zΦ( )
1
2
2
2
π
 y (11.a)
V e dt Z
tz
= =
−
−∞
z1
2
2
2
π
Φ( ) (11.b)
Estas variables aleatorias (U y V) heredan la dependencia de las
variables W y Z y tienen una distribución uniforme (resultado 2
anterior) en el intervalo (0, 1). Luego define a las variables X y Y en
forma implícita como:
U F X f s ds
x
= =
−∞
z, ,θ θ1 1a f a f (12.a)
V G Y g s ds
y
= =
−∞
z, ,θ θ2 2a f a f (12.b)
Según Moran (1969), f (x,θ1) y g (y,θ2) son las funciones de
densidad de dos variables gamma, y F y G son sus funciones de
of the bivariate normal distribution makes it ideal for expressing
linear dependence among variables.
2) The cumulative distribution function (CDF) of any continuous
univariate variable has uniform distribution U(0, 1) in the interval
(0, 1).
3) The change of variable theorem which allows to obtain the density
function of a function of a random variable with a specific
distribution (Casella and Berger, 1990).
Moran (1969) assumes two random variables W and Z, with
bivariate normal distribution, whose density is:
f w z w wz zw z, , expa f
d i d i d i=
−
−
−
− +
R
S|
T|
U
V|
W|
1
2 1
1
2 1
2
2 1/2 2
2 2
π ρ ρ
ρ
(10)
and defines the random variables (U and V) as the cumulative
distributions of W and Z, by means of the expressions:
U W e dt
tw
= =
−
−∞
zΦ( )
1
2
2
2
π
 and (11.a)
V e dt Z
tz
= =
−
−∞
z1
2
2
2
π
Φ( ) (11.b)
These random variables (U and V) inherit the dependence of
variables W and Z and have a uniform distribution (result 2 above) in
the interval (0, 1). Then the variables X and Y are defined implicitly
as:
U F X f s ds
x
= =
−∞
z, ,θ θ1 1a f a f (12.a)
V G Y g s ds
y
= =
−∞
z, ,θ θ2 2a f a f (12.b)
According to Moran (1969), f(x,θ1) and g (y,θ2) are the density
functions of two gamma variables, and F and G are their distribution
functions. With the theorem of change of variable, the joint density
function of a bivariate gamma distribution is obtained.
Generalization of the Moran bivariate distribution
To generalize the Moran (1969) bivariate distribution, the
principal result of this work, note that variablesX and Y in the
expressions (12.a and 12.b) may have diverse continuous distributions.
Using the transformations (13.a) and (13.b) with inverse
transformations (14.a) and (14.b):
907SALAZAR-GÓMEZ y CRUZ-MEDINA
UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA
distribución. Por medio del teorema de cambio de variable se obtie-
ne la función de densidad conjunta de una distribución gamma
bivariada.
Generalización de la distribución bivariada de Moran
Para generalizar la distribución bivariada de Moran (1969), re-
sultado principal de este trabajo, nótese que las variables X y Y en
las expresiones (12.a y 12.b) pueden tener diversas distribuciones
continuas. Utilizando las transformaciones (13.a) y (13.b) con trans-
formaciones inversas (14.a) y (14.b):
X=F−1[U]=F−1[Φ(W)] y (13.a)
Y=G−1[V]=G−1[Φ(W)] (13.b)
W=Φ−1[F(X)] y (14.a)
Z=Φ−1[G(Y)] y (14.b)
El teorema de cambio de variable permite expresar la función
de densidad conjunta como:
h(x,y)=fw,z (Φ
−1[F(X)], Φ−1[G(Y)]) 9J (15)
donde el Jacobiano de la transformación inversa J es:
J
w
x
w
x
z
y
z
y
w
x
x
z
y
= =
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂ (16)
La expresión del lado derecho es válida porque la variable W
sólo depende de la variable X y la variable Z sólo depende de Y.
Moran (1969) proporciona las derivadas de la expresión (16) para
distribuciones gamma, las expresiones, para cualquier distribución
derivable, se obtienen por medio de las fórmulas de la derivada de
una composición de funciones y la derivada de la inversa de una
función.
∂
∂
∂Φ
∂
θ
π θ
w
x
F x
x
f x
f F x
w f x
z
= = =
−
−
1
1
1
1/2 2
12 1 2
a fb g a f
a fb gd i
a f n s a f;
exp / ;
Φ
(17.a)
∂
∂
∂Φ
∂
θ
π θ
z
x
G y
y
g y
f F y
z g x
z
= = =
−
−
1
2
1
1/2 2
22 1 2
a fc h a f
a fc hd i
a f n s a f;
exp / ;
Φ
(17.b)
fz representa la función de densidad de la distribución normal
estándar y las variables W y Z están definidas por las ecuaciones
(14.a) y (14.b), así:
X=F−1[U]=F−1[Φ(W)] y (13.a)
Y=G−1[V]=G−1[Φ(W)] (13.b)
W=Φ−1[F(X)] y (14.a)
Z=Φ−1[G(Y)] y (14.b)
The change of variable theorem makes it possible to express the
joint density function as:
h(x,y)=fw,z (Φ
−1[F(X)], Φ−1[G(Y)]) 9J (15)
where the Jacobian of the inverse transformation | J | is:
J
w
x
w
x
z
y
z
y
w
x
x
z
y
= =
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂ (16)
The expression on the right side is valid because variable W
depends only on variable X and variable Z depends only on Y. Moran
(1969) provides the derivates of the expression (16) for gamma
distributions, the expressions, for any derivable distribution, are
obtained by means of the formulas of the derivate of a composition
of functions and the derivate of the inverse of a function.
∂
∂
∂Φ
∂
θ
π θ
w
x
F x
x
f x
f F x
w f x
z
= = =
−
−
1
1
1
1/2 2
12 1 2
a fb g a f
a fb gd i
a f n s a f;
exp / ;
Φ
(17.a)
∂
∂
∂Φ
∂
θ
π θ
z
x
G y
y
g y
f F y
z g x
z
= = =
−
−
1
2
1
1/2 2
22 1 2
a fc h a f
a fc hd i
a f n s a f;
exp / ;
Φ
(17.b)
fz represents the density function of the standard normal
distribution and variables W and Z are defined by the equations
(14.a) and (14.b), as follows:
J w z f x g y= +2 1 2 2 2
1 2π θ θa f d i{ } a f a fexp / ; ; (18)
Substituting equation (18) in expression (15), the joint density
function of variables X and Y with marginal densities f(x,θ1) and g
(y,θ2) is obtained. These functions represent the densities of any
continuous variable, where θ1 and θ2 may be parameters of one
dimension or vectors. Developing expression (15), a density function
that will be called the generalized bivariate family of Moran (GFM)
is obtained:
908 VOLUMEN 41, NÚMERO 8
AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007
J w z f x g y= +2 1 2 2 2
1 2π θ θa f d i{ } a f a fexp / ; ; (18)
Sustituyendo la ecuación (18) en la expresión (15) se obtiene la
función de densidad conjunta de las variables X y Y con densidades
marginales f (x,θ1) y g (y,θ2). Estas funciones representan las densi-
dades de cualquier variable continua, donde θ1 y θ2 pueden ser
parámetros de una dimensión o vectoriales. Desarrollando la expre-
sión (15) se obtiene una función de densidad que se denominará aquí
familia bivariada generalizada de Moran (FGM):
h x y w wz z
f x g y
( , ) exp
; ;
=
−
−
−
− +L
NM
O
QP
R
S|
T|
U
V|
W|
1
1
1
2 1
2
2 1/2 2
2 2
1 2
ρ ρ
ρ ρ ρ
θ θ
d i d i
a f a f
a f a fx
(19)
Ajuste de las distribuciones bivariadas
Para estimar el parámetro Ψ en la familia FLG Plackett (1965)
sugiere dividir la distribución conjunta en cuatro cuadrantes, utili-
zando las líneas x=x1 y y=y1 para algunas constantes x1 y y1, contar
el número de puntos (x, y) en cada cuadrante. Los conteos propor-
cionan los valores a, b, c y d:
a=n(x≤x1, y≤y1); b=n(x≤x1, y>y1),
b=n(x>x1, y≤y1) y d=n(x>x1, y>y1)
donde, n(A) es el número de elementos del evento A. El estimador
propuesto es: Ψ+=ad/bc, que tiene una distribución asintóticamente
normal con varianza:
V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20)
Mardia, citado por Karian y Dudewics (2000) muestra que la
varianza se minimiza si x1 y y1 se seleccionan como las medianas de
las respectivas distribuciones. Karian y Dudewics (2000) proporcio-
nan un algoritmo para aproximar una distribución conjunta f (x, y),
por medio de la distribución h(x, y) de la familia FLG. Este algorit-
mo, con pequeñas modificaciones, se puede utilizar para ajustar una
distribución h(x, y) de la familia FLG, cuando se desconoce la dis-
tribución verdadera.
1) Seleccionar las distribuciones marginales f (x,θ1) y g (y,θ2) y por
medio de algún criterio (Kolmogorov-Smirnov, Anderson-Darling,
χ2-cuadrada).
2) Ajustar las distribuciones marginales con algún método (máxi-
ma verosimilitud, método de momentos o de percentiles si los
momentos no existen).
3) Graficar las distribuciones marginales para verificar la calidad
del ajuste univariado.
4) Seleccionar el valor de Ψ (como el valor Ψ+) propuesto por
Plackett.
h x y w wz z
f x g y
( , ) exp
; ;
=
−
−
−
− +L
NM
O
QP
R
S|
T|
U
V|
W|
1
1
1
2 1
2
2 1/2 2
2 2
1 2
ρ ρ
ρ ρ ρ
θ θ
d i d i
a f a f
a f a fx
(19)
Fit of the bivariate distributions
To estimate the parameter Ψ in the family FLG, Plackett (1965)
suggests dividing the joint distribution into four quadrants, using the
lines x=x1 and y=y1 for some constants x1 and y1, counting the
number of points (x, y) in each quadrant. The counts provide the
values a, b, c and d:
a=n(x≤x
1
, y≤y
1
); b=n(x≤x
1
, y>y
1
),
b=n(x>x1, y≤y1) y d=n(x>x1, y>y1)
where, n(A) is the number of elements of event A. The proposed
estimator is: Ψ+=ad/bc, which has an asymptotically normal
distribution with variance:
V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20)
Mardia, cited by Karian and Dudewics (2000) shows that the
variance is minimized if x1 and y1 are selected as the medians of the
respective distributions. Karian and Dudewics (2000) provide an
algorithm to approximate a joint distribution f(x,y) by means of the
distribution h(x,y) of the family FLG. This algorithm, with small
modifications, can be used to fit a distribution h(x,y) of the family
FLG, when the true distribution is unknown.
1) Select the marginal distributions f(x,θ1) and g (y,θ2) by means of
some criterion (Kolmogorov-Smirnov, Anderson-Darling, χ2-
squared).
2) Fit the marginal distributions with some method (maximum
likelihood, method of moments or percentiles if the moments do
not exist).
3) Graph the marginal distributions to verify the quality of the
univariate fit.
4) Select the value of Ψ (such as the value Ψ+) proposed by Plackett.
For fitting the FGM family, an algorithm similar to the above will
be used, substituting the last indication with: 4) estimate the value of ρ,
by ρ0, the correlation coefficient of the normalized values, that is:
ρ0
1
2
1
2
1
= =
= =
∑
∑ ∑
w z
w z
i i
i
n
i
i
n
i
i
n (21)
Koehler and Symanowsky (1995) used themaximum likelihood
method, with the computational complications inherent to this
909SALAZAR-GÓMEZ y CRUZ-MEDINA
UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA
Para el ajuste de la familia FGM se utilizará un algoritmo simi-
lar al anterior, sustituyendo la última indicación por: 4) estimar el
valor de ρ, por ρ0, el coeficiente de correlación de las variables
normalizadas, esto es,
ρ0
1
2
1
2
1
= =
= =
∑
∑ ∑
w z
w z
i i
i
n
i
i
n
i
i
n (21)
Koehler y Symanowsky (1995) utilizaron el método de máxima
verosimilitud, con las complicaciones computacionales propias de
este procedimiento (que se puede utilizar también para el ajuste de
las distribuciones de las dos familias anteriores). Estos autores men-
cionan que valores grandes de α11, α12 y α22 inducen una asociación
débil entre las variables X y Y; esta información es útil para selec-
cionar los valores iniciales del parámetro.
Comparación de las familias bivariadas
Las familias bivariadas FLG (6) y FGM (19) tienen sólo un
parámetro para modelar la dependencia, Ψ para la familia FLG y el
coeficiente de correlación ρ para la familia FGM. La familia FKS
tiene tres parámetros; sin embargo, para comparar el ajuste de estas
familias con igual número de parámetros, se utilizará la versión
simplificada (7).
Las comparaciones se efectuarán modelando las escorrentías del
Río Yaqui, en el estado de Sonora, México. La modelación de las
escorrentías en las regiones áridas y semiáridas de México es impor-
tante para planificar el uso de los escasos recursos hídricos de estas
regiones. En el caso del Río Yaqui, que irriga al valle del mismo
nombre en el sur de Sonora, las escorrentías de diciembre a junio
(DJ), que se desea modelar, tienen correlaciones significativas, pero
no están correlacionadas con las escorrentías de julio a septiembre
ocasionadas por las precipitaciones del periodo de lluvias de verano
asociadas al monzón mexicano. Las autocorrelaciones de las
escorrentías DJ no fueron significativas, pero su correlación con el
promedio del índice de oscilación del sur SOI (Ropelewsky y Jones,
1987) de octubre y noviembre es igual a −0.475, un valor significa-
tivo (p≤0.001). Para modelar y predecir las escorrentías DJ por
medio del índice SOI, se ajustaron distribuciones bivariadas para las
escorrentías acumuladas de diciembre-junio y el promedio del índi-
ce SOI de octubre y noviembre.
RESULTADOS Y DISCUSIÓN
Se dispuso de 47 registros (1956-2002) de las
escorrentías del periodo diciembre-junio (Cuadro 1),
con un mínimo, máximo, mediana, media y desvia-
ción estándar de 287.5, 4393.5, 632.05, 1102.3 y
978.23 Hm3. Las distribuciones con mejor ajuste fue-
ron: gamma desfasada, log logistic, lognormal y la
procedure (which can also be used for the fit of the distributions of
the two previous families). These authors mention that high values
of α11, α12 and α22 induce a weak association between variables X
and Y; this information is useful for selecting the initial values of the
parameter.
Comparison of the bivariate families
The bivariate FLG (6) and FGM (19) families have only one
parameter for modeling the dependence, Ψ for the FLG family and
the correlation coefficient ρ for the family FGM. The family FKS
has three parameters; however, to compare the goodness of fit of
these families with equal number of parameters, the simplified version
(7) will be used.
Comparisons will be made by modeling the runoffs of the Yaqui
River, in the State of Sonora, México. The modeling of the runoffs
in the arid and semi-arid regions of México is important for planning
the use of the limited water resources of these regions. It is the case
of the Yaqui River, which irrigates the valley of the same name in
the south of Sonora. The runoffs from December to June (DJ), which
will be modeled, have significant correlations, but are not correlated
with the runoffs from July to September caused by the summer
rainfalls associated with the Mexican monsoon. The autocorrelations
of the DJ runoffs were not significant, but their correlation with the
average of the southern oscillation index SOI (Ropelewsky and Jones,
1987) from October to November is equal to −0.475, a significant
value (p≤0.001). To model and predict the DJ runoffs with the SOI
index, bivariate distributions were adjusted for the accumulated runoffs
from December-June and the average of the SOI index of October
and November.
RESULTS AND DISCUSSION
There are 47 runoff available records (1956-2002)
of the period December-June (Table 1), with a
minimum, maximum, median, mean and standard
deviation of 287.5, 4393.5, 632.05, 1102.3 and 978.23
Hm3. The distributions with best fit were: defased
gamma, log logistic, lognormal and the inverse Gaussian
distribution; the defased gamma distribution was selected
because it had the best fit with the Kolmogorov-Smirnov
criterion. The location, scale and form parameters are
γ=287.48, β=1146.31 and α=0.7108. The average
SOI index of October and November (Table 1) has a
minimum, maximum, median, mean and standard
deviation of −2.725, 1.850, −0.292, −0.109 and 0.981.
The distributions with the best fit were the logistic and
normal; the normal distribution was selected because
Ropelewsky and Jones (1987) modified this index
precisely so that it would have a standard normal
distribution.
If the runoff distribution and the SOI index were
independent, the contour graph of the joint density
function would be like that presented in Figure 1.
910 VOLUMEN 41, NÚMERO 8
AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007
Cuadro 1. Escurrimientos y promedios del índice SOI (por columnas) para el periodo 1956-2002.
Table 1. Runoffs and averages of the SOI index (by columns) for the period 1956-2002.
Escurrimientos Dic-Jun (Hm3) Media del índice SOI Oct-Nov
295 3679 465 2831 1.445 −0.370 −0.490 −1.160
427 712 1267 2762 1.015 −0.395 −0.405 −1.435
996 644 4370 792 −0.660 −0.765 −0.320 −0.850
381 425 3315 2190 −0.585 1.295 −2.725 −1.195
1936 679 1009 365 0.620 1.150 0.110 −0.180
583 2279 4393 433 0.200 −0.755 −0.245 0.025
1193 480 792 1326 −0.025 1.850 −0.555 −1.500
509 576 1175 287 0.610 0.150 −0.515 1.010
487 635 566 453 −1.195 1.460 −0.380 1.085
576 503 612 600 0.600 0.445 1.635 1.445
1256 1138 628 400 −1.540 −1.475 0.115 0.130
437 2425 2128 −0.265 −0.520 −0.425
distribución inversa de Gauss; se seleccionó la distri-
bución gamma desfasada por tener el mejor ajuste con
el criterio de Kolmogorov-Smirnov. Los parámetros
de localización, escala y forma son γ=287.48,
β=1146.31 y α=0.7108. El índice SOI promedio de
octubre y noviembre (Cuadro 1) tiene como mínimo,
máximo, mediana, media y desviación estándar a
−2.725, 1.850, −0.292, −0.109 y 0.981. Las distri-
buciones con mejor ajuste fueron la logística y la nor-
mal; de ellas se seleccionó la normal porque Ropelewsky
y Jones (1987) modificaron este índice precisamente
para que tuviera una distribución normal estándar.
Si las distribuciones de las escorrentías y del índice
SOI fueran independientes, la gráfica de contornos de
la función de densidad conjunta sería como la presen-
tada en la Figura 1.
Figura 1. Gráfica de contornos de la densidad bivariada si las
escorrentías (X) y el índice SOI (Y) fueran indepen-
dientes.
Figure 1. Contour graph of the bivariate density if the runoffs
(X) and the SOI index (Y) were independent.
3
2
1
0
500
SO
I
1000 1500
Escurrimiento Hm3
2000 2500 3000 3500 4000
−1
−2
−3
Generalized family of Moran
Figure 2 shows the contour graph of the fitted
bivariate density function with a correlation of −0.475
among the normalized variables. An advantage of this
family is that the conditional distributions have an
explicit form. The conditional distribution of the runoffs,
with respect to the SOI index is:
h y x
Exp pw wz pz
g y
( / )
( ) ( )
;
/=
−
−
−
− +
R
S|
T|
U
V|
W|
1
1
1
2 1
2
2 1 2
2
2 2
2
ρ
ρ
ρ
θ
c h
c h
a f
(22)
The mean of this conditional distributioncan be
obtained by numerical integration. The graph of the
conditional means, which are the runoff least squares
estimators and generalize the regression equation, when
the value of the SOI index is known, is shown in Figure
3, which also shows the regression line. For a value of
the SOI index equal to 2.5, the linear regression provides
a negative run-off, whereas the conditional mean is
294 Hm3. The fit of the distributions and the numerical
calculations were carried out by means of Mathematica®
(Wolfram, 1998).
Plackett generalized lambda family
Using the estimator proposed by Plackett for the
Lamda parameter it is obtained: Ψ+=1/9, however,
the contour graph of the fit density function is similar
to the one presented in Figure 1, even when the
correlation coefficient is −0.475.
911SALAZAR-GÓMEZ y CRUZ-MEDINA
UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA
Familia generalizada de Moran
En la Figura 2 se presenta la gráfica de contornos
de la función de densidad bivariada ajustada que tiene
una correlación de −0.475 entre las variables normali-
zadas. Una ventaja de esta familia es que permite obte-
ner en forma explícita las distribuciones condiciona-
les. La distribución condicional de las escorrentías,
con respecto al índice SOI, es:
h y x
Exp pw wz pz
g y
( / )
( ) ( )
;
/=
−
−
−
− +
R
S|
T|
U
V|
W|
1
1
1
2 1
2
2 1 2
2
2 2
2
ρ
ρ
ρ
θ
c h
c h
a f
(22)
La media de esta distribución condicional se puede
obtener por integración numérica. La gráfica de las
medias condicionales, que generalizan a la ecuación de
regresión y son los estimadores de mínimos cuadrados
de las escorrentías cuando se conoce el valor del índice
SOI, se presenta en la Figura 3, en la cual se muestra
también la recta de regresión. Para un valor del índice
SOI igual a 2.5, la recta de regresión proporciona una
escorrentía negativa, mientras que la media condicio-
nal es 294 Hm3. El ajuste de las distribuciones y los
cálculos numéricos se efectuaron por medio de Mate-
mática® (Wolfram, 1998).
Familia lambda generalizada de Plackett
Utilizando el estimador propuesto por Plackett para
el parámetro Lambda, se obtiene: Ψ+=1/9, sin em-
bargo, la gráfica de contornos de la función de densi-
dad ajustada es similar a la presentada en la Figura 1
aun cuando el coeficiente de correlación es −0.475.
Esta familia bivariada tiene el problema que para
valores grandes de Ψ puede proporcionar densidades
no válidas. Plackett (1965) y Karian y Dudewicz (2000)
al obtener la raíz de la ecuación que produce, argu-
mentan, la función de densidad válida (7), no conside-
raron la posibilidad de que el argumento del denomi-
nador S2−4Ψ(Ψ−1)FG resulte negativo. El denomina-
dor es positivo si Ψ<1, pero resultará negativo para
algún valor Ψ>1; en el caso analizado resulta negati-
vo para valores de Ψ>1.35. Este ejemplo muestra
que la familia lambda generalizada no está bien defini-
da porque puede generar una función de densidad no
This bivariate family has the problem that for large
values of Ψ, it can provide invalid densities. Plackett
(1965) and Karian and Dudewicz (2000), when
obtaining the square root of the equation, argue that
the density function (7) is valid, but they did not consider
the possibility that the argument of the denominator
S2−4Ψ(Ψ−1)FG results negative. The denominator is
positive if Ψ<1, but will be negative for some value
Ψ>1; in this case it is negative for values of Ψ>1.35.
Figura 2. Gráfica de contornos de la densidad bivariada de las
escorrentías (X) y el índice SOI (Y) con correlación
negativa.
Figure 2. Contour graph of the bivariate density of the runoffs
(X) and the SOI index (Y) with negative correlation.
3
2
1
0
SO
I
1000
Escurrimiento Hm3
2000 3000 4000
−1
−2
−3
0 1 2
Índice SOI
E
sc
ur
ri
m
ie
nt
os
−2 −1
x x x
x
x x x x x
x x x x x x x x
4000
3000
2000
1000
Figure 3. Medias de las distribuciones condicionales y recta de
regresión para escorrentías cuando se conoce el índice
SOI.
Figure 3. Means of the conditional distributions and regression
line for runoffs when the SOI index is known.
912 VOLUMEN 41, NÚMERO 8
AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007
válida. Para la utilización de esta familia es necesario
analizar, en cada caso particular, si la función conjun-
ta de la ecuación (6) es válida.
Familia de Koehler y Symanowsky
En la expresión simplificada de Koehler y
Symanowsky (7) se observa que para valores grandes
de α la función de densidad conjunta tiende al produc-
to de las funciones de densidad marginales (indepen-
dencia entre las variables). Para un valor de α=10, la
gráfica de contornos de la densidad bivariada es simi-
lar a la Figura 1. Además, valores pequeños generan
correlaciones positivas, ésto es, el parámetro α sólo
permite la modelación de correlaciones positivas. Re-
visando la derivación de esta familia, se puede obser-
var que sólo permite la modelación de correlaciones
positivas, a menos que en el último cambio de variable
algunas de las variables Ui se sustituyan por 1−Fi(xi)
en lugar de Fi(xi).
CONCLUSIONES
La familia generalizada de Moran desarrollada en
este trabajo es una alternativa para la modelación de
variables bivariadas. En el ejemplo analizado modela
en forma adecuada la dependencia entre las escorrentías
del Río Yaqui y el índice SOI. La familia bivariada de
Plackett, conocida como familia lambda generalizada,
no está bien definida para valores grandes del parámetro
Ψ, ésto es, en cada caso particular es necesario anali-
zar si la función conjunta de la ecuación (6) es válida.
Para la familia de Koehler y Symanowsky, la expre-
sión proporcionada por los autores sólo permite la
modelación de correlaciones positivas.
LITERATURA CITADA
Casella, G., and R. L. Berger 1990. Statistical Inference. Duxbury
Press. Belmont USA. 650 p.
D’este, G. M. 1981. A Morgenstern-type bivariate gamma
distribution. Biometrika 68: 339-340.
Farlie D. J. G. 1960. The performance of some correlations
coefficients for a general bivariate distribution. Biometrika 47:
307-323.
Johnson, M. E., and A Tenenbein. 1981. A bivariate distribution
family with specified marginals, J. Amer. Stat. Assoc. 76: 198-
201.
Karian Z. A., and E. J. Dudewics. 2000. Fitting Statistical
Distributions: The Generalized Lambda Distribution and
Generalized Bootstrap Methods. Chapman & Hall/CRC. Boca
Ratón Fl. USA. 456 p.
Koehler, K. J, and J. T. Symanowski. 1995. Constructing multivariate
distributions with specific marginal distributions. J. Multivariate
Anal. 55: 261-282.
This example shows that the generalized lambda family
is not well defined because it can generate an invalid
density function. For the use of this family, it is
necessary to analyze, in each particular case, whether
the joint function of the equation (6) is valid.
Family of Koehler and Symanowsky
In the simplified expression of Koehler and
Symanowsky (7), it is observed that for large values of
α, the joint density function tends toward the product
of the marginal density functions (independence among
the variables). For a value of α=10, the contour graph
of the bivariate density is similar to Figure 1.
Furthermore, small values generate positive
correlations, that is, the parameter α only allows the
modeling of positive correlations. Revising the
derivation of this family, it can be observed that it only
allows the modeling of positive correlations, unless
that in the last change of variable some of the variables
Ui are substituted by 1−Fi(xi) instead of Fi(xi).
CONCLUSIONS
The generalized Moran family developed in the
present study is an alternative for the modeling of
bivariate variables. In the example analyzed it
adequately models the dependence among the runoffs
of the Yaqui River and the SOI index. The Plackett
bivariate family, known as generalized lambda family,
is not well defined for large values of the parameter
Ψ, that is, in each particular case it is necessary to
analyze whether the joint density function of equation
(6)is valid. For the family of Koehler and Symanowsky,
the expression provided by the authors only allows the
modeling of positive correlations.
—End of the English version—
�������
Kotz S., N. Balakrishnan, and N. L. Johnson. 2000. Continuous
Multivariate Distributions Vol 1: Models and Applications. 2nd
Ed. John Wiley & Sons. N. Y. USA. 752 p.
Moran, P. A. P. 1969. Statistical inference with bivariate gamma
distributions. Biometrika 56: 627-634.
Plackett, R. L. 1965. A class of bivariate distributions. J. Am. Stat.
Assoc. 60: 516-522.
Ropelewski, C. F., and P. D. Jones. 1987. An extension of the
Tahiti-Darwin southern oscillation index». Monthly Weather Rev.
115: 2161-2165.
Wolfram, S. 1998. The Mathematica Book. Fourth ed. Cambridge
University Press. Cambridge U. K. 1470 p.
Yue S., T. B. M. J. Quarda, and B. Bobée. 2001. A review of
bivariate gamma distributions for hydrological applications. J.
Hydrology 246: 1-18.