Vista previa del material en texto
903 Recibido: Octubre, 2006. Aprobado: Septiembre, 2007. Publicado como ENSAYO en Agrociencia 41: 903-912. 2007. RESUMEN Los análisis estadísticos con una sola variable tienen la limita- ción de proveer conocimientos parciales no suficientes para ca- racterizar fenómenos multivariados complejos como las precipi- taciones, tormentas, escorrentías e inundaciones. Para el enten- dimiento integral de estos fenómenos se requiere estudiar la den- sidad conjunta de las variables correlacionadas que los caracte- rizan. En hidrología se ha supuesto que las variables de interés siguen una distribución gamma, por lo que la distribución gamma bivariada es la más utilizada en esta disciplina. En este trabajo se presenta la generalización de una distribución gamma bivariada a una familia de distribuciones bivariadas. Esta familia (que da la posibilidad de utilizar cualquier distribución continua como marginal, por ejemplo, la lognormal, inversa de Gauss o logísti- ca), aunada a las familias existentes, puede ser útil para modelar los fenómenos hidrológicos. Una ventaja de esta familia es que su distribución conjunta tiene una expresión explícita simple que permite su utilización con paquetes matemáticos como Mathematica o Matlab. Palabras clave: Distribución bivariada, distribución gamma, distri- bución inversa de Gauss, distribuciones marginales, familias multivariadas. INTRODUCCIÓN Yue et al. (2001) revisaron algunas distribucio- nes bivariadas propuestas para las aplicacio- nes hidrológicas y mencionan que su compli- cación matemática es el principal obstáculo para su uso. La generalización bivariada de una distribución univariada generalmente no es única como en el caso de la distribución normal; para la distribución gamma, por ejemplo, cualquier distribución bivariada con mar- ginales gamma puede considerarse una distribución gamma bivariada. Plackett (1965), cita a Fréchet, quien considerando dos variables aleatorias X y Y, con distri- bución conjunta H(x, y) y distribuciones marginales F(x) y G(y), obtuvo las siguientes desigualdades cono- cidas como cotas de Fréchet (Kotz et al., 2000). UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA A FAMILY OF BIVARIATE DISTRIBUTIONS AND ITS APPLICATIONS IN HYDROLOGY R. Antonio Salazar-Gómez1 e I. Roberto Cruz-Medina2 1Instituto Tecnológico del Valle del Yaqui. Block 611 Valle del Yaqui, Bácum Sonora (rasalazarg@hotmaillcom) 2Instituto Tecnológico de Sonora, Cinco de Febrero 818 Obregón, Sono- ra. 85000 (rcruz@itson.mx) ABSTRACT Statistical analyses with a single variable have the limitation of providing partial knowledge that is insufficient for characterizing complex multivariate phenomena such as precipitations, storms, run-offs and floods. For the integral understanding of these phenomena, it is necessary to study the joint density of the correlated variables that characterize them. In hydrology, it has been assumed that the variables of interest follow a gamma distribution, therefore, the bivariate gamma distribution is the most widely used distribution in this discipline. In this paper a generalization of a bivariate gamma to a family of bivariate distributions is presented. This family (which provides the possibility of using any continuous distribution as marginal, for example, the lognormal, inverse Gaussian or logistic), added to the existing families, can be useful for modeling hydrological phenomena. One advantage of this family is that its joint distribution has a simple explicit expression that permits its use with mathematical packages such as Mathematica or Matlab. Key words: Bivariate distribution, gamma distribution, inverse Gaussian distribution, marginal distributions, multivariate families. INTRODUCTION Yue et al. (2001) revised some bivariate distributions proposed for hydrological applications and mentioned that their mathematical complication is the principal obstacle for their use. The bivariate generalization of a univariate distribution is generally not unique, as in the case of the normal distribution; for the gamma distribution, for example, any bivariate distribution with gamma marginals can be considered a bivariate gamma distribution. Plackett (1965) cites Fréchet, who, considering two random variables X and Y, with joint distribution H(x, y) and marginal distributions F(x) and G(y), obtained the following inequalities known as the Fréchet bounds (Kotz et al., 2000). H(x, y) ≤ min [F(x), G(y)] (1) H (x, y) ≤ min F(x) + G(y)−1 (2) 904 VOLUMEN 41, NÚMERO 8 AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007 H(x, y) ≤ min [F(x), G(y)] (1) H(x, y) ≥ min F(x) + G(y)−1 (2) Morgenstern, citado por D’este (1981) propuso la dis- tribución bivariada con distribuciones marginales F(x) y F(y): H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3) y Farlie (1960), la generalizó con la expresión: H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4) donde las funciones A(F) y B(G) son funciones acota- das, con sus primeras diferenciales también acotadas, α es un parámetro de asociación y si se acepta, sin pérdida de generalidad, que las cotas superiores de A(F) y B(G) son iguales a uno, la expresión para la función bivariada (4) es única. La familia (4) de distribuciones bivariadas se conoce como las distri- buciones Farlie-Gumbel-Morgenstern. D’este (1981) puntualiza que la distribución gamma bivariada deri- vada de la ecuación (3) de Morgenstern tiene una cota superior de 1/π=0.3183 para el coeficiente de correla- ción y concluye que esta distribución gamma bivariada sólo es útil para variables con correlación débil. El método de Plackett (1965) para la construcción de una distribución conjunta H(x,y), satisface la ecua- ción (5) y depende del parámetro Ψ≥0 donde: Ψ = − − +( ) −( ) −( ) H F G H F H G H 1 (5) Karian y Dudewics (2000) proporcionan una des- cripción completa del método, cuando Ψ=1 las varia- bles son independientes y se alcanzan las cotas de Fréchet; la función de densidad conjunta, denominada familia lambda generalizada (FLG), tiene la expresión: h x y f x g y F G FG S FG , / a f a f c h = ( ) + −( ) + −( ) − −( ) Ψ Ψ Ψ Ψ 1 1 2 4 12 3 2 (6) donde, S=1+(F+G)(Ψ−1); f(x) y g(y) representan las funciones de densidad de las distribuciones F(x) y G(y). Koehler y Symanowsky (1995) presentan una fa- milia multivariada con funciones de distribución y de densidad en forma explícita que se denotará como FKS. Morgenstern, cited by D’este (1981), proposed the bivariate distribution with marginal distributions F(x) and F(y): H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3) and Farlie (1960), generalized it with the expression: H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4) where functions A(F) and B(G) are bounded functions, with first differentials also bounded, α is an association parameter, and if it is accepted, without loss of generality, that the upper bounds of |A(F)| and |B(G)| are equal to one, the expression for the bivariate function (4) is unique. The family (4) of bivariate distributions is known as the Farlie-Gumbel-Morgenstern distributions. D’este (1981) points out that the bivariate gamma distribution derived from equation (3) of Morgenstern has an upper bound of 1/π=0.3183 for the correlation coefficient and concludes that this bivariate gamma distribution is only useful for variables with weak correlation. The Plackett method (1965) for the construction of a joint distribution H(x,y), satisfies equation (5) and depends on the parameter Ψ≥0 where: Ψ = − − +( ) −( ) −( ) H F G H F H G H 1 (5) Karian and Dudewics (2000) provide a complete description of the method, when Ø = 1 the variables are independent and the Fréchet bounds are attained; the joint density function, known as the generalized lambda family (GLF), has the following expression: h x y f x g y F G FG S FG , / a f a f c h = ( ) + −( ) + −( ) − −( ) Ψ Ψ Ψ Ψ 1 1 2 4 12 3 2 (6) where, S=1+(F+G)(Ψ−1); f(x) and g(y) represent the densityfunctions of the distributions F(x) and G(y). Koehler and Symanowsky (1995) present a multivariate family with explicit distribution and density functions that will be denoted as FKS. To generate this family the authors define a group of exponential variables and a group of independent gamma variables, define various transformations to the p-dimensional hypercube with uniform margins (0, 1) to obtain p 905SALAZAR-GÓMEZ y CRUZ-MEDINA UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA Para generar esta familia los autores definen un con- junto de variables exponenciales y un conjunto de va- riables gamma independientes, definen varias trans- formaciones al hipercubo p-dimensional con márgenes uniformes (0, 1) para obtener p variables uniformes Ui, y se reemplazan las variables Ui por las funciones de distribución Fi(xi). Para dos variables, la función de densidad contiene tres parámetros de asociación (α11, α12 y α22), sin embargo, la función puede simplificarse de forma que contenga únicamente al parámetro α12, (α11=α22=0) y si este parámetro se denota por α, la densidad bivariada es: h x y f x g y F x G y C C , / /a f a f a f= ( ) ( ) + F HG I KJ − +( ) −α+ 1 1 12 2 12 21 α α α α (7) donde: C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8) Johnson y Tenenbein (1981), generaron una fami- lia de distribuciones bivariadas por el método de la combinaciones lineales ponderadas (CLP), el cual se inicia con dos variables independientes e idénticamente distribuidas (iid) U’ y V’ con función de densidad w(t), para definir las variables U y V: U=U’ y (9.a) V=cU’+(1−c)V’ (9.b) donde, c∈(0,1) es una constante que afecta la depen- dencia entre las variables; w(t) una función de densi- dad que se puede utilizar para evaluar la sensibilidad de la distribución conjunta H(x,y). Los autores utilizan como distribución w (t) a las distribuciones uniforme, normal, exponencial y doble exponencial, pero no pro- porcionan la expresión explícita de la función de den- sidad conjunta h(x, y) generada por estas distribucio- nes. Las familias de distribuciones presentadas no se aplican frecuentemente debido a la complejidad de sus funciones de densidad. El objetivo del presente trabajo fue obtener una familia de distribuciones bivariadas de menor complejidad. La hipótesis que se plantea es que el procedimiento de Moran (1969), descrito en la si- guiente sección para obtener una distribución gamma bivariada, se puede generalizar para cumplir el objeti- vo buscado. uniform variables Ui, and the Ui variables are replaced by the distribution functions Fi(xi). For two variables, the density function contains three association parameters (α11, α12, α22), however, the function can be simplified in such a way that it contains only the parameter α12, (α11=α22=0), and if this parameter is denoted by α, the bivariate density is: h x y f x g y F x G y C C , / /a f a f a f= ( ) ( ) + F HG I KJ − +( ) −α+ 1 1 12 2 12 21 α α α α (7) where: C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8) Johnson and Tenenbein (1981) generated a family of bivariate distributions by the weighted linear combination method (WLC), which starts with two independent variables that are identically distributed (iid) U’ and V’ with density function w(t), to define the variables U and V: U=U’ and (9.a) V=cU’+(1−c)V’ (9.b) where, c∈(0,1) is a constant that affects the dependence among the variables; w(t) is a density function that can be used to evaluate the sensitivity of the joint distribution H(x,y). These authors use the uniform, normal, exponential and double exponential distribution as w(t), but do not provide the explicit expression of the joint density function h(x, y) generated by these distributions. The families of distributions presented in this section are not frequently applied due to the complexity of their density functions. The objective of the present study was to obtain a family of bivariate distributions of lower complexity. The hypothesis proposed in this paper is that the procedure of Moran (1969), described in the following section to obtain a bivariate gamma distribution, can be generalized to comply with the objective. MATERIALS AND METHODS Moran (1969), starting from a bivariate normal distribution with correlation coefficient ρ, obtained one of the first generalizations of the bivariate gamma distribution using the following results: 1) Dependence among variables with a bivariate normal distribution is completely specified by the correlation coefficient; this property 906 VOLUMEN 41, NÚMERO 8 AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007 MATERIALES Y MÉTODOS Moran (1969), partiendo de una distribución normal bivariada con coeficiente de correlación ρ, obtuvo una de las primeras genera- lizaciones de la distribución gamma bivariada utilizando los siguien- tes resultados: 1) La dependencia entre variables con una distribución normal bivariada está completamente especificada por el coeficiente de correlación; esta propiedad de la distribución normal bivariada la hace ideal para expresar la dependencia lineal entre varia- bles. 2) La función acumulativa de probabilidad o función de distribu- ción (FD) de cualquier variable univariada continua tiene distri- bución uniforme U(0,1), en el intervalo (0, 1). 3) El teorema de cambio de variable que permite la obtención de la función de densidad de una función de una variable aleatoria con cierta distribución específica (Casella y Berger 1990). Moran (1969) supone dos variables aleatorias W y Z, con distri- bución normal bivariada, cuya densidad es: f w z w wz zw z, , expa f d i d i d i= − − − − + R S| T| U V| W| 1 2 1 1 2 1 2 2 1/2 2 2 2 π ρ ρ ρ (10) y define a las variables aleatorias U y V como las distribuciones acumulativas de W y Z, por medio de las expresiones: U W e dt tw = = − −∞ zΦ( ) 1 2 2 2 π y (11.a) V e dt Z tz = = − −∞ z1 2 2 2 π Φ( ) (11.b) Estas variables aleatorias (U y V) heredan la dependencia de las variables W y Z y tienen una distribución uniforme (resultado 2 anterior) en el intervalo (0, 1). Luego define a las variables X y Y en forma implícita como: U F X f s ds x = = −∞ z, ,θ θ1 1a f a f (12.a) V G Y g s ds y = = −∞ z, ,θ θ2 2a f a f (12.b) Según Moran (1969), f (x,θ1) y g (y,θ2) son las funciones de densidad de dos variables gamma, y F y G son sus funciones de of the bivariate normal distribution makes it ideal for expressing linear dependence among variables. 2) The cumulative distribution function (CDF) of any continuous univariate variable has uniform distribution U(0, 1) in the interval (0, 1). 3) The change of variable theorem which allows to obtain the density function of a function of a random variable with a specific distribution (Casella and Berger, 1990). Moran (1969) assumes two random variables W and Z, with bivariate normal distribution, whose density is: f w z w wz zw z, , expa f d i d i d i= − − − − + R S| T| U V| W| 1 2 1 1 2 1 2 2 1/2 2 2 2 π ρ ρ ρ (10) and defines the random variables (U and V) as the cumulative distributions of W and Z, by means of the expressions: U W e dt tw = = − −∞ zΦ( ) 1 2 2 2 π and (11.a) V e dt Z tz = = − −∞ z1 2 2 2 π Φ( ) (11.b) These random variables (U and V) inherit the dependence of variables W and Z and have a uniform distribution (result 2 above) in the interval (0, 1). Then the variables X and Y are defined implicitly as: U F X f s ds x = = −∞ z, ,θ θ1 1a f a f (12.a) V G Y g s ds y = = −∞ z, ,θ θ2 2a f a f (12.b) According to Moran (1969), f(x,θ1) and g (y,θ2) are the density functions of two gamma variables, and F and G are their distribution functions. With the theorem of change of variable, the joint density function of a bivariate gamma distribution is obtained. Generalization of the Moran bivariate distribution To generalize the Moran (1969) bivariate distribution, the principal result of this work, note that variablesX and Y in the expressions (12.a and 12.b) may have diverse continuous distributions. Using the transformations (13.a) and (13.b) with inverse transformations (14.a) and (14.b): 907SALAZAR-GÓMEZ y CRUZ-MEDINA UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA distribución. Por medio del teorema de cambio de variable se obtie- ne la función de densidad conjunta de una distribución gamma bivariada. Generalización de la distribución bivariada de Moran Para generalizar la distribución bivariada de Moran (1969), re- sultado principal de este trabajo, nótese que las variables X y Y en las expresiones (12.a y 12.b) pueden tener diversas distribuciones continuas. Utilizando las transformaciones (13.a) y (13.b) con trans- formaciones inversas (14.a) y (14.b): X=F−1[U]=F−1[Φ(W)] y (13.a) Y=G−1[V]=G−1[Φ(W)] (13.b) W=Φ−1[F(X)] y (14.a) Z=Φ−1[G(Y)] y (14.b) El teorema de cambio de variable permite expresar la función de densidad conjunta como: h(x,y)=fw,z (Φ −1[F(X)], Φ−1[G(Y)]) 9J (15) donde el Jacobiano de la transformación inversa J es: J w x w x z y z y w x x z y = = ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ (16) La expresión del lado derecho es válida porque la variable W sólo depende de la variable X y la variable Z sólo depende de Y. Moran (1969) proporciona las derivadas de la expresión (16) para distribuciones gamma, las expresiones, para cualquier distribución derivable, se obtienen por medio de las fórmulas de la derivada de una composición de funciones y la derivada de la inversa de una función. ∂ ∂ ∂Φ ∂ θ π θ w x F x x f x f F x w f x z = = = − − 1 1 1 1/2 2 12 1 2 a fb g a f a fb gd i a f n s a f; exp / ; Φ (17.a) ∂ ∂ ∂Φ ∂ θ π θ z x G y y g y f F y z g x z = = = − − 1 2 1 1/2 2 22 1 2 a fc h a f a fc hd i a f n s a f; exp / ; Φ (17.b) fz representa la función de densidad de la distribución normal estándar y las variables W y Z están definidas por las ecuaciones (14.a) y (14.b), así: X=F−1[U]=F−1[Φ(W)] y (13.a) Y=G−1[V]=G−1[Φ(W)] (13.b) W=Φ−1[F(X)] y (14.a) Z=Φ−1[G(Y)] y (14.b) The change of variable theorem makes it possible to express the joint density function as: h(x,y)=fw,z (Φ −1[F(X)], Φ−1[G(Y)]) 9J (15) where the Jacobian of the inverse transformation | J | is: J w x w x z y z y w x x z y = = ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ (16) The expression on the right side is valid because variable W depends only on variable X and variable Z depends only on Y. Moran (1969) provides the derivates of the expression (16) for gamma distributions, the expressions, for any derivable distribution, are obtained by means of the formulas of the derivate of a composition of functions and the derivate of the inverse of a function. ∂ ∂ ∂Φ ∂ θ π θ w x F x x f x f F x w f x z = = = − − 1 1 1 1/2 2 12 1 2 a fb g a f a fb gd i a f n s a f; exp / ; Φ (17.a) ∂ ∂ ∂Φ ∂ θ π θ z x G y y g y f F y z g x z = = = − − 1 2 1 1/2 2 22 1 2 a fc h a f a fc hd i a f n s a f; exp / ; Φ (17.b) fz represents the density function of the standard normal distribution and variables W and Z are defined by the equations (14.a) and (14.b), as follows: J w z f x g y= +2 1 2 2 2 1 2π θ θa f d i{ } a f a fexp / ; ; (18) Substituting equation (18) in expression (15), the joint density function of variables X and Y with marginal densities f(x,θ1) and g (y,θ2) is obtained. These functions represent the densities of any continuous variable, where θ1 and θ2 may be parameters of one dimension or vectors. Developing expression (15), a density function that will be called the generalized bivariate family of Moran (GFM) is obtained: 908 VOLUMEN 41, NÚMERO 8 AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007 J w z f x g y= +2 1 2 2 2 1 2π θ θa f d i{ } a f a fexp / ; ; (18) Sustituyendo la ecuación (18) en la expresión (15) se obtiene la función de densidad conjunta de las variables X y Y con densidades marginales f (x,θ1) y g (y,θ2). Estas funciones representan las densi- dades de cualquier variable continua, donde θ1 y θ2 pueden ser parámetros de una dimensión o vectoriales. Desarrollando la expre- sión (15) se obtiene una función de densidad que se denominará aquí familia bivariada generalizada de Moran (FGM): h x y w wz z f x g y ( , ) exp ; ; = − − − − +L NM O QP R S| T| U V| W| 1 1 1 2 1 2 2 1/2 2 2 2 1 2 ρ ρ ρ ρ ρ θ θ d i d i a f a f a f a fx (19) Ajuste de las distribuciones bivariadas Para estimar el parámetro Ψ en la familia FLG Plackett (1965) sugiere dividir la distribución conjunta en cuatro cuadrantes, utili- zando las líneas x=x1 y y=y1 para algunas constantes x1 y y1, contar el número de puntos (x, y) en cada cuadrante. Los conteos propor- cionan los valores a, b, c y d: a=n(x≤x1, y≤y1); b=n(x≤x1, y>y1), b=n(x>x1, y≤y1) y d=n(x>x1, y>y1) donde, n(A) es el número de elementos del evento A. El estimador propuesto es: Ψ+=ad/bc, que tiene una distribución asintóticamente normal con varianza: V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20) Mardia, citado por Karian y Dudewics (2000) muestra que la varianza se minimiza si x1 y y1 se seleccionan como las medianas de las respectivas distribuciones. Karian y Dudewics (2000) proporcio- nan un algoritmo para aproximar una distribución conjunta f (x, y), por medio de la distribución h(x, y) de la familia FLG. Este algorit- mo, con pequeñas modificaciones, se puede utilizar para ajustar una distribución h(x, y) de la familia FLG, cuando se desconoce la dis- tribución verdadera. 1) Seleccionar las distribuciones marginales f (x,θ1) y g (y,θ2) y por medio de algún criterio (Kolmogorov-Smirnov, Anderson-Darling, χ2-cuadrada). 2) Ajustar las distribuciones marginales con algún método (máxi- ma verosimilitud, método de momentos o de percentiles si los momentos no existen). 3) Graficar las distribuciones marginales para verificar la calidad del ajuste univariado. 4) Seleccionar el valor de Ψ (como el valor Ψ+) propuesto por Plackett. h x y w wz z f x g y ( , ) exp ; ; = − − − − +L NM O QP R S| T| U V| W| 1 1 1 2 1 2 2 1/2 2 2 2 1 2 ρ ρ ρ ρ ρ θ θ d i d i a f a f a f a fx (19) Fit of the bivariate distributions To estimate the parameter Ψ in the family FLG, Plackett (1965) suggests dividing the joint distribution into four quadrants, using the lines x=x1 and y=y1 for some constants x1 and y1, counting the number of points (x, y) in each quadrant. The counts provide the values a, b, c and d: a=n(x≤x 1 , y≤y 1 ); b=n(x≤x 1 , y>y 1 ), b=n(x>x1, y≤y1) y d=n(x>x1, y>y1) where, n(A) is the number of elements of event A. The proposed estimator is: Ψ+=ad/bc, which has an asymptotically normal distribution with variance: V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20) Mardia, cited by Karian and Dudewics (2000) shows that the variance is minimized if x1 and y1 are selected as the medians of the respective distributions. Karian and Dudewics (2000) provide an algorithm to approximate a joint distribution f(x,y) by means of the distribution h(x,y) of the family FLG. This algorithm, with small modifications, can be used to fit a distribution h(x,y) of the family FLG, when the true distribution is unknown. 1) Select the marginal distributions f(x,θ1) and g (y,θ2) by means of some criterion (Kolmogorov-Smirnov, Anderson-Darling, χ2- squared). 2) Fit the marginal distributions with some method (maximum likelihood, method of moments or percentiles if the moments do not exist). 3) Graph the marginal distributions to verify the quality of the univariate fit. 4) Select the value of Ψ (such as the value Ψ+) proposed by Plackett. For fitting the FGM family, an algorithm similar to the above will be used, substituting the last indication with: 4) estimate the value of ρ, by ρ0, the correlation coefficient of the normalized values, that is: ρ0 1 2 1 2 1 = = = = ∑ ∑ ∑ w z w z i i i n i i n i i n (21) Koehler and Symanowsky (1995) used themaximum likelihood method, with the computational complications inherent to this 909SALAZAR-GÓMEZ y CRUZ-MEDINA UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA Para el ajuste de la familia FGM se utilizará un algoritmo simi- lar al anterior, sustituyendo la última indicación por: 4) estimar el valor de ρ, por ρ0, el coeficiente de correlación de las variables normalizadas, esto es, ρ0 1 2 1 2 1 = = = = ∑ ∑ ∑ w z w z i i i n i i n i i n (21) Koehler y Symanowsky (1995) utilizaron el método de máxima verosimilitud, con las complicaciones computacionales propias de este procedimiento (que se puede utilizar también para el ajuste de las distribuciones de las dos familias anteriores). Estos autores men- cionan que valores grandes de α11, α12 y α22 inducen una asociación débil entre las variables X y Y; esta información es útil para selec- cionar los valores iniciales del parámetro. Comparación de las familias bivariadas Las familias bivariadas FLG (6) y FGM (19) tienen sólo un parámetro para modelar la dependencia, Ψ para la familia FLG y el coeficiente de correlación ρ para la familia FGM. La familia FKS tiene tres parámetros; sin embargo, para comparar el ajuste de estas familias con igual número de parámetros, se utilizará la versión simplificada (7). Las comparaciones se efectuarán modelando las escorrentías del Río Yaqui, en el estado de Sonora, México. La modelación de las escorrentías en las regiones áridas y semiáridas de México es impor- tante para planificar el uso de los escasos recursos hídricos de estas regiones. En el caso del Río Yaqui, que irriga al valle del mismo nombre en el sur de Sonora, las escorrentías de diciembre a junio (DJ), que se desea modelar, tienen correlaciones significativas, pero no están correlacionadas con las escorrentías de julio a septiembre ocasionadas por las precipitaciones del periodo de lluvias de verano asociadas al monzón mexicano. Las autocorrelaciones de las escorrentías DJ no fueron significativas, pero su correlación con el promedio del índice de oscilación del sur SOI (Ropelewsky y Jones, 1987) de octubre y noviembre es igual a −0.475, un valor significa- tivo (p≤0.001). Para modelar y predecir las escorrentías DJ por medio del índice SOI, se ajustaron distribuciones bivariadas para las escorrentías acumuladas de diciembre-junio y el promedio del índi- ce SOI de octubre y noviembre. RESULTADOS Y DISCUSIÓN Se dispuso de 47 registros (1956-2002) de las escorrentías del periodo diciembre-junio (Cuadro 1), con un mínimo, máximo, mediana, media y desvia- ción estándar de 287.5, 4393.5, 632.05, 1102.3 y 978.23 Hm3. Las distribuciones con mejor ajuste fue- ron: gamma desfasada, log logistic, lognormal y la procedure (which can also be used for the fit of the distributions of the two previous families). These authors mention that high values of α11, α12 and α22 induce a weak association between variables X and Y; this information is useful for selecting the initial values of the parameter. Comparison of the bivariate families The bivariate FLG (6) and FGM (19) families have only one parameter for modeling the dependence, Ψ for the FLG family and the correlation coefficient ρ for the family FGM. The family FKS has three parameters; however, to compare the goodness of fit of these families with equal number of parameters, the simplified version (7) will be used. Comparisons will be made by modeling the runoffs of the Yaqui River, in the State of Sonora, México. The modeling of the runoffs in the arid and semi-arid regions of México is important for planning the use of the limited water resources of these regions. It is the case of the Yaqui River, which irrigates the valley of the same name in the south of Sonora. The runoffs from December to June (DJ), which will be modeled, have significant correlations, but are not correlated with the runoffs from July to September caused by the summer rainfalls associated with the Mexican monsoon. The autocorrelations of the DJ runoffs were not significant, but their correlation with the average of the southern oscillation index SOI (Ropelewsky and Jones, 1987) from October to November is equal to −0.475, a significant value (p≤0.001). To model and predict the DJ runoffs with the SOI index, bivariate distributions were adjusted for the accumulated runoffs from December-June and the average of the SOI index of October and November. RESULTS AND DISCUSSION There are 47 runoff available records (1956-2002) of the period December-June (Table 1), with a minimum, maximum, median, mean and standard deviation of 287.5, 4393.5, 632.05, 1102.3 and 978.23 Hm3. The distributions with best fit were: defased gamma, log logistic, lognormal and the inverse Gaussian distribution; the defased gamma distribution was selected because it had the best fit with the Kolmogorov-Smirnov criterion. The location, scale and form parameters are γ=287.48, β=1146.31 and α=0.7108. The average SOI index of October and November (Table 1) has a minimum, maximum, median, mean and standard deviation of −2.725, 1.850, −0.292, −0.109 and 0.981. The distributions with the best fit were the logistic and normal; the normal distribution was selected because Ropelewsky and Jones (1987) modified this index precisely so that it would have a standard normal distribution. If the runoff distribution and the SOI index were independent, the contour graph of the joint density function would be like that presented in Figure 1. 910 VOLUMEN 41, NÚMERO 8 AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007 Cuadro 1. Escurrimientos y promedios del índice SOI (por columnas) para el periodo 1956-2002. Table 1. Runoffs and averages of the SOI index (by columns) for the period 1956-2002. Escurrimientos Dic-Jun (Hm3) Media del índice SOI Oct-Nov 295 3679 465 2831 1.445 −0.370 −0.490 −1.160 427 712 1267 2762 1.015 −0.395 −0.405 −1.435 996 644 4370 792 −0.660 −0.765 −0.320 −0.850 381 425 3315 2190 −0.585 1.295 −2.725 −1.195 1936 679 1009 365 0.620 1.150 0.110 −0.180 583 2279 4393 433 0.200 −0.755 −0.245 0.025 1193 480 792 1326 −0.025 1.850 −0.555 −1.500 509 576 1175 287 0.610 0.150 −0.515 1.010 487 635 566 453 −1.195 1.460 −0.380 1.085 576 503 612 600 0.600 0.445 1.635 1.445 1256 1138 628 400 −1.540 −1.475 0.115 0.130 437 2425 2128 −0.265 −0.520 −0.425 distribución inversa de Gauss; se seleccionó la distri- bución gamma desfasada por tener el mejor ajuste con el criterio de Kolmogorov-Smirnov. Los parámetros de localización, escala y forma son γ=287.48, β=1146.31 y α=0.7108. El índice SOI promedio de octubre y noviembre (Cuadro 1) tiene como mínimo, máximo, mediana, media y desviación estándar a −2.725, 1.850, −0.292, −0.109 y 0.981. Las distri- buciones con mejor ajuste fueron la logística y la nor- mal; de ellas se seleccionó la normal porque Ropelewsky y Jones (1987) modificaron este índice precisamente para que tuviera una distribución normal estándar. Si las distribuciones de las escorrentías y del índice SOI fueran independientes, la gráfica de contornos de la función de densidad conjunta sería como la presen- tada en la Figura 1. Figura 1. Gráfica de contornos de la densidad bivariada si las escorrentías (X) y el índice SOI (Y) fueran indepen- dientes. Figure 1. Contour graph of the bivariate density if the runoffs (X) and the SOI index (Y) were independent. 3 2 1 0 500 SO I 1000 1500 Escurrimiento Hm3 2000 2500 3000 3500 4000 −1 −2 −3 Generalized family of Moran Figure 2 shows the contour graph of the fitted bivariate density function with a correlation of −0.475 among the normalized variables. An advantage of this family is that the conditional distributions have an explicit form. The conditional distribution of the runoffs, with respect to the SOI index is: h y x Exp pw wz pz g y ( / ) ( ) ( ) ; /= − − − − + R S| T| U V| W| 1 1 1 2 1 2 2 1 2 2 2 2 2 ρ ρ ρ θ c h c h a f (22) The mean of this conditional distributioncan be obtained by numerical integration. The graph of the conditional means, which are the runoff least squares estimators and generalize the regression equation, when the value of the SOI index is known, is shown in Figure 3, which also shows the regression line. For a value of the SOI index equal to 2.5, the linear regression provides a negative run-off, whereas the conditional mean is 294 Hm3. The fit of the distributions and the numerical calculations were carried out by means of Mathematica® (Wolfram, 1998). Plackett generalized lambda family Using the estimator proposed by Plackett for the Lamda parameter it is obtained: Ψ+=1/9, however, the contour graph of the fit density function is similar to the one presented in Figure 1, even when the correlation coefficient is −0.475. 911SALAZAR-GÓMEZ y CRUZ-MEDINA UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA Familia generalizada de Moran En la Figura 2 se presenta la gráfica de contornos de la función de densidad bivariada ajustada que tiene una correlación de −0.475 entre las variables normali- zadas. Una ventaja de esta familia es que permite obte- ner en forma explícita las distribuciones condiciona- les. La distribución condicional de las escorrentías, con respecto al índice SOI, es: h y x Exp pw wz pz g y ( / ) ( ) ( ) ; /= − − − − + R S| T| U V| W| 1 1 1 2 1 2 2 1 2 2 2 2 2 ρ ρ ρ θ c h c h a f (22) La media de esta distribución condicional se puede obtener por integración numérica. La gráfica de las medias condicionales, que generalizan a la ecuación de regresión y son los estimadores de mínimos cuadrados de las escorrentías cuando se conoce el valor del índice SOI, se presenta en la Figura 3, en la cual se muestra también la recta de regresión. Para un valor del índice SOI igual a 2.5, la recta de regresión proporciona una escorrentía negativa, mientras que la media condicio- nal es 294 Hm3. El ajuste de las distribuciones y los cálculos numéricos se efectuaron por medio de Mate- mática® (Wolfram, 1998). Familia lambda generalizada de Plackett Utilizando el estimador propuesto por Plackett para el parámetro Lambda, se obtiene: Ψ+=1/9, sin em- bargo, la gráfica de contornos de la función de densi- dad ajustada es similar a la presentada en la Figura 1 aun cuando el coeficiente de correlación es −0.475. Esta familia bivariada tiene el problema que para valores grandes de Ψ puede proporcionar densidades no válidas. Plackett (1965) y Karian y Dudewicz (2000) al obtener la raíz de la ecuación que produce, argu- mentan, la función de densidad válida (7), no conside- raron la posibilidad de que el argumento del denomi- nador S2−4Ψ(Ψ−1)FG resulte negativo. El denomina- dor es positivo si Ψ<1, pero resultará negativo para algún valor Ψ>1; en el caso analizado resulta negati- vo para valores de Ψ>1.35. Este ejemplo muestra que la familia lambda generalizada no está bien defini- da porque puede generar una función de densidad no This bivariate family has the problem that for large values of Ψ, it can provide invalid densities. Plackett (1965) and Karian and Dudewicz (2000), when obtaining the square root of the equation, argue that the density function (7) is valid, but they did not consider the possibility that the argument of the denominator S2−4Ψ(Ψ−1)FG results negative. The denominator is positive if Ψ<1, but will be negative for some value Ψ>1; in this case it is negative for values of Ψ>1.35. Figura 2. Gráfica de contornos de la densidad bivariada de las escorrentías (X) y el índice SOI (Y) con correlación negativa. Figure 2. Contour graph of the bivariate density of the runoffs (X) and the SOI index (Y) with negative correlation. 3 2 1 0 SO I 1000 Escurrimiento Hm3 2000 3000 4000 −1 −2 −3 0 1 2 Índice SOI E sc ur ri m ie nt os −2 −1 x x x x x x x x x x x x x x x x x 4000 3000 2000 1000 Figure 3. Medias de las distribuciones condicionales y recta de regresión para escorrentías cuando se conoce el índice SOI. Figure 3. Means of the conditional distributions and regression line for runoffs when the SOI index is known. 912 VOLUMEN 41, NÚMERO 8 AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007 válida. Para la utilización de esta familia es necesario analizar, en cada caso particular, si la función conjun- ta de la ecuación (6) es válida. Familia de Koehler y Symanowsky En la expresión simplificada de Koehler y Symanowsky (7) se observa que para valores grandes de α la función de densidad conjunta tiende al produc- to de las funciones de densidad marginales (indepen- dencia entre las variables). Para un valor de α=10, la gráfica de contornos de la densidad bivariada es simi- lar a la Figura 1. Además, valores pequeños generan correlaciones positivas, ésto es, el parámetro α sólo permite la modelación de correlaciones positivas. Re- visando la derivación de esta familia, se puede obser- var que sólo permite la modelación de correlaciones positivas, a menos que en el último cambio de variable algunas de las variables Ui se sustituyan por 1−Fi(xi) en lugar de Fi(xi). CONCLUSIONES La familia generalizada de Moran desarrollada en este trabajo es una alternativa para la modelación de variables bivariadas. En el ejemplo analizado modela en forma adecuada la dependencia entre las escorrentías del Río Yaqui y el índice SOI. La familia bivariada de Plackett, conocida como familia lambda generalizada, no está bien definida para valores grandes del parámetro Ψ, ésto es, en cada caso particular es necesario anali- zar si la función conjunta de la ecuación (6) es válida. Para la familia de Koehler y Symanowsky, la expre- sión proporcionada por los autores sólo permite la modelación de correlaciones positivas. LITERATURA CITADA Casella, G., and R. L. Berger 1990. Statistical Inference. Duxbury Press. Belmont USA. 650 p. D’este, G. M. 1981. A Morgenstern-type bivariate gamma distribution. Biometrika 68: 339-340. Farlie D. J. G. 1960. The performance of some correlations coefficients for a general bivariate distribution. Biometrika 47: 307-323. Johnson, M. E., and A Tenenbein. 1981. A bivariate distribution family with specified marginals, J. Amer. Stat. Assoc. 76: 198- 201. Karian Z. A., and E. J. Dudewics. 2000. Fitting Statistical Distributions: The Generalized Lambda Distribution and Generalized Bootstrap Methods. Chapman & Hall/CRC. Boca Ratón Fl. USA. 456 p. Koehler, K. J, and J. T. Symanowski. 1995. Constructing multivariate distributions with specific marginal distributions. J. Multivariate Anal. 55: 261-282. This example shows that the generalized lambda family is not well defined because it can generate an invalid density function. For the use of this family, it is necessary to analyze, in each particular case, whether the joint function of the equation (6) is valid. Family of Koehler and Symanowsky In the simplified expression of Koehler and Symanowsky (7), it is observed that for large values of α, the joint density function tends toward the product of the marginal density functions (independence among the variables). For a value of α=10, the contour graph of the bivariate density is similar to Figure 1. Furthermore, small values generate positive correlations, that is, the parameter α only allows the modeling of positive correlations. Revising the derivation of this family, it can be observed that it only allows the modeling of positive correlations, unless that in the last change of variable some of the variables Ui are substituted by 1−Fi(xi) instead of Fi(xi). CONCLUSIONS The generalized Moran family developed in the present study is an alternative for the modeling of bivariate variables. In the example analyzed it adequately models the dependence among the runoffs of the Yaqui River and the SOI index. The Plackett bivariate family, known as generalized lambda family, is not well defined for large values of the parameter Ψ, that is, in each particular case it is necessary to analyze whether the joint density function of equation (6)is valid. For the family of Koehler and Symanowsky, the expression provided by the authors only allows the modeling of positive correlations. —End of the English version— ������� Kotz S., N. Balakrishnan, and N. L. Johnson. 2000. Continuous Multivariate Distributions Vol 1: Models and Applications. 2nd Ed. John Wiley & Sons. N. Y. USA. 752 p. Moran, P. A. P. 1969. Statistical inference with bivariate gamma distributions. Biometrika 56: 627-634. Plackett, R. L. 1965. A class of bivariate distributions. J. Am. Stat. Assoc. 60: 516-522. Ropelewski, C. F., and P. D. Jones. 1987. An extension of the Tahiti-Darwin southern oscillation index». Monthly Weather Rev. 115: 2161-2165. Wolfram, S. 1998. The Mathematica Book. Fourth ed. Cambridge University Press. Cambridge U. K. 1470 p. Yue S., T. B. M. J. Quarda, and B. Bobée. 2001. A review of bivariate gamma distributions for hydrological applications. J. Hydrology 246: 1-18.