Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS Escuela de Matemáticas Series de Tiempo Tema 2 Caracterı́sticas de las Series de Tiempo José Benito Hernández Chaudary Mairene Yelitza Colina Cruz 2.1. Introducción El análisis de series de tiempo desempeña un papel importante en el análisis requerido para el pronóstico de eventos futuros. Existen varias formas o métodos de calcular cual va a ser la tendencia del comportamiento del proceso en estudio. Algunos ejemplos donde se puede utilizar series temporales: Economı́a y Marketing Proyecciones del empleo y desempleo. Evolución del ı́ndice de precios de la leche. Beneficios netos mensuales de cierta entidad bancaria. Índices del precio del petróleo. Demografı́a Número de habitantes por año. Tasa de mortalidad infantil por año. Medioambiente Evolución horaria de niveles de óxido de azufre y de niveles de óxido de nitrógeno en una ciudad durante una serie de años. Lluvia recogida diariamente en una localidad. Temperatura media mensual. 1 Medición diaria del contenido en residuos tóxicos en un rı́o. Una serie tiempo es una secuencia de observaciones, medidos en determinados momentos del tiempo, ordenados cronológicamente y, espaciados entre sı́ de manera uniforme, ası́ los datos usualmente son dependientes entre sı́. El principal objetivo de una serie de tiempo es su análisis para hacer pronóstico. Formalmente se tiene la siguiente definición. Definición 2.1.1 Una serie de tiempo es un conjunto de observaciones xt, cada una registrada a un tiempo especı́fico t. Definición 2.1.2 Un modelo de series de tiempo para los datos observados {xt} es una especificación de una distribución conjunta (o posiblemente solo de medias y covarianzas) de una sucesión de variables aleatorias {Xt} de las cuales {xt} es una realización. Componentes de una serie temporal El análisis clásico de las series temporales se basa en la suposición de que los valores que toma la variable de observación es la consecuencia de tres componentes, cuya actuación conjunta da como resultado los valores medidos, estos componentes son: 1. Componente tendencia. Se puede definir como un cambio a largo plazo que se produce en la relación al nivel medio, o el cambio a largo plazo de la media. La tendencia se identifica con un movimiento suave de la serie a largo plazo. 2. Componente estacional. Muchas series temporales presentan cierta periodicidad o dicho de otro modo, variación de cierto perı́odo (semestral, mensual, etc.). Por ejemplo las Ventas al Detalle en Puerto Rico aumentan por los meses de noviembre y diciembre por las festivi- dades navideñas. Estos efectos son fáciles de entender y se pueden medir explı́citamente o incluso se pueden eliminar de la serie de datos, a este proceso se le llama desestacionalización de la serie. 3. Componente aleatoria. Esta componente no responde a ningún patrón de comportamiento, sino que es el resultado de factores fortuitos o aleatorios que inciden de forma aislada en una serie de tiempo. De estos tres componentes los dos primeros son componentes determinı́sticos, mientras que la última es aleatoria. Ası́ se puede denotar la serie de tiempo como Xt = Tt + Et + ǫt donde Tt es la tendencia, Et es la componente estacional y ǫt es la componente aleatoria. Ejemplo 2.1.1 Beneficios de acciones. Beneficios por acción trimestrales para la compañı́a Johnson & Johnson. Se tienen 84 trimestres iniciando el primer trimestre de 1960 hasta el último trimestre de 1980. Los métodos para analizar tales datos se verán en el Tema 3 usando técnicas de regresión. El archivo es jj.dat. Los comandos en Matlab y R para cargar el archivo y graficar la serie de tiempo son los siguientes: en Matlab en R > jj=textread(’jj.txt’); > jj=ts(scan("jj.txt"),start=1960,freq=4) > plot(jj(:,1),jj(:,2),’.-’); > plot(jj, type=".", > xlabel=’tiempo’; ylab="Beneficios por acción trimestrales") > ylabel=’Beneficios por acción trimestrales’; 2 1960 1962 1964 1968 1970 1972 1974 1976 1978 1980 0 2 4 6 8 10 12 14 16 18 Tiempo Be ne fic io s po r a cc ió n tri m es tra le s Figura 2.1: Ganancias trimestrales por acción, Compañı́a Johnson & Johnson. Ejemplo 2.1.2 Calentamiento global. Los datos corresponden a 98 años de mediciones de temperatu- ras, la gráfica presenta la desviación promedio entre las temperaturas en tierra y aire medidos en grados centı́grados. El archivo de datos es globtemp.dat. El código en Matlab y R es el siguiente en Matlab en R > globtemp = textread(’globtemp.dat’); > jj=ts(scan("globtemp.dat"),start=1856) > plot(globtemp(:,1),globtemp(:,2),’.-’); > gtemp=window(globtemp,start=1900) > xlabel=’Tiempo’; > plot(gtemp=".", > ylabel=’Desviación de la temperatura global’; ylab="Desviación de la temperatura global") 1900 1920 1940 1960 1980 2000 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Tiempo De sv ia ció n de la te m pe ra tu ra g lo ba l Figura 2.2: Promedio de desviación de temperaturas anual (1900-1997) en grados centı́grados Ejemplo 2.1.3 Datos de discurso o habla. Los datos siguientes representan la entonación al repetir la frase aaa ... hhh. Este tipo de datos envuelve aplicaciones de interés en las ciencias médicas. La separación entre los bloques es conocido como el perı́odo de diapasón y representa la respuesta del filtro de extensión vocal a una secuencia periódica de impulsos estimulados por la apertura y el cierre de la glotis. El archivo es speech.dat. en Matlab en R > plot(speech(:,1),speech(:,2),’-’); > plot(speech <- ts(scan("speech.dat")), > xlabel=’Tiempo’;ylabel=’Palabras’; ylab="Palabras") 3 0 100 200 300 400 500 600 700 800 900 1000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Tiempo Pa la br as Figura 2.3: Registro de tonos al repetir la sı́laba aaa...hhh a 10000 puntos por segundo con n = 1020 puntos Ejemplo 2.1.4 Bolsa de Valores de New York. Este es un ejemplo de series de tiempo financieras. La figura muestra los porcentajes de cambio diario desde el 2 de febrero de 1984 hasta el 31 de diciembre de 1991. Como se ve hay una caı́da fuerte, esta ocurrió el 19 de octubre de 1987 en t = 938. El archivo de datos es nyse.dat. 0 200 400 600 800 1000 1200 1400 1600 1800 2000 −0.2 −0.15 −0.1 −0.05 0 0.05 0.1 0.15 Tiempo Po rce nta je de ca mb io NY SE Figura 2.4: Porcentajes de cambio de NYSE, del 2 de febrero de 1984 al 31 de diciembre de 19991. Ejemplo 2.1.5 El niño y la población de peces. Podemos analizar también varias series al mismo tiem- po. En la figura se muestran los valores de una serie medioambiental conocida como Índice de Oscilación del Sur (SOI) y el reclutamiento asociado (número de nuevos peces). SOI mide los cambios en la presión del aire relativo a la temperatura de la superficie del mar en el Pacı́fico Central. Son 453 meses de 1950 a 1987. Los archivos de datos son soi.dat, recruit.dat en Matlab en R > soi=textread(’soi.dat’); > soi=ts(scan("soi.dat"),start=1950,freq=12) > rec=textread(’rec.dat’); > rec=ts(scan("recruit.dat"),start=1950, > subplot(2,1,1); frequency=12) > plot(soi(:,1),soi(:,2),’-’); > par(mfrow=c(2,1),mar=c(3,4,3,2)) > xlabel(’Índice de Oscilación del Sur’); > plot(soi, ylab=" ",xlab=" ", > subplot(2,1,2);plot(rec(:,1),rec(:,2),’-’); main="Índice de Oscilación del Sur") > xlabel(’Número de nuevos peces’); > plot(rec,ylab=" ",xlab=" ", main="Número de nuevos peces") 4 0 50 100 150 200 250 300 350 400 450 500 −1 −0.5 0 0.5 1 Indice de oscilación del sur 0 50 100 150 200 250 300 350 400 450 500 0 20 40 60 80 100 Número de nuevos peces Figura 2.5: SOI mensual y el estimado de número de nuevos peces, 1950-1987. Ejemplo 2.1.6 Imágenes fMRI. Imágenes fMRI (Functional magnetic resonance imaging). En este ejemplo, a cinco sujetos se les dieron cepilladuras periódicas en las manos. El estı́mulo fue aplicado durante 32 segundos y luego detenido durante 32 segundos; ası́ el periodo de la señales 64 segundos. La serie mostrada en la figura 2.1.6 son las medidas consecutivas de intensidad de la señal del nivel de oxigenación de la sangre (BOLD), que mide las áreas de activación en el cerebro. Los datos están en el archivo fmri.dat que consiste en nueve columnas; la primera columna representa el tiempo, mientras que las columnas dos a nueve representan las señales BOLD en ocho ubicaciones. Las primeras 4 (columnas 2 a 5, Figura 2.1.6, parte superior) se ubican en la corteza, las otras 4 (columnas 6 a 9, Figura 2.1.6, parte inferior) en el tálamo y cerebelo. en Matlab en R > fmri=textread(’fmri.dat’); > fmri=read.table("fmri.dat") > subplot(2,1,1); > par(mfrow=c(2,1),mar=c(5,4,3,2)) > plot(fmri(:,2:5,’-’)); > ts.plot(fmri[,2:5], lty=c(1,4),ylab= > xlabel(’Corteza’);ylabel(’BOLD’); "BOLD", xlab="Corteza") > subplot(2,1,2); > ts.plot(fmri[,6:9], lty=c(1,4), ylab= > plot(fmri(:,6:9,’-’)); "BOLD", xlab="Tálamo y cerebelo") > xlabel(’Tálamo y cerebelo’);ylabel(’BOLD’); 5 0 20 40 60 80 100 120 140 −1 −0.5 0 0.5 1 Corteza BO LD 0 20 40 60 80 100 120 140 −1 −0.5 0 0.5 1 Tálamo y Cerebelo BO LD Figura 2.6: Datos fMRI en varias ubicaciones de la corteza, tálamo y cerebelo. Ejemplo 2.1.7 Terremotos y Explosiones. Las series en la figura representan dos fases denotadas por P(t = 1, . . . , 1024) y S(t = 1025, . . . , 2048) en una estación sı́smica. Los datos se encuentran en el archivo eq5exp6.dat. en Matlab en R > x=textread(’eq5exp6.dat’); > x=matrix(scan("eq5exp6.dat"),ncol=12) > subplot(2,1,1);plot(x(:,1,’-’)); > par(mfrow=c(2,1)) > xlabel(’Terremotos’); > plot.ts(x[,1], xlab="Terremotos") > subplot(2,1,2); plot(x(:,2,’-’)); > plot.ts(x[,2], xlab="Explosiones" > xlabel(’Explosiones’); 0 200 400 600 800 1000 1200 1400 1600 1800 2000 −1 −0.5 0 0.5 1 Terremoto 0 200 400 600 800 1000 1200 1400 1600 1800 2000 −1 −0.5 0 0.5 1 Explosión Figura 2.7: Fáses de arribos en terremotos (parte superior) y explosiones (parte inferior) a 40 puntos por segundo. 6 2.2. Modelos Estadı́sticos para Series de Tiempo El objetivo primario en el análisis de Series de Tiempo es desarrollar modelos matemáticos que provean una descripción apropiada para los datos muestrales, como los vistos en los ejem- plos anteriores. Ası́, lo primero que hacemos es utilizar la definición 2.1.1, para tener un soporte estadı́stico. Definición 2.2.1 Un proceso estocástico es una familia de variables aleatorias indexadas x(ω, t) ó xt(ω) donde t pertenece a un conjunto de ı́ndices T y ω pertenece a un espacio muestral Ω. Si t = t∗ fijo, x(ω, t∗) es una variable aleatoria. Si ω = ω∗ fijo, x(ω∗, t) es una función de t, y se llama una realización del proceso. Una serie de tiempo es la realización de un proceso estocástico. Ejemplo 2.2.1 Ruido Blanco. Una manera sencilla de generar series de tiempo puede ser considerando una sucesión de variables alea- torias no-correlacionadas, wt con media 0 y varianza σ 2 w. Las series de tiempo generadas de esta manera son usadas como modelos para ruido en aplicaciones de ingenierı́a, donde ellas son llamadas ruido blanco, denotaremos este proceso como wt ∼ wn(0, σ2w). La designación blanco se origina de la analogı́a con luz blanca e indica que todos los posibles perı́odos de oscilación están presente con igual intensidad. También se requerirá que el ruido sea una colección de variables aleatorias iid con media 0 y varianza σ2w. Distinguiremos este caso diciendo que es ruido blanco independiente o escribiendo wt ∼ iid(0, σ2w). Un muy usado ruido blanco es el ruido blanco gaussiano, donde las wt son variables aleatorias normales con media 0 y varianza σ2w e identificadas como wt ∼ iidN(0, σ2w). Ejemplo 2.2.2 Promedio móvil. Podemos reemplazar las series de ruido blanco wt por un promedio móvil que suavice las series. Por ejemplo, consideremos la serie en el ejemplo 2.2.1 y reemplacémosla por un promedio móvil como el promedio del valor actual y los vecinos inmediatos anterior y posterior. Esto es vt = 1 3 (wt−1 + wt + wt+1), (2.1) la cual nos da una serie suavizada como se muestra en la figura 2.8. En la parte superior se observa un ruido blanco gaussiano de 500 variables aleatorias generadas con σ2w = 1 y en la parte inferior el promedio móvil de tres puntos para la misma serie. Las instrucciones en Matlab y R para generar la serie de ruido blanco gaussiano y el promedio móvil son: en Matlab en R > W=normrnd(0,1,500,1); > w=rnorm(500,0,1) > a=1; b=[1/3 1/3 1/3]; > v=filter(w,sides=2, rep(1/3,3)) > V=filter(b,a,W); > par(mfrow=c(2,1),mar=c(3,4,3,2)) > subplot(2,1,1);plot(W); > plot.ts(w,xlab=" ",xlab="Ruido Blanco") > xlabel(’Ruido Blanco’); > plot.ts(v, ylim=c(-3,3), > subplot(2,1,2);plot(V); xlab="Promedio móvil") > xlabel(’Promedio móvil’); 7 0 50 100 150 200 250 300 350 400 450 500 −4 −2 0 2 4 Ruido Blanco 0 50 100 150 200 250 300 350 400 450 500 −2 −1 0 1 2 Promedio movil Figura 2.8: Ruido blanco gaussiano (parte superior) y promedio móvil de 3 puntos (parte inferior). Ejemplo 2.2.3 Autoregresión. Suponga que consideramos la serie de ruido blanco wt del ejemplo 2.2.1 como entrada y calculamos la salida usando la ecuación de segundo orden xt = xt−1 − 0,90xt−2 + wt (2.2) sucesivamente para t = 1, 2, . . . , 500. La ecuación (2.2) representa una regresión o predicción del valor ac- tual de xt de una serie de tiempo como una función de los dos valores anteriores de la serie, y por consiguiente se sugiere el término autoregresión para este modelo. Las instrucciones en Matlab y R son las siguientes: en Matlab en R > W=normrnd(0,1,500,1); > w=rnorm(500,0,1) > b=1; a=[1 -0.9]; > x=filter(w,filter=c(1,-9), > X=filter(b,a,W); method="recursive")[-(1:50)] > plot(X);xlabel(’t’);ylabel(’x’); > plot.ts(x, ylab="x",xlab="t") 0 50 100 150 200 250 300 350 400 450 500 −6 −4 −2 0 2 4 6 t x Figura 2.9: Serie autoregresiva generada del modelo (2.2) 8 Ejemplo 2.2.4 Camino Aleatorio. Un modelo para analizar tendencias es el camino aleatorio con modelo de tendencia dado por xt = δ + xt−1 + wt (2.3) para t = 1, 2, . . ., con condición inicial x0 = 0, y donde wt es un ruido blanco. La constante δ es llamada tendencia, y cuando δ = 0, (2.3) es llamado simplemente camino aleatorio. El término camino aleatorio viene del hecho de que cuando δ = 0 el valor de la serie de tiempo en tiempo t es el valor de la serie al tiempo t − 1 más un movimiento completamente aleatorio determinado por wt. Podemos reescribir (2.3) como una suma de variables de ruido blanco. Esto es, xt = δt + t ∑ j=1 wj (2.4) para t = 1, 2, . . ., usando inducción o sustituyendo (2.4) en (2.3) se verifica la afirmación. Las instrucciones en Matlab y en R para generar un camino aleatorio son: en Matlab en R > X2=cumsum(W); > set.seed(154) > wd=W+0.2; > x=cumsum(w) > Xd=cumsum(wd); > wd=w+0.2; xd=cumsum(wd) > plot(Xd); > plot.ts(xd,ylim=c(-40,80)) > hold on > lines(x) > plot(X2,’r’); > lines(0.2*(1:500),lty="dashed") 0 50 100 150 200 250 300 350 400 450 500 −40 −20 0 20 40 60 80 Figura 2.10: Camino aleatorio, σw = 1, δ = 0,2, (linea azul superior), con δ = 0 (linea roja inferior) Ejemplo 2.2.5 Señal con ruido. Muchos modelos reales para generación de series de tiempo asumen una señal subyacente con alguna variación periódica consistente, contaminado por algún ruido aleatorio. Por ejemplo, es fácil detectar el ciclo regular de la serie fMRI desplegada en la parte superior de la figura 2.1.6 del ejemplo 2.1.6. Considere el modelo xt = 2 cos(2πt/50 + 0,6π) + wt (2.5) para t = 1, 2, . . . , 500, donde el primer término es considerado como la señal, como se muestra en la parte superior de la figura 2.11. Note que una onda senosoidal se puede escribir como A cos(2πωt + φ) (2.6) 9 donde A es la amplitud, ω es la frecuencia de oscilación y φ es una fase de cambio. En (2.5) A = 2, ω = 1/50 y φ = 0,6π. En la figura 2.11 añadimos un ruido a la señal senosoidal, en el gráfico delcentro un ruido blanco con σw = 1 y en la parte inferior con σw = 5; ambos son ruidos blancos gaussianos. Las instrucciones en Matlab y R para generar estas series son: en Matlab en R > C=2*cos(2*pi[1:500]/50+0.6*pi)’; > C=2*cos(2*pi*1:500/50 + 0.6*pi) > W=normrnd(0,1,500,1); > W=rnorm(500,0,1) > subplot(3,1,1);plot(C); > par(mfrow=c(3,1), mar=c(3,2,2,1), > xlabel(’2cos(2�pi t/50+0.6�pi)’); cex.main=1.5) > subplot(3,1,2);plot(C+W); > plot.ts(C,main=expression(2*cos(2*pi*t/50 > xlabel(’2cos(2�pi t/50+0.6�pi) +0.6*pi))) +N(0,1)’); > plot.ts(C+W,main=expression(2*cos(2*pi*t/50 > subplot(3,1,3);plot(C+5*W); +0.6*pi)+N(0,1))) > xlabel(’2cos(2�pi t/50+0.6�pi) > plot.ts(C+5*W,main=expression(2*cos(2*pi*t/50 +N(0,25)’); +0.6*pi)+N(0,25))) 0 50 100 150 200 250 300 350 400 450 500 −2 0 2 2cos(2π t/50 + 0.6π) 0 50 100 150 200 250 300 350 400 450 500 −4 −2 0 2 4 2cos(2π t/50 + 0.6π)+N(0,1) 0 50 100 150 200 250 300 350 400 450 500 −20 0 20 2cos(2π t/50 + 0.6π)+N(0,25) Figura 2.11: Onda del coseno con periodo 50 puntos (parte superior), onda del coseno con ruido gaussiano σw = 1 (parte central), con σ = 5 (parte inferior), véase (2.5). 10 2.3. Medidas de Dependencia: Autocorrelación y Correlación Cruzada Una descripción completa de una serie de tiempo, observada como una colección de n varia- bles aleatorias en puntos de tiempo enteros arbitrarios t1, t2, . . . , tn, para cada entero positivo n, es proporcionada por la función de distribución conjunta, evaluada como la probabilidad de que los valores de la serie sean conjuntamente menor que n constantes c1, c2, . . . , cn, esto es F(c1, c2, . . . , cn) = P(xt1 ≤ c1, xt2 ≤ c2, . . . , xtn ≤ cn). (2.7) Desafortunadamente, la función de distribución multidimensional usualmente no se puede escri- bir fácilmente a menos que las variables aleatorias tengan distribución normal conjunta, en cuyo caso, la ecuación (2.7) llega a ser la distribución normal multivariada usual. Un caso particular en la cual la función de distribución multidimensional es fácil de escribir, será en el caso de variables aleatorias normal estándar independientes e idénticamente distribui- das, para lo cual la función de distribución se puede expresar como el producto de las distribucio- nes marginales, es decir, F(c1, c2, . . . , cn) = n ∏ t1 Φ(ct) (2.8) donde Φ(x) = 1√ 2π ∫ x −∞ exp { − z 2 2 } dz (2.9) es la función de distribución normal estándar acumulada. Aunque la función de distribución multidimensional describa los datos completamente, esto es un instrumento poco manejable para mostrar y analizar datos de series de tiempo. La función de distribución (2.7) debe ser evaluada como una función de n argumentos, entonces cualquier gra- ficación de las correspondientes funciones de densidad multivariante es prácticamente imposible. La función de distribución unidimensional Ft(x) = P{xt ≤ x} o la correspondiente función de densidad unidimensional ft(x) = ∂Ft(x) ∂x , cuando existen, a menudo son más útiles para determinar si una coordenada en particular de la serie de tiempo tiene una función de densidad conocida, como la distribución normal (gaussiana), por ejemplo. Definición 2.3.1 La función de media es definida como µxt = E(xt) = ∫ ∞ −∞ x ft(x)dx, (2.10) en caso de que exista, donde E denota el operador usual de esperanza. Cuando no haya confusión sobre a que serie de tiempo nos referimos, escribiremos µxt como µt. Lo importante de comprender sobre µt consiste en que es una media teórica para la serie de tiempo en un punto particular, donde la media se asume o calcula sobre todos los posibles eventos que podrı́an haber producido xt. 11 Ejemplo 2.3.1 Función de media de una serie de promedio móvil. Si wt denota una serie de ruido blanco, entonces µwt = E(wt) = 0 para todo t. La serie en la parte superior de la figura 2.8 del ejemplo 2.2.1 refleja esto. Suavizando la serie como en el ejemplo 2.2.2 no cambia la media porque podemos escribir µwt = E(vt) = 1 3 [E(wt−1) + E(wt) + E(wt+1)] = 0 Ejemplo 2.3.2 Función de media de un camino aleatoria con tendencia. Considere el modelo de camino aleatorio con tendencia dado en (??) xt = δt + t ∑ j=1 wj, t = 1, 2, . . . Como en el ejemplo previo, dado que E(wt) = 0 para todo t, y δ es una constante, tenemos µwt = E(xt) = δt + t ∑ j=1 E(wj) = δt lo cual es una lı́nea recta con pendiente δ. Ejemplo 2.3.3 Función de media de una señal con ruido. Muchas aplicaciones prácticas dependen de suponer que los datos observados han sido generados por una señal fija ondulatoria superpuesta por un proceso de ruido de media cero, obteniéndose modelos de señal aditivo como en (2.5). Esto es claro, ya que la señal en (2.5) es una función fija del tiempo, entonces tenemos µxt = E(xt) = E[2 cos(2πt/50 + 0,6π) + wt] = 2 cos(2πt/50 + 0,6π) + E(wt) = 2 cos(2πt/50 + 0,6π) y la función de media es exactamente la onda del coseno. Definición 2.3.2 La función de autocovarianza es definida como producto del segundo momento γx(s, t) = E[(xs − µs)(xt − µt)], (2.11) para todo t y s. cuando no haya confusión en la existencia sobre a que serie nos referimos, escribiremos γx(s, t) = γ(s, t). Note que γx(s, t) = γx(t, s) para todo los puntos s y t. La función de autocovarianza mide la dependencia lineal entre dos puntos de la misma serie en diferentes tiempos. La autocovarianza (2.11) es el promedio de los productos cruzados relacionado con la densidad conjunta F(xs, xt). Es claro que, para s = t, la autocovarianza se reduce a la varianza (en el caso finito), dado que γx(t, t) = E[(xt − µt)2] (2.12) Ejemplo 2.3.4 Autocovarianza de un ruido blanco. La serie de ruido blanco wt, mostrada en la parte superior de la figura 2.11 del ejemplo 2.2.1, tiene E(wt) = 0 y γw(s, t) = E(ws, wt) = { σ2w, s = t 0, s 6= t donde, en este ejemplo, σ2w = 1. Note que ws y wt son no-correlacionados para s 6= t, por lo que se tiene E(wswt) = E(ws)E(wt) = 0 porque los valores medios de las variables de ruido blanco son cero. 12 Ejemplo 2.3.5 Autocovarianza de un promedio móvil. Considere la aplicación de un promedio móvil de tres puntos a la serie de ruido blanco wt del ejemplo anterior, como en el ejemplo 2.2.2 (σ 2 w = 1). Como vt en (2.1) tiene media cero, tenemos γv(s, t) = E[(vs − 0)(vt − 0)] = 1 9 E[(ws−1 + ws + ws+1)(wt−1 + wt + wt+1)]. Es conveniente para calcular esta covarianza, considerar s − t = h, para h = 0 ± 1,±2, . . .. Por ejemplo, para h = 0 γv(t, t) = 1 9 E[(wt−1 + wt + wt+1)(wt−1 + wt + wt+1)] = 1 9 [E(wt−1wt−1) + E(wtwt) + E(wt+1wt+1)] = 3 9 Cuando h = 1 γv(t + 1, t) = 1 9 E[(wt + wt+1 + wt+2)(wt−1 + wt + wt+1)] = 1 9 [E(wtwt) + E(wt+1wt+1)] = 2 9 usando el hecho de que podemos eliminar los términos con subı́ndices distintos. Cálculos similares dan γv(t − 1, t) = 2/9, γv(t + 2, t) = γv(t − 2, t) = 1/9 y 0 para separación mayor a 2. Resumiendo se tiene γv(s, t) = 3/9, s = t 2/9, |s − t| = 1 1/9, |s − t| = 2 0, |s − t| ≥ 3 (2.13) Ejemplo 2.3.6 Autocovarianza de una camino aleatorio. Para el modelo de camino aleatorio, sx = ∑ t j=1 wj, tenemos γx(s, t) = cov(xs, xt) = cov ( s ∑ j=1 wj t ∑ k=1 wk ) = mı́n{s, t}σ2w porque las wt son variables aleatorias no-correlacionadas. Note que, a diferencia del ejemplo anterior, la función de autocovarianza de un camino aleatorio depende de los valores particulares de s y t, y no de la separación entre ellos. Note también, que la varianza de un camino aleatorio Var(xt) = γx(t, t) = tσ2w, se incrementa sin acotación a medida que t crece. Definición 2.3.3 La función de autocorrelación (ACF) se define como ρ(s, t) = γ(s, t) √ γ(s, s)γ(t, t) (2.14) 13 La ACF mide la predictibilidad lineal de una serie de tiempo en tiempo t, digamos xt usando solo el valor xs. Es fácil de demostrar que −1 ≤ ρ(s, t) ≤ 1 usando la desigualdad de Cauchy- Schwarz1. Si podemos predecir xt exactamente de xs a través de la relación lineal xt = β0+ β1xs entonces la correlación será 1 cuando β1 > 0 y −1 cuando β1 < 0. Definición 2.3.4 La función de covarianza cruzada entre dos series xt y yt se define como γxy(s, t) = E[(xs − µxs)(yt − µyt)] (2.15) Definición 2.3.5 La función de correlación cruzada (CCF) es definida como ρxy(s, t) = γxy(s, t) √ γx(s, s)γy(t, t) (2.16) 2.4. Series de Tiempo Estacionarias Las definiciones anteriores de funciones de media y varianza son completamente generales. Aunque nosotros no hayamos hecho ninguna suposición especial sobre el comportamiento de las series de tiempo, muchos de los ejemplos precedentes han insinuado que puede existir una especie de regularidad en el comportamiento de las mismas. Introducimos la noción de regularidad que usa un concepto llamado estacionaridad, de donde se tiene que las series temporales se pueden clasificar en: 1. Estacionarias. Una serie es estacionaria cuando es estable a lo largo del tiempo, es decir, cuando la media y varianza son constantes en el tiempo. Esto se refleja gráficamente en que los valores de la serie tienden a oscilar alrededor de una media constante y la variabilidad con respecto a esa media también permanece constante en el tiempo. 2. No estacionarias. Son series en las cuales la tendencia y/o variabilidad cambian en el tiempo. Los cambios en la media determinan una tendencia a crecer o decrecer a largo plazo, por lo que la serie no oscila alrededor de un valor constante. Definición 2.4.1 Una serie de tiempo estrictamente estacionaria es una serie para la cual el comporta- miento probabilı́stico de cada sucesión de valores {xt1 , xt2 , . . . , xtk} es idéntico a la serie trasladada en el tiempo {xt1+h, xt2+h, . . . , xtk+h} Esto es, P{xt1 ≤ c1, . . . , xtk ≤ ck} = P{xt1+h ≤ c1, . . . , xtk+h ≤ ck} (2.17) para todo k = 1, 2, . . ., todo puntos de tiempos t1, t2, . . . , tk y números c1, c2, . . . , ck y todo salto h = 0,±1,±2, . . .. 1Note que la desigualdad de Cauchy-Schwartz implica |γ(s, t)|2 ≤ γ(s, s)γ(t, t). 14 Observaciones: 1. Si una serie de tiempo es estrictamente estacionaria, entonces todos las funciones de distri- bución multivariadas para subconjuntos de variables deben coincidir con sus contrapartes en el conjunto trasladado, para todos los valores del parámetro h. Por ejemplo para k = 1 La ecuación (2.17) implica que P{xs ≤ c} = P{xt ≤ c} (2.18) para cada puntos s y t. Esta declaración implica, por ejemplo, que si la probabilidad de un valor de una serie de tiempo muestreada cada hora es negativa a la 1:00a.m, la probabilidad a la 10:00a.m. es la misma. Además, si la función de media, µt de la serie xt existe, (2.18) implica que µs = µt para todo s y t, y por consiguiente µt debe ser constante. Note, que un proceso de camino aleatorio con tendencia no es estrictamente estacionario porque la función de media cambia con el tiempo (véase el ejemplo ??). 2. Cuando k = 2, podemos escribir la ecuación (2.17) como P{xs ≤ c1, xt ≤ c2} = P{xs+h ≤ c1, xt+h ≤ c2} (2.19) para cada par de puntos s y t y salto h. Entonces, si la función de varianza del proceso existe, (2.19) implica que la función de autocovarianza de la serie xt satisface γ(s, t) = γ(s+ h, t+ h) para todos s y t y salto h. Podemos interpretar este resultado diciendo que la función de autocovarianza del proceso depende sólo de las diferencias de tiempo entre s y t, y no del tiempo actual. Esta versión de estacionaridad en (2.17) es muy fuerte para la mayorı́a de aplicaciones. Más aún, es difı́cil conseguir estricta estacionaridad en un conjunto sencillo de datos. En vez de imponer condiciones sobre todas las posibles distribuciones de una serie de tiempo, usaremos una versión más suave que imponga condiciones solo sobre los dos primeros momentos de la serie. Tenemos por lo tanto la siguiente definición Definición 2.4.2 Una serie de tiempo débilmente estacionaria xt, es un proceso de varianza finita tal que 1. la función de media µt, definida en (2.10) es constante y no depende del tiempo t, y 2. la función de covarianza, γ(s, t), definida en (2.11) depende solo de las diferencias de s y t, |s − t|. Por consiguiente, usaremos el término estacionaridad para referirnos a estacionaridad débil; si un proceso es estacionario en el sentido estricto usaremos el término estrictamente estacionario. Es claro de la definición 2.4.1 de estrictamente estacionario que una serie de tiempo estricta- mente estacionaria con varianza finita, también es una serie estacionaria. El recı́proco no es cierto a menos que impongamos condiciones adicionales. Un importante caso donde estacionaridad im- plica estricta estacionaridad es el caso de series de tiempo gaussianas. Ya que la función de media E(xt) = µt de una serie de tiempo estacionaria es independiente del tiempo t, escribimos µt = µ (2.20) 15 Debido a que la función de covarianza de una serie de tiempo estacionaria, γ(s, t) en tiempos s y t depende sólo de la diferencia |s − t|, podemos simplificar la notación. Sea s = t + h, donde h representa el tiempo de traslación o salto, entonces γ(s, t) = E[(xt+h − µ)(xt − µ)] (2.21) = E[(xh − µ)(x0 − µ)] = γ(h, 0) no depende del argumento de tiempo t; asumiendo que Var(xt) = γ(0, 0) < ∞. De ahora en adelante, por conveniencia, prescindiremos del segundo argumento de γ(h, 0), es decir, la función de covarianza se denotará γ(h). Definición 2.4.3 La función de autocovarianza de una serie de tiempo estacionaria se escribirá co- mo γ(h) = E[(xt+h − µ)(xt − µ)] (2.22) Definición 2.4.4 La función de autocorrelación (ACF) de una serie de tiempo estacionaria será es- crita, usando (2.14) como ρ(h) = γ(t + h, t) √ γ(t + h, t + h)γ(t, t) = γ(h) γ(0) (2.23) La desigualdad de Cauchy-Schwartz muestra nuevamente que −1 ≤ ρ(h) ≤ 1 para todo h. Ejemplo 2.4.1 Estacionaridad de un ruido blanco. La función de autocovarianza de un ruido blanco de los Ejemplos 2.2.1 y 2.2.2 es fácil de evaluar como γw(h) = E(wt+hwt) = { σ2w, h = 0 0, h 6= 0 donde, en este ejemplo σ2w = 1. Esto significa que la serie es débilmente estacionaria o estacionaria. Si las va- riables de ruido blanco también son normalmente distribuidas o gaussianas, la serie es también estrictamente estacionaria, como se puede ver evaluando (2.17) usando la relación (2.8). Ejemplo 2.4.2 Estacionaridad de un promedio móvil. El proceso de promedio móvil de tres puntos usado en los Ejemplos 2.2.2 y 2.3.5 es estacionario ya que podemos escribir la función de autocovarianza obtenida en (2.13) como γv(h) = 3/9, h = 0 2/9, h = ±1 1/9, h = ±2 0, |h| ≥ 3 La Figura 2.12 muestra una gráfica de la función de autocovarianza como una función de salto h. 16 −10 −8 −6 −4 −2 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Figura 2.12: Función de autocovarianza de un promedio móvil de tres puntos Propiedades: 1. Para el valor en h = 0, la función de autocovarianza γ(0) = E[(xt − µ)2] (2.24) es la varianza de la serie de tiempo; note que la desigualdad de Cauchy-Schwartz implica que |γ(h)| ≤ γ(0). 2. La autocovarianza de una serie estacionaria es simétrica respecto al origen, esto es γ(h) = γ(−h) (2.25) para todo h. Esta propiedad se debe a que trasladar la serie por h significa que γ(h) = γ(t + h − t) = E[(xt+h − µ)(xt − µ)] = E[(xt − µ)(xt+h − µ)] = γ(t − (t + h)) = γ(−h) lo cual muestra como usar la notación para demostrar el resultado. Definición 2.4.5 Dos series de tiempo xt y xs se dice que son conjuntamente estacionarias si cada una de ellas es estacionaria y la función de correlación cruzada γxy(h) = E[(xt+h − µx)(yt − µy)] (2.26) es una función sólo del salto h. Definición 2.4.6 La función de correlación cruzada (CCF) de dos series conjuntamente estacionarias xt y yt se define como ρxy(h) = γxy(h) √ γx(0)γy(0) (2.27) 17 De nuevo, tenemos el resultado −1 ≤ ρxy(h) ≤ 1 lo cual nos permite comparar los valores extremos -1 y 1 cuando vemos la relación entre xt+h y yt. La función de correlacióncruzada satisface ρxy(h) = ρyx(−h) (2.28) lo cual se puede demostrar de manera similar que para (2.25). Ejemplo 2.4.3 Estacionaridad conjunta. Considere las series xt y yt formadas por las sumas y diferencias de dos valores sucesivos de un ruido blanco respectivamente, esto es xt = wt + wt−1 y yt = wt − wt−1 donde wt son variables aleatorias independientes con media cero y varianza σ 2 w. Es fácil demostrar que γx(0) = γy(0) = 2σ2w y γx(1) = γx(−1) = σ2w, γy(1) = γy(−1) = −σ2w. También γxy(1) = E[(xt+1 − 0)(yt − 0)] = E[(wt+1 + wt)(wt − wt−1)] = σ2w porque solo uno de los productos es distinto de cero. Similarmente, γxy(0) = 0, γxy(−1) = −σ2w. Usando (2.27), obtenemos ρxy(h) = 0, h = 0 1/2, h = 1 −1/2, h = −1 0, |h| ≥ 2 . Claramente, las funciones de autocovarianza y correlación cruzada dependen solo del salto h, por lo tanto las series son conjuntamente estacionarias. El concepto de estacionaridad débil forma la base para muchos de los análisis realizados con series de tiempo. Las propiedades fundamentales de la media (2.20) y la función de covarianza (2.22) son satisfechas por muchos modelos teóricos que aparecen para generar realizaciones mues- trales apropiadas. En los ejemplos 2.2.2 y 2.2.3, las dos series fueron generadas de forma que fuesen realizaciones estacionarias, y en el ejemplo 2.4.2 demostramos que la serie en el ejemplo 2.2.2 fue de hecho, débilmente estacionaria. Ambos ejemplos son casos especiales de los llamados procesos lineales. Definición 2.4.7 Un proceso lineal xt se define como una combinación lineal de variables aleatorias de ruido blanco wt, y está dado por xt = µ + ∞ ∑ j=−∞ ψjwt−j (2.29) donde los coeficientes satisfacen ∞ ∑ j=−∞ |ψj| < ∞ (2.30) 18 Para un proceso lineal, podemos demostrar que la función de autocovarianza está dada por γ(h) = σ2w ∞ ∑ j=−∞ ψj+hψj (2.31) para todo h ≥ 0; recuerde que γ(−h) = γ(h). Finalmente como mencionamos anteriormente, un caso importante en el cual una serie débilmente estacionaria es también estrictamente estacionaria es la serie normal o gaussiana. Definición 2.4.8 Un proceso {xt}, se dice que es un proceso gaussiano si el k-ésimo vector dimensional x̂ = (xt1 , xt2 , . . . , xtk) ′, para cada conjunto de puntos t1, t2, . . . , tk y cada entero positivo k tiene distribución normal multivariada. Definiendo k× 1 vector de medias µ̂ = (µt1 , µt2 , . . . , µtk)′ y la k× k matriz de covarianza positiva como Γ = {γ(ti, tj); i, j = 1, . . . , k}, la función de densidad normal multivariada se puede escribir como f (x̂) = (2π)−k/2|Γ|−1/2 exp { −1 2 (x̂ − µ̂)′Γ−1(x̂ − µ̂) } (2.32) donde | · | denota el determinante. Esta distribución forma la base para resolver problemas que envuelven inferencia estadı́stica para series de tiempo. Si una serie de tiempo gaussiana {xt} es débilmente estacionaria, entonces µt = µ y γ(ti, tj) = γ(|ti − tj|), de modo que el vector µ̂ y la matriz Γ son independientes del tiempo. Este hecho implica que todas las distribuciones finitas, (2.32) de la serie {xt} dependen sólo del salto de tiempo y no del tiempo actual, y por consiguiente la serie debe ser estrictamente estacionaria. 2.5. Estimación de Correlación Aunque las funciones teóricas de autocorrelación y correlación cruzada son muy útiles para describir las propiedades de ciertos modelos hipotéticos, la mayorı́a de los análisis se realizan usando datos muestrales. Esta limitación significa que los puntos muestrales x1, x2, . . . , xn, sólo nos permite estimar las funciones de media, autocovarianza y correlación. Desde el punto de vista de la estadı́stica clásica esto plantea un problema porque no tenemos copias iid de xt que sean o estén disponibles para estimar las funciones de covarianza y correlación. Definición 2.5.1 Sea x1, x2, . . . , xn una muestra de una serie de tiempo. La media muestral de x1, x2, . . . , xn es x̄ = 1 n n ∑ t=1 xt (2.33) La función de autocovarianza muestral se define como γ̂(h) = n−1 n−h ∑ t=1 (xt+h − x̄)(xt − x̄) (2.34) con γ̂(−h) = γ̂(h) para h = 0, 1, . . . , n − 1. La función de autocorrelación muestral se define como ρ̂(h) = γ̂(h) γ̂(0) (2.35) 19 La suma en (2.34) está restringida hasta n − h porque xt+h no toma valores para t + h > n. En el estimador (2.34) a veces se prefiere dividir por n − h porque (2.34) es una función no-negativa definida. La no-negatividad de la función de autocovarianza γ(h) es una propiedad importante porque nos asegura que la varianza de combinaciones lineales de valores de la serie de tiempo nunca serán negativa y la estimación en (2.34) conserva las propiedades. Propiedad 1. Distribución de la ACF para muestras grandes Bajo ciertas condiciones generales,2 si xt es un ruido blanco, entonces para n grande, la ACF muestral ρ̂x(h) para h = 1, 2, . . . , H, donde H es un valor fijo arbitrario, es aproximadamente normal distribuida con media cero y desviación estándar dada por σρ̂(h) = 1√ n (2.36) Basándonos en el resultado anterior, podemos obtener un método basto de evaluación de si los picos en ρ̂(h) son significativos, por medio de determinar si los picos observados están fuera del intervalo ±2/√n (o más o menos dos veces el error estándar); para un sucesión de ruido blanco aproximadamente el 95 % de la ACF muestral debe estar entre estos lı́mites. Definición 2.5.2 El estimador para la función de covarianza cruzada γxy(h) es la función de covarianza cruzada muestral definida como γ̂xy(h) = n −1 n−h ∑ t=1 (xt+h − x̄)(yt − ȳ) (2.37) donde γ̂xy(−h) = γ̂yx(h) determina la función para saltos negativos, y la función de correlación cruza- da muestral es ρ̂xy(h) = γ̂xy(h) √ γ̂x(0)γ̂y(0) (2.38) Propiedad 2. Distribución de la correlación cruzada para muestras grandes con independencia La distribución de ρ̂xy(h) para muestras grandes es normal con media cero y σρ̂xy = 1√ n (2.39) si al menos uno de los procesos es un ruido blanco independiente. Véase [9] (2006), p.521 Ejemplo 2.5.1 Serie de tiempo simulada. Considere el conjunto de datos obtenidos al realizar n lanza- mientos de una moneda bien balanceada, haciendo xt = 1 si cae cara y xt = −1 si cae sello. Construyamos yt como yt = 5 + xt − 0,7xt−1 (2.40) En la tabla siguiente se muestra una realización del proceso con x0 = −1 y n = 10. 2Las condiciones generales son que xt es iid con cuarto momento finito. Una condición suficiente para que esto valga es que xt sea un ruido blanco gaussiano. 20 t 1 2 3 4 5 6 7 8 9 10 Moneda C C S C S S S C S C xt 1 1 -1 1 -1 -1 -1 1 -1 1 yt 6.7 5.3 3.3 6.7 3.3 4.7 4.7 6.7 3.3 6.7 yt − ȳ 1.56 0.16 -1.84 1.56 -1.84 -0.44 -0.44 1.56 -1.84 1.56 Podemos calcular la correlación muestral de la serie yt usando (2.34) y (2.35) para h = 0, 1, 2, . . .. Por ejemplo para h = 3, la autocorrelación es γ̂y(3) = 10 −1 7 ∑ t=1 (yt+3 − ȳ)(yt − ȳ) = 10−1 [(1,56)(1,56) + (−1,84)(0,16) + (−0,44)(−1,84) +(−0,44)(1,56) + (1,56)(−1,84) + (−1,84)(−0,44) + (1,56)(−0,44)] = −0,04848 para γ̂y(0) = 1 10 [(1,56)2 + (0,16)62 + · · ·+ (1,56)2] = 2,0304 de modo que ρ̂y(3) = −0,04848 2,0304 = −0,02388. La ACF teórica se puede obtener del modelo (2.40) usando el hecho de que la media de xt es cero y la varianza de xt es uno. Se puede demostrar que ρy(1) = −0,7 1 + 0,72 = −0,47 y ρy(h) = 0 para |h| > 1. La Tabla siguiente compara la ACF teórica con la ACF muestral para dos realizaciones una con n = 10 y otra con n = 100. h ρy(h) ρ̂y(h) ρ̂y(h) n = 10 n = 100 0 1.00 1.00 1.00 ±1 -0.47 -0.55 -0.45 ±2 0.00 0.17 -0.12 ±3 0.00 -0.02 0.14 ±4 0.00 0.15 0.01 ±5 0.00 -0.46 -0.01 Ejemplo 2.5.2 ACF de una señal de habla. Consideremos el archivo speech.dat, y calculemos la ACF, las instrucciones en Matlab y en R son: en Matlab en R > speech=textread(’speech.txt’); > speech=scan("speech.txt") > autocorr(speech,250,2); > acf(speech,250) 21 0 50 100 150 200 250 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 Lag S a m p le A u to c o rr e la ti o n SampleAutocorrelation Function (ACF) Figura 2.13: ACF de la serie de habla Ejemplo 2.5.3 Análisis de Correlación de las datos SOI y reclutamiento. Considere los datos SOI (soi.dat) y reclutamiento o cantidad de nuevos peces (recruit.dat) vistos en el Ejemplo 2.1.5. Vamos a calcular las funciones de autocorrelación y correlación cruzada usando Matlab. Las instrucciones en Matlab y R son las siguientes: en Matlab en R > soi=textread(’soi.txt’); > soi=scan("soi.dat") > recruit=textread(’recruit.txt’); > rec=scan("recruit.dat") > subplot(3,1,1);autocorr(soi,50,2); > par(mfrow=c(3,1)) > subplot(3,1,2);autocorr(recruit,50,2); > acf(soi, 50) > subplot(3,1,3);crosscorr(soi,recruit,50); > acf(rec, 50) > ccf(soi, rec, 50) En la figura se muestran las ACF y la CCF en la parte superior la ACF para soi en la parte central la ACF para recruit y en la parte inferior la CCF para ambas series. Ambas ACF exhiben periodicida- des correspondientes a las correlaciones entre valores separados por 12 unidades. Las observaciones de doce meses o un año son fuertemente correlacionadas positivas, ası́ como en múltiplos tales como 24, 36, 48, ... Observaciones separadas por seis meses son correlacionadas negativas. 22 0 5 10 15 20 25 30 35 40 45 50 −0.5 0 0.5 1 Lag S a m p le A u to c o r r e la ti o n Sample Autocorrelation Function (ACF) 0 5 10 15 20 25 30 35 40 45 50 −0.5 0 0.5 1 Lag S a m p le A u to c o r r e la ti o n Sample Autocorrelation Function (ACF) −50 −40 −30 −20 −10 0 10 20 30 40 50 −1 −0.5 0 0.5 Lag S a m p le C r o s s C o r r e la ti o n Sample Cross Correlation Function (XCF) Figura 2.14: ACF muestral de la serie SOI (parte superior), en reclutamiento (parte central) y la CCF de las dos series (parte inferior) 23 24 Bibliografı́a [1] Bloomfield, Peter. (2000) Fourier Analysis of Time Series. 2nd Edition. John-Wiley & Sons, Inc. New Yor. USA. [2] Brockwell, P.J., & Davis, R.A., (1996).Introduction to Time Series and Forecasting. Springer-Verlag, New York Inc, New York. [3] Brockwell, P.J., & Davis, R.A., (2006) Time Series: Theory and Methods. 2nd edition. Springer- Verlag, New York Inc, New York. [4] Correa M., Juan C. & González, Nelfi. (2002) Introducción al R. Universidad Nacional - Sede Medellı́n, Colombia. [5] González, Andres & González, Silvia (2002) Introducción a R. R Development Core Team. [6] Johnson, D.E., (2000) Métodos Multivariados Aplicados al Análisis de Datos. International Thom- son Editores.. [7] López C., (2006) Cálculo de Probabilidades e Inferencia Estadı́stica. Publicaciones UCAB. [8] Pérez, Cesar. (2002) Matlab y sus Aplicaciones en las Ciencias y la Ingenierı́a. Prentice Hall, Ma- drid, España. [9] Shumway, R.H & Stoffer, D.S. (2006) Time Series Analysis and Its Applications with R examples. 2nd edition. Springer. [10] Warner, Rebecca M. (1998) Spectral Analysis of Time-Series Data. The Guilford Press. New York. USA 25
Compartir