Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis de Series de Tiempo Benjamı́n Oliva (benjov@ciencias.unam.mx) Semestre 2020-I, agosto 2019 1. Temario o gúıa para examen extraordina- rio 1. Introducción al Análisis de Series de Tiempo a) La naturaleza de los datos de series de tiempo b) Ejemplos y aplicaciones de las series de tiempo 2. Elementos de Ecuaciones en Diferencia a) Ecuaciones en diferencia homogéneas de primer órden y sus solu- ciones b) Operadores de rezago y sus representaciones c) Representación de algunos procesos divergentes 3. Procesos Estacionarios Univariados a) Procesos Autoregresivos AR(p) b) Procesos de Medias Móviles MA(q) c) Procesos ARMA(p, q) y ARIMA(p, d, q) d) Función de Autocorrelación, Función de Autocorrelación Parcial y Pronósticos 4. Modelos univariados de volatilidad a) Modelos ARCH y GARCH 1 b) Otros ejemplos de modelos de volatilidad 5. Procesos No Estacionarios a) Definición y Formas de No Estacionariedad b) Eliminación de la Tendencia c) Pruebas de Ráız Unitaria: Dickey-Fuller, Dickey-Fuller Aumenta- da, Phillips-Perron y de Cambio Estructural d) Descomposición de Series de Tiempo (Filtros) 6. Procesos de Vectores Autoregresivos a) Definición y caracterización del concepto de causalidad b) Prueba de Causalidad c) Definición y representación del Sistema d) Causalidad de Granger e) Anaĺısis de Impulso-Respuesta f ) Modelos V AR(1), V AR(2) y V AR(p) g) Representación de Medias Móviles 7. Cointegración a) Definición y Propiedades del Proceso de Cointegración b) Cointegración de Modelos de una Ecuación c) Cointegración de Modelos de Vectores Autoregresivos d) Cointegración y la Teoŕıa Económica 8. Modelos multivariados de volatilidad: M − ARCH y M −GARCH 1 9. Otros modelos no lineales (con rompimientos y modelos de cambio de regimen) 2 1Tema sujeto al avance del curso y del interés de los alumnos. 2Tema sujeto al avance del curso y del interés de los alumnos. 2 2. Bibliograf́ıa Cowpertwait, P. y Metcalfe, A. (2009). Introductory Time Series with R. Spinger. Guerrero Guzmán, Victor (2014). Análisis Estad́ıstico y Pronóstico de Series de Tiempo Económicas. Jit Press. 3ra Edición. (Las ediciones 1 2 del libro fueron publicadas con el t́ıtulo: Análisis Estad́ıstico de Series de Tiempo Económicas). Cap: 2. Enders, Walter (2015). Applied Econometric Time Series. 4ta Edición. Wiley. Wei, William (2019). Multivariate Time Series Analysis and Applica- tions. Wiley Series in Probability ans Statistics. 3. Estructura del Examen y Evaluación La evaluación del examen será medianteun examen escrito en formato presencial. En el examen se indicará la ponderación de cada pregunta. Los alumnos que se incriban al examen simepre podrna consultar dudas por correo o de forma presencial los martes y jueves a las 7.30 PM en la sala firmas. 3 Notas de Clase: Series de Tiempo Benjamı́n Oliva (benjov@ciencias.unam.mx) Omar Alfaro (omarxalpha@gmail.com) Draft Agosto 2018 2 Índice general 1. Introducción 5 2. Introducción al análisis de series de tiempo 7 2.1. La naturaleza de los datos de series de tiempo . . . . . . . . . 7 2.2. Ejemplos y aplicaciones de las series de tiempo . . . . . . . . . 8 3. Elementos de Ecuaciones en Diferencia 15 3.1. Ecuaciones en Diferencia para procesos deterministas . . . . . 15 3.1.1. Ecuaciones Lineales de Primer Orden . . . . . . . . . . 16 3.1.2. Ecuaciones Lineales de Segundo Orden y de orden su- perior . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2. Operador de rezago L . . . . . . . . . . . . . . . . . . . . . . . 33 4. Modelos de Series de Tiempo Estacionarias 37 4.1. Definición de ergodicidad y estacionariedad, y la función de autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2. Procesos estacionarios univariados . . . . . . . . . . . . . . . . 50 4.2.1. Procesos Autoregresivos . . . . . . . . . . . . . . . . . 50 4.3. Causalidad de Granger . . . . . . . . . . . . . . . . . . . . . . 72 4.4. Procesos de Vectores Autoregresivos . . . . . . . . . . . . . . . 77 4.5. Procesos No Estacionarios: Pruebas de Ráıces Unitarias . . . . 84 4.5.1. ADF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5. Anexo 85 5.1. El estimador de Mı́nimos Cuadrados Ordinarios y el análisis clásico de regresión . . . . . . . . . . . . . . . . . . . . . . . . 85 5.2. Estimación por el método de Máxima Verosimilitud (MV) . . 93 5.3. Métricas de bondad de ajuste . . . . . . . . . . . . . . . . . . 96 3 5.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 98 5.4.1. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.2. Prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6. Bibliograf́ıa 103 4 Caṕıtulo 1 Introducción Estas notas son un resumen, una śıntesis comparativa y, en algunos casos, una interpretación propia de los libros de texto de Cowpertwait y Metcalfe (2009); Enders (2015); Guerrero-Guzmán (2014); Kirchgassner, Wolters y Hassler (2012); Tsay (2014), y Wei (2019). En algunos casos se incorporá información adicional para efectos de dar contexto al tema analizado. El objetivo de este documento es proporcionar un conjunto de apuntes que sirva de apoyo para la clase, por ello no deben considerarse como notas exhaustivas o como un sustituto de la clase y las seciones de laboratorio. Asimismo, es deseable que los alumnos puedan aportar sus observaciones y correcciones a estas notas–observaciones que siempre seran bienvenidas y agradecidas. En estas notas se estudian los temas que t́ıpicamente son incluidos como parte del análisis de series de tiempo, los cuales son: 1. Modelos univaraidos: AR(p), MA(q), ARMA(p, q) y ARIMA(p, d, q); 2. Pruebas de ráız unitaria; 3. Modelos multivariados: Vectores Autoregresivos (VAR) y Cointegra- ción; 4. Modelación de errores estándar con heterocedasticidad y autocorrela- ción: ARCH(r), GARCH(n), y 5 6 Caṕıtulo 2 Introducción al análisis de series de tiempo 2.1. La naturaleza de los datos de series de tiempo El análisis de series de tiempo tiene muchas aplicaciones en diversos cam- pos de la ciencia. Por ejemplo, en la economı́a continuamente se está expuesto a observaciones de los mercados financieros, indicadores de empleo, ı́ndices o indicadores del nivel de producción, ı́ndices de precios, etc. En otros campos de las ciencias sociales se emplea el análisis de series de tiempo para analizar la evolución de la población, los nacimientos, o el número de personas con matriculas escolares. Finalmente, en las ciencias exactas se pueden encontrar casos como los de un epidemiólogo que puede estar interesado en el número de casos de influenza observados en algún peŕıodo de tiempo dado y si a éstos se les puede asociar con algún tipo de estacionalidad. La primera aproximación que se suele tener a las series de tiempo es mediante el exámen de datos puestos en una gráfica, en la cual uno de los ejes es el tiempo. No obstante, en este tipo de exámenes existen dos enfoques. Por un lado, existe el efoque de la importancia del tiempo, el cual consiete en reconocer cómo lo que sucede hoy es afectado por lo que pasó ayer – o, en general, en periodos pasados–, o cómo lo que pasa hoy afectará los eventos futuros. Por otro lado, existe el enfoque del análisis frecuentista o de frecuencia, mediante el cual se busca reconocer la importancia que tiene para los investigadores los ciclos: estacionales, de crisis económicas, etc. 7 Figura 2.1: Indicador Global de la Actividad Económica (IGAE) Global y para las Actividades Primarias (2008 = 100), ene-2002 - mayo-2018 2.2. Ejemplos y aplicaciones de las series de tiempo Un primer ejemplo que puede ilustrar la presencia de los dos tipos de enfoques antes mencionadas es la Figura 2.1.1 En ésta figura se muestra la evolución del Indicador Global de la Actividad Económica (IGAE) en su versión global o del total de la economı́a y en su versión únicamentepara las actividades primarias entre enero de 2002 y mayo de 2018. Como se puede observar, el IGAE del total de la economı́a muestra, prin- cipalmente, que el enfoque del tiempo es más relevante. Es decir, que existe cierta persistencia en el indicador, lo que significa que la economı́a crece en razón del crecimiento reportado en periódos pasados. No obstante, lo que no podemos reconocer es que los efentos futuros tienen un efecto en el desem- peño de la economı́a hoy d́ıa. Aśı, no es común observar cambios abruptos del indicador. 1Todas las Gráficas mostradas en este Caṕıtulo se elaboraron con el código y datos contenidos en la carpeta de Drive en la subcarpeta Laboratorio dentro de la carpeta Capitulo 2. 8 Figura 2.2: Índice de Confianza del Consumidor (ICC): General y resultado de ¿Cómo considera usted la situación económica del páıs hoy en d́ıa com- parada con la de hace 12 meses? (enero 2003 = 100), ene-2002 - mayo-2018 Por el contrario, el IGAE de las actividades primarias muestra una pre- sencia significativa de la importancia de la frecuencia. No pasa desapercibi- do que existen muchos ciclos en la evolución del indicador. Algo que suena común en las actividades primarias, cuya producción depende de eventos que son cicĺıcos como el clima. Otro factor que puede influir en el indicador son elementos de demanda, más que los de oferta. Por ejemplo, el consumo de alimentos t́ıpicos de algunas temporadas del año. Como segundo ejemplo, en la Figura 2.2 se ilustra la evolución reciente del Índice de Confianza del Consumidor (ICC) en dos de sus versiones: el primero refiere el ı́ndice global y el segundo considerando la confianza de los consumidores cuando éstos consideran la situación actual en la economı́a en relación el año anterior. Debe destacarse que el ICC mide las expectativas de los consumidores en razón de la información pasada y de la esperada, segun dichos consumidores. Aśı, es probable que las dos series de tiempo exiban un gran peso para los eventos pasados, pero a la vez, un componente –probablemente, menor– del componente de frecuencia. Esto último, en razón de que los consumidores suelen considerar en sus expectativas de consumo los periódos cicĺıcos de la 9 Figura 2.3: Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores y Tipo de Cambio para Solventar Obligaciones en Moneda Extranjera (Pesos X Dólar), ene-2002 - mayo-2018 economı́a: temporadas navideñas, pagos de colegiaturas, etc. Este sengundo ejemplo, tambien ilustra qué la confianza del consumidor no necesariamente esta directamente correlacionada con el desempeño de la economı́a. Como tercer ejemplo se muestra la evolución de dos series. La Figura 2.3 ilustra el comportamiento reciente de dos indicadores que son referencia para los inversionistas. Por un lado, se ubica el Índice de Precios y Cotizaciones de la BMV (IPC), el cuál refleja el valor de las acciones de empresas que cotizan en la BMV y el vólumen de acciones comercializadas, en conjunto. De esta forma, se ha interpretado que el IPC refleja el rendimiento del capital promedio invertido en las empresas que cotizan en la BMV. Por otro lado, en la Figura 2.3 se presenta la evolución del Tipo de Cambio (TDC); indicador financiero que se suele utilizar como medio de reserva de valor. Esto, en razón de que el TDC es conocido como un instrumento que en momentos de crisis toma valores contraciclicos de la economı̀a mexicana. No obstante, ambos indicadores no son comparables. Para hacerlos comparbles en la Figura 2.4 se presentan en versión ı́ndice con una base en el primer mes de la muestra. En la perspectiva de la Figura 2.4 se puede apreciar que el TDC no es tan 10 Figura 2.4: Índice del Índice de Precios y Cotizaciones de la Bolsa Mexica- na de Valores e Índice del Tipo de Cambio para Solventar Obligaciones en Moneda Extranjera (ambos, enero de 2002 = 100), ene-2002 - mayo-2018 rentable, ya que una inversión en la BMV mediante el IPC, en el largo plazo, muestra más redimientos. Asimismo, la Figura 2.4 ilustra que en ambas series se observa un dominio de la condición de tiempo y no uno de frecuencia. Es decir, tanto el IPC como el TDC no responden a condiciones como ciclos o temporadas que si son observables en actividades económicas como las primarias. Finalmente, la Figura 2.5 ilustra un caracteŕıstica que también resulta de gran interés en el anaĺısis de series de tiempo: los datos de alta frecuencia y de comportamiento no regular. Como se puede observar, en al Figura 2.5 se muestran las diferencias logaŕıtmicas de las series de IGAE de la actividad total, el IPC y el TDC. Dichas diferencia se pueden interpretar como una tasa de crecimiento de las series por las siguientes razones. Consideremos una serie de tiempo dada por yt, cuya versión logaŕıtmica es ln(yt). De esta forma, la diferencia logaŕıtmica esta dada por la ecuación (2.1): ∆ln(yt) = ln(yt)− ln(yt−1) = ln ( yt yt−1 ) (2.1) 11 Figura 2.5: Tasas de crecimiento mensuales (diferencias logaŕıtmicas) de: In- dicador Global de la Actividad Económica; Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores y Tipo de Cambio para Solventar Obliga- ciones en Moneda Extranjera, feb-2002 - mayo-2018 12 Ahora bien, si retomamos la definición de tasa de crecimiento (TC) de una serie de tiempo yt entre el periodo t y t− 1 podemos obtener que: TC = yt − yt−1 yt−1 = yt yt−1 − 1 (2.2) De esta forma, si tomamos el logaŕıtmo de la expresión de la ecuación (2.2) obtenemos la siguiente aproximación: yt yt−1 − 1 ≈ ln ( yt yt−1 ) = ln(yt)− ln(yt−1) (2.3) La ecuación (2.3) es cierta cuando los valores de yt y yt−1 son muy pa- recidos, es decir, cuando las variaciones no son tan abruptas. Otra forma de interpretar la ecuación (2.3) es que para tasas de crecimiento pequeñas, se puede utilizar como una buena aproximación a la diferencia logaŕıtmica mostrada en la ecuación (2.1). En la Figuara (2.5) se reportan las diferencias logaŕıtmicas del IGAE, IPC y TDC, todos, como una media de distitntos tipos de redimientos. Es decir, podemos decir que un capitalista promedio (suponiendo que solo puede invertir en la actividad económica, en la bolsa o en el dólar), puede observar que le es más redituable en función de sus preferencias. Notése que la dinámica de las variaciones de cada una de las series es significativamente diferente. Destaca que el TDC es una de las variables que, en general, no muestra grandes cambios a lo largo del tiempo. No obstante, se han observado cambios radicales, cuando menos en el año 2008. Lo anterior, son caracteristicas que se han observado para el IPC. En cambio, el IGAE muestra un comportamiento más estable o estacionario. 13 14 Caṕıtulo 3 Elementos de Ecuaciones en Diferencia 3.1. Ecuaciones en Diferencia para procesos deterministas En el caṕıtulo previo se hizó una introducción al concepto de series de tiempo. En este Caṕıtulo se pretende desarrollar la construcción de los proce- sos generadores de datos de las series de tiempo. En un sentido más formal, se expondrá que las series de tiempo se pueden considerar como una secuencia de variables aleatorias. Para tales efectos, se desarrollará una introducción al concepto de ecua- ciones en diferencia. Aśı, las preguntas que se pretende responder son: 1. ¿Cuál es la solución de la ecuación en diferencia que se estudia? 2. ¿Cuáles son las condiciones para que un proceso estocástico, represen- tado mediante una ecuación en diferencia, llegue a alcanzar un punto de equilibrio en el largo plazo? El término de ecuación en diferencia sirve para denominar un proceso similar o equivalente dentro de las ecuaciones diferenciales, dentro del cual se consideran a un conjunto de variables que están en función del tiempo. Aśı, si consideramos al tiempo como una variable continua, es decir, consi- deramos una variable Z(t), podemos expresar las siguientes expresiones para 15 la ecuacióndiferencial: dZ(t) dt ; d2Z(t) dt2 ; . . . ; dkZ(t) dtk (3.1) Por otro lado, suponiendo el caso del tiempo en forma discreta, es de- cir, con t = . . . ,−2,−1, 0, 1, 2, . . ., entonces el comprtamiento de la serie de variables dadas por Zt, la cual se puede expresar como: ∆Zt; ∆ 2Zt; . . . ; ∆ kZt (3.2) Observemos que una forma técnicamente más correcta es escribir las ex- presiones anteriores como: ∆Zt ∆t ; ∆2Zt ∆t2 ; . . . ; ∆kZt ∆tk (3.3) No obstante, no pasa desapercibido que ∆t = 1, por lo que resultan equivalentes ambos conjuntos de expresiones (3.2) y (3.3). 3.1.1. Ecuaciones Lineales de Primer Orden El primer caso que se suele estudiar en relación a Ecuaciones en Diferencia es el de las Ecuaciones Lineales en Diferencia de Primer Orden. Al respecto, al igual que en el caso continúo, las variaciones de la variable Zt se pueden expresar como se ilustra en el siguiente ejemplo. Consideremos la siguiente ecuación: Zt = a0 + a1Zt−1 (3.4) Donde, t = . . . ,−2,−1, 0, 1, 2, . . ., y a0 y a1 6= 0 son números reales constantes. De (3.4) podememos despejar la variable Zt−1 y obtener una forma de ecuación en diferencia: Zt − a1Zt−1 = a0 (3.5) Ahora denotemos a LZt = Zt−1, es decir, mediante el operador L se puede rezagar una variable dada. En general, podemos decir que el operador tiene dos propiedades, la primera es que es lineal en el sentido de que abre sumas y saca escalares como se muestra en la siguiente expresión para el caso de un (1) rezago: L(αZt + β) = αZt−1 + β (3.6) 16 Donde α, β ∈ R y α, β 6= 0. Otro reesultado impĺıcito en este primer propiedad es que el operador rezago aplicado a cualquier escalar dará como resultado el escalar, puesto que este es una constante sin importa el momento t en el cual se encuentre la variable. La segunda propiedad del operador es que se puede aplicar de forma consecutiva a una misma variable. Es decir, L(Zt−1) = LLZt = L 2Zt, por lo que en general tendremos: LpZt = Zt−p (con p ∈ Z). Aśı, en el caso de p rezagos la propiedad de linealidad del operador rezago será: Lp(αZt + β) = αZt−p + β (3.7) Dicho lo anterio podemos escribir la solución general de (3.5) como: Zt − a1LZt = a0 (1− a1L)Zt = a0 Zt = a0 1 1− a1L + sat1 Zt = a0 1 1− a1 + sat1 (3.8) Donde a1 6= 1 y t = . . . ,−2,−1, 0, 1, 2, . . .. Notése que la aplicación del operador rezago L a la constante a1 dará como resultado el valor de la misma constante, ya que ésta no depende del momento t en el cuál observemos a la variable Zt. En la ecuación (3.8) se adiciona un término sa t 1 que permite ubicar la trayectoria inicial de la solución de la ecuación. El componente no significa un cambio respecto de la ecuación (3.5) original, ya que si buscara- mos reconstruir a ésta ecuación tendŕıamos: (1− a1L)sat1 = sat1 − a1sLat1 = sat1 − a1sat−11 = sat1 − sat1 = 0 La ecuación (3.8) se suele interpretar como la solución de largo plazo. Ahora demotraremos por qué es cierta la ecuación y discutiremos algunas condiciones que se deben observar en esta solución para que sea una solución convergente. No obstante, primero discutiremos un método indirecto e incom- pleto para demostrar el resultado, dicho método es conocido como el método 17 conocido como el método iterativo. Plantearemos las siguientes ecuaciones part́ıculares donde suponemos la existencia del valor inicial Z0 del proceso: Z1 = a0 + a1Z0 Z2 = a0 + a1Z1 = a0 + a1(a0 + a1Z0) = a0 + a0a1 + a 2 1Z0 = a0(1 + a1) + a 2 1Z0 Z3 = a0 + a1Z2 = a0 + a1(a0 + a0a1 + a 2 1Z0) = a0 + a0a1 + a0a 2 1 + a 3 1Z0 = a0(1 + a1 + a 2 1) + a 3 1Z0 De lo anterior se puede inferir que el método iterativo convergerá hacia una expresión como la siguiente en el momento t: Zt = a0 + a1Zt−1 = a0(1 + a1 + a 2 1 + . . .+ a t−1 1 ) + a t 1Z0 = a0 t−1∑ i=0 ai1 + a t 1Z0 (3.9) Donde, es necesario que en la ecuación (3.9) se cumpla que |a1| < 1 para que la suma sea convergente –más adelante detallaremos esta afirmación–. A este tipo de ecuaciones se les puede denominar como lineales. Esto en razón de que ningún término de la varaible Z aparce elevado a ninguna potencia distinta a 1. También, son de primer órden, ya que el rezago de la variable Z es sólo de un periódo. En adelante trabajaremos con ecuaciones en las que la variable Z se en- cuentra rezagada en cualquiera de los siguientes casos: Zt, Zt−1, Zt−2, Zt−3, . . . , Zt−p, . . . (3.10) 18 Por lo que diremos que en adelante el curso versará sobre ecuaciones en diferencia lineales y de cualquier órden p. Retomando la ecuación (3.9) y considerando la parte de la suma de los términos de ai1, de tal forma que buscaremos dar una expresión más compre- sible a dicho término. Definamos la siguiente expresión como: St−1 = t−1∑ i=0 ai1 (3.11) Por lo tanto, St estaŕıa dado por la siguiente expresión: St = a1 t−1∑ i=0 ai1 = a1(1 + a1 + a 2 1 + . . .+ a t−1 1 ) = a1 + a 2 1 + a 3 1 + . . .+ a t 1 = a1St−1 (3.12) Tomando los dos resultados de las ecuaciones (3.11) y (3.12) anteriores, podemos expresar que si a St−1 le restamos St, y desarrollando ambos lados de la ecuación anterior podemos obtener: St−1 − a1St−1 = St−1 − St (1− a1)St−1 = (1 + a1 + a21 + . . .+ at−11 )− (a1 + a21 + a31 + . . .+ at1) (1− a1)St−1 = 1− at1 Aśı, podemos concluir que: St−1 = 1− at1 1− a1 (3.13) Conjuntando éste último resultado de la ecuación (3.13) con la ecuación (3.9) tenemos la siguiente solución por el método de iteración: Zt = a0 ( 1− at1 1− a1 ) + at1Z0 (3.14) De esta forma la ecuación (3.14) es una solición para la ecuación (3.9), que es una ecuación de un proceso de una Ecuación en Diferencia plantenado 19 en la ecuación (3.4). Está solución aún no es general, en el sentido de que sea válida para cualquiel tipo de proceso: convergente o divergente. Dicha convergencia o divengencia estará determinada por el paramétro a1. No debe pasar desapercibido que cuando t→∞ o cuando la muestra es muy grande (lo que es equivalente), podemos decir que la solución solo puede converger a la siguiente expresión cuando se considera que |a1| < 1: Zt = a0 ( 1 1− a1 ) (3.15) Retomemos ahora el caso general descrito en la ecuación (3.8) y deter- minemos una solución general en la cual a1 6= 1 y t = . . . ,−2,−1, 0, 1, 2, . . .. Para ello observemos que el siguiente componente en la ecuación mencionada se puede interpretar como la suma infinita de términos descritos como: 1 1− a1 = 1 + a1 + a 2 1 + . . .+ a t 1 + . . . = ∞∑ i=0 ai1 (3.16) Donde claramente es necesario que |a1| < 1. Por lo tanto, sólo faltaŕıa determinar el valor de la constante s en la ecuación (3.8) de la siguiente forma, supongamos que observamos el proceso en el momento inicial, por lo que es posible determinar el valor de la constante conociendo el valor inicial del proceso como sigue: Z0 = a0 1 1− a1 + s (3.17) De la ecuación (3.17) tenemos que: s = Z0 − a0 1 1− a1 (3.18) Aśı, juntando la ecuación (3.8) y ecuación (3.18) tenemos la expresión: Zt = a0 1− at1 1− a1 + at1Z0 (3.19) No debe pasar desapercibido que está solución es la misma que la mos- trada en la ecuación (3.14), por lo que en realidad ambas ecuaciones son una solución general indistintamente entre las ecuaciones (3.14) y (3.19). Ambas 20 convergen a la expresión como la ecuación (3.15), con la misma condición de convergencia |a1| < 1. Para ilustrar estas ecuaciones veámos algunos ejemplos al respecto. Consideremos que tenemos un proceso Zt que es descrito por una ecuación en diferencia lineal de primer órden dada por: Zt = 2 + 0,9Zt−1 (3.20) Siguiendo la expresión mostrada en la ecuación (3.19), obtenemos la ex- presión: Zt = 2 ( 1− 0,9t 1− 0,9 ) + 0,9tZ0 (3.21) Donde asumiremos que el valor inicial es Z0 = 10 y que la expresión debe converger al valor de 20, cuando t es muy grande o tiende a infinito. De forma similar tomemos otro ejemplo, en el cual asumimos la siguiente expresión: Zt = 2− 0,5Zt−1 (3.22) Siguiendola expresión mostrada en la ecuación (3.19), obtenemos: Zt = 2 ( 1− (−0,5)t 1 + 0,5 ) + (−0,5)tZ0 (3.23) Donde asumiremos que el valor inicial es Z0 = 10 y que la ecuación converge al valor de 1,3333333 . . ., cuando t es muy grande o tiende a infinito. Ahora simulemos el comportamiento de ambos procesos y estableceremos los resultados del Cuadro 3.1. Notemos que el segundo proceso converge de una forma más rapida que el primero. El Cuadro 3.1 se ilustra en las siguientes dos gráficas (3.1 y 3.2). 3.1.2. Ecuaciones Lineales de Segundo Orden y de or- den superior Como un segundo caso a estudiar se ubica el caso de las Ecuaciones Lineales en Diferencia de Segundo Orden y de orden superior. Primero, sea una ecuación como la siguiente, la cual es lineal y de segundo orden, ya que tiene asociado un término de Zt rezagado dos periódos: Zt = a0 + a1Zt−1 + a2Zt−2 (3.24) 21 Tiempo Zt = 2 + 0,9Zt−1 Zt = 2− 0,5Zt−1 0 10.00000 10.000000 1 11.00000 -3.000000 2 11.90000 -1.500000 3 12.71000 0.250000 4 13.43900 0.625000 5 14.09510 1.062500 6 14.68559 1.156250 7 15.21703 1.265625 8 15.69533 1.289062 9 16.12580 1.316406 10 16.51322 1.322266 11 16.86189 1.329102 12 17.17570 1.330566 13 17.45813 1.332275 14 17.71232 1.332642 15 17.94109 1.333069 16 18.14698 1.333160 ... ... ... 97 19.99964 1.333333 98 19.99967 1.333333 99 19.99970 1.333333 100 19.99973 1.333333 Cuadro 3.1: Dos ejemplos de procesos de Ecuaciones Lineales de Primer Or- den convengentes 22 Figura 3.1: Evolución del proceso dado por Zt = 2 + 0,9Zt−1 Figura 3.2: Evolución del proceso dado por Zt = 2− 0,5Zt−1 23 Donde, t = . . . ,−2,−1, 0, 1, 2, . . . y a1, a2 6= 0. Reordenando la ecuación (3.24) podemos escribir: Zt − a1Zt−1 − a2Zt−2 = a0 Zt − a1LZt − a2L2Zt = a0 (1− a1L− a2L2)Zt = a0 (3.25) Aśı, la solución general propuesta para la ecuación (3.25) es la siguiente, la cual es una forma analóga a una Ecuación Lineal en Diferencia de Primer Orden: Zt = a0 1− a1 − a2 + s1g t 1 + s2g t 2 (3.26) En donde s1 y s2 son constantes que se determinan mediante dos con- diciones iniciales –por lo que requerimos de dos condiciones iniciales–. Los valores de g1 y g2 están relacionados con los coeficientes a1 y a2, de esta forma: a1 = g1 + g2 (3.27) a2 = −g1g2 (3.28) Lo anterior surge del siguiente procedimiento, retomando que siempre es posible descomponer una ecuación cuadrática en dos expresiones como: (1− a1L− a2L2) = (1− g1L)(1− g2L) = 1− g1L− g2L+ g1g2L2 = 1− (g1 + g2)L+ g1g2L2 (3.29) Donde se observa la equivalencia mostrada en las ecuaciones (3.28) y (3.28). Aśı, considerando la ecuación (3.26) tenemos que: (1− a1L− a2L2)Zt = (1− g1L)(1− g2L)Zt = a0 + (1− g1L)(1− g2L)s1gt1 +(1− g1L)(1− g2L)s2gt2 (3.30) Por lo tanto, buscamos que para que el proceso sea equivalente y podamos interpretar que la ecuación (3.26) sea una solución general deberá pasar lo siguiente: (1− g1L)(1− g2L)s1gt1 + (1− g1L)(1− g2L)s2gt2 = 0 (3.31) 24 O escrito de otra forma: (1− g1L)s1gt1 = (1− g2L)s2gt2 = 0 (3.32) Ahora determinemos cuáles son los valores g1 y g2 para los valores a1 y a2 que nos permitan determinar si el proceso será convergente. Para ello debemos resolver la siguiente ecuación: (1− g1x)(1− g2x) = 0 (3.33) Donde, claramente existen dos ráıces: x1 = g −1 1 y x2 = g −1 2 . Aśı, la solución estará dada por las ráıces de la ecuación caracteŕıstica: 1− a1x− a2x2 = 0 a2x 2 + a1x− 1 = 0 (3.34) Cuya solución es: x = −a1 ± √ a21 + 4a2 2a2 (3.35) Es importante distinguir tres casos diferentes en relación con las ráıces que surgen como solución de la ecuación (3.34), estos son: Caso I. Si a21 + 4a2 > 0, la ecuación (3.34) proporcionará dos valores de ráıces reales y distintos, eso es x1 = g −1 1 6= x2 = g−12 . Si por ahora suponemos que |g1| < 1 y que |g2| < 1, entonces tendremos que: (1− g1L)−1(1− g2L)−1a0 = ( ∞∑ j=0 gj1L j )( ∞∑ j=0 gj2L j ) a0 = ( ∞∑ j=0 gj1 )( ∞∑ j=0 gj2 ) a0 = a0 (1− g1)(1− g2) = a0 1− a1 − a2 (3.36) Esto último es el punto de equilibrio de la ecuación (3.26); considerando que |g1| < 1 y que |g2| < 1 –notemos que los demás casos son divergentes–. De esta forma la solución de la ecuación estará dada por: ĺım t→∞ Zt = a0 1− a1 − a2 (3.37) 25 Caso II. Si a21 + 4a2 < 0 en la ecuación (3.34), entonces las ráıces seran números complejos conjugados, es decir: g−11 = u+ iv (3.38) g−12 = u− iv (3.39) Dichas ráıces las podemos escribir en coordenadas polares como: g−11 = re iθ = r(cos(θ) + isen(θ)) (3.40) g−12 = re −iθ = r(cos(θ)− isen(θ)) (3.41) Donde: r = √ u2 + v2, a esta expresión también se le conoce como modulo. Alternativamente, podemos escribir que r = √ g1g2. La única condición es que r < 1 para que el proceso descrito en la ecuación (3.26) sea convergente. Al igual que en el Caso I, el punto de equilibrio de la ecuación se debeŕıa ubicar al rededor (3.37), siempre que r < 1, por lo que el factor que determina la convergencia es el modulo, ya que si el modulo es mayor a 1, el proceso será divergente, pero si es menor a 1 convergerá a (3.37). Caso III. Ahora revisemos el caso en el que a21 + 4a2 = 0, de esta forma las ráıces serán identicas: g = g−11 = g −1 2 = −a1 2a2 (3.42) Aśı, el punto de equilibrio será dado por la solución descrita como: (1− gL)2Zt = a0 Zt = a0 (1− gL)2 + s1g t + s2tg t = a0 ∞∑ i=0 (1 + i)gj + s1g t + s2tg t (3.43) Donde al expresión amnterior es resultado de considerar el siguiente pro- cedimiento, sea: f(g) = 1 (1− g) = ∞∑ j=0 gj 26 Por lo que si hacemos la primer derivada del la expresión anterior tenemos que: f ′(g) = 1 (1− g)2 = ∞∑ j=0 jgj−1 = 0 + g0 + 2g1 + 3g2 + . . . = ∞∑ j=0 (1 + j)gj Ahora veámos un ejemplo de una Ecuación Lineal en Diferencia de Se- gundo Orden. Supongamos la ecuación y el desarrollo siguientes: Zt = 3 + 0,9Zt−1 − 0,2Zt−2 (1− 0,9L+ 0,2L2)Zt = 3 La solución dada por una ecuación similar a la expresión (3.34), ob- tendŕıamos la solución dada por las ecuaciones equivalentes a: 1− 0,9x+ 0,2x2 = 0 −0,2x2 + 0,9x− 1 = 0 De donde las ráıces del polinomio caracteŕıstico x1 = g −1 1 y x2 = g −1 2 se obtienen de la expresión dada por: x = −0,9± √ 0,81 + (4)(−0,2) (2)(−0,2) = 0,9± 0,1 0,4 Dado que el componente a21 + 4a2 es positivo, obtendremos dos ráıces reales. Las ráıces estarán dadas por x1 = 2,5 y x2 = 2,0, de lo cual podemos determinar que g1 = 0,4 y g2 = 0,5. De esta forma tenemos que |g1| < 1 y |g2| < 1, aśı la ecuación converge a la expresión dada por las siguientes 27 expresiones: Zt = 3 1− 0,9L+ 0,2L2 + s1(0,4) t + s2(0,5) t = 3 1− 0,9 + 0,2 + s1(0,4) t + s2(0,5) t = 3 (1− 0,4)(1− 0,5) + s1(0,4) t + s2(0,5) t Al final, la ecuación que describe la solución general será: zt = 10 + s1(0,4) t + s2(0,5) t (3.44) Para determinar los valores de s1 y s2 necesitamos obtener dos valores iniciales de la ecuación para lo cual iniciaremos como t = 0 y luego obtenemos el valor de t = 1, consideremos el valor de Z0 = 0 y Z1 = 50: Z0 = 10 + s1(0,4) 0 + s2(0,5) 0 0 = 10 + s1 + s2 Z1 = 10 + s1(0,4) 1 + s2(0,5) 1 50 = 10 + 0,4s1 + 0,5s2 Por lo que la solución es: s1 = −450 y s2 = 440, de donde podemos expresar la ecuación como: Zt = 10− 450(0,4)t + 440(0,5)t (3.45) La ecuación (3.45) anterior convergerá al valor de 10 cuando t→∞. Para ilustrar la trayectoria de esta ecuación tomemos un cuadro similar al de los ejemplos anteriores. En el Cuadro 3.2 y la gráfica de la Figura 3.3 mostramos los resultados de la trayectorua para 100 periodos. Finalmente, discutiremos la solución para las Ecuaciones Lineales en Di- ferencia de Orden p, donde p ≥ 2. En general una ecuación de este tipo se puede escribir como: Zt = a0 + a1Zt−1 + a2Zt−2 + . . .+ apZt−p (3.46) Donde t = . . . ,−2,−1, 0, 1, 2, . . . y ap 6= 0. La ecuación (3.46) se puede escribir como: Zt − a1Zt−1 − a2Zt−2 − . . .− apZt−p = a0 Zt − a1LZt − a2L2Zt − . . .− apLpZt = a0 (1− a1L− a2L2 − . . .− apLp)Zt = a0 (3.47) 28Tiempo Zt = 10− 450(0,4)t + 440(0,5)t 0 0.00000 1 50.00000 2 48.00000 3 36.20000 4 25.98000 5 19.14200 6 15.03180 7 12.70022 8 11.42384 9 10.74141 10 10.38250 11 10.19597 12 10.09987 13 10.05069 14 10.02565 15 10.01294 16 10.00652 ... ... 98 10.00000 99 10.00000 100 10.00000 101 10.00000 Cuadro 3.2: Un ejemplo de proceso de Ecuación de Segundo Orden conven- gente 29 Figura 3.3: Evolución del proceso dado por Zt = −0,2Zt−2 + 0,9Zt−1 + 3 Por el teorema fundamental del álgebra es posible escribir a la ecuación (3.47) como: (1− g1L)(1− g1L) . . . (1− gpL)Zt = a0 (3.48) Utilizando la ecuación (3.47) y la ecuación (3.48) tenemos que la solución general de una ecuación como la descrita en (3.46) se puede escribir como: Zt = a0 1− a1 − a2 − . . .− ap + s1g t 1 + s2g t 2 + . . .+ spg t p (3.49) Zt = a0 (1− g1)(1− g1) . . . (1− gp) + s1g t 1 + s2g t 2 + . . .+ spg t p (3.50) Donde s1, s2, ..., sp son cosntantes que se determinan utilizando p valores part́ıculares de Zt, y la solución general descrita en las ecuaciones (3.50) y (3.50) implica encontrar p ráıces: x1 = g −1 1 , x2 = g −1 2 , ..., xp = g −1 p de los siguientes polinomios equivalentes: (1− g1)(1− g1) . . . (1− gp) = 0 (3.51) 1− a1x− a2x2 − . . .− apxp = 0 (3.52) apx p + . . .+ a2x 2 + a1x− 1 = 0 (3.53) Antes de plantear la solución general, analicemos una solución pat́ıcular cuando un conjunto de las p ráıces, digamos un total de m, son iguales, es 30 decir, cuando sucede que g1 = g2 = . . . = gm = g (con 1 < m ≤ p). En este caso la solución general en la ecuación (3.50) se escribe como: Zt = a0 (1− g)m(1− gm+1) . . . (1− gp) +s1g t + s2tg t + . . .+ smt m−1gt + sm+1g t m+1 + . . .+ spg t p (3.54) Definamos: f(g) = 1 1− g = ∞∑ j=0 gj (3.55) Si retomamos el método descrito parráfos arriba tenemos las siguientes expresiones. Cuando m = 2: f ′(g) = 1 (1− g)2 = ∞∑ j=0 jgj−1 = ∞∑ j=0 (1 + j)gj En el otro extremo, cuando m = p: f (p−1)(g) = p− 1 (1− g)p = ∞∑ j=0 (p− 1 + j)(p− 2 + j) . . . (2 + j)(1 + j) (p− 1)! gj (3.56) Aśı, en el extremo cuando m = p la solución general podŕıa estar dada por: Zt = a0 ∞∑ j=0 (p− 1 + j)(p− 2 + j) . . . (2 + j)(1 + j) (p− 1)! gj +gt p∑ i=0 sit i−1 (3.57) Donde |g| < 1, t = . . . ,−2,−1, 0, 1, 2, . . .. PAra finalizar esta sección, plantearemos la expresión de polinomio caracteŕıstico que nos permitirá hacer el análisis de convergencia de los procesos. Aśı, la ecuación (3.53) se puede escribir como: (x−1)p − a1(x−1)p−1 − a2(x−1)p−1 − . . .− ap = 0 (3.58) La ecuación (3.58) permite interpretar las ráıces del polinomio carac- teŕıstico de forma directa ya que x−11 = g1, x −1 2 = g2, ..., x −1 p = gp. Aśı, 31 Figura 3.4: Circulo unitario en el que se cumple que: |gi| < 1 y √ gigj =√ u2 + v2 < 1 siempre que p ≥ 1 en la ecuación (3.46), diremos que el proceso descrito en esa ecuación dará como resultado un proceso convergente si se cumplen las dos condiciones (3.60) y (3.60): |ap| < 1 (3.59) a1 + a2 + . . .+ ap < 1 (3.60) Alternativamente, cuando las ráıces son reales lo anterior es equivalente a la expresión (3.61): |gi| < 1 (3.61) Para ∀i = 1, 2, . . . , p. Cuando la ráıces son imaginarias, las dos condiciones (3.60) y (3.60) son equivalentes a la expresión (3.62): √ gigj = √ u2 + v2 < 1 (3.62) Para ∀i 6= j y i, j = 1, 2, . . . , p. Cuando g1 = g2 = . . . = gp = g, la condición de la ecuación (3.61) se resume a que |g| < 1. En resumen, las condiciones descritas en las ecuaciones (3.61) y (3.62) se puden ilustrar con un circulo unitario como el de la Figura 3.4 en que śı las ráıces se ubican dentro de éste, podemos decir que el proceso es convergente en el largo plazo. 32 3.2. Operador de rezago L Denotemos, como se ha mencionado con anterioridad, con L al operador de rezago, el cual nos permitirá construir una relación entre diferencias y medias móviles como se verá más adelante en los procesos univariados AR(p), MA(q) y, en general, ARIMA(p, d, q). Sean X, Y o Z variables con las que denotaremos a una serie de tiempo (note que hasta el momento no hemos definido qué es una serie de tiempo, no obstante no es necesario definirla para hacer uso del operador). En esta sección resumiremos algunas propiedades usadas en el caṕıtulo y en caṕıtulos más adelante. Aśı, si a dicha serie le aplicamos el operador rezago antes definido, el resultado deberá ser que cada uno de los valores de la serie es retardado o regresado un peŕıodo. Es decir: LZt = Zt−1 (3.63) De esta forma, si aplicamos el operador rezago L a la nueva serie de tiempo dada por Zt−1 podemos obtener Zt−2, haciendo uso de la ecuación (3.63) podemos obtener: LZt−1 = L(LZt) = L 2Zt = Zt−2 (3.64) Mediante una generalización podemos obtener: LkZt = Zt−k (3.65) Para k = . . . ,−2,−1, 0, 1, 2, . . .. Aśı, para k = 0 obtenemos la identidad dado que L0Zt = Zt, de tal forma que siempre asumiremos que L 0 = 1. En otro caso, cuando k > 0 a la serie de tiempo a la cual se le aplique el operador rezago L se le deberá aplicar un rezago de k periodos a cada uno de los elementos de la serie. Por el contrario, cuando k < 0 el operador rezago significa que se deberá adelantar |k| veces a cada elemento de la serie. Por ejemplo, L−3Zt = Zt+3. Las reglas descritas en lo subsecuente se mantienen indistintamene cuando aplican para el caso de rezagar como para cuando se adelanta una serie. Como primera propiedad tomemos a la siguiente propiedad: LmZt−n = L m(LnZt) = L m+nZt = Zt−(n+m) (3.66) De lo anterior podemos inferir el siguiente resultado: ∆Zt = Zt − Zt−1 = (1− L)Zt (3.67) 33 En el caso de la diferencia de órden cuatro o cuarta diferencia se puede expresar como: ∆4Zt = Zt − Zt−4 = (1− L4)Zt (3.68) Al respecto, vale la pena aclarar que en ocaciones se hará uso de una nota- ción alternativa dada por: ∆k o ∆k, donde k = 1, 2, 3, . . ., indistintamente, ya que en ambos casos se referirá a una diferencia de orden k. Esta notación re- sulta de gran utilidad cuando se quiere comparar periodos equivalentes como, por ejemplo, el mismo trimestre pero de un año anterior. De forma similar, para el caso de logaŕıtmos podemos escribir a la ecuación (3.68) como: ∆4ln(Zt) = ∆4ln(Zt) = ln(Zt)− ln(Zt−4) = (1− L4)ln(Zt) (3.69) Para el caso de una serie de tiempo que se le ha transformado mediante medias móviles, digamos de 4 periodos, podemos escribirla como: Zst = 1 4 (Zt + Zt−1 + Zt−2 + Zt−3) = 1 4 (1 + L+ L2 + L3)Zt (3.70) Una generalización del anterior caso puede ser escrito como un polinomio de orden p con el operador rezago L dado como: α(L)Zt = (1− α1L− α2L2 − . . .− αpLp)Zt = Zt − α1Zt−1 − α2Zt−2 − . . .− αpZt−p (3.71) Donde αi puede ser remplazada por cualquier constante ai, con i = 1, 2, 3, . . ., para escribir ecuaciones como las anteriores. Adicionalmente, po- demos decir que la ecuación (3.71) es una generalización del caso de medias móviles, el cual admite una poderación distinta para cada uno de los elemen- tos rezagados. Existe la posibilidad de operar más de un polinomio a la vez. Para múlti- ples polinomios (digamos, los polinomios α(L) y β(L)) podemos escribir el siguiente resultado: α(L)β(L) = β(L)α(L) (3.72) Tales polinomios del operador rezago también son lladamos filtros lineales. A manera de ejemplo tomemos el siguiente caso de diferencias para una serie de Zt: ∆Zt = (1− L)Zt = Zt − Zt−1 (3.73) 34 y un proceso de medias móviles para la misma serie de Zt: Zst = 1 4 (1 + L1 + L2 + L3)Zt = 1 4 (Zt + Zt−1 + Zt−2 + Zt−3) (3.74) De tal forma que el producto de ambos procesos se puede escribir como: (1− L)× 1 4 (1 + L1 + L2 + L3)Zt = 1 4 (1− L4)Zt (3.75) Es decir, que el producto de dos polinomios, uno de diferencias y otro más de medias móviles, resulta en uno de diferencias pero de mayor grado, en este caso de grado 4. 35 36 Caṕıtulo 4 Modelos de Series de Tiempo Estacionarias 4.1. Definición de ergodicidad y estacionarie- dad, y la función de autocorrelación A partirde esta sección introduciremos mayor formalidad matemática al análisis, por ello cambiaremos de notación y se ocupará a Xt en lugar de Zt. Con Xt denotaremos a una serie de tiempo, ya que con Zt la utilizamos para denotar a una variable, sin que ella fuera necesariamente una serie de tiempo. Asimismo, iniciaremos por establecer una serie de definiciones. De está forma, definiremos a una serie de tiempo como un vector de variables aleatorias de dimensión T , dado como: X1, X2, X3, . . . , XT (4.1) Todas consideradas por su correspondiente distribución multivariada, es decri, cada una de las Xt (t = 1, 2, . . . , T ) es una variable aleatoria. También podemos denotarla como: {Xt}Tt=1 (4.2) Es decir, definiremos a una serie de tiempo como una realización de un proceso estocástico –o un Proceso Generador de Datos (PGD). Consideremos una muestra de los múlples posibles resultados de muestras de tamaño T , la colección dada por: {X(1)1 , X (1) 2 , . . . , X (1) T } (4.3) 37 Colección que es una de las tantas posibles resultantes del proceso es- tocástico o PGD. Eventualmente podŕıamos estar dispuestos a observar este proceso indefinidamente, de forma tal que estemos interesados en observar a la secuencia dada por {X(1)t }∞t=1, lo cual no dejaŕıa se ser sólo una de las tantas realizaciones o secuencias del proceso estocástico original. Tan solo para poner un ejemplo, podŕıamos observar las siguientes realizaciones del mismo PGD: {X(2)1 , X (2) 2 , . . . , X (2) T } {X(3)1 , X (3) 2 , . . . , X (3) T } {X(4)1 , X (4) 2 , . . . , X (4) T } ... {X(j)1 , X (j) 2 , . . . , X (j) T } Donde j ∈ Z. En lo subsecuente, diremos que una serie de tiempo una rea- lización del proceso estocástico subyacente. Considerando, en consecuencia, al proceso estocástico con todas sus posibilidades de realización. Para hacer más sencilla la notación no distinguiremos entre el proceso en śı mismo y una de sus realizaciones, es decir, siempre escribiremos a una serie de tiempo como la secuencia (4.2), o más precisamente como la siguiente realización: {X1, X2, . . . , XT} (4.4) O simplemente: X1, X2, . . . , XT (4.5) El proceso estocástico de dimensión T puede ser completamente descrito por su función de distribución multivaraida de dimensión T . No obstante, esto no resulta ser práctico cuando se opere más adelante en el curso. Por ello, en el curso, y en general casi todos los textos lo hacen, sólo nos enfocaremos en sus primer y segundo momentos, es decir, en sus medias o valores esperados: E[Xt] Para t = 1, 2, . . . , T ; o: E[X1] E[X2] ... E[XT ] 38 o, [ E[X1],E[X2], . . . ,E[XT ] ] De sus variazas: V ar[Xt] = E[(Xt − E[Xt])2] Para t = 1, 2, . . . , T , y de sus T (T − 1)/2 covarianzas: Cov[Xt, Xs] = E[(Xt − E[Xt])(Xs − E[Xs])] Para t < s. Por lo tanto, en la forma matricial podemos escribir lo si- guiente: V ar[X1] Cov[X1, X2] · · · Cov[X1, XT ] Cov[X2, X1] V ar[X2] · · · Cov[X2, XT ] ... ... . . . ... Cov[XT , X1] Cov[XT , X2] · · · V ar[XT ] = σ21 ρ12 · · · ρ1T ρ21 σ 2 2 · · · ρ2T ... ... . . . ... ρT1 ρT2 · · · σ2T (4.6) Donde es claro que en la matriz (4.6) existen T (T − 1)/2 covarianzas distintas, ya que se cumple que Cov[Xt, Xs] = Cov[Xs, Xt], para t 6= s. A menudo, esas covarianzas son denominadas como autocovarianzas pues- to que ellas son covarianzas entre variables aleatorias pertenecientes al mismo proceso estocástico pero en un momento t diferente. Si el proceso estocástico tiene una distribución normal multivariada, su función de distribución estará totalmente descrita por sus momentos de primer y segundo orden. Ahora introduciremos el concepto de ergodicidad, el cual significa que los momentos muestrales, los cuales son calculados en la base de una serie de tiempo con un número finito de observaciones, en la medida que T → ∞ sus correspondientes momentos muestrales, tienden a los poblacionales, los cuales definiremos como µ, para la media, y σ2X para la varianza. Este concepto sólo es cierto si asumimos que, por ejemplo, el valor es- perado y la varianza son como se dice a continuación que, para todo t = 1, 2, . . . , T , observaremos que: E[Xt] = µt = µ (4.7) V ar[Xt] = σ 2 X (4.8) 39 Mas formalmente, se dice que el PGD o el proceso estocástico es ergódico en la media si: ĺım T→∞ E ( 1 T T∑ t=1 (Xt − µ) )2 = 0 (4.9) y ergódico en la varianza si: ĺım T→∞ E ( 1 T T∑ t=1 (Xt − µ)2 − σ2X )2 = 0 (4.10) Estas condiciones se les conoce como propiedades de consistencia para las variables aleatorias. Sin embargo, éstas no pueden ser probadas. Por ello se les denomina como un supuesto que pueden cumplir algunas de las series. Más importante aún: un proceso estocástico que tiende a estar en equilibrio estad́ıstico en un orden ergódico, es estacionario. Podemos distinguir dos tipos de estacionariedad. Si asumimos que la fun- ción común de distribución del proceso estocástico no cambia a lo largo del tiempo, se dice que el proceso es estrictamente estacionario. Como este con- cepto es dificil de aplicar en la práctica, solo consideraremos a la estaciona- riedad débil o estacionariedad en segundos momentos. Definiremos a la estacionariedad por sus momentos del correspondiente proceso estocástico dado por {Xt}: 1. Estacionariedad en media: Un proceso estocástico es estacionario en media si E[Xt] = µt = µ es constante para todo t. 2. Estacionariedad en varianza: Un proceso estocástico es estacionario en varianza si V ar[Xt] = E[(Xt − µt)2] = σ2X = γ(0) es constante y finita para todo t. 3. Estacionariedad en covarianza: Un proceso estocástico es estacionario en covarianza si Cov[Xt, Xs] = E[(Xt−µt)(Xs−µs)] = γ(|s−t|) es sólo una función del tiempo de distancia entre las dos variables aleatorias y no depende del tiempo denotado por t (no depende de la información contemporánea). 4. Estacionariedad débil : Como la estacionariedad en varianza resulta de forma inmediata de la estacionariedad en covarianza cuando se asume que s = t, un proceso estocástico es débilmente estacionario cuando es estacionario en media y covarianza. 40 Puesto que resulta poco factible asumir una estacionariedad diferente a la débil, es adelante siempre que digamos que un proceso es estacionario se referirá al caso débil y sólo diremos que el proceso es estacionario, sin el apelativo de débil. Ahora veamos un ejemplo de lo anterior. Supongamos una serie de tiempo denotada por: {Ut}Tt=0. Decimos que el proceso estocástico {Ut} es un proceso estocástico puramente aleatorio o es un proceso estocástico de ruido blanco o caminata aleatoria, si éste tiene las siguientes propiedades: 1. E[Ut] = 0, ∀t 2. V ar[Ut] = E[(Ut − µt)2] = E[(Ut − µ)2] = E[(Ut)2] = σ2, ∀t 3. Cov[Ut, Us] = E[(Ut−µt)(Us−µs)] = E[(Ut−µ)(Us−µ)] = E[UtUs] = 0, ∀t 6= s. En palabras. Un proceso Ut es un ruido blanco si su valor promedio es cero (0), tiene una varianza finita y constante, y además no le importa la historia pasada, aśı su valor presente no se ve influenciado por sus valores pasados no importando respecto de que periodo se tome referencia. En apariencia, por sus propiedades, este proceso es débilmente estaciona- rio –o simplemente, estacionario–. Todas las variables aleatorias tienen una media de cero, una varianza σ2 y no existe correlación entre ellas. Ahora supongamos que definimos un nuevo proceso estocástico {Xt} co- mo: Xt = { U0 para t = 0 Xt−1 + Ut para t = 1, 2, 3, . . . (4.11) Donde {Ut} es un proceso puramente aleatorio. Este proceso estocástico, o caminata aleatoria sin tendencia (ajuste - drift), puede ser re-escrito como: Xt = t∑ j=0 Uj (4.12) Tratemos de dar más claridad al ejemplo, para ello asumamos que gene- ramos a {Ut} por medio del lanzamiento de una moneda. Donde obtenemos una cara con una probabilidad de 0,5, en cuyo caso decimos que la variable aleatoria Ut tomará el valor de +1, y una cruz con una probabilidad de 0,5, en cuyocaso decimos que la variable aleatoria Ut toma el valor de −1. Este planteamiento cumple con las propiedas enunciadas ya que: 41 1. E[Ut] = 0,5×−1 + 0,5× 1 = 0, ∀t 2. V ar[Ut] = E[(Ut − 0)2] = 12((−1) 2 + (1)2) = 1, ∀t 3. Cov[Ut, Us] = E[(Ut − 0)(Us − 0)] = E[Ut]E[Us] = 0, ∀t 6= s. Retomando a nuestro proceso Xt, diremos que el caso de X0 = 0, para t = 0. Si verificamos cúales son sus primeros y segundos momentos de {Xt} tenemos: E[Xt] = E [ t∑ j=1 Uj ] = t∑ j=1 E[Uj] = 0 (4.13) En cuanto a la varianza: V ar[Xt] = V ar [ t∑ j=1 Uj ] = t∑ j=1 V ar[Uj] + 2 ∗ ∑ j 6=k Cov[Uj, Uk] = t∑ j=1 σ2 = t (4.14) Lo anterior, dado que hemos supuesto que en la caminata aleatoria todas la variables aleatorias son independientes, es decir, Cov[Ut, Us] = E[UtUs] = 0. Por su parte, la covarianza del proceso estocástico se puede ver como: Cov[Xt, Xs] = E [( t∑ j=1 Uj − 0 )( s∑ i=1 Ui − 0 )] = E[(U1 + U2 + . . .+ Ut)(U1 + U2 + . . .+ Us)] = t∑ j=1 s∑ i=1 E[UjUi] = E[U21 ] + E[U22 ] + . . .+ E[U2k ] = σ2 + σ2 + . . .+ σ2 = min(t, s) 42 Figura 4.1: Ejemplo de 10 trayectorias de la caminata aleatoria, cuando sólo es posible cambios de +1 y -1 Aśı, el proceso estocástico dado por la caminata alaeatoria sin un termino de ajuste es estacionario en media, pero no en varianza o en covarianza, y consecuentemente, en general no estacionario, condición que contraria al caso del proceso simple descrito en Ut. Es facil ver que muchas de las posibilidades de relización de este proceso estocástico (series de tiempo) pueden tomar cualquiera de las rutas conside- radas en el Figura 4.1. Para ampliar la discusión, es posible calcular la fuerza o intensidad de la dependencia de las vaiables aleatorias dentro de un proceso estocástico, ello mediante el uso de las autocovarianzas. Cuando las covarianzas son normali- zadas respecto de la varianza, el resultado es un término que es independiente de las unidad de medida aplicada, y se conoce como la función de autocorre- lación. Para procesos estacionarios, dicha función de autocorrelación esta dada por: ρ(τ) = E[(Xt − µ)(Xt+τ − µ)] E[(Xt − µ)2] = γ(τ) γ(0) (4.15) Donde τ = . . . ,−2,−1, 0, 1, 2, . . .. Dicha función tiene las siguientes pro- piedades: 43 1. ρ(0) = 1. Es fácil demostrar que la función ρ(0) es: ρ(0) = E[(Xt − µ)(Xt+0 − µ)] E[(Xt − µ)2] = E[(Xt − µ)2] E[(Xt − µ)2] = 1 2. ρ(τ) = ρ(−τ). Partiendo de la definción de ρ(τ) podemos ver que la distancia que existe entre t y t + τ es τ , de esta forma la autocorre- lación de la variable X entre los periodos antes señalados debeŕıa ser la misma para el caso en que ρ(−τ). Partamos de la ecuación para ver más claramente: ρ(τ) = E[(Xt − µ)(Xt+τ − µ)] E[(Xt − µ)2] = E[(Xt − µ)(Xt−τ − µ)] E[(Xt − µ)2] = ρ(−τ) 3. |ρ(τ)| ≤ 1, para todo τ . Derivado de las propiedades 1 y 2 antes descritas se puede concluir que sólo es necesario conocer la función de autocorrelación para el caso de τ = 1, 2, 3, . . ., ya que de estos casos podemos derivar los valores de la función de autocorrelación complementarios de τ = . . . ,−3,−2,−1. Partiendo de los supuestos de ergodicidad en relación a la media, varianza y covarianzas de un proceso estacionario, podemos estimar dichos paramétros con las siguientes formulaciones o propuestas de estimadores puntuales: µ̂ = 1 T T∑ t=1 Xt (4.16) γ̂(0) = 1 T T∑ t=1 (Xt − µ̂)2 = σ̂2 (4.17) γ̂(τ) = 1 T T−τ∑ t=1 (Xt − µ̂)(Xt+τ − µ̂), para τ = 1, 2, . . . , T − 1 (4.18) No hacemos la demostración en estas notas –seŕıa deseable que el alumno revisará la afimación– pero estos últimos son estimadores consistentes de µ, γ(0) y γ(τ). Por su parte, un estimador consistente de la función de autoco- rrelación estará dado por: ρ̂(τ) = ∑T−τ t=1 (Xt − µ̂)(Xt+τ − µ̂)∑T t=1(Xt − µ̂)2 = γ̂(τ) γ̂(0) , para τ = 1, 2, . . . , T − 1 (4.19) 44 El estimado de la ecuación (4.19) es asintóticamente insesgado. Por ejem- plo, para el caso de un proceso de ruido blanco o caminata aleatoria, su varianza puede ser aproximada por el valor dado 1/T . Ésta tiene, asintótica- mente, una distribución normal. Dado esto, el intervalo de confianza al 95 % será el dado por ±2/ √ T , en el cual se encuentra la mayoŕıa de los coeficientes de autocorrelación estimados. Ahora discutamos algunos ejemplos o aplicaciones. Cuando se realiza la evaluación de la estimación de un modelo de series de tiempo es importante saber si los residuales del modelo realmente tienen propiedades de un proceso puramente aleatorio, en part́ıcular, si ellos no están correlacionados entre śı. Aśı, la hipotésis a probar será: H0 : ρ(τ) = 0, para todo τ = 1, 2, . . . ,m y m < T (4.20) Esta expresión se puede interpretar como una prueba respecto de si la correlación entre la información de periodos atrás es cero con la informa- ción contemporánea. Para hacer una pruena global de la hipotésis de śı un número m de coeficientes de autocovarianzas son cero Box y Pierce (1970) desarrollarón la siguiente estad́ıstica: Q∗ = T m∑ j=1 ρ̂(j)2 (4.21) Bajo la hipotésis nula esta estad́ıstica se distribulle asintóticamente como una chi cuadrado (χ2) con m− k grados de libertad y con k que representa al número de paramétros estimados. Haciendo una aplicación estricta de la distribución de esta estad́ıstica, sabemos que esta se mantiene asintóticamente. Greta, Ljung y Box (1978) propusieron la siguiente modificación de la estad́ıstica para muestras pe- queñas: Q = T (T + 2) m∑ j=1 ρ̂(j)2 T − j (4.22) La cual también se distribulle asintóticamente como χ2 con m− k grados de libertad. También es intuitivamente claro que la hipótesis nula de no autocorre- lación de residuales debeŕıa ser rechazada si alguno de los valores ρ̂(j) es muy grande, es decir, si Q o Q∗ es muy grande. O más precisamente, si 45 estas estad́ısticas son más grandes que los correspondientes valores cŕıticos de la distribución χ2 con m − k grados de libertad a algún grado dado de signficancia. Una alternativa para esta prueba es una del tipo Multiplicadores de La- grange (o LM) desarrollada por Breusch (1978) y Godfrey (1978). La cual, al igual que las estad́ısticas Q y Q∗, la hipotesis nula está dada por: H0: Los resduales no están autocorrelacionados. Ha: Los resuduales muestran alguna acutocorrelación de forma autoregresiva o de medias móviles. La prueba consiste en realizar una regresión auxiliar en la cual los resi- duales se estiman en función de las variables explicativas del modelo original y en los residuales mismos pero rezagados hasta el término m (regresión au- xiliar). La prueba resulta en una estad̀ıstica con una distribución χ2 con m grados de libertad la cual está dada por la expresión: LM = T ×R2 (4.23) Donde R2 es el resultante de la regresión auxiliar y T es el número de observaciones totales. En comparación con una prueba Durbin - Watson que es comúnmen- te usada en la econometŕıa tradicional, para probar autocorrelación de los residuales, las estad́ısticas Q, Q∗ y LM tienen las siguientes ventajas: 1. Permiten corroborar la existencia de autocorrelación para cualquier orden, y no solo para un primer orden (es decir, para cualquier valor de τ = 1, 2, 3, . . .); 2. Los resultados se mantienen aún y cuando exista una probable variable endógena en forma rezagada, y 3. No depende del orden o la forma en que se acomoden las observaciones, algo que es muy probalble que ocurra en la econometŕıa tradicional. El hecho de los residuales no estén autocorrelacionados no implica que estos sean independientes y normalmente distribuidos. La ausencia de au- tocorrelación no implica una independencia estocástica si las variables son normalmente distribuidas. A menudo se asume que estos residuales están distribuidos normalmente, ya que la mayoŕıa de las pruebas estad́ısticas tienen este supuesto detrás. 46 No obstante, ello también depende de los otros momentos de la distribución, espećıficamente deltercer y cuarto momento. Los cuales expresan como: E[(Xt − E[Xt])i], i = 3, 4 El tercer momento es necesario para determinar el sesgo, el cual esta dado como: Ŝ = 1 T ∑T t=1(Xt − µ̂)3√ γ̂(0)3 (4.24) Para distribuciones simetricas (como en el caso de la distribución normal) el valor teórico para el sesgo es cero. La curtosis, la cual esta dada en función del cuarto momento, se puede expresar como: K̂ = 1 T ∑T t=1(Xt − µ̂)4 γ̂(0)2 (4.25) Para el caso de una distribución normal, esta estad́ıstica toma el valor de 3. Valores más grandes que 3 indican que la distribución tienen colas anchas. En tales casos se ubican a los datos financieros. Usando el valor de las estad́ısticas para medir el sesgo y la curtosis, S y K, respectivamente, Jarque y Bera (1980) propusieron una prueba de norma- lidad, la cual puede ser aplicada a series de tiempo en niveles o en diferencias indistintamente. Dicha prueba se expresa como: JB = T 6 ( Ŝ + 1 4 (K̂ − 3)2 ) (4.26) La cual tiene una distribución χ2 con 2 grados de libertad y donde T es el tamaño de la muestra. La hipótesis de que las observaciones están distribuidas de forma normal se rechaza si los valores de la estad́ıstica de prueba es más grande que los correspondientes valores criticos en tablas. Veamos un ejemplo para ilustrar el uso de la función de autocorrelación. Tomemos como variable al número de pasajeros transportados por el sistema de transporte del metro de la CDMX. 1 Los datos empleados fueron tomados del INEGI y son una serie de tiempo en el periodo que va de enero de 2000 a junio de 2019, es decir, 234 observaciones. Como se puede apreciar en la Figura 4.2, el número de pasajeros por mes ha oscilado significativamente a 1Los datos y algoritmo está disponible en la capeta de Drive y corresponde a la Clase3. 47 Figura 4.2: Evolución del número de pasajeros en el Metro de la CDMX, enero de 2000 a junio de 2019 lo largo de tiempo. Incluso podemos observar un cambio estructural de la serie entre 2011 y 2012. Asimismo, podemos ubicar una caida at́ıpica que ocurrió en septiembre de 2017. A esta serie de tiempo le calculamos los pincipales estad́ısticos hasta ahora estudiados y obtenemos el Cuadro 4.1. En dicho cuadro se destaca que se muestra la función de autocirrelación para los tres primeros rezagos. Para mayor detalle, en la Figura 11 se muestra la función de autocorrelaciòn, en donde las bandas descritas por las ĺıneas azules son el intervalo de confianza desntro de las cuales no se puede rechazar la hipotésis nula de que H0 : ρ̂(p) = 0, para todo p = 1, 2, . . . , T . 48 Estad́ıstica Coeficiente Grados de Libertad µ̂ = 1 T ∑T t=1Xt 30,127.05 N.A. γ̂(0) = 1 T ∑T t=1(Xt − µ̂)2 199,410,885.58 N.A. γ̂(1) = 1 T ∑T−1 t=1 (Xt − µ̂)(Xt+1 − µ̂) 197,705,267.55 N.A. γ̂(2) = 1 T ∑T−2 t=1 (Xt − µ̂)(Xt+2 − µ̂) 195,645,823.47 N.A. γ̂(3) = 1 T ∑T−3 t=1 (Xt − µ̂)(Xt+3 − µ̂) 193,824,139.44 N.A. ρ̂(1) = ∑T−1 t=1 (Xt−µ̂)(Xt+1−µ̂)∑T t=1(Xt−µ̂)2 = γ̂(1) γ̂(0) 0.9914 N.A. ρ̂(2) = ∑T−2 t=1 (Xt−µ̂)(Xt+2−µ̂)∑T t=1(Xt−µ̂)2 = γ̂(2) γ̂(0) 0.9811 N.A. ρ̂(3) = ∑T−3 t=1 (Xt−µ̂)(Xt+3−µ̂)∑T t=1(Xt−µ̂)2 = γ̂(3) γ̂(0) 0.972 N.A. Q∗ = T ∑1 j=1 ρ̂(j) 2 193.62 1 Q∗ = T ∑2 j=1 ρ̂(j) 2 383.24 2 Cuadro 4.1: Estad́ısticas descriptivas del IPC dela BMV Figura 4.3: Función de Autocorrelación: 150 rezagos del IPC (ρ̂(τ)) - ver primera columna del cuadro 49 4.2. Procesos estacionarios univariados En esta sección se analizará el método o metodoloǵıa de análisis de series de tiempo propuesto por Box y Jenkins (1970). Los modelos propuestos den- tro de está metodoloǵıa o conjunto de métodos se han vuelto indispensables para efectos de realizar pronósticos de corto plazo. En este sentido, se analizarán los métodos más importantes en series de tiempo: Autoregresivos (AR) y de Medias Móviles (MA). Asimismo, se realizará un análisis de los procesos que resultan de la combinación de ambos, conocida como ARMA, los cuales son más comúnmente usados para realizar pronósticos. 4.2.1. Procesos Autoregresivos Los procesos autoregresivos tienen su origen en el trabajo de Cochrane y Orcutt de 1949, mediante el cual analizaron los residuales de una regresión clásica como un proceso autoregresivo. Como primer caso analizaremos al proceso autoregresivo de primer órden, AR(1), el cual podemos definir como una ecuación en diferencia estocástica de primer órden.: Xt = δ + αXt−1 + Ut (4.27) Donde δ es un término constante, Ut es un proceso puramente aleatorio (es decir, estacionario, con media cero (0) y una varianza constante (σ2)), X0 es el valor inicial de Xt. Considerando la ecuación (38) y un proceso de sustitución sucesivo: X1 = δ + αX0 + U1 Para X2: X2 = δ + αX1 + U2 = δ + α(δ + αX0 + U1) + U2 = δ + αδ + α2X0 + αU1 + U2 Para X3: X3 = δ + αX2 + U3 = δ + α(δ + αδ + α2X0 + αU1 + U2) + U3 = δ + αδ + α2δ + α3X0 + α 2U1 + αU2 + U3 50 Aśı, para Xt obtendŕıamos: Xt = δ + αXt−1 + Ut = δ + α(δ + αδ + α2δ + . . .+ αt−2δ + αt−1X0 + α t−2U1 + . . . αUt−2 + Ut−1) + Ut = δ + αδ + α2δ + α3δ + . . .+ αt−1δ + αtX0 + α t−1U1 + . . . α 2Ut−2 + αUt−1 + Ut = (1 + α + α2 + α3 + . . .+ αt−1)δ + αtX0 + α t−1U1 + . . . α 2Ut−2 + αUt−1 + Ut = 1− αt 1− α δ + αtX0 + t−1∑ j=0 αjUt−j (4.28) De esta forma obtenemos un proceso que depende de dos partes: una que depende del tiempo y otra que depende de un proceso estocástico. Asimismo, debe notarse que la condición de convergencia es: |α| < 1, por lo que cuando t→∞, la expresión (39) será la siguiente: Xt = 1 1− α δ + ∞∑ j=0 αjUt−j (4.29) De esta forma desaparece la parte dependiente del tiempo y únicamente prevalece la parte que es dependiente del proceso estocástico. Esta es la solución del proceso AR(1), la cual depende del proceso estocástico. Notemos, además, que esta solución implica que la variable o la serie de tiempo Xt es tambien un proceso estocástico que hereda las propiedades de Ut. Aśı, Xt es un proceso estocástico estacionario, como demostraremos más adelante. Observemos que la ecuación (40) se puede reescribir si consideramos la formulación que en la literatura se denomina como de Wold, en la cual se define que ψj = α j y se considera el caso en el cual |α| < 1, de esta forma: ∞∑ j=0 ψ2j = ∞∑ j=0 α2j = 1 1− α2 (4.30) Alternativamente, podemos escribir el proceso AR(1) mediante el uso del operador rezago: Xt = δ + αLXt + Ut Xt − αLXt = δ + Ut (1− αL)Xt = δ + Ut Xt = δ 1− αL + 1 1− αL Ut (4.31) 51 En esta última ecuación retomamos el siguiente término para reescribirlo como: 1 1− αL = 1 + αL+ α2L2 + α3L3 + . . . (4.32) Tomando la ecuación (43) y sustituyendola en la ecuación (42), obtenemos la siguiente expresión: Xt = (1 + αL+ α 2L2 + α3L3 + . . .)δ + (1 + αL+ α2L2 + α3L3 + . . .)Ut = (1 + α + α2 + α3 + . . .)δ + Ut + αUt−1 + α 2Ut−2 + α 3Ut−3 + . . . Xt = δ 1− α + ∞∑ j=0 αjUt−j (4.33) Donde la condición de convergencia y estabilidad del proceso es que |α| < 1. Por lo que, hemos demostrado que mediante el uso del operador de rezagos es posible llegar al mismo resultado que obtuvimos mediante el procedimiento de sustituciones iterativas. Ahora obtendremos los momentos que describen al proceso estocástico. De esta forma debemos obtener la media y la varianza de Xt. Para los siguientes resultados debemos recordar que: E[Ut] = 0 para todo t, V ar[Ut] = σ 2 para todo t y Cov[Ut, Us] = 0 para todo t 6= s: E[Xt] = E [ δ 1− α + ∞∑ j=0 αjUt−j ] = δ 1− α + ∞∑ j=0 αjE[Ut−j] = δ 1− α = µ (4.34) 52 Respecto de la varianza podemos escribir: V ar[Xt] = E[(Xt − µ)2] = E ( δ 1− α + ∞∑ j=0 αjUt−j − δ 1− α )2 = E[(Ut + αUt−1 + α 2Ut−2 + α 3Ut−3 + . . .) 2] = E[U2t + α 2U2t−1 + α 4U2t−2 + α 6U2t−3 + . . . +2αUtUt−1 + 2α 2UtUt−2 + . . .] = E[U2t ] + α 2E[U2t−1] + α 4E[U2t−2] + α 6E[U2t−3] + . . . = σ2 + α2σ2 + α4σ2 + α6σ2 + . . . = σ2(1 + α2 + α4 + α6 + . . .) = σ2 1 1− α2 = γ(0) (4.35) En conclusión, podemos decir queE[Ut, Us] = σ 2, para t = s, yE[Ut, Us]= 0, para cualquier otro caso. Finalmente, la covarianza se puede calcular como: Cov(Xt, Xt−τ ) = E[(Xt − µ)(Xt−τ − µ)] = E [( δ 1− α + ∞∑ j=0 αjUt−j − δ 1− α )( δ 1− α + ∞∑ j=0 αjUt−τ−j − δ 1− α )] = ατE[U2t−τ + αU 2 t−τ−1 + α 2U2t−τ−2 + α 3U2t−τ−3 + . . .] = ατσ2 1 1− α2 = γ(τ) (4.36) Notése que con estos resultados de las ecuaciones (46) y (47) podemos construir la función de autocorrelación: ρ(τ) = γ(τ) γ(0) = ατ (4.37) Donde τ = 1, 2, 3, . . . y |α| < 1. Este último resultado significa que cuando el proceso Autoregresivo es de órden 1 (AR(1)) la función de autocorrelación teóricamente es igual al parametro α elevado al número de rezagos consi- derados. No obstante, puede suceder que la autocorrelación observada sea ligeramente distinta. 53 0 200 400 600 800 1000 30 50 70 Comportamiento del proceso real Tiempo X t Figura 4.4: AR(1) considerando Xt = 5 + 0,9Xt−1 + Ut; X0 = 50, y que Ut ∼ N (0, 4) Ahora veámos algunos ejemplos. En el primero mostraremos el anaĺısis de un proceso constŕıdo considerando un proceso puramente aleatorio como componente Ut. Por su parte, en el segundo ejemplo se aplicará la técnica a una serie de tiempo de una variable económica. Consideremos un proceso dado por la forma del AR(1): Xt = δ+αXt−1 + Ut, cuya solución esta dad por: Xt = δ 1−α + ∑∞ j=0 α jUt−j. En especifico, digamos que el proceso es como se señala en las siguietes gráficas. La gráfica 12 ilustra el comportamiento de una serie considerando el procedimiento iterativo de construcción. La figura 13 ilustra el proceso o trayectoria de la solución de la serie de tiempo. Finalmente, las gráficas 14 y 15 muestran el correlograma calculado considerando el resultado real y el teórico. Consideremos una aplicación a manera de ejemplo. Tomemos cuatro series de tiempo tomadas del Banco de Información Económica (BIE) del INEGI, dichas variables son: 1. Consumo de enerǵıa eléctrica doméstico (Miles de millones de watts/hora), durante el periodo de enero de 1982 a julio de 2017 y denotada como CEDt; 2. Consumo de enerǵıa eléctrica industrial (Miles de millones de watts/hora), durante el periodo de enero de 1982 a julio de 2017 y denotada como CEIt; 54 0 200 400 600 800 1000 35 40 45 50 Comportamiento del proceso estimado Tiempo X t Figura 4.5: AR(1) considerando Xt = 5 1−0,9 + ∑t−1 j=0 0,9 jUt−j, y que Ut ∼ N (0, 4) 0 5 10 15 20 25 30 0. 0 0. 4 0. 8 Rezagos A ut oc or re la ci on Funcion de Autocorrelacion real Figura 4.6: AR(1) considerando una función de autocorrelación dada por: ρ(τ) = γ(τ) γ(0) 55 1 3 5 7 9 12 15 18 21 24 27 30 Funcion de Autocorrelacion teorica Rezagos A ut oc or re la ci on 0. 0 0. 4 0. 8 Figura 4.7: AR(1) considerando una función de autocorrelación dada por: ρ(τ) = ατ 3. Volumen de las ventas de Gasolina Magna (Miles de barriles diarios promedio), durante el periodo de enero de 2006 a julio de 2017 y deno- tada como GMagnat, y 4. Volumen de las ventas Gasolina Premium (Miles de barriles diarios pro- medio), durante el periodo de enero de 2006 a julio de 2017 y denotada como GPremt. A cada una de estas series se les aplicará una metodoloǵıa de estimación dada por el método de Máxima Verosimilitud (ML, por sus siglás en inglés). Antes de realizar el proceso de estimación consideremos una transformación de diferencias logaritmicas, con el objeto de obtener un conjunto de series de tiempo expresadas en tasas de crecimiento y con un comportamiento parecido a un proceso estacionario. Aśı, para cada una de las series de consumo de electricidad realizaremos la siguiente transformación: DmLYt = log(Yt)− log(Yt−1) Por su parte, para cada una de las series de consumo de gasolina realiza- remos la siguiente transformación: DaLYt = log(Yt)− log(Yt−12) 56 Donde, Yt es una serie de tiempo, y log(.) es la función logaritmo natural. Notése que la diferencia entre el primer y segundo caso es que la tasa de crecimiento es mensual y anual, respectivamente. Primero, el consumo de electricidad doméstico en su formulación de tasas de crecimiento arroja como resultados lo siguiente: DmLCEDt = −0,3672 + 0,317DmLCEDt−1 + Ût (0,3819) (0,046) µ̂ = −0,000127632 y σ̂2 = 29,05 Segundo, para el caso del consumo de lectricidad en el sector industrial: DmLCEIt = −0,2956 − 0,1184DmLCEIt−1 + Ût (0,2460) (0,0481) µ̂ = 0,001338705 y σ̂2 = 32,23 Tercero, para el consumo de gasolina magna: DaLGMagt = −0,9217 + 0,7590DaLGMagt−1 + Ût (1,2060) (0,0578) µ̂ = 0,07038077 y σ̂2 = 11,22 Finalmente, para el caso de la gasolina premium: DaLGPremt = 1,094 + 1,000DaLGPremt−1 + Ût (22070,936) (0,0000) µ̂ = 0,2071672 y σ̂2 = 33,90 Una vez analizado el caso de AR(1) analizaremos el caso del AR(2). La ecuación generalizada del proceso autoregresivo de órden 2 (o denotado como AR(2)) puede ser escrito como: Xt = δ + α1Xt−1 + α2Xt−2 + Ut (4.38) 57 Donde Ut denota un proceso puramente aleatorio con media cero (0), varianza constante (σ2) y un parametro α2 6= 0. Aśı, utilizando el operador rezago podemos reescribir la ecuación (49) como: Xt − α1Xt−1 − α2Xt−2 = δ + Ut (1− α1L1 − α2L2)Xt = δ + Ut Donde, podemos denotar a α(L) = (1 − α1L1 − α2L2), el cual es un polinomio que depende del operador rezago y que es distinto de cero. De esta forma podemos reescribir a la ecuación (49) como: α(L)Xt = δ + Ut (4.39) Ahora supongamos que existe el inverso multiplicativo del polinomio α(L), el cual será denotado como: α−1(L), el cual cumple con que, α−1(L)α(L) = 1 Aśı, podemos obtener: Xt = α −1(L)δ + α−1(L)Ut Si utilizamos el hecho que α−1(L) se puede descomponer en un polinomio de forma similar el caso de AR(1), tenomos que: α−1(L) = ψ0 + ψ1L+ ψ2L 2 + . . . Por lo tanto, 1 = (1− α1L1 − α2L2)(ψ0 + ψ1L+ ψ2L2 + . . .) Desarrollando la ecuación tenemos: 1 = ψ0 + ψ1L + ψ2L 2 + ψ3L 3 + . . . − α1ψ0L − α1ψ1L2 − α1ψ2L3 − . . . − α2ψ0L2 − α2ψ1L3 − . . . Ahora, no debe pasar desapercibido que las siguientes condiciones deben cumplirse: L0 : ⇒ ψ0 = 1 L : ψ1 − α1ψ0 = 0 ⇒ ψ1 = α1 L2 : ψ2 − α1ψ1 − α2ψ0 = 0 ⇒ ψ2 = α21 + α2 L3 : ψ3 − α1ψ2 − α2ψ1 = 0 ⇒ ψ3 = α31 + 2α1α2 58 Des esta forma podemos observar que en el ĺımite siempre obtendremos una ecuación del tipo ψj−α1ψj−1−α2ψj−2 = 0 asociada a Lj, la cual siempre podremos resolver conociendo que las condiciones iniciales son: ψ0 = 1 y ψ1 = α1. Aśı, las condiciones de estabilidad estarán dadas por las soluciones del siguiente polinomio: λ2 − λα1 − α2 = 0 Lo cual implica que es necesario que cada una de las ráıces sea, en valor absoluto, siempre menor que la unidad. Estas son las condiciones de estabi- lidad para el proceso AR(2). De las relaciones antes mencionadas y considerando que α−1(L) aplicada a una constante como δ, tendrá como resultado otra constante. De esta forma podemos escribir que la solución del proceso AR(2) será: Xt = δ 1− α1 − α2 + ∞∑ j=0 ψt−jUt−j (4.40) Donde ψ0 = 1. Al igual que en el caso del AR(1), debemos calcular lo momentos del AR(2): E[Xt] = µ = δ 1− α1 − α2 (4.41) Para determinar la varianza recordemos las siguientes relaciones: E[XtXt−τ ] = E[α1Xt−1Xt−τ ] + E[α2Xt−2Xt−τ ] + E[UtXt−τ ] (4.42) De la cual podemos derivar: τ = 0 : γ(0) = α1γ(1) + α2γ(2) + σ 2 τ = 1 : γ(1) = α1γ(0) + α2γ(1) + 0 τ = 2 : γ(2) = α1γ(1) + α2γ(0) + 0 Aśı, en general: γ(τ) = α1γ(τ − 1) + α2γ(τ − 2) (4.43) Realizando la sustitución recursiva obtenemos: V ar[Xt] = γ(0) = 1− α2 (1 + α2)[(1− α2)2 − α21] σ2 (4.44) 59 γ(1) = α1 (1 + α2)[(1− α2)2 − α21] σ2 (4.45) γ(2) = α21 + α2 − α22 (1 + α2)[(1− α2)2 − α21] σ2 (4.46) Recordemos que las funciones de autocorrelación se obtienen de la división de cada unas de las funciones de covarianza (γ(τ)) por la varianza (γ(0)). Aśı, podemos construir la siguiente equivalencia: ρ(τ)− α1ρ(τ − 1)− α2ρ(τ − 2) = 0 (4.47) Retomando las series del ejemplo AR(1), a cada una de estas series se les aplicará una metodoloǵıa de estimación dada por el método de Máxima Verosimilitud(ML, por sus siglás en inglés). Antes de realizar el proceso de estimación consideremos una transformación de diferencias logaritmicas, con el objeto de obtener un conjunto de series de tiempo expresadas en tasas de crecimiento y con un comportamiento parecido a un proceso estacionario. Aśı, para cada una de las series de consumo de electricidad y del consumo de gasolina realizaremos la siguiente transformación: DmLYt = log(Yt)− log(Yt−1) Donde, Yt es una serie de tiempo, y log(.) es la función logaritmo natural. Notése que ambas series se expresaran en tasa de crecimiento mensual. Primero, el consumo de electricidad doméstico en su formulación de tasas de crecimiento arroja como resultados lo siguiente: DmLCEDt = −0,3701 + 0,2882DmLCEDt−1 + 0,0915DmLCEDt−2 + Ût (0,4185) (0,0483) (0,0483) µ̂ = −0,001209241 y σ̂2 = 28,8 Segundo, para el caso del consumo de lectricidad en el sector industrial: DmLCEIt = −0,2949 − 0,1049DmLCEIt−1 + 0,1170DmLCEIt−2 + Ût (0,2764) (0,0481) (0,0481) µ̂ = 0,0009654484 y σ̂2 = 31,79 60 Tercero, para el consumo de gasolina magna: DmLGMagt = −0,1026 − 0,8398DmLGMagt−1 − 0,4360DmLGMagt−2 + Ût (0,1239) (0,0767) (0,0764) µ̂ = −0,02010276 y σ̂2 = 10,85 Finalmente, para el caso de la gasolina premium: DmLGPremt = −0,1237 − 0,3254DmLGPremt−1 − 0,1034DmLGPremt−2 + Ût (0,3778) (0,0846) (0,0843) µ̂ = −0,005981203 y σ̂2 = 40,01 Un proceso AR(p) puede ser descrito por la siguiente ecuación en dife- rencia estocástica: Xt = δ + α1Xt−1 + α2Xt−2 + α3Xt−3 + . . .+ +αpXt−p + Ut (4.48) Donde αp 6= 0, y Ut es un proceso aleatorio con media cero (0) y varianza constante (σ2). Al respecto, usando el operador rezago (Lk) obtenemos la siguiente expresión: (1− α1L− α2L2 − α3L3 − . . .− αpLp)Xt = δ + Ut De forma similar que en los procesos AR(1) y AR(2), las condiciones de estabilidad del proceso AR(p) estarán dadas por la solución de la ecuación caracteŕıstica: λp − α1λp−1 − α2λp−2 − α3λp−3 − . . .− αp = 0 (4.49) Aśı, solo si el polinomio anterior tiene ráıces cuyo valor absoluto sea menor a uno (1) podremos decir que el proceso es convergente. Lo anterior significa que el proceso es invertible en el siguiente sentido: 1 1− α1L− α2L2 − α3L3 − . . .− αpLp = ψ0+ψ1L+ψ2L 2+ψ3L 3+ . . . (4.50) 61 Donde, por construcción de α(L)α−1(L) = 1 implica que ψ0 = 1. Aśı, la solución del proceso AR(p) estará dada por: Xt = δ 1− α1 − α2 − α3 − . . .− αp + ∞∑ j=0 ψjUt−j (4.51) Los momentos del proceso anterior estarán dados por una media: E[Xt] = µ = δ 1− α1 − α2 − α3 − . . .− αp (4.52) Para determinar la varianza del proceso, sin pérdida de generalidad, pode- mos definir una ecuación: γ(τ) = E[Xt−τXt], la cual (omitiendo la constante, ya que su correlación con cuaquier variable es cero (0)) puede ser escrita co- mo: γ(τ) = E[Xt−τα1Xt−1 + α2Xt−2 + α3Xt−3 + . . . + +αpXt−p + Ut], para τ = 0, 1, 2, . . . , p. De lo anterior obtenemos el siguiente conjunto de ecuacio- nes: γ(0) = α1γ(1) + α2γ(2) + . . .+ αpγ(p) + σ 2 γ(1) = α1γ(0) + α2γ(1) + . . .+ αpγ(p− 1) ... γ(p) = α1γ(p− 1) + α2γ(p− 2) + . . .+ αpγ(0) De esta forma, la ecuación general es: γ(p)− α1γ(τ − 1) + α2γ(τ − 2) + . . .+ αpγ(τ − p) = 0 Dividiendo cada una de las ecuaciones por γ(0), se obtiene la siguiente ecuación: ρ(p)− α1ρ(τ − 1) + α2ρ(τ − 2) + . . .+ αpρ(τ − p) = 0 Aśı, podemos escribir el siguiente sistema de ecuaciones: ρ(1) = α1 + α2ρ(1) + α3ρ(2) + . . .+ αpρ(p− 1) ρ(2) = α1ρ(1) + α2 + α3ρ(1) + . . .+ αpρ(p− 2) ... 62 ρ(p) = α1ρ(p− 1) + α2ρ(p− 2) + . . .+ αp Lo anterior se puede expresar como un conjunto de vectores y matrices ρ(1) ρ(2) ... ρ(p) = 1 ρ(1) . . . ρ(p− 1) ρ(1) 1 . . . ρ(p− 2) ρ(2) ρ(1) . . . ρ(p− 3) ... ... . . . ... ρ(p− 1) ρ(p− 2) . . . 1 α1 α2 α3 ... αp (4.53) De lo anterior podemos escribir la siguiente ecuación que es la solución del proceso AR(p): ρ = Rα (4.54) α = R−1ρ (4.55) Finalmente, introduciremos el concepto de Función de Autocorrelación Parcial (PACF, por sus siglas en inglés). Primero, dadas las condiciones de estabilidad y que el proceso AR(p) tiene toda la información de los rezagos en conjunto, es importante construir una metrica para distinguir el efecto de Xt−p sobre Xt de forma individual. Aśı, la idea es construir una metrica de la correlación que existe entre las diferentes varibles aleatorias, si para tal efecto se ha controlado el efecto del resto de la información. Aśı, podemos definir la ecuación como: Xt = φk1Xt−1 + φk2Xt−2 + . . .+ φkkXt−k + Ut (4.56) Donde φki es el coeficiente de la variable dada con el rezago i si el pro- ceso tiene un órden k. Aśı, los coeficientes φkk son los coeficientes de la autocorrelación parcial (considerando un proceso AR(k)). Observemos que la autocorrelaicón parcial mide la correlación entre Xt y Xt−k que se man- tiene cuando el efecto de las variables Xt−1, Xt−2, . . . y Xt−k−1 en Xt y Xt−k ha sido eliminado. Dada la expresión considerada en la ecuación (66), podemos resolver el problema de establecer el valor de cada φki mediante: ρ(1) ρ(2) ... ρ(k) = 1 ρ(1) . . . ρ(k − 1) ρ(1) 1 . . . ρ(k − 2) ρ(2) ρ(1) . . . ρ(k − 3) ... ... . . . ... ρ(k − 1) ρ(k − 2) . . . 1 φk1 φk2 φk3 ... φkk (4.57) 63 Del cual se puede derivar una solución, resoviendo por el método de cra- mer, o cualquier otro método que consideremos que permita calcular la solu- ción de sistemas de ecuaciones. Respecto de cómo estimar el proceso AR(p), existen diversas formas de estimar los paramétros αk: i) por máxima verosimilitd y ii) por mı́nimos cua- drados órdinarios. El primer caso requiere que conozcamos la distribución del proceso aleatorio Ut. El segundo, por el contrario, no requiere el mis- mo supuesto. No obstante, para el curso utilizaremos el método de máxima verosimilitud. Ahora, otra duda que queda es: cómo determinar cual es el órden p del proceso AR(p). La manera más convencional y formal que existe para tal efecto es utilizar los criterios de información. Aśı, el órden se elije de acuerdo a aquel cŕıterio de información que resulta ser el mı́nimo. Los criterios de información que son más comunes son: 1. FPE (Final Prediction Error): FPE = T +m T −m 1 T T∑ t=1 ( Û (p) t )2 (4.58) 2. Akaike: AIC = ln [ 1 T T∑ t=1 ( Û (p) t )2] +m 2 T (4.59) 3. Schwarz: SC = ln [ 1 T T∑ t=1 ( Û (p) t )2] +m ln(T ) T (4.60) 4. Hannan - Quinn: HQ = ln [ 1 T T∑ t=1 ( Û (p) t )2] +m 2ln(ln(T )) T (4.61) Donde Û (p) t son los residuales estimados para el proceso AR(p) y m es el número de parametros estimados: m = p + 1. Una propiedad que no se debe perder de vista es que los criterios de información cumplen la siguiente relación: orden(SC) ≤ orden(HQ) ≤ orden(AIC) (4.62) 64 Figura 4.8: Función de Autocorrelación de la tasa de crecimiento mensual del Consumo de Eléctricidad del Sector Industrial, 1982 - 2017: DLCEIt = ln(CEIt)− ln(CEIt−1) Por esta razón, durante el curso solo utilizaremos el criterio se Akaike para determinar el órden óptimo del proceso AR(p). Veámos algunos ejemplos. Retomemos el conjunto series que trabajamos en las sesiones pasadas, pero ejemplifiquemos solo para el caso del consumo de enerǵıa eléctrica in- dustrial (Miles de millones de watts/hora), durante el periodo de enero de 1982 a julio de 2017 y denotada como CEIt. En las figuras 16 y 17 se muestra la Función de Autocorrelación (FAC o ACF) y la Función de Autocorrelación Parcial (FACP o PACF), respecti- vamente, de la serie dada por DLCEIt = ln(CEIt)− ln(CEIt−1). Como se puede observar, ambas gráficas exhiben un comportamiento diferente de la autocorrelación. Recordemos que la FACP muestra la autocorrelación de la variable en cada uno de sus rezagos una vez que ya se ha separado el efecto del resto de los rezagos de las variables. Cada una de esas gráficas permite observar el valor de la correlación existente entre la variable en
Compartir