Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
U N I V E R S I D A D N A C I O N A L A U T O N O M A D E M E X I C O FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN P R O N O S T I C O M E N S U A L D E L A S V E N T A S N A C I O N A L E S D E A Z U C A R E N E L A Ñ O 2 0 0 4 A T R A V E S D E U N M O D E L O A R I M A X T E S I N A Q U E P A R A O B T E N E R E L T I T U L O D E L I C E N C I A D O E N E C O N O M I A P R E S E N T A D A N I E L R O J A S L O P E Z A S E S O R M T R O . A U G U S T O C E S A R O L G U I N R O M E R O O C T U B R E 2 0 0 8 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. AQUEL [SER HUMANO] QUE NO DEFIENDE SUS IDEAS, O SUS IDEAS NO VALEN NADA O NO VALE NADA COMO SER HUMANO (PLATÓN). ESPERO TENER EN EL RESTO DE MI VIDA: RESIGNACIÓN ANTE LO QUE NO PUEDO CAMBIAR, FORTALEZA PARA CAMBIAR LO QUE SI PUEDO, Y SABIDURÍA PARA DISTINGUIR LO UNO DE LO OTRO. DEDICO ESTA TESINA A MI UNIVERSIDAD PORQUE FUE, ES Y SEGUIRÁ SIENDO COMO MI CASA. AGRADECIMIENTOS ESTA SECCIÓN ESTÁ DIRIGIDA A AGRADECER A TODAS AQUELLAS PERSONAS QUE EN MAYOR O MENOR MEDIDA HAN CONTRIBUIDO A QUE YO SEA UNA MEJOR PERSONA: A MI MADRE QUE HA ESTADO CONMIGO EN LAS BUENAS Y EN LAS MALAS, A MI ASESOR DE TESINA, POR AYUDARME A LEVANTAR PILARES, SOBRE LOS QUE HE CONSTRUIDO. A MIS JEFES: AL LIC. ISMAEL CARVAJAL RUIZ, PORQUE DE EL APRENDI LOS ELEMENTOS ESENCIALES QUE DEBE TENER UN LÍDER, AL LIC. JOSÉ LUIS PERDIGÓN LABRADOR, POR LA CALIDEZ DE SU TRATO Y PORQUE SU ENTEREZA ANTE LA ADVERSIDAD ES UN EJEMPLO A SEGUIR, A MI NOVIA PAOLA QUE ME MOTIVÓ A TERMINAR ESTE TRABAJO, Y EN GENERAL A TODOS LOS AMIGOS QUE HE TENIDO, A LOS QUE ESTÁN Y A LOS QUE YA NO ESTÁN, PORQUE CADA UNO DE ELLOS CONTRIBUYÓ EN MAYOR O MENOR MEDIDA A QUE YO SEA QUIEN AHORA SOY. I N D I C E Introducción 1 PLAN DE TRABAJO 5 Capítulo I Conceptos de Estadística Matemática 8 I.1 ASPECTOS PRELIMINARES 8 I.2 PROBABILIDAD 9 I.3 INFERENCIA ESTADÍSTICA 15 I.4 OPERADOR VALOR ESPERADO 20 Capítulo II Proceso Generador de Datos y Proceso Estocástico 36 II.1 PROCESO GENERADOR DE DATOS (PGD) 36 II.2 PROPIEDADES DE LOS PROCESOS ESTOCÁSTICOS 45 Capítulo III Metodología Box-Jenkins 53 III.1 ASPECTOS GENERALES 53 III.2 IDENTIFICACIÓN 57 III.2.1 PRUEBA DICKEY-FULLER 59 III.2.2 FUNCIÓN DE AUTOCORRELACIÓN TOTAL Y PARCIAL 72 III.2.3 IDENTIFICACIÓN: VALORES “P” Y “Q” SIGNIFICATIVOS 81 III.2.4 RESTRICCIONES SOBRE LOS PARÁMETROS Y θ 87 89 89 III.3 ESTIMACIÓN III.4 CONTRASTE III.5 PRONÓSTICO 90 Capítulo IV Aplicación de la Metodología Box-Jenkins para el Pronóstico de Ventas de Azúcar Nacional 92 IV.1 IDENTIFICACIÓN 94 IV.2 ESTIMACIÓN Y CONTRASTE 99 IV.3 PRONOSTICO 104 IV.4 MONITOREO 109 Conclusiones 110 INDICE DE ILUSTRACIONES 112 ANEXO 1 SOBRE LA VALIDEZ DE LA ESPECIFICACIÓN ARIMA 115 ANEXO 2 FORMACIÓN 116 ANEXO 3 DESIGUALDAD DE THEIL 117 ANEXO 4 OPERADOR DE REZAGOS 118 ANEXO 5 PRIMERA ESPECIFICACIÓN 120 ANEXO 6 SEGUNDA ESPECIFICACIÓN 120 Bibliografía 121 I N T R O D U C C I O N [ 1 ] INTRODUCCION El proceso de globalización de la economía mundial, no solo se ha reflejado en el rápido crecimiento de los sectores de la informática y las comunicaciones, los cuales permiten el intercambio de datos entre diferentes agentes económicos, también lo ha hecho en la rapidez con la que cambia el medio ambiente económico en el cual una organización, ya sea pública o privada lleva a cabo la actividad de producir bienes y/o servicios a la sociedad, a partir de la combinación de factores de la producción (tierra, trabajo y capital). Como resultado de la rapidez de estos cambios, se debe llevar a cabo un proceso de planeación, que partiendo de un diagnostico preciso de las fortalezas y debilidades de la organización, permita determinar cuales son las mejores acciones o decisiones que se pueden hacer o tomar hoy con la información disponible, con el objetivo de lograr una posición sólida en el futuro y asegurar el crecimiento de la organización. Para llevar a cabo este proceso de planeación se requiere de información, tanto del medio ambiente macroeconómico del país (o países) en el que la organización lleva a cabo sus actividades, como del sector económico particular en el que opera (sector alimentario, restaurantero, servicios de educación, etc.) que permita definir las acciones que se han de emprender en el presente, para alcanzar la posición deseada en el futuro, dichas acciones están relacionadas con las respuestas a las siguientes preguntas: ¿Qué mezcla de factores de la producción utilizar?, ¿Qué bienes o servicios elaborar?, ¿Qué mercados atender? y así sucesivamente. GRAFICO 1.- VALOR DE LAS VENTAS DE JUGUETES DE PLASTICO (Miles de Pesos) Fuente: Elaboró Daniel Rojas con datos del Banco de Información Económica del INEGI: http://dgcnesyp.inegi.gob.mx/cgi-win/bdieintsi.exe Uno de los ingredientes necesarios para que la planeación tenga éxito, es la generación de escenarios acerca de los valores que algunas variables clave asumirán el futuro. Una variable clave para una organización, son las ventas de los productos que elabora, por ejemplo las ventas de una empresa manufacturera que produce juguetes de plástico, si se desea planear para el siguiente año las necesidades de materia prima, mano de obra, recursos financieros, etc., se hace necesario saber cual será la cantidad I N T R O D U C C I O N [ 2 ] demandada por los consumidores, o lo que es lo mismo el valor de las ventas de la empresa el año que sigue. Lo anterior se ilustra a través del gráfico 1 anterior, en el cual se muestran las ventas de juguetes de plástico para el periodo 2003-2007, con periodicidad mensual, en este gráfico la región gris, representa los periodos de tiempo futuro para los cuales no existe aun valores. Determinar el valor que las variables clave de una organización asumirán en el futuro, requiere de la recopilación de información acerca de la manera en la que dichas variables se han comportado anteriormente, esto con el fin de buscar el comportamiento “típico”1 que esas variables han asumido en el pasado, con el objetivo de extrapolar al futuro dicho comportamiento “típico”. A los valores resultantes de este proceso de extrapolación se les denomina: pronósticos. Para que los pronósticos de las variables claves de interés sean de utilidad, el proceso utilizado en la extracción del comportamiento típico de dichas variables, debe de tener la capacidad de capturar las características fundamentales de las mismas, por características fundamentales me refiero a la manera en la que se generan las variable bajo análisis, para ejemplificar esto se utiliza el siguiente Diagrama 1: DIAGRAMA 1 PRONOSTICO DE LA ENERGIA CONTENIDA EN UN OBJETO Fuente: Elaboró Daniel Rojas En la parte A) se utiliza la celebre fórmula propuesta por Albert Einstein para calcular la energía contenida en un objeto: E=mc2, en donde “E” es energía, “m” es masa y “c” es la velocidad de la luz elevada al cuadrado. Si tenemos diferentes objetos con un peso de entre 1 kg y 10 kg, la aplicación de la fórmula nos permitiría determinar la cantidad de energía presente en cada uno de ellos, así por ejemplo para el primer objeto con una masa de 1 kg, y considerando que en el espacio vacío, la luz se propaga con la máxima rapidez permitida por las leyes de la física, esto es, trescientos millones de metros por segundo (c = 300.000.000 m/s), la cantidadde energía de ese objeto seria de 9 x 1016 J, cabe señalar que la letra J que aparece al final, simboliza la unidad de energía convencional usada en física: el Joule. 1 Característico o representativo. I N T R O D U C C I O N [ 3 ] Estos resultados se grafican en la porción clara del gráfico A), mientras que la sección gris del mismo, hace referencia a la energía de objetos con una masa de 11 kg, 12 kg y 13 kg, para pronosticar la energía contenida en esos objetos basta con aplicar la fórmula propuesta por Einstein, como se muestra en la parte B) del Diagrama 1. De esta manera conociendo los valores de la masa de un objeto y suponiendo un valor para la velocidad de la luz, se puede pronosticar con un 100% de certeza cual será la energía contenida en el. Mientras que para el caso hasta aquí comentado basta con aplicar la fórmula E=mc2, para obtener un pronóstico, en el caso de las ventas de juguetes de plástico ilustrado en el gráfico 1, no existe una fórmula como E=mc2, el porque de esto tiene que ver con el medio ambiente en el que se genera dicha variable, el cual es una combinación de una gran cantidad de factores, entre los que se encuentran los siguientes: precio de los juguetes, ingreso de los consumidores, gustos, cultura del país, etc. esto es, una combinación de factores económicos y no económicos, los cuales hacen que los valores que asumirá las ventas de juguetes, para los periodos futuros sean aleatorios, esto es: que no sea posible pronosticar con un 100% de certeza dichos valores. Es la presencia de esta característica de aleatoriedad, la que obliga a utilizar métodos que han sido diseñados para obtener el comportamiento “típico” de este tipo de variables, y poder realizar pronósticos sobre los valores futuros que la variable asumirá, siendo la econometría de series de tiempo y los modelos ARIMA, una de las herramientas que se utiliza para alcanzar ese objetivo. La econometría de series de tiempo, parte del supuesto de que los valores que asumen las variables de naturaleza aleatoria, se encuentran conformados por dos componentes: el primero de los cuales es un aspecto irrepetible (esto es que solo se presenta una vez), y que es resultado del medio ambiente particular en el que se genero la variable, como por ejemplo el efecto descendente en la producción que tendría una huelga en una fábrica, o bien el impacto que un huracán tendría en una cosecha, ambos factores muy difícilmente se volverán a presentar con la misma intensidad en el futuro, lo que los hace irrepetibles, el segundo componente es el resultado de aspectos que están presentes siempre en la variable y que cambian de manera gradual, como por ejemplo la población, la temperatura del planeta o el cambio técnico, a este componente se le conoce como regularidad estadística. Para calcular la regularidad estadística, presente en variables que incorporan aleatoriedad en su comportamiento, la econometría de series de tiempo hace uso de la estadística matemática, la cual a partir de conjuntar la estadística descriptiva, la teoría de las probabilidades y el cálculo diferencial e integral, ha desarrollado métodos que permiten extraer la regularidad estadística presente en las variables, considerando dicha regularidad estadística como el comportamiento “típico”, el cual se utiliza para calcular los valores futuros no observados de la variable bajo estudio, o dicho de otra manera para obtener el pronóstico de la variable. Con la aparición de métodos de cálculo (computadoras), que permiten la resolución de algoritmos que por su complejidad, no eran aplicados anteriormente, se ha puesto al alcance de una mayor cantidad de personas, metodologías de pronóstico que estaban restringidas a los expertos, que contaban con los conocimientos necesarios para programar dichos algoritmos en una computadora, como ejemplo de ello en los setentas puedo mencionar el método propuesto por George E.P. Box y Gwliym M. Jenkins, dos matemáticos, otra metodología de finales de la década de los ochenta fue las de Redes Neuronales que busca simular la manera en la cual el celebro humano procesa la información, con el objetivo de realizar pronósticos, no obstante surge la siguiente pregunta: ¿Qué tan válida es la aplicación de todos éstos algoritmos matemáticos, en el análisis de fenómenos económicos?, dado que ahora existe “software” que permite el uso de todo este conjunto de técnicas, es común encontrar su aplicación a situaciones cuya I N T R O D U C C I O N [ 4 ] dinámica viola los supuestos sobre los que se basa dicha técnica, lo que pasa inadvertido para el usuario que no es un especialista. La manera favorable en la que fue recibida la propuesta de Box y Jenkins, en los 70’s, en el campo de la econometría, fue resultado de dos factores: 1) La gran cantidad de información que era necesaria para la construcción de un modelo econométrico multiecuacional, el cual parte del marco conceptual proveído por la teoría económica y que se expresa en la estimación de un sistema de ecuaciones, que reflejan la relación de las distintas variables que componen el modelo, (mientras que los modelos Box-Jenkins, solo utilizan los valores observados en el pasado en la variable de interés2) y 2) La mejor capacidad de pronóstico, que los modelos desarrollados a partir de la aplicación de la metodología Box-Jenkins mostraron. Los dos factores mencionados compensaron la complejidad matemática del planteamiento. Esta tesina refleja mi estado actual de conocimiento y reflexión sobre la materia, y tiene como objetivo primario servir de medio para obtener el grado de Licenciado en Economía, a través de la modalidad de tesina desarrollando un modelo de pronóstico de las ventas nacionales de azúcar para el año 2004, haciendo uso de la metodología Box-Jenkins, y de manera secundaria ser un documento base de un proyecto que he iniciado desde hace ya varios años, para desarrollar un manual para la enseñanza de la materia de series de tiempo en su vertiente de modelos ARIMA, que pueda ser utilizado a nivel licenciatura y que para el caso de la FES Acatlan cubriría la materia de Econometría III, del actual plan de estudios, a este respecto vale la pena señalar que no obstante las valiosas sugerencias que he recibido de mi asesor y de mis sinodales, soy yo el único responsable por las ideas contenidas en este documento.3 La contribución didáctica de este documento, se centra en guiar al lector en el estudio de los conceptos más importantes en la construcción de modelos ARIMA, pienso que la manera en la que presento los mismos, se compara de una manera favorable con el enfoque utilizado por otros autores, (Hamilton, Guerrero, Mills, etc.), considero lo anterior con base en las modificaciones que se le han hecho al primer borrador, las cuales fueron el resultado de observaciones hechas por mi asesor de tesina, realizadas con base en su larga trayectoria docente. Asimismo las oportunidades que a través de mi carrera profesional se han presentado, primero para cursar un diplomado en la materia de series de tiempo4 [modelos ARIMA] (objeto de esta tesina) y posteriormente para cursar la materia de series de tiempo [modelos ARIMA] a nivel licenciatura, primero con el Dr. Miguel Angel Mendoza en la Facultad de Economía de la UNAM, y posteriormente con el Dr. Victor Guerrero en el Instituto Tecnológico Autónomo de México,5 en mi opinión dos referencias obligadas sobre modelos ARIMA en nuestro país, actividades que me permitieron construir una base sólida a nivel teórico en el manejo del tema. Adicionalmente, el haber cursado el Programa de Iniciación a la Academia (PIA), cuyo objetivo era formar profesores de asignatura, hace algunos años en la entonces ENEP Acatlan, y posteriormente la oportunidad que tuve de participar oficialmente, como profesor adjunto, en la impartición de la materia de matemáticas III del anterior plan de estudios de la carrera de economía, me permitió aprender y aplicar las diferentes herramientas expositivas que se utilizan en el aula (verbal, gráfica yalgebraica), las valiosas 2 A este tipo de modelos se les consideran como una “caja negra”, al parecer este término, se empleó originalmente para desactivar bombas durante la segunda guerra mundial: si el estado de la bomba en su interior puede ser inferido, es posible en principio encontrar una manera segura de manejarla, de lo contrario la bomba es de hecho una caja negra que puede estallar sin previo aviso. La verificación de la validez de la aplicación de este tipo de modelos para representar sistemas de ecuaciones simultáneas se encuentra en el Anexo 1. 3 Es importante destacar que el modelo estimado fue aplicado con mejores resultados para el año 2006 y actualmente esta en uso para el año 2007, sin embargo la base de datos utilizada no es de uso público y su uso sería una violación a la Ley de Responsabilidades de los Servidores Públicos a la cual esta sujeta el autor, por los cual se opto por utilizar cifras publicadas por el INEGI, las cuales sólo están disponibles (para el caso del comercio exterior de azúcar) hasta el año 2004. 4 Diplomado en Series de Tiempo, Instituto Tecnológico y de Estudios Superiores Monterrey, Campus Estado de México, (2000). 5 Diplomado en Econometría Avanzada Instituto Tecnológico Autónomo de México, (2003). I N T R O D U C C I O N [ 5 ] enseñanzas de esos años las he buscado extrapolar y plasmar en el presente documento, lo que se ha reflejado en el amplio uso de diagramas (48), tablas (33) y gráficos (9), así como la verbalización de varios conceptos cuyo origen es matemático. Lo anterior se complementa con el ejercicio profesional que he realizado durante estos últimos 5 años, aplicando este tipo de modelos en la Secretaria de Economía, en la cual he tenido la oportunidad de ejercer como economista, lo que me ha permitido detectar aspectos que es necesario resaltar en la explicación del tema de modelos ARIMA (tal es el caso de los conceptos de Proceso Estocástico, Proceso Generador de Datos y prueba estadística Dickey-Fuller), los cuales no son en mi opinión, expuestos con la amplitud necesaria en los manuales existentes, y que con base en mi experiencia profesional, serán de gran valía para aquellos estudiantes de economía que en su ejercicio profesional, decidan incorporar este tipo de metodología a su “caja de herramientas”. No obstante vale la pena aclarar que en esta etapa del proyecto, no se busca sustituir los manuales existentes que se listan en la bibliografía al final de la tesina, sino servir de apoyo en la comprensión de los mismos, ya que la prueba de fuego de este documento en lo que respecta a su uso como manual se encuentra en las aulas, por lo que espero tener la oportunidad de usarlo en las mismas para mejorarlo. Cualquier opinión o sugerencia agradeceré sea enviada al siguiente correo electrónico: danrl151@hotmail.com, al cual también se pueden solicitar actualizaciones de este documento o consultas sobre la materia.6 Por último en el desarrollo de esta tesina se hace uso de teoría microeconómica, así como de probabilidad, estadística y econometría, por lo que es recomendable que el lector tenga conocimientos de microeconomía, particularmente en lo que respecta a la interpretación de los desplazamientos de las curvas de oferta y demanda, ya que estos serán utilizados en el capítulo II, en lo que respecta a la las áreas de probabilidad, estadística y econometría desarrolle el capítulo I, en el cual se exponen los conceptos necesarios, para la comprensión de la parte cuantitativa del documento, no obstante si el lector ya ha cursado sus materias de estadística y econometría del actual plan de estudios de la carrera de economía, puede saltar este capítulo e ir directamente al capítulo II. PLAN DE TRABAJO El capítulo I, titulado Conceptos de Estadística Matemática, tiene como objetivo ser una revisión de los conceptos revisados en las materias de estadística I y II y econometría I y II, es importante remarcar que la extensión y profundidad, se restringe a aquellos que serán posteriormente utilizados, después de algunas consideraciones preliminares, se analiza y ejemplifica el concepto de probabilidad y las “etapas del proceso de cálculo de probabilidades”, una vez hecho lo cual se revisa la materia de toma de decisiones en ambientes aleatorios, comúnmente denominado prueba de hipótesis, el capítulo concluye con el análisis del operador de valor esperado, necesario para comprender algunos desarrollos llevados a cabo en la sección III.2.4: “Restricciones sobre los parámetros y θ . El capítulo II “Proceso Generador de Datos y Proceso Estocástico”, se divide en dos apartados, en el primero de los cuales, se realiza una revisión de la situación prevaleciente en el mercado azucarero en la segunda mitad de los 90’s, y tiene como objetivo servir de base empírica, para la comprensión de un concepto fundamental en la econometría moderna: Proceso Generador de Datos. El segundo apartado esta dirigido a desarrollar el concepto de Proceso Estocástico, para ello se hace uso de lo visto en los 6 Por lo anterior y con el riesgo de parecer repetitivo, durante el desarrollo se presentara una misma idea enfocada desde diferentes ángulos. I N T R O D U C C I O N [ 6 ] apartados I.1 y I.4 del capítulo I, con lo que se busca ilustrar, tres propiedades fundamentales de los procesos estocásticos estacionarios: Estacionariedad, Ergodicidad y Normalidad, en su lectura es importante tener presente dos cosas: 1) Aún cuando se utilizan algunas cifras para ilustrar las propiedades mencionadas, el nivel de abstracción es elevado, siendo los siguientes capítulos III y IV, en los cuales se aterrizan muchos de los conceptos desarrollados, un ejemplo de ello es la Tabla 6, en la cual se enuncian condiciones generales que debe de cumplir un proceso estocástico estacionario, mientras que la Tabla 21, se realiza lo mismo pero para procesos estocásticos particulares, 2) El significado de algunos términos, como el de ergodicidad se restringe al ilustrado por las gráficas y la explicación verbal que se da, el mismo término en otras áreas de conocimiento como la ingeniería de sistemas (de donde es originario), tiene otro significado. El capítulo III “Metodología Box-Jenkins”, tiene como objetivo describir las diferentes etapas que conforman la metodología señalada, en el inicio se comentan los orígenes de dicha metodología, y se aterriza el concepto de función de distribución conjunta, desarrollado en el apartado I.4, del capítulo I, a especificaciones particulares (Tabla 8). De los 4 elementos de los que se conforma la metodología Box-Jenkins (Identificación, Estimación, Contraste y Pronóstico), se dedica especial atención a la etapa de identificación (apartado III.2). En ella se revisan de manera amplia en primer término, el test estadístico Dickey-Fuller, el cual permite verificar la existencia de la condición de “estacionariedad” necesaria para la correcta aplicación de la metodología Box-Jenkins, en este apartado se revisa la lógica detrás de la construcción del test, así como su utilización en el contexto de inferencia estadística. Una vez hecho lo anterior en el apartado III.2.2, se ejemplifica numéricamente la utilización de las Funciones de Autocorrelación Total (ACF) y Parcial (PACF), que permiten determinar las características de la ecuación que sirve para pronosticar la serie de tiempo analizada. La información de este último apartado se complementa con el uso de test estadísticos (del tipo desarrollado en el apartado I.3, de capítulo I) como el de Ljung-Box (QLB), para el cual se desarrollo un ejemplo numérico de aplicación. Este apartado concluye con la derivación analítica de las restricciones que los valores que los parámetros y θ , deben de cumplir, para que la ecuación III.1.2, cumpla con la condición de estacionariedad e invertibilidad. Los siguientes tres apartados, describen las características de las restantes tres etapas de la metodología: Estimación, Contraste y Pronóstico. Particularmente importante es la Tabla 22 del apartadoIII.4, en la cual se enuncian las características que una “optima” especificación del modelo ARIMA debe cumplir, y que se utiliza en el apartado IV.2, del capítulo IV, particularmente la Tabla 30. Por último el capítulo IV “Aplicación de la Metodología Box-Jenkins para el pronóstico de las Ventas de Azúcar Nacional”, hace uso de los desarrollos de los 3 capítulos previos. Inicia con un análisis de las condiciones que prevalecieron en el periodo 1995-1999, en cuanto a precio del azúcar, y que fueron las que justificaron el desarrollo de este modelo en ese momento por parte de la entonces SECOFI. A continuación se desarrollan cada una de las etapas de las que consta la metodología Box-Jenkins, para construir un modelo dirigido a pronosticar las ventas de azúcar, en este proceso sobresalen los siguientes aspectos: I N T R O D U C C I O N [ 7 ] 1) La Tabla 25, desarrolla una “regla de decisión” para la aplicación de la prueba Dickey-Fuller, y complementa las derivaciones analíticas desarrolladas en el apartado III.2.1 del capítulo III, y resumidas en la Tabla 16, de dicho capítulo, 2) Se introduce información exógena al modelo con lo que se pasa de un modelo ARIMA, a un modelo ARIMAX, 3) La Tabla 30 ejemplifica empíricamente, los criterios para la selección del modelo “optimo”, presentados en la Tabla 22 del apartado III.4, en el capítulo III. Una vez que se ha identificado, estimado y contrastado el modelo (especificación IV.2.2), se realiza un análisis del mismo utilizando el Diagrama 47, en el cual se sintetizan aspectos teóricos y prácticos desarrollados en diversos capítulos de este documento, una vez hecho lo anterior se utiliza el modelo para realizar pronósticos mensuales y anuales, de las ventas de azúcar para el año 2004, cumpliendo con el objetivo primario de este documento. En el apartado de conclusiones, se hace una revisión de los pros y contras de la aplicación de este tipo de metodología en la ciencia económica y posibles líneas posteriores de investigación. Comentarios Finales: Siempre que se considero necesario para la comprensión del razonamiento, se resaltan con “negritas” algunas partes del documento, el cual incluye varios anexos y la bibliografía necesaria para profundizar en este tema. El CD que se anexa contiene: 1) La base de datos utilizada en el apartado II.1, del capítulo II [bsetest.xls], 2) La base de datos utilizado en la estimación del modelo final, especificación IV.2.2 [sugarsoft.wf1], y 3) La derivación y aplicación de la solución del sistema de ecuaciones, propuesto por Yule-Walker [Yule- Walker.doc y Yule-Walker.xls], para calcular los valores asociados a la Función de Autocorrelación Parcial. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 8 ] CAPITULO I CONCEPTOS DE ESTADISTICA MATEMATICA 1 I.1 ASPECTOS PRELIMINARES El área de conocimiento denominada estadística matemática, es la combinación de tres campos de conocimiento 1) Estadística Descriptiva, 2) Teoría de la Probabilidad y 3) Cálculo Diferencial e Integral, es importante agregar que esta área, propia de actuarios, forma parte de la triada (Teoría Económica, Matemáticas y Estadística Matemática) sobre la que se fundamenta la Econometría, por lo que su comprensión es obligada para el economista que busque contrastar los marcos conceptuales que utiliza (Teoría Económica), con la realidad, y a través de ello, mejorar su comprensión de la misma, paso necesario para la generación de estrategias dirigidas a alcanzar los objetivos de la organización en la cual colabora. Como mencione anteriormente, la estadística matemática conjunta, las herramientas que aportan la estadística descriptiva, la teoría de la probabilidad y el cálculo diferencial e integral, para construir sus propias herramientas de análisis, que permiten ampliar el conocimiento que se tiene sobre la realidad, para ello hace uso extenso de símbolos, y utiliza la lógica matemática como proceso de razonamiento. En este capítulo, el apartado I.3 sobre el concepto de valor esperado es un ejemplo de este proceso de razonamiento, que es característico de la estadística matemática, y que se basa en las definiciones y conclusiones a las que se llega en los apartados I.1 y I.2. Como mencione en la introducción aquellos lectores que ya hayan cursado sus materias de estadística y econometría de la carrera de economía, pueden saltarse este capítulo e ir directamente al capítulo II. Adicionalmente a la utilización que la estadística matemática hace de la estadística descriptiva, la teoría de la probabilidad y el cálculo diferencial e integral, se utiliza un marco conceptual que hace uso del carácter aleatorio en el que se generan las mediciones que se observan en la realidad, como se señalo en la introducción de este documento, ese carácter aleatorio hace referencia a la certeza que se puede tener, acerca de los valores que una variable registrara en el futuro. Para ejemplificar lo anterior a continuación se sintetiza en el Diagrama 2, la información contenida en el Gráfico 1 y Diagrama 1 utilizados en la introducción de este documento: DIAGRAMA 2 VARIABLE DETERMINISTICA Y ALEATORIA Fuente: Elaboró Daniel Rojas con datos del Banco de Información Económica del INEGI: http://dgcnesyp.inegi.gob.mx/cgi-win/bdieintsi.exe 1 El presente capítulo no pretende ser un análisis exhaustivo acerca de Estadística Matemática, sólo pretende explicar algunos conceptos utilizados en los siguientes capítulos de esta tesina. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 9 ] El gráfico izquierdo del Diagrama, muestra el pronóstico de la energía contenida en un objeto, el comportamiento de esta variable se considera determinístico, esto es debido a que basta con conocer la masa del objeto y aplicar la fórmula E=mc2 (como se explico en la introducción), para obtener los valores (con un 100% de certeza) que no se conocen y que se encuentran en el área sombreada, por el contrario la serie de tiempo a la derecha del Diagrama, que refleja el comportamiento de la ventas de juguetes de plástico, tiene un comportamiento aleatorio ya que no existe una fórmula como E=mc2, que permita pronosticar con 100% de certeza, los valores de la misma que no se conocen y que se registraran en el área sombreada. El porque del comportamiento aleatorio de la variable mencionada, se explica como se indicara de manera reiterada en el resto del documento, en la existencia de múltiples factores que afectan y determinan los valores que una variable económica registrara en el futuro, esos factores son de tipo económico, climático, geográfico, sociológico, cultural, tecnológico etc. que en conjunto reflejan la realidad histórica de un país. En el resto de las secciones de este capítulo, se desarrollan los conceptos de estadística matemática, que se utilizaran en los siguientes capítulos, para facilitar la comprensión de los mismos se hace uso de varios Diagramas, y de la exposición verbal del proceso de razonamiento que se sigue, estos dos aspectos se complementan con dos ejemplos concretos de aplicación: el primero utiliza el lanzamiento de monedas al aire y el segundo utiliza la variable económica Producto Interno Bruto (PIB). I.2 PROBABILIDAD El proceso de adquisición de conocimiento de la realidad que rodea al ser humano, se enfrenta a dos límites: 1) el originado por la existencia de un conjunto finito de recursos económicos, y 2) de nuestra capacidad cognositiva, esto es la capacidad del cerebro humano, para capturar todos los elementos que conforman la realidad del entorno que le rodea. Esto se puede ejemplificar de la siguiente manera: supongamos que se desea conocer cual es el valor del consumo de juguetes en el mundo, para responder a esta pregunta se podría realizar un censo, esto es un recuento exhaustivo de la población que consume juguetes en todo el mundo. DIAGRAMA 3.- VALOR DEL MERCADO MUNDIAL DE JUGUETES (Millones de Dólares) Fuente: NPD Group, (2005), World Toy.- Facts and Figures, http://www.toy-icti.org/C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 10 ] Sobra decir que el presupuesto necesario para levantar dicho censo absorbería una cantidad enorme de recursos financieros, por lo cual para responder a esta pregunta habría que proceder por otro camino, como el de levantar una muestra2 de la población de consumidores de juguetes en el mundo, y extrapolar los resultados y de esta manera, obtener un valor estimado que responda a la pregunta, la aplicación de este proceso genera un resultado como el que se presenta en el Diagrama 3 anterior. En el campo del la estadística matemática, el proceso de adquisición de conocimientos se puede resumir a través del siguiente esquema: DIAGRAMA 4.- ETAPAS DEL PROCESO DE CÁLCULO DE PROBABILIDADES Elaboró: Daniel Rojas López con base en el Anexo 2. El proceso se divide en cuatro Etapas, cada uno de las cuales puede ser vista como una secuencia, en la que se transita a cada una de las Etapas a través de funciones. La idea de utilizar funciones se justifica en tanto que estas en el campo de las matemáticas, se utilizan para transformar un conjunto de información en otro conjunto de información, por ejemplo, en el caso de la demanda de un producto, la cantidad demandada depende inversamente (ceteris paribus3) del precio de mercado de ese producto, lo que se puede representar algebraicamente, de la siguiente manera: Q=F(P), siendo P el conjunto de información “precios”, y Q el conjunto de información “cantidades demandadas”, como se muestra a continuación: 2 Los conceptos de muestra, población y estimación se explican en el apartado I.3 de este capítulo. 3 Ceteris Paribus es una expresión del latín, usada en el análisis económico, para identificar una situación en la que se observa lo que sucede al variar un factor (dentro del conjunto de variables analizadas), mientras que el resto de factores se mantienen constantes. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 11 ] De manera tal que la función F( ) se convierte en un filtro, que transforma la información contenida en el conjunto de precios, en otro conjunto de información, correspondiente a la cantidad demandada. En términos formales, se dice que existe una función F, que va del conjunto Precios (al que se le denomina su dominio) al conjunto Cantidades (al que se denomina su contradominio) si a todo elemento “Pi” de P, se le puede asociar, bajo una determinada regla, F( ), un elemento “Qi” (llamado su imagen) perteneciente al conjunto Q, y que podemos denotar como Pi = F(Qi), lo anterior se puede representar de la siguiente forma: Que puede leerse como: “F de P en Q”, que equivale a la siguiente expresión: Al conjunto “Q”, integrado por todas las imágenes de todos los “Pi” contenidos en el conjunto P, se le llama la imagen de “P”, y usualmente se le denota por F(Pi).4 En el proceso, ilustrado por el Diagrama 4, el término función se utiliza en el mismo sentido que se le da en el campo de las matemáticas, como un filtro que permite transformar un conjunto de información, en otro conjunto de información, no obstante, mientras que en el campo de las matemáticas, es ordinario encontrar una expresión como la siguiente: y=x2+bx+c que equivale a y=w(x), en donde aplicando operaciones aritméticas (sumas, restas, divisiones, etc.), que son las operaciones que se ejecutan al “interior” de la función w( ), se obtienen los valores de “y”, dados los valores de “x”. En el contexto del Diagrama 4, las operaciones que se efectúan al “interior” de cada función, son “procesos de pensamiento” (construcciones mentales), ejecutadas por el analista, y dirigidas a contestar preguntas cuya respuesta, se encuentra en la complejidad de la realidad que le rodea, en una secuencia que permite extraer de esa complejidad, los elementos indispensables para responder a la pregunta que se ha formulado la cual es: obtener un valor numérico de la posibilidad de ocurrencia de un fenómeno aleatorio. A continuación se describe este procedimiento. En la primera Etapa se elige un aspecto de la realidad en la que se esta interesado, por ejemplo si estamos interesados en saber los resultados de lanzar dos monedas al aire, el experimento aleatorio consistirá en el lanzamiento simultáneo de las dos monedas, la función K( ) de la Etapa I, nos sirve para acotar el aspecto de interés, que buscamos analizar, del resto de la realidad que nos rodea, en este caso lanzar dos monedas al aire. 4 Octavio Luis Pineda (1998). C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 12 ] El resultado de este “experimento” se considera “aleatorio”,5 en tanto que no se puede determinar con 100% de certeza, cual será el resultado del mismo, una vez acotado el aspecto de interés, la función W( ) nos ayuda a definir que entendemos por “resultado del experimento aleatorio”, esta es la Etapa II del proceso, y puede conceptualizarse como dividida en dos subetapas, la primera determina todos los posibles resultados del experimento, como se muestra a continuación: DIAGRAMA 5 RESULTADOS DEL EXPERIMENTO ALEATORIO Elaboró: Daniel Rojas López con base en el Anexo 2. En la parte A) del Diagrama 5, se hace un recuento de los posibles resultado, del experimentos definiendo A como “águila” y a S como “sol”, con lo que existen 4 posibles resultados {A,A}, {A,S}, {S,A} y {S,S}, la figura B), muestra la misma información, utilizando el plano cartesiano, en donde el eje vertical indica el resultado de la primera moneda (Aguila o Sol), y el eje horizontal el resultado de la segunda moneda (Aguila o Sol), siendo la intersección, como se muestra, los 4 posibles resultados, la segunda subetapa consiste en definir la variable aleatoria de interés, la cual se puede enunciar de la siguiente manera: si se lanzan dos monedas al aire ¿cuantas veces se observara al menos un sol?.6 A la información que se deriva de esta subetapa se le denomina: “espacio muestra”, siendo en este caso un subconjunto de la información proveniente de la Etapa I. Hasta aquí se a aplicado a la información proveniente de la Etapa I, el filtro conformado por la función W( ), que esta compuesta por las dos subetapas señaladas, el tránsito a la Etapa III a través de la función X( ), implica hacer uso de la información de la Etapa II, para definir el “espacio muestra” de interés, en términos de números reales,7 lo que se ilustra a través del siguiente Diagrama 6 y al que se denomina espacio muestra numérico: 5 También recibe el nombre de “estocastico”, el origen de la palabra estocástico proviene del griego stokhos, que se refiere al juego de los dardos, y significa centro del blanco, aludiendo a la posibilidad de error (fluctuación de muestreo) cuando se lanzan dardos a un tablero, no obstante que en esta acción se apunta a una determinada dirección, el resultado de cada evento (lanzamiento de dados), no es determinístico sino aleatorio. 6 También se podría establecer la siguiente cuestión: ¿Cuántas veces se observara al menos una águila?, siendo este otro resultado aleatorio. 7 En la etapa anterior, el espacio muestra no estaba definido en términos de números reales. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 13 ] DIAGRAMA 6.- ESPACIO MUESTRA NUMERICO Elaboró: Daniel Rojas López con base en el Anexo 2. En la parte A) se reproduce la información de la parte B) del Diagrama 5, correspondiente al espacio muestra, obtenido en la Etapa II, mientras que en la parte B) se ilustra el concepto de espacio muestra numérico, el cual como se puede ver consiste en traducir al conjunto de números reales, el evento aleatorio analizado, procediendo como sigue: si el resultado observado del experimento aleatorio es {A,A}, entonces el valor de X( ) es 0, si el resultado es {AS o SA} entonces X( ) es igual a 2 y si es {S,S}, entonces X( ) es igual a 1. En adelante a la Función X( ), se le denominara “variable aleatoria”. En términos de funciones, utilizandola expresión 1.I.1, el espacio muestra numérico, al cual denotaremos por la letra , se expresa de la siguiente manera: En donde “k” indica el número de veces en el que se observa (registra), al menos una cara, en el lanzamiento de monedas. Como se puede apreciar, se ha pasado de un conjunto de información cualitativo (Sol o Aguila), a un conjunto de información cuantitativo (0, 1 y 2), ese es el objetivo de la función X( ): “convertir los resultados de la Etapa II, en números reales”. La utilidad de ello radica en que, a este conjunto de información representado por números reales, se le pueden aplicar todas las operaciones existentes en el campo de las matemáticas, mientras que no era así para el caso del conjunto Sol-Aguila, vale la pena señalar aquí que la propiedad de aleatoriedad presente en el conjunto de información Sol-Aguila de la Etapa II (y que a su vez es resultado de la manera en que se genero la información contenida en la Etapa I), se mantiene para el conjunto 0, 1 y 2,8 esto es: la propiedad de aleatoriedad es transitiva. Al resultado de aplicar a la información proveniente de la Etapa II, la función X( ), se le denomina como se indico anteriormente variable aleatoria, siendo para este caso los valores que pueden asumir la función X( ): 0, 1, y 2, a los que se les conoce como eventos simples de la variable aleatoria. La última Etapa del proceso tiene como objetivo proporcionar una respuesta numérica a la siguiente pregunta: ¿Cuál es la posibilidad de que al lanzar dos monedas, el resultado 1 sol?, la respuesta a esta 8 Lo que también aplica, en términos generales, para el espacio muestra numérico. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 14 ] pregunta que da la estadística clásica9 parte de la siguiente lógica: si existen 3 posibles resultados a esta pregunta, entonces para obtener un valor numérico, se debe de dividir el número de eventos favorables (esto es que cumplan con la condición “1 sol”) entre el número de eventos totales (los que cumplen y no cumplen con la condición enunciada), a este enfoque se le denomina “frecuentista”, ya que hace uso de la frecuencia (ocurrencia), en el sentido común del término. Para ilustrar lo anterior diseñe la Tabla 1, que se muestra a continuación: TABLA 1.- VARIABLE ALEATORIA Y CÁLCULO DE PROBABILIDADES Evento Aleatorio Simple Enunciado Verbal Transformación utilizando la función X( ) Función de Probabilidad P( ) Respuesta 0 soles X(0 soles) 0 P(1) 1/3 1 sol X(1 sol) 1 P(2) 2/3 2 soles X(2 soles) 2 P(3) 1/3 Elaboró: Daniel Rojas López con base en el Anexo 2. En la primera columna, se enuncia de manera verbal el resultado del experimento aleatorio, en la segunda su traducción a lenguaje matemático utilizando la función X( ), en la tercera la respuesta utilizando el enfoque frecuentista de la estadística clásica, y la cuarta columna, se introduce la función P( ), la cual al utilizar el enfoque frecuentista sólo puede asumir valores en el rango 0 a 1, los cuales se muestran en la columna 5. Al valor asumido por esta función, dado un valor de la variable aleatoria, se le denomina “probabilidad de la variable aleatoria”, por lo que a la función P( ) se le denomina: “función de probabilidad de la variable aleatoria”. Los resultados que muestra la Tabla 1, se muestran en el siguiente Diagrama 5: DIAGRAMA 7.- CÁLCULO DE PROBABILIDADES Elaboró: Daniel Rojas López con base en el Anexo 2. En este Diagrama se ha tomado la información de la parte B) del Diagrama 6, correspondiente al espacio muestra numérico, y se ha incorporado un eje vertical para formar un plano cartesiano, que permita relacionar el valor de cada uno de los eventos simples (abscisas) con su probabilidad de ocurrencia (ordenadas). 9 Se resalta el adjetivo “clásica”, en tanto que existe otra estadística, a la cual se le conoce como “estadística bayesiana”, que daría una respuesta diferente a la pregunta formulada. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 15 ] Hasta este punto el proceso ilustrado por el Diagrama 4, nos a permitido responder a la siguiente pregunta: si se lanzan dos monedas al aire, ¿cuál es la probabilidad de observar 1 sol?, para responderla utilizamos la función P( ), que además de ser una Etapa del proceso descrito por el Diagrama 4, es el objetivo final que se busca, es decir: construir una función que permita calcular la probabilidad de ocurrencia (en términos numéricos) de un evento aleatorio. I.3 INFERENCIA ESTADISTICA La inferencia estadística, tiene como objetivo: establecer conclusiones acerca de una característica10 de una población,11 conociendo sólo una parte de ella a la que se le denomina muestra. En este proceso es común calcular medidas descriptivas a partir de la muestra, y considerar estas como aproximaciones de las características de la población de la cual la muestra fue tomada. DIAGRAMA 8.-POBLACION Y MUESTRA Elaboró: Daniel Rojas López con base en el Anexo 2. En el Diagrama 8 se ilustra el proceso comentado en el párrafo anterior. Partiendo de una población representada por A), se toma un subconjunto de ella que es la muestra, a partir de la cual se puede calcular por ejemplo la media. Como el Diagrama 8 ilustra, existe una diferencia entre la media poblacional y la media de la muestra, lo que es consecuencia de que la media de la muestra, no contiene toda la información de la población. Este proceso para conocer las características de la población, a partir de la extracción de una muestra, no tendría sentido en un contexto en donde se conoce la población, bastaría con hacer un recuento exhaustivo de los elementos que la componen (es decir levantar un censo), y calcular las características de interés. Sin embargo esto se complica, puesto que algunas veces es sumamente costoso el realizar un censo (que es el caso del consumo mundial de juguetes, mencionado anteriormente). Es en este contexto cuando se invierte el orden de las cosas, como se muestra en el siguiente Diagrama 9: 10 Por característica se entiende medidas de estadística descriptiva, como la media, la moda, la desviación estándar etc. 11 Por población se define un conjunto de elementos que comparten una característica en común, como por ejemplo, el conjunto de computadoras en una oficina que cuentan con modem, en este ejemplo el conjunto de elementos son: “computadoras de una oficina” y la característica en común es: “aquellas que cuenten con un modem”. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 16 ] DIAGRAMA 9.-PROCESO DE INFERENCIA ESTADISTICA Elaboró: Daniel Rojas López con base en el Anexo 2. En este Diagrama como se puede observar, se parte de un subconjunto de la población (muestra), y a partir de este se busca formar una idea acerca de las características de la población, que se sabe le dio origen. En este contexto, la inferencia estadística plantea una serie de conceptos, como la “ley de los grandes números”, la que establece que, por ejemplo, para el caso de una medida de tendencia central como la media,12 si de una población se toman “n” muestras al azar (esto es “n” subconjuntos cada uno de ellos con el mismo número de elementos como el mostrado en la figura B) del Diagrama 9, y se calculan las medias asociadas a cada uno de esos subconjuntos, conforme “n” tienda a infinito (es decir conforme más muestras tomemos, y por lo tanto el número de medias muestrales calculadas aumenten), el histograma formado a partir de estas medias, tendera a acercarse a una normal o campana de gauss, lo anterior se ilustra en el Diagrama 10 siguiente: DIAGRAMA 10.-LEY DE LOS GRANDES NUMEROS Elaboró: Daniel Rojas López con base en el Anexo 2. 12 El mismo principio aplicaría para otras medidas, como la moda o la desviación estándar. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 17 ] En el apartado A) de este Diagrama 10, se muestran 4 posibles valores, que pueden asumir lasmedias, de 4 muestras tomadas de manera aleatoria de una población, en la que la media poblacional es igual a 5; la altura representada por el eje de la ordenadas, refleja la probabilidad con la cual cada una de estos posibles resultados se puede presentar, como se puede observar el punto máximo de la distribución, se encuentra sobre el valor de 5, si se realizara de manera iterativa este proceso se terminaría con una gráfica como la B), en la cual esta perfectamente definida la campana de gauss, que es exactamente lo que establece la “ley de los grandes números”. La implicación del proceso descrito hasta aquí es la siguiente: “si se tiene interés en una población cuyas características (media, moda, desviación estándar) son desconocidas, se puede obtener una estimación de las mismas, tomando una muestra representativa de la población, y calculando la característica de interés”. En este último enunciado dos conceptos se presentan, el de “representatividad” y el de “estimación”, la teoría del muestreo establece un conjunto de métodos, dirigidos a determinar el número de elementos que deben de conformar una muestra para ser representativa, y los métodos necesarios para elegir estos elementos de la población, así como el conjunto de operaciones (sumas, restas, divisiones, etc.) a los que se deben de sujetar las mediciones obtenidas de los elementos que componen la muestra,13 para ser consideradas como representativas de las características de la población que se busca conocer. Una vez obtenida una muestra representativa de la población de interés, se procede al cálculo de la característica bajo análisis, si esta fuera la media por ejemplo, se obtendría el promedio simple a partir de la muestra, y se consideraría esta, como la característica que se esperaría observar en la población, esto es se hace equivalente la media de la muestra a la media poblacional. DIAGRAMA 11.- FLUCTUACION DE MUESTREO Elaboró: Daniel Rojas López con base en el Anexo 2. 13 Dado que este no es un libro sobre teoría del muestreo, no se ahondara en la descripción de cada método, se recomiendan el libro de estadística escrito por Stephen P. Shao (1967), listado en el apartado de bibliografía. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 18 ] Por ejemplo, si fuera necesario conocer la antigüedad media de automóviles que circulan en el DF en 2008, aplicando los métodos de la teoría del muestreo, se podría obtener una muestra conformada por 500 vehículos, si el proceso para obtener esta muestra fue adecuado, haciendo a la misma representativa, por la “ley de los grandes números”, se puede afirmar que la estimación conseguida (en este caso 5.9 años), tiene una alta probabilidad de encontrarse “cerca” de la media poblacional, por lo que se puede tomar esta estimación, como una característica de la población, y en consecuencia tomar decisiones sobre esta información. ¿Que tan cerca se encuentra la estimación conseguida de la característica poblacional?, no se puede determinar (a menos que se realizara un censo, en cuyo caso no habría tenido razón de ser el proceso de muestreo), en el caso presentado en el Diagrama 10-A), suponiendo que la población de autos tuviera como vida media 5 años, la discrepancia seria catalogada como “fluctuación de muestreo”, el uso de este término hace referencia al siguiente hecho: utilizando exactamente el mismo procedimiento de muestreo con el que se obtuvo el valor de 5.9 años, pero para otra muestra seleccionada, la media muestral calculada, arrojaría otro valor diferente, resultado de la manera aleatoria con la que se selecciona la muestra, como se ilustra en la parte B) del Diagrama 11, en donde se muestra el valor de 4.8 años. Hasta aquí se ha revisado una primera utilidad de la teoría del muestreo: conocer el valor de una característica de una población, dado que sólo se conoce la misma característica de una muestra tomada de esa población. La siguiente utilidad radica en establecer la veracidad de un enunciado, esto es (y siguiendo con el ejemplo utilizado sobre la antigüedad de automóviles), su carácter de verdadero o falso. Por ejemplo, supongamos que alguien propusiera que la edad promedio de los autos es de 6.5 años, para determinar si esta proposición es verdadera o falsa,14 utilizando las herramientas que provee la teoría del muestreo, se inicia estableciendo dos posibilidades: que la proposición sea verdadera o bien que sea falsa. A la primera posibilidad se le denomina hipótesis nula, y se le identifica con: H0, mientras que a la segunda se le denomina hipótesis alternativa, utilizando H1 para diferenciarla resumiendo, el problema se expresa de la siguiente manera: DIAGRAMA 12.- PRUEBA DE HIPOTESIS Elaboró: Daniel Rojas López con base en el Anexo 2. 14 Es importante señalar que los términos verdadero o falso, así como hipótesis “nula” o “alternativa”, no se deben de interpretar de una manera positiva o negativa (peyorativa), con respecto al enunciado analizado. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 19 ] H0: La edad promedio de los vehículos en 2008 es igual a 6.5 años, H1: La edad promedio de los vehículos en 2008 no es igual a 6.5 años. La hipótesis nula equivale a afirmar que la media de la distribución de todos los automóviles (el centro de gravedad de la distribución) se encuentra en 6.5, lo cual se puede representar a través del Diagrama 12-A): Si la hipótesis nula fuera verdadera, eso implicaría que la media de una muestra tomada de la población de automóviles, utilizando los métodos propuestos por la teoría del muestreo (que aseguraran la representatividad de la misma), debería (por la ley de los grandes números), con una alta probabilidad, encontrarse cerca del valor de 6.5, si este no fuera el caso, por ejemplo, si la media calculada a partir de los datos de una muestra fuera de 5.9 (Diagrama 12-B), se abriría la posibilidad de que la hipótesis nula fuera falsa, no obstante como se discutió en párrafos anteriores, la diferencia numérica entre una característica poblacional (en este caso hipotético 6.5 años) versus una muestra (5.9 años), puede ser el resultado de fluctuación de muestreo. Para determinar si la diferencia numérica (6.5 versus 5.9), es resultado de una fluctuación de muestreo,15 o dicho de otra manera si se trata de una diferencia “significativa”, resultado de que la característica poblacional (en este caso la edad media de los autos), es diferente de 6.5 años (que es la hipótesis alternativa, H1), se deben de establecer límites a los valores dentro de los cuales el valor de una característica muestral puede fluctuar, a estos límites se les denomina “intervalo de confianza”, si el valor de la media calculada a partir de la muestra (en este caso concreto la media), se encuentra fuera de estos limites de confianza, se puede afirmar que la diferencia entre el valor establecido por la hipótesis nula (6.5 años), y el observado a través del cálculo realizado con los datos de la muestra (5.9 años), es significativa, lo que llevaría a rechazar la hipótesis nula, aceptando por lo tanto la alternativa, lo anterior se ilustra en el siguiente Diagrama 13: DIAGRAMA 13.- INTERVALO DE CONFIANZA Elaboró: Daniel Rojas López con base en el Anexo 2. 15 Al término fluctuación de muestreo también se le denomina error de muestreo, y con el se busca identificar, aquella situación en la que un fenómeno aleatorio, da como resultado un evento dentro del espacio muestra numérico, que es posible pero poco probable. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 20 ] En primer término, la parte A) muestra el valor de la hipótesis nula 6.5, y la media calculada a partir de la muestra representativa igual a 5.9 años, como se menciono en el párrafo anterior, para determinar si la diferencia es resultado de “fluctuación de muestreo”, es necesario construir intervalos de confianza,16 esto se muestra en la parte B), en ella la porción clarade la distribución normal, representa el intervalo en el que es valida la hipótesis nula H0, si la media calculada a partir de una muestra aleatoria “cae” dentro de esta área, se puede afirmar que la evidencia originada por la información contenida en la muestra, favorece la hipótesis nula, y por lo tanto dicha hipótesis es aceptada, mientras que, si la media calculada a través de la muestra “cae” fuera de ese intervalo, esto es en las áreas sombreadas, existe evidencia contra la hipótesis nula (H0), y a favor de la hipótesis alternativa (H1), para este caso concreto, la evidencia originada por la muestra indica que la hipótesis nula es falsa, por lo que la edad promedio de los vehículos no es igual a 6.5 años. Es importante señalar que la hipótesis alternativa propone que la media de la población es diferente de 6.5 años, en ningún momento propone que la media poblacional sea mayor o menor de 6.5, de ahí que existan 2 áreas sombreadas en la parte B) del Diagrama 13, lo que en inferencia estadística recibe el nombre de “prueba de dos colas” cada una de las cuales, permite que la media poblacional sea mayor o menor de 6.5 años. Como es sabido el área total debajo de la distribución normal es igual a 100%, para establecer un intervalo de confianza dirigido a determinar la veracidad de una hipótesis, se divide ese 100% en dos segmentos: la hipótesis nula abarca (para este caso) el 95% del área total, mientras que la hipótesis alternativa ocupa el 5% restante, dividido en dos subsegmentos de 2.5% cada uno, de ahí el porque se le denomina a este procedimiento “prueba de hipótesis de dos colas”, adicionalmente a la suma de las dos áreas (colas), se le denomina “p-value”17 o nivel de confianza18 de la prueba de hipótesis, para este caso el p-value es igual a 5%. Considerando todos los elementos señalados hasta este punto, y para el ejemplo que se ha estado manejando, la conclusión obtenida se puede resumir de la siguiente manera: “con un nivel de confianza (p-value) de 5%, se rechaza la hipótesis nula, por lo que la edad promedio de los automóviles no es igual a 6.5 años”. I.4 OPERADOR VALOR ESPERADO La estadística clásica utiliza el concepto frecuentista de probabilidad, el cual se define como el número de veces que un evento es observado, en relación con el número de experimentos totales (en donde experimento se entiende como observación o medición), tal es el caso del ejemplo utilizado en el apartado I.2, que se reproduce a continuación: 16 La construcción de intervalos de confianza, va mas allá del objetivo de esta revisión de estadística matemática, se recomienda consultar un libro de estadística como el escrito por Stephen P. Shao (1967), listado en el apartado de bibliografía. 17 Ordinariamente se hace referencia a este término como pivaliu. 18 Establecer el nivel de confianza de una prueba de hipótesis es una decisión del analista, para el ejemplo presentado se estableció dicho nivel en 5%, pudiendo también haber establecido un 10% (5% en cada cola), el capítulo 14, páginas 378 a 380 del libro de Stephen P. Shao (1967), listado en el apartado de bibliografía, establece los criterios a seguir para tomar una decisión al respecto. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 21 ] TABLA 1.- VARIABLE ALEATORIA Y CÁLCULO DE PROBABILIDADES Evento Aleatorio Simple Enunciado Verbal Transformación utilizando la función X( ) Función de Probabilidad P( ) Respuesta 0 soles X(0 soles) 0 P(1) 1/3 1 sol X(1 sol) 1 P(2) 2/3 2 soles X(2 soles) 2 P(3) 1/3 Elaboró: Daniel Rojas López con base en el Anexo 2. En este ejemplo si se arrojan, 2 monedas se puede afirmar que la probabilidad de observar “un sol” en el siguiente lanzamiento es 2/3, como se mencionó anteriormente, a la función X( ), correspondiente a la Etapa III, del proceso de cálculo de probabilidades, explicado en el apartado I.2 de este capítulo, se le identifica como la variable aleatoria. Utilizar esta expresión general [X( )] y no el valor particular (0,1 y 2, en este caso), es resultado del uso común con el que se utilizan las funciones en el proceso de desarrollo de las matemáticas, en donde por ejemplo, después de afirmar que z=f(x), en los desarrollos posteriores se puede utilizar “z” o bien f(x) o sólo f( ), lo que permite elevar el nivel de abstracción,19 en el caso de la información contenida en la Tabla 1, “x” es el enunciado verbal (0, 1 o 2 soles), la cual como se indicó es una variable aleatoria, “z” es el valor numérico de esa variable aleatoria (0,1 y 2), y f( ) equivale a X( ), por lo que en adelante al referirnos a la variable aleatoria, en vez de utilizar el enunciado verbal o el valor numérico, utilizaremos la notación: X( ). El objetivo de calcular las características de una variable, como su media o su varianza, es el de obtener información sobre las características de la población a la que pertenece la variable, así por ejemplo al obtener la media, se busca determinar el “centro de gravedad”, alrededor del cual se agrupan las observaciones de la variable estudiada, en el caso de variables generadas por experimentos aleatorios, a las características de la población asociada (media, desviación estándar, etc.), se les denomina: “momentos”. De esta manera la media asociada a una población generada por un experimento aleatorio, se le denomina momento de primer orden y a la varianza, momento de segundo orden. Para calcular los “momentos” de una variable aleatoria, se utiliza el: “operador de valor esperado”. Para el caso de variables aleatorias, en donde el espacio muestra es finito, como el ilustrado por el Diagrama 6, con el que se ha venido trabajando, para obtener la media o primer momento de la variable aleatoria, los valores de la variable aleatoria X( ), se multiplican por sus respectivas probabilidades, y se suman los resultados, en la siguiente Tabla 2 se ilustra este proceso: TABLA 2.- VARIABLE ALEATORIA Y CÁLCULO DE PROBABILIDADES Evento Aleatorio Simple Enunciado Verbal Transformación utilizando la función X( ) Función de Probabilidad P( ) Respuesta Momento de Primer Orden 0 soles X(0 soles) 0 P(1) 1/3 0*P(1) 1 sol X(1 sol) 1 P(2) 2/3 1*P(2) 2 soles X(2 soles) 2 P(3) 1/3 2*P(3) Elaboró: Daniel Rojas López con base en el Anexo 2. Por lo que el momento de primer orden es igual a (0)(1/3)+(1)(2/3)+(2)(1/3)=4/3=1.33, esto es el “centro de gravedad” de la distribución poblacional, asociada a la variable aleatoria bajo estudio, X( ), es igual a 1.33, lo anterior se puede expresar formalmente de la siguiente manera: 19 El objetivo de elevar el nivel de abstracción, es que de esta manera las conclusiones a las que se llega en desarrollos posteriores, utilizando sólo la función f( ), son más generales que si se utiliza “z”. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 22 ] Siendo el valor de “i” igual al número de elementos del espacio muestra numérico, y el símbolo , el valor de la media, o bien momento de primer orden, de la distribución poblacional. Como se puede ver el procedimiento equivale a ponderar cada elemento del espacio muestra numérico, por su respectiva probabilidad. En el caso continuo, esto es para variables aleatorias para las cuales el espacio muestra es infinito, el proceso de cálculo de los “momentos” asociados a la población, es más abstracto, lo anterior es resultado de la definición frecuentista adoptada, lo cual hace inoperable la expresión I.4.1, puesto que el valor de la función P( ) = Eventos Favorable/Eventos Totales, tendería a cero al converger el denominador (que es el espacio muestra numérico) a infinito. Esta es la razón por la que en el caso de variables aleatorias, cuyo espacio muestra numérico es infinito, el operador valor esperado se conceptualiza, como una función a la que se le identifica como: E{ }, la cual transforma una variable aleatoria X( ), en momentos de la población, que se sabe a dado origen a dicha variable aleatoria. De la misma manera que en el caso de lasfunciones, que conforman el proceso de cálculo de probabilidades del Diagrama 4 de este capítulo, las operaciones que se realizan al interior de la función E{ }, no son sumas o restas, sino operaciones mentales o procesos de pensamiento, que utilizan el marco conceptual de la probabilidad, el que se basa en la repetición de experimentos, con el objetivo de obtener, los momentos de la población de la cual la variable aleatoria de deriva. Para el caso del momento de primer orden (media), lo anterior se expresa formalmente de la siguiente manera: En donde E{ } es el Operador de Valor Esperado, X( ) es la variable aleatoria, y es el momento de primer orden (media), asociado a la población, de donde proviene la variable aleatoria, que se definió en la Etapa III, del “proceso de cálculo de probabilidades” del Diagrama 2. Esta expresión se puede leer “el momento de primer orden de la variable aleatoria X( ), es igual a ”. Para ejemplificar lo dicho hasta aquí, se aplicara el procedimiento de cálculo de probabilidades, a una variable aleatoria con origen económico, por lo que a continuación se reproduce el Diagrama 4.20 20 Mientras que en el apartado I.2 se trabajo con un evento aleatorio cualitativo, en este apartado, se trabajara con un evento aleatorio cuantitativo, por lo que algunas etapas del proceso se fusionan. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 23 ] DIAGRAMA 4.- ETAPAS DEL PROCESO DE CÁLCULO DE PROBABILIDADES Elaboró: Daniel Rojas López con base en el Anexo 2. La realidad histórica de un país, esta conformada por: cultura, economía, tecnología, demografía, etc. Todos estos factores interactúan en la formación de los valores numéricos, con los que se presentan las estadísticas que tanto organismos públicos (INEGI), como privados (Cámaras Empresariales: Canacintra, Canaco, etc.) recopilan, al ser los factores mencionados diferentes, en cuanto a su naturaleza e intensidad con la que afectan a la realidad, dan como resultado valores numéricos, que pueden ser conceptualizados “como resultado de un [experimento aleatorio], efectuado por la [sociedad], el cual miramos simplemente como observadores pasivos”.21 Por lo cual los números que las estadísticas registran son una muestra aleatoria, hasta aquí se ha completado la Etapa I, del proceso de cálculo de probabilidades. En el campo de estudio de la economía, nuestro interés se restringe en aquella parcela de la realidad, relacionada con variables de tipo económico. Con lo que se ha pasado a la Etapa II, del proceso de cálculo de probabilidades, ya que se ha restringido, los valores que forman la Etapa I, a los que se relacionan con variables económicas. Una vez realizado lo anterior y con el fin de acotar el área de análisis, se define la variable aleatoria de interés, por ejemplo, si el objetivo es analizar el comportamiento del valor de todos los bienes, producidos por un país, dentro de su territorio en un año, estaríamos interesados en analizar el Producto Interno Bruto (PIB)22, como se muestra en el siguiente Diagrama 12: 21 Trygve Haavelmo (1944), The Probability Approach in Econometrics, The Review of Economics and Statistics, Vol. 28, No. 3, pp. 173-174. 22 Otras variables podrían ser: Consumo Privado, Inversión, Comercio Exterior, Tasas de Interés, Precios de Valores Bursátiles, etc. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 24 ] DIAGRAMA 14.- RESULTADO DEL EXPERIMENTO ALEATORIO 1 Elaboró: Daniel Rojas López con base en el Anexo 2. Mientras que el segmento A) del Diagrama 14, indica el resultado del experimento aleatorio, el segmento B) lo traslada a la recta de los números reales. Si el análisis se enfoca al año 2004, como se muestra, el valor del PIB, para ese año, fue de 1,707.7 Miles de Millones de Pesos – MMDP- (a precios de 1993).23 Sin embargo el segmento B) se encuentra incompleto en el marco conceptual ilustrado en el Diagrama 4, ya que el valor registrado de 1,707.7 MMDP, en las estadísticas económicas del INEGI forma parte de un experimento aleatorio y por lo tanto refleja sólo un valor de todos los valores que se pudieron haber generado, resultado del “experimento aleatorio generado por la sociedad”, luego entonces al ser sólo un posible resultado, dicho valor es una muestra, de la población que esta representada por el segmento A), y que se refiere a todos los posibles PIB’s, que el “experimento aleatorio generado por la sociedad”, podría haber generado.24 Por lo anterior los valores que puede asumir el evento aleatorio son infinitos, esto debido a que, la variable PIB, se encuentra sobre la recta de los números reales. Lo anteriormente dicho se ilustra en el siguiente Diagrama 15: DIAGRAMA 15.- RESULTADO DEL EXPERIMENTO ALEATORIO 2 Elaboró: Daniel Rojas López con base en el Anexo 2. 23 INEGI, Sistema de Cuentas Nacionales de México, Cuenta de Bienes y Servicios 1998-2004 (2006), Tomo II, Cuadro 98, Ed. Talleres Gráficos del INEGI. 24 La subetapa 1 y la subetapa 2 de la Etapa II, que se utilizó en el ejemplo anterior del apartado I.2, se fusiona en una sola. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 25 ] Al valor observado y registrado por el INEGI para el PIB, en 2004 de 1,707.7 MMDP,25 se le han agregado 2 valores posibles, los cuales tienen su razón de ser en el marco conceptual que se esta utilizando, y que se ilustra en el Diagrama 4. Además de estos tres elementos, conceptualmente se les podría agregar un infinito número de valores, los que en conjunto formarían el espacio muestra de la Etapa II. Como se recordara la Etapa III del procedimiento, consiste en convertir en valores numéricos, los resultados de la información del espacio muestra, proveniente de la Etapa II, y con ello definir el espacio muestra numérico, esto se presenta en el siguiente Diagrama 16. DIAGRAMA 16.- ESPACIO MUESTRA NUMERICO Elaboró: Daniel Rojas López con base en el Anexo 2. En este Diagrama como se puede observar el espacio muestra ( ), el cual esta definido sobre el conjunto de los números reales (R), da origen a la variable aleatoria (o espacio muestra numérico) X( ), la cual por lo tanto también esta definida sobre el conjunto de los números reales, sobre el que se encuentra una posible “realización” de la variable aleatoria X( ), igual a: 1,707.7 MMDP, en términos de funciones se tendría: En donde “k” indica el valor numérico que puede asumir el PIB. En este punto es necesario realizar el siguiente “proceso de pensamiento” derivado del marco conceptual utilizado: si nos colocamos en el año 2003 y damos un paso hacia delante a 2004, podríamos observar el valor del PIB, que suponemos una variable aleatoria y registrarlo como en este caso, en el cual el PIB en 2004 es igual a 1,707.7 MMDP, a continuación daríamos un paso hacia atrás y nos colocaríamos nuevamente en 2003, daríamos un paso hacia adelante y por la naturaleza aleatoria del experimento, del cual proviene el PIB, observaríamos otro valor para 2004 como 1,685.3 MMDP, la repetición del procedimiento descrito “n” veces, nos permitiría obtener a partir de los valores registrados, la “función de distribución” de la variable aleatoria. Utilizando el operador de valor esperado como se definió en la expresión I.4.2, podemos calcular el momento de primer orden de la variable aleatoria PIB04, de la siguiente forma: 25INEGI, Sistema de Cuentas Nacionales de México, Cuenta de Bienes y Servicios 1998-2004 (2006), Tomo II, Cuadro 98, Ed. Talleres Gráficos del INEGI. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 26 ] En donde el valor de 04 , es el que teóricamente se observaría, si se promediaran todos los elementos que forman el “espacio muestra numérico”. Sin demostración26 a continuación se indican las reglas que sigue el operador de valor esperado: 1) Sean X y W dos variables aleatorias, el valor esperado de la suma o su resta de ambos es igual, al valor esperado deX, (más o menos), el valor esperado de W, esto es: }{}{}{ WEXEWXE 2) El valor esperado de una constante “k” en donde “k”, es un número real es la misma constante “k”: kkE }{ Esta es la manera en la que funciona el operador de valor esperado, en un plano abstracto, utilizando el enfoque de “repetición”, en la que se basa la teoría de la probabilidad, para calcular los momentos de un experimento aleatorio, el cual al tener un número infinito de resultados, hace inviable la aplicación de una fórmula como la I.4.1. Si a cada uno de los valores de este “espacio muestra numérico”, se le resta el valor de 04 , la información resultante se puede representar gráficamente de la siguiente manera: DIAGRAMA 17.- FUNCION DE DISTRIBUCION DE LA VARIABLE ALEATORIA PIB Elaboró: Daniel Rojas López con base en el Anexo 2. 26 El anexo D, del libro: Theory of Econometrics de Koutsoyianis (1977), contiene las demostraciones. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 27 ] El Diagrama 17, ilustra el supuesto de que la forma de la función de distribución de la variable aleatoria analizada es normal, por lo que la variable aleatoria, se encuentra “normalmente distribuida”, este supuesto se justifica en tanto que es el tipo de distribución que empíricamente. se ha observado en el análisis de variables, resultado de decisiones del ser humano (como lo es el PIB), en donde se presenta un valor medio para cada decisión, y un pequeño número de decisiones que se alejan del mismo ambos extremos. En la función normal, “e” es la base de logaritmos neperianos, la cual esta elevada al término entre paréntesis, en el cual 04 es el momento de primer orden (media) de la distribución, “PIB” es la variable aleatoria, y 04 es la desviación estándar (o momento de segundo orden) de la variable aleatoria, por último es el número 3.1416. Hasta este punto el análisis se ha centrado en el año 2004, en econometría a esto se le denomina análisis de corte transversal, en contraposición al análisis en el dominio del tiempo, que se explica a continuación. Si todo este proceso se aplicara para los años 2001, 2002 y 2003, se obtendría una sucesión (conjunto) de variables aleatorias, las cuales estarían ordenadas en función al tiempo histórico (t), lo que en la estadística matemática se le conoce como: “Proceso Estocástico”27 y que se ilustra en el siguiente Diagrama:: DIAGRAMA 18.- PROCESO ESTOCASTICO DE LA VARIABLE ALEATORIA PIB Elaboró: Daniel Rojas López con base en el Anexo 2. Los valores 1,707.7, 1,639.4, 1,616.4 y 1,604.6, que registro el INEGI para cada uno de esos años, se consideran como una realización del Proceso Estocástico. El concepto de proceso estocástico desempeña en el análisis de series temporales, el papel análogo al de población en el análisis de corte transversal, el proceso se concibe como la función generadora de todas las posibles realizaciones (población) y de entre estas de la serie concreta (realización) que es objeto de estudio (muestra). En este ejemplo la muestra (realizaciones) esta conformada por el conjunto de valores 1,707.7, 1,639.4, 1,616.4 y 1,604.6. 27 El concepto de Proceso Estocástico, en el contexto de series de tiempo económicas, será tratado en el apartado II.2, del capítulo II. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 28 ] Como se puede observar en el Diagrama 18, cada una de las variables aleatorias (PIB04, PIB03, PIB02 y PIB01), se encuentra “normalmente distribuida”, por lo que se puede decir, que ese conjunto de variables aleatorias se encuentra normal e “idénticamente” distribuidas, lo que también se puede expresar de la siguiente manera: En donde el símbolo significa “equivale a”, mientras que el último término se lee: “la variable aleatoria PIB, se distribuye “normal e idénticamente distribuida” con media y varianza y t = 2001, 2002, 2003, 2004. En donde se ha introducido el supuesto de que el momento de primer orden (media), para cada una de las variables aleatorias es el mismo ( 04 = 03 = 02 = 01 = ), así como el momento de segundo orden (varianza), esto es se supone que: 04 = 03 = 02 = 01 = .28 Hasta este punto no se ha planteado ningún supuesto, acerca de la relación que en lo individual guarda cada una de las distribuciones que se encuentra en el Diagrama 18, con las demás, esto es no se ha establecido si existe alguna relación entre la variable aleatoria PIB04, y la variable aleatoria PIB03, o como usualmente se le conoce en estadística si existe alguna “correlación”29 entre ellas, si existiera alguna correlación, sabiendo el valor de PIB03 (PIBt-1), se podría realizar un “pronóstico” del valor que asumirá la variable aleatoria PIB04 (PIBt). Si esta presente alguna correlación entonces se dice que el conjunto de variables aleatorias esta: normal, “dependiente” e idénticamente distribuidas. Esta característica de dependencia es común entre la mayor parte de las variables que se generan en la economía,30 no obstante existen variables aleatorias para las cuales su correlación es cero, tal es el caso de la variable aleatoria a la que se le denomina “ruido blanco”, la cual se le denota por “u”, como se ilustra a continuación: DIAGRAMA 19.- PROCESO ESTOCASTICO DE LA VARIABLE ALEATORIA “RUIDO BLANCO” Elaboró: Daniel Rojas López con base en el Anexo 2. 28 Aquel Proceso Estocástico (conjunto de variables aleatorias), que cumple con estas dos restricciones se le conoce como: Proceso Estocástico Estacionario, el cual será analizado en el contexto de la economía en el Capítulo II. 29 El coeficiente de correlación determina, si dos variables están asociadas en variación, es decir si los valores de una variable tienden a ser más altos o más bajos, para valores más bajos o más altos de la otra variable. 30 La existencia de inercia por parte de los agentes económicos al tomar sus decisiones, así como los retardos entre la decisión tomada y su efecto final, entre otros factores, es lo que se encuentra detrás de esta dependencia. C A P I T U L O I : C O N C E P T O S D E E S T A D I S T I C A M A T E M A T I C A [ 29 ] La variable aleatoria “ruido blanco” puede tomar cualquier valor dentro de los números reales, existiendo sólo dos restricciones: 1) la media (primer momento) de cada una de las variables aleatorias debe ser cero y 2) la varianza (segundo momento) de cada una de ellas debe ser constante, esto implica un supuesto de “identidad” entre cada una de las distribuciones, agregando a estas restricciones el supuesto de “normalmente distribuida” y por último suponiendo que la correlación entre cada variable aleatoria en lo individual con las demás es cero, esto es que son variables aleatorias “independientes”, se puede afirmar que el conjunto de variables aleatorias (Proceso Estocástico), denominado “ruido blanco”, se distribuye “normal, independiente e idénticamente distribuido (niid)”. Lo que también se expresa de la siguiente manera: Para obtener los primeros dos momentos (media y desviación estándar) de esta variable aleatoria, se aplica el operador de valor esperado, para el caso del primer momento: }{ tuE = 0, que es lo que previamente se ha supuesto. Para el caso del segundo momento, varianza, se tiene: 222 }{}){( tt uEuE cuya raíz es la desviación estándar, ( ), lo que es resultado del supuesto que se ha hecho. Por lo que para cada una de la variables aleatorias “u” observadas en t, t-1, t-2, etc. la media es 0 y la varianza es la misma 2 . Combinando lo establecido a partir de la página 22, hasta aquí y dado que para el caso de la variable aleatoria PIB, no se ha supuesto la condición de independencia, se puede inferir que la correlación entre PIBt y PIBt-i, es diferente de cero, con lo que se puede utilizar la información de la variable aleatoria PIBt- i, para conocer el valor que asumirá, la variable aleatoria PIBt, retomando la notación de función que se utilizó en el apartado I.1, lo anterior equivale a: Para i= 03, 02, y 01,
Compartir