Logo Studenta

Material Estadistica II

¡Este material tiene más páginas!

Vista previa del material en texto

MÉTODOS ESTADÍSTICOS
Notas de Clases 
Luis Nava Puente
Tema 1: Inferencia Estadística 
Introducción
Generalmente las poblaciones son demasiado grandes como para poder ser estudiadas en su totalidad. Por lo tanto es necesario tomar de la misma, una muestra lo más representativa posible de forma tal que pueda ser utilizada para sacar conclusiones acerca de dicha población. 
La Inferencia Estadística es el proceso de análisis que consiste en inferir (derivar, inducir) las propiedades de una población en base a la caracterización de la muestra. Este proceso constituye el objetivo primordial de la Estadística.
Dos de los objetivos más importantes en Inferencia Estadística son la estimación por intervalos y la prueba de hipótesis. 
Conceptos Básicos
· Universo Estadístico. Conjunto de individuos o elementos (Personas, Fábricas, Familias, etc) se le denomina Universo Estadístico.
· Población. Colección de todas las posibles mediciones que se pueden hacer de una característica de interés, se le denomina Población Estadística. Una población entonces esta constituida por datos o valores.
· Parámetro. Medida descriptiva de una Población. Es un valor fijo que caracteriza a una población.
· Estadístico. Función que describe las características de una muestra.
· Estimador Puntual. Función de la muestra aleatoria (estadístico) utilizada para aproximar el parámetro. Estadístico que cumple con ciertas propiedades que lo califican como función apropiada para estimar el parámetro.
· Distribución muestral. Distribución de Probabilidad de todos los valores posibles que puede tomar un estadístico. Lista de todos los posibles valores de un estadístico y la probabilidad asociada con cada valor.
· Error estándar de estimación. Desviación estándar de la distribución muestral de un estadístico. Raíz cuadrada de la varianza en la distribución del estadístico
· Estimación. Valor que toma un estadístico par una muestra en particular. Valor numérico específico del estimador.
· 
Teorema Central del Límite. Si representa la media de una muestra de tamaño n tomada de una población con media y varianza , su valor esperado será igual a la media poblacional y su varianza igual a . Al incrementarse el tamaño de la muestra, la distribución muestral de se aproxima a la distribución normal, sin importar la forma de la distribución de la población. Esto es, si el tamaño muestral es lo suficientemente grande se cumple que
Distribuciones de Probabilidad
Enunciaremos aquí un conjunto de distribuciones de probabilidad útiles en Inferencia Estadística. 
· Distribución Normal. Una variable aleatoria X sigue una distribución normal si su función de probabilidad está dada por 
Es la distribución de probabilidad más importante en estadística, fundamentalmente porque muchas variables aleatorias siguen dicha distribución. 
Características de la Distribución Normal.
· Es de tipo continuo.
· Es simétrica.
· 
Su rango es el intervalo . 
· 
Tiene dos parámetros, y .
	
· Distribución Normal Estándar. Una variable aleatoria Z sigue una distribución normal estándar si su función de probabilidad está dada por 
Características de la Distribución Normal Estándar.
· Es de tipo continuo.
· Es simétrica.
· 
Su rango es el intervalo . 
· Su media es cero y su varianza 1.
· 
Distribución Chi Cuadrado. Si son n variables aleatorias independientes e idénticamente distribuidas según la normal estándar, entonces la variable aleatoria , sigue una distribución Chi Cuadrado con n grados de libertad, lo que se denota 
Características de la Distribución Chi Cuadrado.
· Es de tipo continuo.
· Es asimétrica positiva.
· 
Su rango es el intervalo . 
· Tiene un solo parámetro, sus grados de libertad. 
· Su media es n y su varianza 2n.
· Para cada valor de n hay una distribución Chi Cuadrado diferente.
· A medida que n crece, la distribución Chi Cuadrado se aproxima a la normal.
Aplicaciones de la Distribución Chi Cuadrado.
La distribución Chi Cuadrado será utilizada en esta oportunidad para hacer inferencia acerca de la varianza poblacional y en la prueba de independencia. 
· 
Distribución t de Student. Sean y , variables aleatorias independientes. La variable aleatoria sigue una distribución t de Student con n grados de libertad, lo que se denota 
Características de la Distribución t de Student.
· Es de tipo continuo.
· Es simétrica.
· 
Su rango es el intervalo . 
· Tiene un solo parámetro, sus grados de libertad. 
· 
Su media es cero y su varianza .
· Para cada valor de n hay una distribución t diferente.
· A medida que n crece, la distribución t se aproxima a la normal.
Aplicaciones de la Distribución t.
En este curso la distribución t será utilizada para hacer inferencia estadística acerca de una y dos medias poblacionales. 
· 
Distribución F de Snedecor. Sean y , variables aleatorias independientes. La variable aleatoria sigue una distribución F de Snedecor con n y m grados de libertad, lo que se denota 
Características de la Distribución F de Snedecor.
· Es de tipo continuo.
· Es asimétrica positiva.
· 
Su rango es el intervalo . 
· Tiene dos parámetros, n y m. 
· 
Su media es y su varianza .
· Para cada par de valores de n y m, hay una distribución F diferente.
· A medida que n y m aumentan, la distribución F se aproxima a la normal.
Aplicaciones de la Distribución F.
En este curso usaremos la distribución F para hacer inferencia estadística acerca de la diferencia entre varianzas poblacionales, la técnica de análisis de varianza e inferencia estadística en el modelo de regresión.
Estimación por Intervalos
Esta forma de Inferencia Estadística produce un intervalo de valores que tiene una probabilidad conocida de incluir el verdadero pero desconocido valor del parámetro. El intervalo es conocido como intervalo confidencial o de confianza. Cualquier intervalo confidencial esta asociado con un coeficiente confidencial, el cual da la probabilidad de que el intervalo contenga el parámetro.
La estimación por intervalos es una función del estimador puntual y de la distribución de probabilidad asociada con el mismo. 
· 
Estimación por intervalos para . Para obtener estimaciones por intervalo para la media poblacional debemos considerar los siguientes aspectos:
Distribución Poblacional (Normal, Otra)
Conocimiento acerca de la varianza poblacional (Conocida, Desconocida)
Tamaño muestral ()
Si la población es normal y la varianza poblacional es conocida, el estadístico
sigue una distribución normal con media 0 y varianza 1. Este estadístico da origen a la siguiente expresión
la cual constituye un intervalo de confianza del (1-) % para .
Si el tamaño muestral es mayor o igual que 30 y la varianza poblacional es desconocida, se tiene el mismo caso anterior, simplemente sustituyendo a por , su estimador puntual y cuya expresión esta dada por
		
	
Si la población es normal, el tamaño muestral es menor que 30 y la varianza poblacional es desconocida, la expresión
sigue una distribución t con n-1 grados de libertad.
Bajo estas condiciones, una estimación por intervalos del (1-) % para , esta dada por
 
Existen dos interpretaciones generalmente utilizadas de un intervalo de confianza.
1. Se tiene un (1-) % de confianza de que el verdadero valor del parámetro este el intervalo obtenido.
2. 
Si se construyen todos los intervalos de confianza, el (1-) % de ellos contendrán el verdadero valor del parámetro.
· 
Estimación por intervalos para . Para obtener estimaciones por intervalo para la diferencia entre medias poblacionales debemos considerar los siguientes aspectos:
Tipos de Muestras (Dependientes, Independientes)
Distribuciones Poblacionales (Normales, Otras)
Conocimiento acerca de la varianzas poblacionales (Conocidas, Desconocidas)
Tamaño muestral ()
Si las poblaciones son normales, las varianzas poblacionales son conocidas y las muestras son independientes, el estadístico
sigue una distribución normal con media 0 y varianza 1. Este estadístico da origena la siguiente expresión
la cual constituye un intervalo de confianza del (1-) % para y donde está dada por
Si los tamaños muestrales son mayores o iguales que 30, las varianzas poblacionales son desconocidas y las muestras son independientes, se tiene el mismo caso anterior, simplemente sustituyendo a por , su estimador puntual y cuya expresión esta dada por
Ahora bien, si las poblaciones son normales, los tamaños muestrales menores que 30 y las varianzas poblacionales desconocidas, la expresión
Sigue una distribución t con grados de libertad, donde las expresiones de y dependerán de la suposición que se haga respecto de las varianzas. De esta forma se tiene que:
· 
Bajo el supuesto de varianzas iguales, , se tiene que 
· 
Bajo el supuesto de varianzas diferentes, , las expresiones de y están dadas por
En el caso de muestras dependientes o apareadas, el procedimiento consiste en construir una nueva variable, la cual mide la diferencia entre los elementos de las dos muestras, es decir, , donde y representan las observaciones correspondientes a las muestras 1 y 2 respectivamente. A se le considera una muestra de tamaño n tomada de una población normal con media y varianza desconocida . De esta forma se tiene que los estimadores puntuales de y están dados por
Luego la variable aleatoria 
sigue una distribución t con n-1 grados de libertad. De aquí que la expresión 
constituye un intervalo de confianza del para . 
Prueba de Hipótesis Estadística 
Es la norma que permite probar una suposición acerca del valor de un parámetro. La prueba de hipótesis es una herramienta efectiva para obtener la información necesaria para reducir el nivel de incertidumbre en el proceso de toma de decisiones.
Su propósito es determinar si el valor supuesto para un parámetro, debe considerarse valido en base a las evidencias muéstrales. 
 
La suposición hecha sobre el parámetro se denomina hipótesis nula (H0) y esta es probada contra otra hipótesis, la cual establece lo contrario y recibe el nombre de hipótesis alternativa (H1). 
La hipótesis nula debe darse siempre en términos de igualdad ya que la distribución del estadístico de prueba depende de esto. La hipótesis alternativa se adapta de acuerdo a los objetivos del problema.
En base a los datos muéstrales, la hipótesis nula es RECHAZADA o NO RECHAZADA. NUNCA SE PUEDE ACEPTAR LA HIPÓTESIS NULA COMO VERDADERA. No rechazar H0 quiere decir que no hay suficientes evidencias desde el punto de vista estadístico, para rechazarla. Al hacer una prueba de hipótesis, se supone que la hipótesis nula es verdadera, hasta que la evidencia muestral indique lo contrario. 
Pasos básicos de una prueba de hipótesis
1. 
Formular la hipótesis nula y la hipótesis alternativa.
2. Especificar el nivel de significación (). Probabilidad de rechazar H0 siendo verdadera. Debe fijarse antes de comenzar la prueba. 
3. Establecer el estadístico de prueba. Función del estimador puntual, cuya distribución es conocida.
4. Establecer la región critica. Conjunto de valores del estadístico de prueba que permiten rechazar H0. Se debe establecer el valor o valores críticos.
5. Cálculos. Evaluación del estadístico de prueba en base a los resultados muéstrales. 
6. Toma de decisión y conclusiones. La toma de decisión es el procedimiento mediante el cual se rechaza o no, la hipótesis nula y las conclusiones son la descripción de la decisión tomada en términos del problema.
Tipos de error en las pruebas de hipótesis
Cuando realizamos una prueba de hipótesis podemos cometer los siguientes tipos de errores:
· Error tipo I. Es el error que se comete al rechazar H0 cuando es verdadera. La probabilidad de cometer este tipo de error es , el nivel de significación.
· Error tipo II. Es el error en el que se incurre cuando no rechazamos H0 siendo falsa. Su probabilidad se simboliza como . 1- indica que tan bien trabaja el test y se le conoce como la potencia del test. 
Tanto como deben ser pequeños
Es importante determinar los valores del nivel de significación y del tamaño de la muestra mediante un análisis cuidadoso del problema.
· 
Prueba de hipótesis para . Igual que en el caso de la estimación por intervalos, al realizar una prueba de hipótesis para la media poblacional, debemos considerar la distribución de la población, el tamaño muestral y el conocimiento o no de la varianza poblacional. De esta forma y siguiendo el procedimiento establecido arriba, podemos establecer el mecanismo de prueba de una hipótesis sobre la media poblacional.
1. 
		
	
	
	
	
	
	
2. Fijar el nivel de significación. Para fijar el nivel de significación se debe hacer un análisis cuidadoso del problema. El nivel de significación debe ser fijado antes de realizar los cálculos.
3. Estadístico de prueba. Existen dos posibles formas para el estadístico de prueba, dependiendo de aspectos arriba señalados y que deben ser considerados a la hora de establecer el estadístico de prueba. Las dos posibilidades son: 
;		
4. Región critica. La región critica esta definida por la hipótesis alternativa. De esta forma se tienen tres tipos de test.
 
	
 
	
	Test de dos colas
	
	
	Test de cola izquierda
	
	
	Test de cola derecha
 
5. Cálculos. 
;		
La distribución del estadístico de prueba se mantiene bajo la hipótesis nula cierta.
6. Toma de decisión y conclusiones. La toma de decisión depende del tipo de test que se tenga.
Test de dos colas. Rechazo H0 si y solo si 
 o ; 		 o 
Test de cola derecha. Rechazo H0 si y solo si
;		 
Test de cola izquierda. Rechazo H0 si y solo si
;		 
· 
Prueba de hipótesis para . Caso: Muestras Independientes. Al realizar una estimación por intervalos para la diferencia entre medias poblacionales, es necesario caracterizar el problema. De la misma forma, al realizar una prueba de hipótesis para la diferencia entre medias poblacionales, debemos considerar las distribuciones de las poblaciones, los tamaños muestrales y el conocimiento o no de las varianzas poblacionales
1. 
		
	
	
	
	
	
	
2. Fijar el nivel de significación. 
3. Estadístico de prueba. Existen las siguientes dos posibles formas para el estadístico de prueba: 
;		
4. Región critica. La región critica esta definida por la hipótesis alternativa . De esta forma se tienen tres tipos de test.
 
	
 
	
	Test de dos colas
	
	
	Test de cola izquierda
	
	
	Test de cola derecha
 
5. Cálculos. 
;		
6. Toma de decisión y conclusiones. La toma de decisión depende del tipo de test que se tenga.
Test de dos colas. Rechazo H0 si y solo si 
 o ; 		 o 
Test de cola derecha. Rechazo H0 si y solo si
;		 
Test de cola izquierda. Rechazo H0 si y solo si
;		 
· 
Prueba de hipótesis para . Caso: Muestras Dependientes. Si se tiene el caso de muestras dependientes, entonces el procedimientos es el siguiente: 
1. 
		
	
	
	
	
2. Fijar el nivel de significación. 
3. Estadístico de prueba. 
4. Región critica. La región critica esta definida por la hipótesis alternativa . De esta forma se tienen tres tipos de test.
 
	
 
	
	Test de dos colas
	
	
	Test de cola izquierda
	
	
	Test de cola derecha
 
5. Cálculos. 
6. Toma de decisión y conclusiones. La toma de decisión depende del tipo de test que se tenga.
Test de dos colas. Rechazo H0 si y solo si 
	 o 
Test de cola derecha. Rechazo H0 si y solo si
	 
Test de cola izquierda. Rechazo H0 si y solo si
	 
TEMA 2: Análisis de Varianza 
2.1. INTRODUCCIÓN
Denominado también diseño de una forma o vía de clasificación. Es un diseño útil para describir un experimento en el que se desean comparar k tratamientos (niveles de un factor), donde las unidades experimentales son homogéneas y los tratamientos son asignados en forma completamente aleatoria a estas unidades experimentales.
Supóngase que tenemos N unidades experimentales homogéneas y k tratamientos. Sean las N unidades experimentales particionadas aleatoriamente (conigual probabilidad) en k conjuntos de tamaño . Sean los k tratamientos asignados a los k conjuntos de forma tal que el j-ésimo tratamiento es aplicado a cada una de las unidades experimentales en el j-ésimo conjunto. Este procedimiento define un diseño completamente aleatorizado.
Dentro de las ventajas del diseño completamente aleatorizado se encuentran:
1. Es completamente flexible. Puede usarse con cualquier número de tratamientos y de réplicas. El número de replicaciones puede variar de tratamiento a tratamiento, aunque esto no se debe hacer sin una buena razón, ya que si el diseño es balanceado (el mismo número de réplicas por tratamiento), la prueba estadística es relativamente insensible a pequeñas violaciones del supuesto de igualdad de varianzas y por otro lado, la potencia del test esta maximizado si las muestras son de igual tamaño. 
2. El análisis estadístico es fácil de llevar a cabo aún si el diseño no es balanceado, si el error difiere de tratamiento a tratamiento y si los diversos tratamientos poseen varianzas distintas, lo cual se conoce como falta de homogeneidad (heterogeneidad) del error experimental. Bajo estas condiciones, las pruebas de hipótesis y la construcción del intervalo de confianza deben conducirse con un cuidado especial cuando hay heterogeneidad de la varianza.
3. La sencillez del análisis no se pierde si algunas unidades experimentales o tratamientos enteros faltan o se descartan. En este tipo de diseño, la información que se pierde debido a observaciones faltantes es mínima con relación a la sufrida por otros diseños. El número de grados de libertad para estimar el error experimental es máximo, lo que incide en un aumento en la precisión del experimento. Esto resulta significativamente importante en experimentos pequeños, es decir, en aquellos en los que se cuenta con pocos grados de libertad para el error experimental.
Como la aleatorización no tiene restricciones, el error experimental incluye toda la variación entre las unidades experimentales excepto, la debida a los tratamientos. Esto representa la principal desventaja del diseño completamente aleatorizado, lo cual se traduce en ineficiencia. En muchas situaciones es posible agrupar las unidades experimentales de modo que la variación entre las unidades de un mismo grupo sea menor que la variación entre las unidades de diferentes grupos. Ciertos diseños sacan ventaja de tal agrupamiento, ya que excluyen la variación del error experimental entre grupos y aumentan la precisión del experimento.
A pesar de lo expuesto anteriormente, la aleatorización completa resulta ser el procedimiento obvio en muchos tipos de experimentos de laboratorio, en los que una cantidad de material está completamente mezclada y luego se divide en porciones pequeñas para formar las unidades experimentales a los cuales se asignan los tratamientos en forma aleatoria o, en experimentos con animales y plantas con condiciones ambientales muy parecidas.
Ejemplo
Supongamos que deseamos analizar el tiempo de coagulación para muestras de sangre tomadas de animales sometidos a cuatro diferentes drogas A, B, C y D. Las drogas fueron aplicadas aleatoriamente a los animales. Queremos entonces, medir el efecto de las drogas sobre el tiempo de coagulación.
2.2. EL MODELO
La respuesta observada para cada tratamiento es una variable aleatoria y puede ser expresada como la suma de tres componentes, a saber:
· Un componente común 
· Un componente que mide el efecto de tratamientos (efecto de tratamiento)
· Un componente que representa al error aleatorio (término de error aleatorio)
El elemento común es un valor constante presente en todas las observaciones. Todas las observaciones tienen una cantidad que puede ser diferente de tratamiento a tratamiento, el efecto de tratamiento. El error es una cantidad aleatoria que no puede predecirse con anticipación, pero cuyo valor esperado es igual a cero.
El modelo matemático apropiado para describir las observaciones, está dada por:
;	i = 1,2,...,nj , j = 1,2,...,k			(1)
donde:	
: es la i-ésima observación bajo el j-ésimo tratamiento
: es el componente común denominado media general
: es el efecto debido al j-ésimo tratamientos
: es el error aleatorio en la i-ésima observación bajo el tratamiento j
El principal objetivo es el de probar la hipótesis de que todos los tratamientos tienen igual media. El procedimiento estadístico que debe conducirse para probar esta hipótesis es el análisis de varianza de una vía. Este método requiere de los siguientes supuestos:
1. Los errores son estadísticamente independientes.
2. Los errores están normalmente distribuidos con media cero y varianza constante 2
El modelo estadístico propuesto en (1), describe dos situaciones diferentes con respecto al efecto de los tratamientos.
Los k tratamientos pueden ser escogidos a criterio o conveniencia del investigador. En esta situación, se desea probar hipótesis sobre las medias de los tratamientos, y las conclusiones solamente pueden ser aplicadas a los niveles del factor (tratamientos) considerados en el análisis. Este modelo es llamado modelo de efectos fijos.
Si los k tratamientos constituyen una muestra aleatoria de la población de tratamientos, las conclusiones pueden extenderse a la población de tratamientos. Aquí los j son consideradas variables aleatorias. En este caso, las hipótesis serán acerca de la variabilidad de los j. Este modelo es llamado modelo de efectos aleatorios o modelo de componentes de varianza.
El modelo matemático para el caso de efectos aleatorios tiene la misma forma que el modelo de efectos fijos dado en (1) con los supuestos:
1. Los errores son estadísticamente independientes.
2. Los errores están normalmente distribuidos con media cero y varianza constante 2
3. 
Los efectos de tratamientos j son variables aleatorias distribuidas normalmente con media cero y varianza .
4. Los errores y los efectos de tratamientos son independientes.
En la tabla 1, se comparan los modelos de efectos fijos y el de efectos aleatorios. 
TABLA 1
	MODELOS DE EFECTOS FIJOS Y EFECTOS ALEATORIOS
	EFECTOS FIJOS
	EFECTOS ALEATORIOS
	
 es una constante fija
	
 es una variable aleatoria
	
 
	
 N
	
Ho : = 0 j=1,2,...,k
	
 Ho : = 0
	
 
	
 
	
 
	
 
Típicamente los datos en el diseño completamente aleatorizado, se presentan de la siguiente manera:
TABLA 2
	TRATAMIENTOS
	
	j=1
	j=2
	j=3
	...
	j
	...
	j=k-1
	j=k
	
	Y1,1
.
Yn1,1
	Y1,2
.
Yn2,2
	Y1,3
.
Yn3,3
	...
...
...
	Y1j
.
Ynj,j
	...
...
...
	Y1,k-1
.
Yn(k-1),k-1
	Y1,k
.
Ynk,k
	Total
	Y.,1
	Y.,2
	Y.,3
	...
	Y.,j
	...
	Y.,k-1
	Y.,k
	Tamaño muestral
	n1
	n2
	n3
	
	nj
	
	nk-1
	nk
	Media muestral
	
	
	
	
	
	
	
	
2.2.1. MODELO DE EFECTOS FIJOS
Consideremos una distribución normal con media igual a y varianza igual a 2. Además, supongamos que esta población puede ser dividida en k grupos o tratamientos. El j-ésimo tratamiento corresponde a una población con distribución normal con media .j y varianza 2. Supongamos que existe un factor para el cual se consideran tres tratamientos en la cual Yi1, Yi2, Yi3 son las i-ésimas observaciones de los tratamientos poblacionales j = 1, 2, 3. Esto hace posible expresar Yij como la suma de una constante más una variable. Esto es:
 					 (2)
donde ij es el error contenido en Yij
Si comparamos las ecuaciones (1) y (2), podemos observar que el efecto del j-ésimo tratamiento está definido como:
						(3)
De esta manera, no habrá efecto de tratamiento cuando .1 - =.2 - =.3 - = 0. 
Nuestro interés entonces, es probar 
 H0: .1=.2=...=
		 H1:.i .j para al menos un par (i , j) ij
Por otra parte, ó sí n1=...=nk=n
Luego, sustituyendo la ecuación (3) en la ecuación (2) y suponiendo que n1=...=nk=n, es posible reformular el modelo de Análisis de Varianzas (ANDEVA) de efectos fijos como se indica a continuación:i=1,2,...,nj , j=1,2,...,k			(4)
								
La ecuación (3) permite plantear la hipótesis en términos de los efectos de tratamientos j de la siguiente manera:
			H0: 1=2=...=k=0
			H1: j 0 para al menos un j 
En el desarrollo analítico del ANDEVA se necesita calcular:
a. 
El gran total 
b. 
El total para el tratamiento j 
c. 
El número de observaciones 
d. 
La gran media 
e. 
La media del tratamiento j 
De la ecuación (4) se sabe que:
 
luego 				
 			 		 (5)
pero de la ecuación (2) se tiene que:
							 (6)
y de la ecuación (3) se sabe que:
Sustituyendo en (5) las expresiones obtenidas en (3) y (6), se tiene que la desviación total quedaría descompuesta de la siguiente manera:
	 		 (7)
Estas expresiones deben establecerse en funciones basadas en los datos aportados por la Tabla 2 (datos muéstrales). De esta forma:
Luego elevando ambos lados al cuadrado y sumando en i y en j:
De aquí que:
Lo que representa, 
 
Esta última ecuación es la ecuación fundamental del Análisis de Varianza.
SCT : se puede usar como una medida de la variabilidad total de los datos; si se divide la SCT por el número apropiado de grados de libertad (en este caso, N-1), se tendría la varianza muestral de los y´s. La varianza muestral es, por supuesto, una medida estándar de variabilidad.
SCTr: mide en cuanto difieren las medias de los tratamientos unas a otras.
SCE: mide la variación dentro de cada uno de los tratamientos.
En base a estos estadísticos, se obtienen dos estadísticos adicionales, usualmente llamados Medias Cuadráticas o Cuadrados Medios y resultan de dividir cada suma de cuadrados por su correspondiente grados de libertad.
Cuadrado medio de tratamientos 
y,
Cuadrado medio de error 
Los valores esperados de estos cuadrados medios están dados por:
					
Observemos que sí H0:j = 0 j, es verdadera, E(CMTr)=2. Esto es, en este caso se tienen dos estimadores insesgados e independientes de 2, el CMTr y el CME. 
Ahora bien, sabemos que . Además, puede demostrarse que 
2(N-1)				 	 (8)
Si H0 es verdadera, y de acuerdo al teorema de Cochran es posible definir dos estadísticos chi-cuadrados independientes
 
			2(k-1)						(9)
			2(N-k)						(10)
Por lo tanto, 
 		 		 					 	 (11)
sigue una distribución F con (K-1) y (N-k) grados de libertad. 
Estos resultados pueden ser resumidos bajo el formato general de la tabla de ANÁLISIS DE VARIANZA, como se muestra en la tabla 3.
Las fórmulas de cálculo están dadas por:
									(12)
								(13)
y por definición:
 	 			 SCE =SCT – SCTr 					 (14)
TABLA 3
Tabla de Análisis de Varianza 
Diseño Completamente Aleatorizado
	Fuente de Variación
	g.l.
	Sumas de Cuadrados
	Cuadrados Medios
	F
	Entre Tratamientos
	k-1
	SCTr
	CMTr
	
	Dentro de Tratamientos
	N-k
	SCE
	CME
	
	Variación Total
	N-1
	SCT
	
	
Rechazamos sí y solo sí:
· 
, o
· 
El p-value es la probabilidad de los valores de la distribución F superiores a F0.
2.3. ESTIMACIÓN DE LOS PARÁMETROS EN EL MODELO DE EFECTOS FIJOS
De acuerdo al modelo (1), debemos estimar a y a . Bajo este modelo, (caso no balanceado), o , (caso balanceado). 
El método de mínimos cuadrados será utilizado para obtener los estimadores arriba mencionados. Este método no requiere de ningún supuesto distribucional. Para encontrar los estimadores mínimos cuadrados de y j, formamos la suma de cuadrados del error:
					 (22)
Usando la ecuación (1) se tiene que:
luego
			 (23)
Debemos obtener valores de y j , digamos y que minimizan a Q. Los valores apropiados son la solución de las k+1 ecuaciones simultáneas:
				 (24)
		j = 1, 2, ...,k 	 (25)
De (25) se tiene que:
			
	
	
	
	. . .
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	 (26)
	
	
	
	
	
	
	
	
	
	
	
	
+
	
	
Obsérvese que la primera ecuación de (26) puede expresarse como la suma de las otras k ecuaciones. Esto implica que no hay una solución única para ,1,2,...,k. Existen varios métodos que permiten superar esta dificultad. 
Si hacemos uso de la restricción , se obtienen soluciones únicas para 	 y (j=1...,k).	
			 y 		j=1,2,...,k	 (27)
La restricción implica que los efectos de los tratamientos son estimados en forma única como desviaciones de su media.
Cualquier función de los parámetros del modelo que sea una combinación lineal del lado izquierdo de las ecuaciones normales (Ec. 26) es una función estimable. La media del j-ésimo tratamiento es:
Un estimador puntual de podría ser:
Bajo el supuesto de que los errores están normalmente distribuidos en forma independiente, se cumple que cada NID(j, 2/n), y usando el CME como un estimador de 2, un intervalo de confianza del 100(1-)% sobre el promedio del j-ésimo tratamiento, .j , esta dado por:
	o	 si 	 (28)
De la misma forma, un intervalo del 100(1-)% de confianza para la diferencia promedio de dos tratamientos, digamos , sería:
 o si (29)
2.4. COMPARACIÓN DE MEDIAS DE TRATAMIENTO INDIVIDUALES
En algunas investigaciones, sus objetivos o la naturaleza propia del problema indican que debe someterse a prueba la significación de determinados tratamientos o de una combinación de los mismos. Esto es, existen situaciones en las que los tratamiento bajo investigación tienen alguna relación lo cual incide en que unas comparaciones son de más interés que otras. A esto nos referimos como comparaciones a priori o, preplaneadas. 
Ahora bien, si una vez realizado el experimento y analizada la información, rechazamos la hipótesis nula, significa que por lo menos una de las medias de los tratamientos es diferente del resto o, que al menos un efecto de tratamiento difiere significativamente de cero. Sin embargo, el rechazar la hipótesis nula no ofrece ninguna información que permita dar respuesta a la siguiente interrogante; ¿Cuál o cuales medias difieren? 
En esta sección se van a desarrollar procedimientos que permiten en ambas situaciones, probar la significación de algunas comparaciones entre los efectos de tratamientos. Estos procedimientos son:
a. Contrastes Ortogonales: permiten probar si un conjunto de combinaciones lineales independientes de medias difieren significativamente de cero. Procedimiento apropiado para probar la significación de comparaciones a priori.
b. Método de Scheffe: permite comparar cualquiera y todos los posibles contrastes entre medias de tratamientos.
c. Diferencia Mínima Significativa (DMS), Test de Rango de Tuckey, Test de Rango Múltiples de Duncan y Test de Rangos Studentizados de Newman-Keuls, permiten comparar todos los pares de medias de tratamientos.
d. Método de Dunnett’s: permite comparar tratamientos contra un control.
a. CONTRASTES ORTOGONALES
Un contraste es simplemente una combinación lineal de medias poblacionales, .j, de la forma
tal que y donde cj son números reales.
C puede ser expresado también en términos de efectos de tratamientos. Esto es,
					
Los contrastes pueden ser clasificados en contrastes a priori y contrastes a posteriori. Si los contrastes es establecen de acuerdo a los objetivos de la investigación y a la estructura de los tratamientos, entonces se denomina contrastes a priori.
Muchas hipótesis de interés son contrastes y en particular, las hipótesis de comparaciones de efectos de tratamientos o medias de tratamientos lo son. Si deseamos por ejemplo, probar la hipótesis para , es claro que la misma puede expresarse en forma equivalente como Obsérvese que en esta última expresión estamos probando la significación estadística del contraste 
donde , y 
Por lo tanto, probar la hipótesis arriba planteada es equivalente a probar vs. . 
Obsérvese que un estimador para C está dado:
					
donde las medias poblacionales son reemplazadas por las mediasmuéstrales.
Asumiendo que las medias muéstrales de tratamientos son estadísticamente independientes y normalmente distribuidas con medias .j y varianzas 2/nj j=1,2,...,k; entonces sigue una distribución normal con parámetros:
 			y		
Por otro lado, la variable aleatoria , dada por
sigue una distribución normal con media igual a cero y varianza igual a 1
Bajo la hipótesis 	se tiene que,
 N(0;1)
Por lo tanto,
 			 
De esta forma, la expresión 
			 
constituye un intervalo de confianza del para C.
Si el intervalo contiene el cero, se concluye que C es estadísticamente igual a cero. 
Podemos indicar que rechazamos cuando 
Por otro lado, podemos establecer que
 
			 
sigue una distribución F con 1 y N-k grados de libertad. Usando esta ecuación, rechazamos cuando 
De aquí podemos indicar que: 
 
			 (32)
La cantidad 
representa la suma de cuadrados asociada con el contraste, lo cual se denota por .
En la práctica es común contar con más de un contraste de interés. Si cada contraste responde a una interrogante diferente, decimos que los mismos son ortogonales y el procedimiento anterior puede ser utilizado para probar la significación estadística de los mismos.
Dos contrastes, digamos y , definidas como:
			y			
se dice que son ortogonales (estadísticamente independientes) si: 
				 (33)
Si se tienen k tratamientos, entonces se puede construir una infinidad de conjuntos de k-1 contrastes mutuamente ortogonales. Puede demostrarse además que bajo la hipótesis nula j,:
Lo que implica que:
					 (34)
El l-ésimo término de la sumatoria de la ecuación (34) representa la suma de cuadrados asociados al contraste ci. Su valor esperado está dado por 
				 (35)
Bajo cierta se tiene que:
Suponga que después de calcular el estadístico F la hipótesis nula es rechazada. Se puede ahora, usando los resultados obtenidos arriba, probar si el rechazo de H0 es debido a un contraste en particular. Esto es, podemos ahora verificar la hipótesis:
calculando el estadístico F como:
F(1;N-k)
donde .
Lo anteriormente expuesto puede ser incorporado en la tabla de análisis de varianza como se muestra en la tabla 5.
Tabla 5. Tabla de Análisis de varianza para el Diseño
Completamente aleatorizado incorporando la prueba
de los Contrastes Ortogonales.
	Fuente de Variación
	g.l.
	Suma de Cuadrados
	Cuadrados Medios
	F
	Entre tratamientos
	k-1
	
	
	
	
	1
	
	
	
	
	
	
	
	
	
	1
	
	
	
	Error
	N-k
	
	
	
	Total
	N-1
	
	
	
b. METODO DE SCHEFFE
Es uno de los métodos de comparaciones múltiples más general, permite probar todos los posibles contrastes entre medias de tratamientos. Es esencialmente útil en aquellos casos en que la definición de los contrastes se da después de probar la significación del estadístico F asociado con Ho:j =0 j , porque no permite incrementar la probabilidad de cometer error de tipo I. 
Consiste en construir intervalos confidenciales simultáneos del para , . Si el intervalo no contiene al cero, decimos que es estadísticamente significativo.
Recordemos que un estimador de es , cuya distribución es normal con parámetros y varianza
La varianza estimada está dada por 
De acuerdo a lo expuesto anteriormente, podemos concluir que los intervalos confidenciales simultáneos del para , , tienen la forma:
Podemos igualmente, usar la siguiente regla para rechazar : Rechazamos si y solo si
TEMA 3. Análisis de Regresión y Correlación Lineal Simple
Introducción.
En una población multivariante surge el problema de descubrir y medir la posible asociación entre variables.
Para enfrentar el mencionado problema, surgen dos procedimientos; ANÁLISIS DE REGRESIÓN Y ANÁLISIS DE CORRELACIÓN. 
Uno de los principales objetivos del Análisis de Regresión, además de identificar y explicar el comportamiento de un fenómeno bajo estudio, es el de hacer predicciones acerca del comportamiento de las variables internas en la población. 
En Economía el Análisis de Regresión es usado para estimar relaciones funcionales cuantitativas entre variables dependientes y una o más variables independientes, cuando esta relación es estadística.
Relaciones entre variables.
Análisis de Regresión.
El análisis de regresión estudia la dependencia de una variable, llamada variable dependiente o explicada, en una o más variables, llamada(s) variable(s) independiente(s) o explicatoria(s). Tiene como objeto estimar el valor promedio de la variable dependiente basada en los valores conocidos y fijos de las variables independientes.
El análisis de regresión involucra la identificación de la relación entre la variable dependiente y las independientes. Un modelo de la relación es propuesto y estimaciones de los parámetros del mismo son usadas para desarrollar una ecuación de regresión estimada. Varias pruebas son hechas para determinar la idoneidad del modelo. Si el modelo es estimado en forma satisfactoria, entonces la ecuación de regresión estimada puede ser usada para hacer predicciones de la variable dependiente dados los valores de las variables independientes.
Los modelos de regresión se pueden clasificar de acuerdo al número de variables independientes y de acuerdo a la forma de la relación entre las variables.
Si hay una sola variable independiente y la misma tiene una relación lineal con Y, entonces se tiene un modelo de regresión lineal simple. Si la relación es no lineal, entonces tenemos un modelo de regresión no lineal simple (ver gráfico 1).
Si hay más de una variable independiente y la relación de las mismas con Y, es lineal, decimos que el modelo de regresión es lineal múltiple. Si relación es no lineal, entonces se tiene un modelo de regresión no lineal múltiple (ver gráfico 2).
Análisis de Regresión
Estudiar
Relaciones
Entre
Variable Independiente y Dependiente
Puede ser
Una relación no lineal
Una relación lineal
 Puede ser
Un modelo de regresión no lineal simple
Un modelo de regresión lineal simple
Gráfico 1
Análisis de Regresión
Estudiar
Relaciones
Entre
Variables Independientes y Dependiente
Puede ser
Una relación lineal
Una relación no lineal
 Puede ser
Un modelo de regresión no lineal múltiple
Un modelo de regresión lineal múltiple
Gráfico 2
Regresión Lineal Simple.
Supongamos que tenemos una población constituida por N elementos. Supongamos además que deseamos estudiar la relación entre la variable independiente (X) y la variable dependiente (Y).
Supongamos además que los N datos, correspondientes a las variables Y y X se presentan como en la tabla 1. 
	
\
	
	
	.....
	
	.....
	
	
	
	
	.....
	
	.....
	
	
	
	
	.....
	
	.....
	
	
	
	
	.....
	
	.....
	
	
	
	
	.....
	
	.....
	
Tabla 1
Donde N = A+B+..........+Z
De acuerdo a la tabla 1, para el valor de , toma A valores y así, para el valor de , toma Z valores. De esta manera, esta tabla nos muestra la distribución de lo0s valores de para cada nivel fijo de . Esto es, la tabla 1 muestra la distribución condicional de dados los valores de .
Al contar con la población, podemos fácilmente calcular las probabilidades condicionales de dado . Esto es,
 									(1)
Con esto se obtiene la tabla 2.
	
	
	
	.....
	
	.....
	
	
	1/A
	1/B
	.....
	1/J
	.....
	1/P
	
	1/A
	1/B
	.....
	1/J
	.....
	1/P
	
	
	
	.....
	
	.....
	
	
	1/A
	1/B
	.....
	1/J
	.....
	1/P
Tabla 2
De esta forma podemos calcular la esperanza condicional de dado , es decir, . 
Podemos decir que es una función de , lo que podemos denotar
									(2)
A la ecuación (2) se le conoce como la ecuación de regresión poblacional de dos variables.
Es nuestra tarea ahora, investigar y determinar la forma de . 
Supongamos que la relación entre y es lineal (ver gráfico 3). Esto es, supongamos que
								(3)
Modelo de Regresión Lineal Simple
Resume la relaciónPermite la estimación 
 Entre dos				 de
Es representadaparámetros
variables
Por
 		 
Son combinadas en				Son desconocidos y
								Estimados a través 
Una ecuación de regresión
Tiene		 Es evaluado a	Puede ser usada 
través			En
											AhoraAnálisis de parámetros
Un término de error
Un componente sistemático
Predicciones
P
Pruebas de diagnostico
Gráfico3
Gráfico 3
Donde y son parámetros desconocidos, llamados coeficientes de regresión. 
Vamos a graficar ahora, los datos de la tabla 1 y la ecuación (3).
					.							.
				.	.						.	.	.
		.	.	.	.
			.	.	.
	.	.	.
.	.	.
.	.	.	.
..	.	.	.		.
.	.		.
Gráfico 3
Podemos observar en el gráfico (3) que los valores de para un dado se ubican alrededor de el valor promedio de para .
Llamemos a la desviación del valor alrededor de su valor esperado . Esto es,
									(4)
De aquí que,
									(5)
 es una variable aleatoria no observable que podemos definir como término de error estadístico. Existen cuatro razones que justifican la presencia de este término.
· Mala especificación. La forma funcional de la relación puede haber sido especificada incorrectamente.
· Errores de medida u observación.
· Variables independientes no incluidas. La variable dependiente puede ser afectada significativamente por variables que no son consideradas en el modelo.
· Naturaleza aleatoria propia del fenómeno. 
Ahora bien, si en la ecuación (5) tomamos el valor esperado en ambos lados, se tiene que;
							(6)
De la ecuación (6) se puede deducir que 
 
Estimación de los Parámetros.
En la práctica, por lo general no contamos con la población, sino con muestras. Por lo tanto la ecuación de regresión poblacional es desconocida y, nuestro siguiente paso será estimarla en base a una muestra .
Estimar la ecuación de regresión poblacional, consiste en estimar los parámetros (coeficientes de regresión) de la misma. De esta forma, podemos escribir la ecuación de regresión muestral como
										(7)
El método usual de estimación para el modelo de regresión es el método de mínimos cuadrados ordinarios (MCO). Este procedimiento puede ser usado para análisis de datos como una técnica puramente descriptiva. Sin embrago si se consideran algunos supuestos el procedimiento tiene una fuerte justificación teórica que le permite producir estimadores que poseen propiedades estadísticas interesantes. Esto hace que el mencionado método sea el apropiado para obtener los mejores estimadores de y .
Vamos a recordar inicialmente la ecuación de regresión poblacional
Los supuestos a los que hicimos referencia arriba son los siguientes:
· 
· 
· 
· 
Ahora bien, en términos de la ecuación (7) el valor observado puede expresarse como
											(8)
Donde es el valor estimado de 
De esta forma, los no son otra cosa que las diferencias entre los valores observados y los estimados de .
El método de mínimos cuadrados exige el ajuste de una línea recta al conjunto de datos tal que la suma de los cuadrados de la distancia de los puntos a la línea ajustada es minimizada.
Supongamos que se han obtenido n pares de observaciones , , , , y que queremos obtener la función de regresión muestral.
De acuerdo al principio de mínimos cuadrados, la mejor línea recta ajustada a este conjunto de datos es la línea , tal que:
			(9) 
 Los valores de y que minimizan la ecuación (9) son:
									 (10)
							 	 (11)
Como podemos observar, estos estimadores son función de la muestra. Si además se cumplen los supuestos arriba mencionados, son estimadores insesgados y tendrán varianzas mínimas. 
La línea ajustada usando estos estimadores tiene las siguientes propiedades:
· 
Pasa por el punto .
· 
El valor medio de es igual al valor medio de .
· 
El valor medio de los es cero.
· 
Los no están correlacionados con los .
· 
Los no están correlacionados con los .
Inferencia Estadística acerca de y .
Para construir intervalos de confianza y hacer pruebas de hipótesis acerca de un parámetro, es necesario contar con un estimador puntual del mismo, así como conocer la distribución del mencionado estimador.
Es necesario por lo tanto, conocer la distribución de y de , para poder entonces obtener estimaciones puntuales y realizar pruebas de hipótesis sobre y .
Se puede demostrar que los estimadores mínimos cuadrados son funciones lineales de los . Este término es una variable aleatoria. Esto implica que las distribuciones muéstrales de y de , dependerán de los supuestos que se hagan sobre la distribución de los .
Supuesto de Normalidad: 
Este supuesto significa que cada sigue una distribución normal con
· 
· 
· 
 
Existen algunas razones que justifican el supuesto de normalidad. Estas son:
· 
Como dijimos anteriormente, los entre otras cosas, representan la influencia sobre la variable dependiente de variables independientes que no son incluidas en el modelo. El Teorema Central del Limite dice que si existen una gran cantidad de variables aleatorias independientes e idénticamente distribuidas , por lo general, la distribución de suma es asintóticamente normal. Una variante del Teorema Central del Limite, indica que aunque el número de variables no sea muy grande o si no son estrictamente independientes, su suma se puede distribuir según una normal.
· 
Bajo el supuesto de normalidad, el fácil obtener las distribuciones de los estimadores. Esto debido a que la combinación lineal de variables aleatorias normales es normal. De acuerdo a esto y siguen una distribución normal. Esto es,
Donde:
					 			 (12)
							 (13)
Sean las variables
								 (14)
		
variables aleatorias con distribución normal estándar. Estas expresiones son validas si es conocida. Rara vez esto sucede. Por lo tanto debe ser estimada por y
;	
De aquí se tiene que las ecuaciones (13) y (14) se transforman en
									 (15)
									 (16)
las cuales son variables aleatorias con distribución t-student con n-2 grados de libertad.
Por lo tanto usando las ecuaciones (15) y (16), y la distribución t-student, podemos hacer inferencia acerca de los coeficientes de regresión.
Así,
 					 (17)
De aquí que la expresión
				 (18)
constituye un intervalo de confianza del para .
De la misma forma podemos obtener un intervalo de confianza del para 
				 (19)
TEMA 4: Series de Tiempo
Introducción
 
Todo tipo de organización tiene que hacer planes para el futuro que le permitan sobrevivir y progresar. Esto es, requieren conocer el comportamiento futuro de ciertos fenómenos con el propósito de planificar, prever o prevenir.
 
La planificación exige prever los sucesos que probablemente ocurran en el futuro. La previsión, a su vez, se basa fundamentalmente en lo que ha ocurrido en el pasado. Surge así un nuevo tipo de inferencia estadística, la que se hace acerca del futuro de alguna variable o conjunto de variables basándose en sucesos pasados. La técnica más importante para hacer inferencias sobre el futuro en base a lo ocurrido en el pasado, es el análisis de series de tiempo. Esta técnica puede ser aplicada en distintas áreas del conocimientos, tales como, economía, demografía, marketing, etc.
Uno de los problemas fundamentales que intenta resolver las series de tiempo es el de predicción. Esto es, dado una serie , nuestros objetivos de interés son describir el comportamiento de la serie, investigar el mecanismo generador de la serie temporal, buscar posibles patrones temporales que permitan predecir apropiadamente su futuro.
 
Lo anteriormente expuesto implica entonces, construir un modelo para explicar la estructura y prever la evolución de una variable que observamos a lo largo del tiempo. La variables de interés puede ser macroeconómica, microeconómica, física o social. 
Algunos ejemplos de series de tiempo se muestran en la tabla 1.
Tabla 1. Ejemplos de Series de TiempoSeries De Tiempo
	Ejemplos
	 
 
1. Series económicas:
	- Tasas de desempleo
- Tasa de inflación
- Índice de precios, etc.
	 
 
2. Series Físicas:
	- Meteorología
- Cantidad de agua caída
- Temperatura máxima diaria
- Velocidad del viento (energía eólica)
	3. Geofísica: 
	- Series sismologías
	 
4. Series demográficas:
 
	- Tasas de crecimiento de la población
- Tasa de natalidad, mortalidad
- Resultados de censos poblacionales
	5. Series de marketing:
	- Series de demanda, gastos, ofertas 
	6. Series de telecomunicación: 
	- Análisis de señales
	7. Series de transporte:
	- Series de tráfico 
 
Definición de Series de Tiempo
En muchas áreas del conocimiento las observaciones de interés son obtenidas en instantes sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales, semestrales o bien en forma continua.
Llamamos Serie de Tiempo a un conjunto de mediciones de cierto fenómeno o experimento registradas secuencialmente en el tiempo. Estas observaciones serán denotadas por , donde representa el valor de la variable en el instante , . Si se dice que la serie de tiempo es discreta y si se dice que la serie de tiempo es continua. Cuando las observaciones se hacen en un periodo de tiempo constante para todo i = 1,...,n, se dice que la serie es equiespaciada, en caso contrario se denomina no equiespaciada. Aquí trataremos series de tiempo discretas, equiespaciadas.
  
Análisis de una Serie de Tiempo
Procedimiento que permite la identificación y separación de los diversos factores o componentes relacionados con el tiempo y que influyen sobre la variable . A estos factores se les denomina componentes de la serie.
El Análisis de series de tiempo se fundamenta en el supuesto es que los componentes que han influido en el periodo bajo estudio, se mantendrán en forma similar en el futuro.
Objetivos en el Análisis de una Serie de Tiempo
Sus principales objetivos son:
· Identificar y aislar los componentes de la serie
· Hacer predicciones del comportamiento futuro de la serie en base a las estimaciones de sus componentes.
 
Pasos en el Análisis de una Serie de Tiempo
 
1. Graficar la serie. Esto nos permite detectar las componentes esenciales de la serie así como la presencia de datos atípicos. Esto es, el gráfico de la serie permitirá:
 
· Detectar Outlier: se refiere a puntos atípicos de la serie. Un outliers es una observación de la serie que corresponde a un comportamiento anormal del fenómeno (sin incidencias futuras) o a un error de medición.
 
Si se concluye que un valor determinado es un outlier, el mismo debe ser omitido o reemplazado por otro valor antes de analizar la serie.
 
Por ejemplo, en un estudio de la producción diaria en una fabrica se presentó la situación mostrada en la figura 1:
Figura 1
Los dos puntos señalados en los círculos parecen representar un comportamiento anormal de la serie. Al investigar estos puntos se determino que correspondían a dos días de paro, lo que naturalmente afectó la producción en esos días. El problema fue solucionado eliminando estos valores e interpolando.
 
· Permite detectar tendencia: Movimiento regular de la serie a largo plazo. La tendencia representa el comportamiento predominante de la serie. Esta puede ser definida como el cambio de la media a lo largo de un periodo (ver figura 2).
· Permite detectar variación estacional: Movimiento de la serie que se repite año tras año en los mismos trimestres, meses, semanas, días o cualquier otro subperíodo del año. La variación estacional representa un movimiento periódico de la serie de tiempo (ver figura 3).
Matemáticamente, podemos decir que la serie representa variación estacional si existe un número s tal que .
Las principales fuerzas que causan una variación estacional son las condiciones del tiempo.
· Permite detectar variaciones irregulares (componente aleatoria): Movimientos que no presentan ninguna regularidad, provocados por eventos especiales o por la aleatoriedad. Los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo distintos a la tendencia, variaciones estaciónales y fluctuaciones cíclicas.
· Permite detectar variación cíclica: Movimientos repetitivos de la serie que varían en longitud. Su duración por lo general es de 2 a 10 años.
Figura 2
 
Figura 3
 
Modelos de Series de Tiempo
Un modelo clásico para una serie de tiempo, supone que una serie puede ser expresada como la suma o el producto de cuatro componentes o factores: 
La tendencia (T)
Las variaciones estaciónales (E)
Las variaciones cíclicas (C) y
Las variaciones irregulares o término de error aleatorio (I)
Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas aproximaciones a las verdaderas relaciones, entre los componentes de los datos observados. Estos son:
 
1. Aditivo: 
 
2. Multiplicativo: 
 
3. Mixto: 
 
Un supuesto usual es que I es una componente aleatoria o ruido blanco con media cero y varianza constante.
 
Un modelo aditivo (1), es adecuado, por ejemplo, cuando la estacionalidad no depende de otras componentes, como T. Sí el caso es lo contrario, la estacionalidad varía con la tendencia, el modelo más adecuado es un modelo multiplicativo (2). Es claro que el modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema que se presenta, es modelar adecuadamente las componentes de la serie.
 
La figura 4 muestra patrones que podría seguir una serie representada por los modelos (1), (2) y (3).
 
Figura 4
El modelo multiplicativo es el más empleado y a él hacemos referencia en este documento.
 
Estimación de la Tendencia
 
Para obtener y estimar la tendencia existen varios métodos, los más usuales son:
· Método Gráfico
· Método de las Medias Móviles
· Método de Alisado Exponencial
· Método Analítico.
De los métodos mencionados anteriormente el más usado es el analítico. Este método consiste en construir una función matemática que se ajuste lo mejor posible a los valores de la variable dependiente. Se supone que entre los valores de y el tiempo existe una relación de dependencia causal unilateral que puede ser expresada como
donde es la parte exacta o sistemática de la variable dada por una función matemática y un término de error aleatorio. 
Esa función matemática se selecciona de forma tal que describa de la mejor manera la tendencia de la serie.  
Una vez seleccionada la función matemática a ser usada, empleamos el método de mínimos cuadrados para estimar los parámetros involucrados en la misma. 
Supongamos que la función seleccionada es la de la línea recta
Debemos estimar entonces A y B. Estos estimadores se obtienen al resolver las ecuaciones
La variable independiente X en este caso se refiere a periodos de tiempo, y esto produce problemas a la hora de realizar los cálculos. Se debe por lo tanto, hacer un cambio apropiado que permita resolver esta dificultad. Si se tiene un número impar de datos se asigna al periodo central el valor (periodo origen) y se numeran los restantes así . La unidad temporal a considerar es el periodo completo (año, semestre, mes, etc). Si se tiene un número par de datos se asignan los valores –1 y 1 a los dos periodos centrales y se numeran los restantes así . La unidad temporal a considerar es la mitad del periodo (año (semestre), semestre (trimestre), mes (15 días), etc). El periodo origen en este caso es, o bien la primera mitad del periodo al cual se le asigno el valor 1 o, la segunda mitad del periodo al cual se le asigno el valor –1.
Obsérvese que en los dos casos se cumple que 
De esta forma, los estimadores de A y B están dados por 
Ejemplo 1: En la tabla 1 se presentan los datos trimestrales de unidades habitacionales iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hasta el segundo trimestre de 1972.  
Tabla 1: Nuevas unidades habitacionales comenzadas en los Estados Unidos del 3º trimestre de 1964 al 2º trimestre de 1972 (en miles de unidades). 
	AñoI
	II
	III
	IV
	Total Anual
	1964
	 
	 
	398
	352
	 
	1965
	283
	454
	392
	345
	1,474
	1966
	274
	392
	290
	210
	1,166
	1967
	218
	382
	382
	340
	1,322
	1968
	298
	452
	423
	372
	1,545
	1969
	336
	468
	387
	309
	1,500
	1970
	264
	399
	408
	396
	1,467
	1971
	389
	604
	579
	513
	2,085
	1972
	510
	661
	 
	 
	 
Fuente: U.S. Department of Comerse, Survey of Current Bussiness.
 
Tabla 2: Cálculo de la tendencia de las viviendas comenzadas en los Estados Unidos del 3º trimestre de 1964 al 2º trimestre de 1972 
	Año trimestre
	X
	Y
	Tendencia
	1964: 3
	-31
	398
	291,668
	4
	-29
	352
	298,012
	1965: 1
	-27
	283
	304,356
	2
	-25
	454
	310,7
	3
	-23
	392
	317,044
	4
	-21
	345
	323,388
	1966: 1
	-19
	274
	329,732
	2
	-17
	392
	336,076
	3
	-15
	290
	342,42
	4
	-13
	210
	348,764
	1967: 1
	-11
	218
	355,108
	2
	-9
	382
	361,452
	3
	-7
	382
	367,796
	4
	-5
	340
	374,14
	1968: 1
	-3
	298
	380,484
	2
	-1
	452
	386,828
	3
	1
	423
	393,172
	4
	3
	372
	399,516
	1969: 1
	5
	336
	405,86
	2
	7
	468
	412,204
	3
	9
	387
	418,548
	4
	11
	309
	424,892
	1970: 1
	13
	264
	431,236
	2
	15
	399
	437,58
	3
	17
	408
	443,924
	4
	19
	396
	450,268
	1971: 1
	21
	389
	456,612
	2
	23
	604
	462,956
	3
	25
	579
	469,3
	4
	27
	513
	475,644
	1972: 1
	29
	510
	481,988
	2
	31
	661
	488,332
 
Los resultados parciales están dados por 
;	;	;	
Luego las estimaciones de A y B están dadas por 
Entonces, la recta de tendencia estimada es 
A partir de la tabla 1 y aplicando la formula anterior, se obtienen las cifras mostradas en la última columna de la tabla 2, lo cual representa la tendencia estimada para los periodos de tiempo bajo estudio. 
 
La figura 5 muestra gráficamente la recta de tendencia ajustada a los datos trimestrales de la tabla 2. 
Figura 5
 
Como en el Análisis de Regresión, a y b deben ser interpretados. El valor a representa el valor medio de para el periodo origen. El valor b representa el cambio en el valor medio de por unidad de tiempo.
, representa el número medio de viviendas iniciadas para el periodo origen ( primer mes y medio del tercer trimestre del año 1968)
, indica el incremento que se da cada mes y medio en el número medio de viviendas iniciadas.
Estimación de las Variaciones Estaciónales
La estimación de la estacionalidad no sólo se realiza con el fin de incorporarla al modelo para obtener predicciones, sino también con el fin de eliminarla de la serie para visualizar otras componentes como tendencia y componente irregular que se pueden confundir en las variaciones estaciónales.
El procedimiento que se usa con mayor frecuencia para estimar esta componente es el método de la razón al promedio móvil. Un promedio móvil de periodo adecuado, capta las componentes tendencia y variaciones cíclicas, . 
Para calcular las variaciones estaciónales debemos proceder de la siguiente manera:
1. Obtener un promedio móvil de m periodos (PM). El número de periodos m, a ser utilizados en el cálculo de estos promedios es el número de periodos en que se divide el año. Esto es, si se cuenta con observaciones mensuales, debemos obtener promedios móviles de orden 12. Si se tienen datos trimestrales, los promedios móviles a utilizar deben ser de orden 4.
2. 
Obtener el cociente . Al suponer que la serie es el producto de los cuatro componentes y como se dijo anteriormente, los PM es una estimación de , este cociente produce una estimación de los componentes estaciónales e irregulares, es decir
A E*I se le denomina variaciones estaciónales especificas.
3. Eliminar las variaciones irregulares. Debemos luego eliminar de las variaciones estaciónales especificas hasta donde sea posible las variaciones irregulares. Si promediamos para cada periodo las variaciones estaciónales especificas y si la suma de estos promedios es igual a m, entonces ellos representan las estimaciones de las variaciones estaciónales. En caso contrario estos promedios deben ser ajustados de la siguiente manera
Para su interpretación, las variaciones estaciónales se expresan en porcentaje y reciben el nombre de índices estaciónales. Si este índice esta por encima de 100 se dice que hay un incremento en . En caso contrario, se dice que hay una disminución.
 
Ejemplo 2: Para los datos del ejemplo 1, estimar las variaciones estaciónales, obtener e interpretar los índices estaciónales. 
En la tabla 3, el promedio móvil de cuatro trimestres para el primer trimestre de 1965 se obtiene sumando los valores del tercer y cuarto trimestres de 1964 y el primero y segundo trimestres de 1965 y dividiendo luego la suma por 4. El promedio para el segundo trimestre de 1965 se obtiene sumando los valores del cuarto trimestre de 1964 con los del primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. Así pues, para cada promedio sucesivo, se resta el trimestre que viene primero y se suma el último siguiente.
 
La columna 4 de la tabla 3 muestra los promedios móviles de cuatro trimestres obtenidos. El promedio móvil no elimina las fluctuaciones muy acentuadas de la serie, pero reduce sustancialmente la amplitud de las variaciones de los datos originales.
 
Si en el cálculo de los promedios móviles participa un número impar de períodos, el proceso será sencillo, dado que el número de períodos antes y después del período para el cual se calcula el promedio son iguales. Si el número de periodos es par, como en el ejemplo, no se puede utilizar el mismo número de períodos antes y después de un periodo especificado. Por tanto, el promedio móvil ha de quedar a mitad de camino entre los valores de dos períodos consecutivos y no se relaciona con ningún período. 
Tabla 3: Cálculo del Promedio Móvil centrado de cuatro trimestres para los datos del ejemplo 1 
	Año por trimestre
	Datos Originales Y
	Total Móvil en cuatro trimestres
	Promedio Móvil de cuatro trimestres
	Promedio Móvil Centrado de cuatro trimestres (T*C)
	(1)
	(2)
	(3)
	(4)
	(5)
	1964: 3
	398
	 
	
	
	4
	352
	 
	
	
	1965: 1
	283
	1.487
	371,75
	371
	2
	454
	1.481
	370,25
	369,375
	3
	392
	1.474
	368,5
	367,375
	4
	345
	1.465
	366,25
	358,5
	1966: 1
	274
	1.403
	350,75
	338
	2
	392
	1.301
	325,25
	308,375
	3
	290
	1.166
	291,5
	284,5
	4
	210
	1.110
	277,5
	276,25
	1967: 1
	218
	1.100
	275
	286,5
	2
	382
	1.192
	298
	314,25
	3
	382
	1.322
	330,5
	340,5
	4
	340
	1.402
	350,5
	359,25
	1968: 1
	298
	1.472
	368
	373,125
	2
	452
	1.513
	378,25
	382,25
	3
	423
	1.545
	386,25
	391
	4
	372
	1.583
	395,75
	397,75
	1969: 1
	336
	1.599
	399,75
	395,25
	2
	468
	1.563
	390,75
	382,875
	3
	387
	1.500
	375
	366
	4
	309
	1.428
	357
	348,375
	1970: 1
	264
	1.359
	339,75
	342,375
	2
	399
	1.380
	345
	355,875
	3
	408
	1.467
	366,75
	382,375
	4
	396
	1.592
	398
	423,625
	1971: 1
	389
	1.797
	449,25
	470,625
	2
	604
	1.968
	492
	506,625
	3
	579
	2.085
	521,25
	536,375
	4
	513
	2.206
	551,5
	558,625
	1972: 1
	510
	2.263
	565,75
	
	2
	661
	 
	
	
Este problema se puede resolver calculando un promedio móvil centrado en la serie, lo cual se logra obteniendo primero un promedio móvil centrado de dos trimestres de los promedios móviles ya obtenidos. El primer promedio móvil centrado es la media de los dos primeros promedios móviles de cuatro trimestres, el segundo promedio móvil centrado es la media del segundo y tercer promedio móvil de cuatro trimestres, y así sucesivamente. De esta manera, habrá un número igual de períodos después y antes del periodo especificado para el cual se está calculando el promedio móvil centrado. Los promedios móviles centrados se ven en la columna 5 de la tabla 3.
Tabla 4: Variaciones e índices Estaciónales para los datos del ejemplo 1
	Trim.
	1964
	1965
	1966
	1967
	1968
	1969
	1970
	1971
	1972Promedios
	Var. Est.
	I. Est.
	I
	_
	0,76
	0,81
	0,76
	0,8
	0,85
	0,77
	0,83
	_
	0,8
	0,801
	80,1
	II
	_
	1,23
	1,27
	1,22
	1,18
	1,22
	1,12
	1,19
	_
	1,2
	1,210
	121
	III
	_
	1,07
	1,02
	1,12
	1,08
	1,06
	1,07
	1,08
	_
	1,07
	1,077
	108
	IV
	_
	0,96
	0,76
	0,95
	0,94
	0,89
	0,93
	0,92
	_
	0,91
	0,912
	91,2
Dado que la suma de los promedios dio menor que , se ajustaron de la manera indicada arriba, obteniéndose así las variaciones estaciónales. Por ejemplo, la variación estacional asociada con el primer trimestre es 0.801. Los índices estaciónales se obtienen al multiplicar las variaciones por 100. De esta forma el índice estacional asociado con el segundo trimestre es por ejemplo, 121.
Los índices para el primer y cuarto trimestre muestran una disminución en , mientras que en el segundo y tercer trimestre muestran un incremento. Para el primer trimestre el número de casas iniciadas están por debajo de lo que se espera para ese trimestre en un 19.9% y para el cuarto trimestre en un 8.8%. Para el segundo semestre, el número de casa iniciadas están por encima de lo esperado en un 21% y en el tercero en un 8%.
La Estacionalidad pueden ser usada para hacer pronósticos a corto plazo y para desestacionalizar una serie. Una serie se desestacionaliza dividiendo cada dato de la serie original entre su correspondiente valor de la variación estacional. La columna 5 de la tabla 5 muestra la serie desestacionalizada, es decir, una serie sin efecto estacional. En la siguiente sección ilustraremos como usar la variación estacional para obtener pronósticos. 
Tabla 5: Estimación de los componentes de la serie del ejemplo 1
	
 trimestre
	Y
	Y*
	E
	Ydes
	C*I
	C
	I
	(1)
	(2)
	(3)
	(4)
	(5)
	(6)
	(7)
	(8)
	1964: 3
	398
	291,67
	1,077
	369,545
	1,267
	
	
	4
	352
	298,01
	0,912
	385,965
	1,295
	1,241
	1,044
	1965: 1
	283
	304,36
	0,801
	353,308
	1,161
	1,221
	0,951
	2
	454
	310,7
	1,210
	375,207
	1,208
	1,172
	1,030
	3
	392
	317,04
	1,077
	363,974
	1,148
	1,175
	0,977
	4
	345
	323,39
	0,912
	378,289
	1,170
	1,118
	1,046
	1966: 1
	274
	329,73
	0,801
	342,072
	1,037
	1,057
	0,981
	2
	392
	336,08
	1,210
	323,967
	0,964
	0,929
	1,037
	3
	290
	342,42
	1,077
	269,266
	0,786
	0,804
	0,979
	4
	210
	348,76
	0,912
	230,263
	0,660
	0,738
	0,895
	1967: 1
	218
	355,11
	0,801
	272,160
	0,766
	0,767
	1,000
	2
	382
	361,45
	1,210
	315,702
	0,873
	0,868
	1,006
	3
	382
	367,8
	1,077
	354,689
	0,964
	0,945
	1,021
	4
	340
	374,14
	0,912
	372,807
	0,996
	0,980
	1,017
	1968: 1
	298
	380,48
	0,801
	372,035
	0,978
	0,980
	0,998
	2
	452
	386,83
	1,210
	373,554
	0,966
	0,981
	0,985
	3
	423
	393,17
	1,077
	392,758
	0,999
	0,995
	1,004
	4
	372
	399,52
	0,912
	407,895
	1,021
	1,018
	1,003
	1969: 1
	336
	405,86
	0,801
	419,476
	1,034
	0,998
	1,036
	2
	468
	412,2
	1,210
	386,777
	0,938
	0,943
	0,995
	3
	387
	418,55
	1,077
	359,331
	0,859
	0,865
	0,993
	4
	309
	424,89
	0,912
	338,816
	0,797
	0,807
	0,988
	1970: 1
	264
	431,24
	0,801
	329,588
	0,764
	0,772
	0,990
	2
	399
	437,58
	1,210
	329,752
	0,754
	0,790
	0,953
	3
	408
	443,92
	1,077
	378,830
	0,853
	0,857
	0,996
	4
	396
	450,27
	0,912
	434,211
	0,964
	0,960
	1,004
	1971: 1
	389
	456,61
	0,801
	485,643
	1,064
	1,035
	1,027
	2
	604
	462,96
	1,210
	499,174
	1,078
	1,096
	0,984
	3
	579
	469,3
	1,077
	537,604
	1,146
	1,135
	1,009
	4
	513
	475,64
	0,912
	562,500
	1,183
	1,216
	0,972
	1972: 1
	510
	481,99
	0,801
	636,704
	1,321
	1,207
	1,094
	2
	661
	488,33
	1,210
	546,281
	1,119
	
	
Predicciones
 
Predecir no es más que estimar el futuro utilizando información del presente y del pasado. El conocimiento del futuro nos capacita para planificar, prever o prevenir.
Nuestra idea aquí es estimar en un instante n + k posterior al último dato observado en i =n, k = 1,2,3,4,... (años, trimestre, mes, etc.). Una vez estimada la tendencia y la estacionalidad, pueden realizarse dos tipos de predicciones; una usando la tendencia y otra usando la tendencia y la estacionalidad.
Si se quieren hacer pronósticos haciendo uso de la línea de tendencia estimada, solo hay que reemplazar el valor codificado de X para el periodo en estudio. Por ejemplo, si en el ejemplo 1 deseamos pronosticar el numero medio de casas iniciadas para el segundo trimestre del año 1973, el valor codificado de X es 39. este valor es reemplazado en la ecuación , obteniéndose el siguiente resultado
El pronostico para el número de casas iniciadas para el segundo trimestre del año 1973 tiende a 513.708 millones. 
Si usamos la tendencia y la estacionalidad, podemos obtener pronósticos a corto plazo. Se evalúa la ecuación de tendencia estimada y luego el resultado se multiplica por su variación estacional. En el caso planteado anteriormente el número estimado de casas iniciadas para el segundo trimestre del año 1973 considerando la estacionalidad es
Estimación de las Variaciones Cíclicas
Entre los métodos utilizados para estimar la componente cíclica en una serie de tiempo, el más habitual es el método de los residuos. Su principal uso es el de aislar su efecto de la serie.
El procedimiento es el siguiente:
· Si la unidad de tiempo usada es inferior a un año, el primer paso consiste en desestacionalizar la serie, es decir, se debe obtener una nueva serie sin variaciones estaciónales. Esto se logra dividiendo la serie original entre los valores estimados de las variaciones estaciónales (columna 5 de la tabla 5).
· 
Se estima la tendencia de la serie y posteriormente se elimina de la serie desestacionalizada obteniéndose así, una nueva serie (columna 6 de la tabla 5), denominada relativas cíclicas irregulares.
· Se procede ahora a eliminar el componente irregular. Para ello suele tomarse un promedio móvil de orden 3 o 5, obteniéndose una nueva serie que se considera una estimación de las variaciones cíclicas y que se ha obtenido como residuo luego de eliminados las demás componentes (columna 7 de la tabla 5). 
Estimación de la Variaciones Irregulares
Estas variaciones en el modelo clásico, se consideran producto del azar. Por lo tanto, no se pretende conocer las causas que las producen. Interesa solo demostrar que constituyen una componente aleatoria.
Su estimación se obtiene simplemente dividiendo los datos correspondientes a las relativas cíclicas irregulares entre los correspondientes a las variaciones cíclicas. En la columna 8 de la tabla 5 se presenta esta estimación para los datos del ejemplo 1.
Es necesario probar que estos valores son aleatorios, se distribuyen normal y que no están autocorrelacionados.
Podemos ahora obtener los valores originales multiplicando las estimaciones obtenidas para cada componente. Esto es, 
Por ejemplo,
EJERCICIOS PROPUESTOS
1. Dada la siguiente información referente a los contratos de construcción residencial en miles de millones de bolívares para los meses de Enero a Septiembre de 1992:
	Ener.
	Feb.
	Mar.
	Abr.
	May.
	Jun.
	Jul.
	Agos.
	Sep.
	2,7
	2,7
	3,6
	4,0
	4,4
	4,4
	3,9
	4,7
	4,1
· Calcular los promedios móviles de orden 3
· Calcular los promedios móviles de orden 4
2. La producción de cemento gris en el quinquenio 1978-1982 ( en miles de toneladas) fue la siguiente: 
	Año
	Producción
	1978
	4.153
	1979
	4.257
	1980
	4.351
	1981
	4.470
	1982
	4.721
· Estimar la tendencia, suponiendo que la relación es lineal. Interpretar los coeficientes
· Estimar la tendencia para el periodo 1978-1982
· Predecir la producción de cemento gris para el año 1985. 
3. El dueño de una compañía procesadora de alimentos, está interesado en analizar los datos referentes a las ventas trimestrales ( en millones de bolívares). En la siguiente tabla se presenta la información para los años 1991-1994.
	 Trimestres
	Años
	I
	II
	III
	IV
	1991
	9
	10
	21
	23
	1992
	7
	14
	25
	28
	1993
	13
	16
	26
	31
	1994
	14
	20
	27
	33
· Calcular la recta de tendencia mediante el método de mínimo cuadrados.
· 
Interprete los coeficientes.
· Obtenga los valores de la tendencia.
· Obtenga la predicción de los ingresos para el segundo trimestre de 1995 en base a la tendencia.
4. 
La ecuación de tendencia mensual de la producción de cerveza en millones de barriles de la compañía X, viene dada por: 
Los índices estaciónales asociados con la ecuación de tendencia, son los siguientes:
	Mes
	Índice Estacional 
	Enero
	63.94
	Febrero
	78.18
	Marzo
	86.06
	Abril
	95.62
	Mayo
	101.74
	Junio
	114.07
	Julio
	124.74
	Agosto
	135.47
	Septiembre
	123.24
	Octubre
	110.59
	Noviembre
	99.05
	Diciembre
	150.00
· Interprete los coeficientes de la línea de tendencia.
· Interprete el índice estacional de los meses de Enero, Agosto y Diciembre.
· Estime el valor de Y para el mes de Febrero de 1992, usando la tendencia y variación estacional.
5. Los siguientes datos representan el valor del trigo exportado (en millones de bolívares), por trimestre, en Argentina, durante los años 1990-1994:
	 Trimestres
	Años
	I
	II
	III
	IV
	1990
	1
	2
	5
	3
	1991
	2
	3
	6
	4
	1992
	3
	4
	7
	5
	1993
	4
	5
	8
	7
	1994
	5
	7
	10
	8
· Estimar la línea de tendencia.
· Interpretar los coeficientes de la tendencia estimada.
· Calcular las variaciones y los índices estaciónales.
· Interpretar los índices estaciónales correspondientes al tercer y cuarto trimestre. 
6. Dados los siguientes datos sobre producción de hierro (en toneladas ) trimestralmente, de una planta siderúrgica durante los años: 1986-1990
(Origen: en el primer mes y medio del III Trimestre de 1998 y unidades de X: en ½ trimestre)
	Índices Estaciónales Típicos Trimestrales
	I
	II
	III
	IV
	106,14
	114,30
	95,88
	83,68
· Cuál fue el aumento promedio de la producción en toneladas de esa planta siderúrgica, cada mes y medio?
· Determine el valor de la tendencia para los 4 trimestres de 1991.
· En base a los datos, estime la producción de hierro en toneladas para los 4 trimestres del año 1991, haciendo uso del comportamiento de la serie a largo plazo y de las variaciones estaciónales.
7. Dados los siguientes valores originales de los índices de ausentismo del personal de una compañía durante los 4 trimestres del año 1993 y las medianas de los índices estaciónales específicos: 
	Trimestres
	
	I
	II
	III
	IV
	Valor Originales
	5,3
	6,6
	6,1
	5,4
	Medias
	91,72
	113,53
	104,45
	87,37
· Obtenga los índices estaciónales ajustados de modo que la suma sea igual a 400.
· Interprete los valores ajustados de los índices estaciónales para el I y II trimestre.
· Con base a los índices estaciónales ajustados, elimine la variación estacional para los 4 trimestres del año 1993 e interprete los valores para el I y II trimestre.
8. Si el volumen de ventas de cierta empresa puede ser descrito mediante el modelo multiplicativo: Y = T*X*C*I y además, en el primer trimestre del año pasado, la tendencia estimada de las ventas originales fueron de 69.000 unidades, el índice estacional fue de 96 y el índice cíclico de 120. ¿Qué índice irregular se debería asociar dicho componente?
9. En la elaboración de un índice estacional de las ventas mensuales de gasolina de una importante refinería, por el método de la razón al promedio móvil , se obtuvieron las siguientes medias:
	Mes
	E
	F
	M
	A
	M
	J
	J
	A
	S
	O
	N
	D
	69,0
	67,1
	73,9
	46,7
	36,4
	26,4
	19,1
	124,2
	339,2
	181,5
	92,8
	82,6
· Obtener los índices estaciónales.
· Interpretar los índices internacionales para los meses de Septiembre y Diciembre.
 
10. Dada la siguiente información en relación a los ingresos de una empresa y el valor de la tendencia (ambos en millones de bolívares) para el período 1985-1991.
	Año
	Ingresos
	Valor de la Tendencia
	1985
	8
	8.45
	1986
	9
	10.45
	1987
	11
	12.45
	1988
	13
	14.45
	1989
	15
	16.45
	1990
	18
	18.45
	1991
	20
	20.45
· Obtener la línea de tendencia.
· Estimar el valor de la tendencia para los años 1995 y 1996.
11. El número de clientes que, durante 10 días laborales consecutivos solicitaron asistencia técnica en un servicio de reparación de electrodomésticos fue: 25,34,23,20,25,17,19,31,15,11.
· Obtener los promedios móviles de orden tres.
· Estimar la línea de tendencia. Interpretar los coeficientes.
12. La siguiente tabla presenta las cifras de parados ( en miles) para el período 1990-1994. Los datos se han organizado por trimestres.
Calcular la serie desestacionalizada.
	Trimestres
	1990
	1991
	1992
	1993
	1994
	I
	2.941,30
	2.698,00
	2.510,40
	2.421,10
	2.632,10
	II
	2.899,00
	2.555,10
	2.438,20
	2.391,30
	2.686,00
	III
	2.805,10
	2.468,40
	2.391,70
	2.480,00
	2.788,90
	IV
	2.701,20
	2.521,80
	2.424,30
	2.566,20
	3.047,10
13. 
La tendencia lineal de la serie de ventas anuales totales, en miles de dólares, de una empresa exportadora de aceite de oliva, viene dada por la ecuación: , donde la unidad temporal es un año, el origen temporal 1989, y los índices generales de variación estacional de dicha serie sobre ventas son los de la tabla siguiente. Con esta información estime, las ventas trimestrales de la empresa en el año 1999.
	Trimestres
	Índices
	Primer Trimestre
	120
	Segundo Trimestre
	130
	Tercer Trimestre
	80
	Cuarto Trimestre
	70
	Total Anual
	400
14. Dada la estructura porcentual de la deuda pública del estado de un país en la tabla adjunta:
	Años
	1987
	1988
	1989
	1990
	1991
	1992
	1993
	1994
	1995
	Deuda en % del PIB
	40
	39
	35
	34
	34
	35
	37
	43
	45
· Estimar la tendencia.
· Interpretar los coeficientes.
· Realizar un pronóstico acerca de la deuda pública para el año 2000, haciendo uso de las tendencias y las variaciones estaciónales.
15. Dada la serie de participantes en los juegos Olímpicos de la Era Moderna, determinar la tendencia lineal.
	Orden
	Ciudad
	Año
	Totales
	1
	Atenas
	1986
	280
	2
	París
	1900
	1.006
	3
	San Luis
	1904
	681
	4
	Londres
	1908
	1.999
	5
	Estocolmo
	1912
	2.490
	6
	Suspendidos
	1916
	0
	7
	Amberes
	1920
	2.668
	8
	París
	1924
	3.070
	9
	Ámsterdam
	1928
	2.694
	10
	Los Ángeles
	1932
	1.328
	11
	Berlín
	1936
	3.956
	12
	Suspendidos 
	1940
	0
	13
	Suspendidos
	1944
	0
	14
	Londres
	1948
	4.064
	15
	Helsinki
	1952
	4.879
	16
	Melbourne
	1956
	3.258
	17
	Roma
	1960
	5.348
	18
	Tokio
	1964
	5.081
	19
	México
	1968
	5.423
	20
	Munich
	1968
	5.423
	21
	Montreal
	1976
	6.026
	22
	Moscú
	1980
	5.217
	23
	Los Ángeles 
	1984
	6.797
	24
	Seúl
	1988
	8.465
	25
	Barcelona
	1992
	9.368
· Estimar todos los componentes de la serie. 
· Obtener los índices estaciónales.
· Estimar el número de participantes para los juegos del 2004. 
 TEMA 5: Números Índices
Introducción.
El número índice es un recurso estadístico para medir diferencias entre grupos de datos. 
Los números índices son muy utilizados en la actualidad. En Economía se emplean por ejemplo, para determinar o mejor, analizar el crecimiento económico, la estabilidad de precios, entre otras cosas. 
Definición. 
Son indicadores diseñados para mostrar los cambios en el tiempo o el espacio de una o varias variables. Se definen como porcentajes que expresan variación para un determinado periodo o punto en el espacio, en relación a otro tomado como referencia.
En Economía disponemos de:
· Índice de Precios
· Índice de Cantidades
· Índice de Valor
Índice de Precios. Indicadores que reflejan la variación en el precio o los precios de un artículo o un conjunto de artículos entre dos momentos en el tiempo o dos puntos en el espacio.
Índice de Cantidades. Es un indicador que refleja las variaciones en la cantidad o las cantidades de un artículo o conjunto de artículos entre dos momentos en el tiempo o dos puntos en el espacio.
Índice de Valor. Indicadores que reflejan las variaciones en el valor total de un artículo o un conjunto de artículos entre dos momentos en el tiempo o dos puntos en el espacio.
Generalmente no interesan las comparaciones de precios, cantidades o valores de bienes o artículos individuales, sino de grupos de bienes o artículos.
Los números índices construidos para un solo elemento se denominan

Continuar navegando