Logo Studenta

Notas Optimizacion Dinamica (1)

¡Este material tiene más páginas!

Vista previa del material en texto

Notas sobre Optimización Dinámica
C. Fosco
Mayo 2016 (borrador, versión completa)
Resumen
Estas son una notas a nivel introductorio sobre optimización dinámica e incluyen todo lo
que veremos en este tema. Por favor, si encuentra errores, avíseme.
Índice
Índice 1
1. Introducción 3
1.1. Cálculo de Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Control Óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Programación dinámica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Alcance del curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Control Optimo, tiempo continuo 8
2.1. Problema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Intuición del enfoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Comentarios importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Condiciones necesarias (�condiciones de Pontryagin�) . . . . . . . . . . . . . . . . . 16
2.4.1. T �nito, sin descuento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. T �nito, con descuento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Interpretación (económica) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6. Condiciones su�cientes (con o sin descuento, T �nito) . . . . . . . . . . . . . . . . . 21
2.7. Control óptimo, T in�nito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.7.1. T in�nito, sin descuento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.7.2. T in�nito, con descuento, enfoque de Acemoglu (2009) . . . . . . . . . . . . . 26
2.7.3. T in�nito, con descuento, enfoque de de la Fuente (2000) . . . . . . . . . . . 28
3. Programación Dinámica, tiempo discreto 30
3.1. Introducción al problema básico, T �nito, con descuento . . . . . . . . . . . . . . . . 30
3.2. El Principio de Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1. La Función de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2. El Principio de Optimalidad de Bellman . . . . . . . . . . . . . . . . . . . . . 32
3.2.3. La Ecuación de Bellman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
3.3. El método de �backward induction�para T �nito . . . . . . . . . . . . . . . . . . . . 34
3.4. Horizonte temporal in�nito, con descuento - Formato estacionario . . . . . . . . . . . 35
3.5. Supuestos y teoremas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5.1. De�niciones y teoremas previos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5.2. Condiciones su�cientes, T in�nito, con descuento y en formato estacionario . 37
3.6. Métodos para computar la solución cuando T es in�nito . . . . . . . . . . . . . . . . 38
3.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.7. Brevísima introducción a la Ecuación de Euler . . . . . . . . . . . . . . . . . . . . . 48
4. Comentarios �nales 50
Referencias 50
2
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
Notación, importante: en estas notas se denota (indistintamente) con x0 (t) o
simplemente x0 a la derivada de x con respecto a t (dxdt ). Recuerden que en los textos
se utiliza _x y esta es la notación más común, pero para evitar confusiones (porque el
punto no siempre sale visible), he elegido x0 (naturalmente, si denotamos x0 � dxdt ,
x00 � d2x
dt2
).
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
1. Introducción
Mientras que en optimización estática la dimensión temporal no es relevante, en un problema
de optimización dinámica el tiempo juega un rol importante. Habrá un horizonte temporal desde
un momento inicial hasta un momento �nal y �optimizar� será buscar el mejor curso de acción
durante todo el período considerado. Luego, la �solución�no es un único valor de la/s variable/s,
sino una trayectoria temporal completa.
Los problemas de optimización dinámica pueden ser en tiempo discreto o continuo; con horizonte
temporal �nito o in�nito; el criterio puede ser maximizar o minimizar la función objetivo; las
condiciones �nales pueden ser �jas o más �exibles; dado que estamos considerando un horizonte
temporal, podemos considerar el valor presente (i.e. descontar el paso del tiempo) de la función
objetivo o no; etc.
Ejemplo 1,a (tiempo discreto, sin descuento, T �nito y conocido, y condición �nal dada; Chiang
1992) Una empresa debe transformar una materia prima A y transformarla en el producto
�nal Z. El proceso tiene 5 etapas. En cada etapa hay varias alternativas. ¿Cuál es la elección
óptima de tal manera que el costo total sea mínimo?
La interpretación del esquema anterior es la siguiente:
El estado inicial del sistema es A. En decir, si llamamos xt al estado del sistema, x0 = A.
3
A �nal de la primera etapa, el sistema tiene dos estados posibles, según sea la elección hecha
en dicha etapa, es decir: x1 = B ó x1 = C.
Al �nal de la segunda etapa, x2 = D, ó x2 = E ó x2 = F .
Al �nal de la tercera etapa, x3 = G ó x3 = H.
Al �nal de la cuarta etapa, x4 = I, x4 = J ó x4 = K.
En el momento �nal del proceso, xT = x5 = Z.
Luego, el problema de optimización es elegir, a partir de x0 = A, una senda (x0; x1; x2; x3; x4; x5)
que �llegue�a x5 = Z a un costo mínimo. El costo de cada decisión es igual al número asociado.
Por ejemplo, el costo de transformar A en B es igual a 2. El costo de transformar A en C, 4.
La primera decisión será, por lo tanto, elegir entre AB y AC. Hay dos efectos de la decisión.
El efecto directo, es el costo simple asociado a la etapa considerada (también llamada arco). Es
decir, el costo de esta etapa es 2 ó 4. El efecto indirecto considera el hecho de que después de cada
elección, en general, las opciones siguientes di�eren. Se debe decidir considerando todo el horizonte
temporal. Las diferentes trayectorias posibles que llevan desde A a Z son:
Trayectoria o sendero (path) Costo total
ABDGIZ 17
ABDGJZ 21
ABDHJZ 18
ABDHKZ 21
ABEHJZ 15
ABEHKZ 18
ACEHJZ 14
ACEHKZ 17
ACFHJZ 20
ACFHKZ 23
de donde observamos que el sendero óptimo es ACEHJZ.
El costo de cada etapa está representado por el costo de un arco en el diagrama. Y el costo
total es la suma de todos los arcos.
El costo de cada arco en cada etapa depende del punto de partida y punto �nal. Si tomamos,
por ejemplo, el estado D como inicial en la etapa 3, hay dos arcos, DG, con un costo de 3 y DH, con
un costo de 4. Luego, podemos interpretar aproximadamente que el costo de la etapa dependerá del
punto inicial D y de la dirección hacia donde nos movamos (dentro de las direcciones admisibles).
Esquemáticamente, cada arco se puede representar por el par xt; xt+1 y su costo, V (t; xt; xt+1).
Luego, la función objetivo (costo total) sería J =
P5
t=0 V (t; xt; xt+1).
Ejemplo 2 (tiempo continuo, sin descuento, T �nito y conocido, y condición �nal dada; Chiang
1992) Suponga ahora un problema similar al anterior, pero donde el tiempo es continuo y hay,
por lo tanto, un continuo de estados del sistema. Suponga, además, que hay tres trayectorias
4
admisibles. Esquemáticamente,
En este caso, lo que hemos llamado �arco�en el caso discreto, está representado en cada instante
t por
a. tiempo inicial en el arco t
b. estado inicial x(t) (del arco)
c. dirección del movimiento en el arco x0(t) = dxdt
El valor del arco se representa en forma general por una función V (t; x (t) ; x0(t)) (que genéri-
camente se denomina función de valor instantáneo) y la función objetivo será1
J =
R T
0 V
�
t; x (t) ; x0(t)
�
dt
Vamos a utilizar el esquema general del segundo ejemplo para presentar la intuición de los métodos
de resolución.
Hay tres métodos/enfoques, ordenados por su aparición histórica:
1. Cálculo de Variaciones (Newton, Bernoulli, siglo XVII)
2. Control Óptimo (o aplicación del Principiodel Máximo de Pontryagin, o método derivado del
método estático de Lagrange) (Pontryagin, 1950�s y 1960�s).
3. Programación Dinámica (Bellman, 1957)
En este curso veremos, a nivel introductorio, los métodos (2) y (3) que son los que más se
aplican actualmente en economía (y, además, el método (1) es, en realidad, un caso particular del
método (2)).
1Note que hay un supuesto implícito: en el horizonte temporal el valor total está dado por la �suma�del valor en
cada t. (Aditiva)
5
1.1. Cálculo de Variaciones
Sea el problema de maximizar2 una función objetivo J , con condición inicial y condición �nal
determinadas, es decir
m�ax
fx(t)g
J =
R T
0 V
�
t; x (t) ; x0(t)
�
dt
s:a:
x (0) = x0, x(T ) = xT , con x0; xT ; T dados.
Con el enfoque de Cálculo de Variaciones, se elige directamente la trayectoria de x(t), la variable
de estado del sistema. Dado que la función objetivo depende de x(t) y de x0(t), las condiciones
necesarias de primer orden usualmente involucran una ecuación diferencial de segundo orden. Esta
condición de primer orden se denomina Ecuación Diferencial de Euler y tiene la forma (les
pido aquí un �leap of faith�, ya que no es el objetivo de este curso aprender este enfoque, luego, no
entro en detalles sobre su derivación).
@V
@x
� d
dt
�
@V
@x0
�
= 0, para todo t 2 [0; T ]
Note que ddt
�
@V
@x0
�
=
@( @V@x0 )
@t +
@( @V@x0 )
@x
dx
dt +
@( @V@x0 )
@x0
dx0
dt =
@2V
@t@x0 +
@2V
@x@x0x
0(t) + @
2V
@(x0)2
x00(t)
Luego, si llamamos Vx = @V@x , Vtx =
@2V
@t@x0 , Vxx0 =
@2V
@x@x0 , Vx0x0 =
@2V
@(x0)2
, la ecuación de Euler sería
Vx = Vtx + Vxx0x
0(t) + Vx0x0x
00(t) para todo t 2 [0; T ]
resolviendo esta ecuación diferencial de segundo orden, obtenemos el candidato x(t). (Son condi-
ciones necesarias, por ello no a�rmamos que es la trayectoria óptima. Será óptima para ciertas
propiedades de V ).
Dependiendo de si hay o no otro tipo de restricciones, habrá ecuaciones diferenciales de Euler-
Lagrange.
1.2. Control Óptimo
Este enfoque explicita que la evolución del sistema económico puede ser controlado, por lo menos
parcialmente, por las acciones de quien toma las decisiones.
Para entender esto, recurra al caso discreto: la minimización del costo total se puede entender
como un proceso donde el tomador de decisiones elige, dado el estado del sistema en alguna etapa,
la dirección del arco.
Pero aunque este enfoque apareció después del Cálculo de Variaciones (CV), estrictamente es
un método más general, por lo tanto, planteamos el problema típico de Control Óptimo y luego,
vemos que el enfoque CV es un caso particular.
En este tipo de problemas, se consideran tres tipos de variables.
2Al igual que en optimización estática, si el problema fuera de minimización de J , se puede plantear como maxi-
mizar �J . Por lo tanto, en estas notas, hablaremos de maximización en el entendido de que podemos querer minimizar
o maximizar, dependiendo del problema.
6
a. tiempo t
b. la/s variable/s de estado x(t)
c. la/s variable/s de control u(t)
Relacionando con la parte que hemos estudiado de ecuaciones diferenciales (suponiendo un
sistema univariado en tiempo continuo), la evolución de un sistema desde una condición inicial
conocida x(t0) = x0 como función del tiempo t � t0, se podía describir a través de una ecuación
diferencial x0 (t) = f(x (t) ; t). Si el sistema es autónomo, por ejemplo, la condición inicial deter-
minaba una única trayectoria x (t) para todo t � t0. En los sistemas que nos interesan ahora, la
trayectoria de x (t) puede ser in�uenciada por acciones (variable de control, u(t)) de quien toma de-
cisiones. De esta manera, la evolución temporal del sistema se describe por x0 (t) = f(x (t) ; u (t) ; t),
y para una misma condición inicial x(t0) = x0, la trayectoria ya no es única pues dependerá de
u(t). Se supone que el tomador de decisiones tiene preferencias sobre los distintas trayectorias de
x (t) que pueden resumirse en una función objetivo y esta función de�ne el criterio para elegir.
Entonces, la �variable�de control es una variable sujeta al control del tomador de decisiones e
in�uye sobre la variable de estado.
A diferencia del enfoque de CV, el enfoque de Control Optimo (CO) se centra en la elección
de la trayectoria temporal de la variable de control, fu (t)g. Para que tenga sentido el problema
de optimización, la ecuación de movimiento de la variable de estado debe depender de u(t) de
tal manera que, conociendo la condición inicial x(0) = x0, y una trayectoria fu (t)g admisible, la
trayectoria de la variable de estado quede determinada. En otras palabras, debe existir una ecuación
de movimiento del sistema (ecuación de estado o ecuación de movimiento de x(t) o ecuación de
transición)
x0 (t) = f (t; x (t) ; u (t)) .
El otro elemento que cambia es que la función de valor instantáneo (V ) depende ahora no solo
de x(t), sino también de u(t).
El planteo del problema (conservando la idea del caso anterior) ahora es
m�ax
fu(t)g
J =
R T
0 V (t; x (t) ; u(t)) dt
s:a:
x0 (t) = f (t; x (t) ; u (t))
fu (t)g 2 U , para todo t 2 [0; T ]
x (0) = x0, x(T ) = xT , con x0; xT ; T dados
Luego, el enfoque de CV es un caso particular donde x0(t) = u(t) y U es el campo real.
La resolución de este tipo de problemas con sus variantes más importantes es parte de este
curso.
Solo adelantaremos que este enfoque se basa en el Principio del Máximo de Pontryagin y que,
durante mucho tiempo, se consideraba más adecuado para problemas continuos (a diferencia del
enfoque siguiente). Actualmente no es el caso.
La diferencia entre el método de Lagrange aplicado a este tipo de problemas y el Principio del
Máximo de Pontryagin es que este último de�ne una función auxiliar, el Hamiltoniano (ver más
adelante).
7
1.3. Programación dinámica
El planteo es el mismo que el de Control Optimo (CO),pero tiene características que hacen
diferente su resolución.
a. Su foco está en el valor óptimo de J (es, por lo tanto, un método global).
b. Se basa en el Principio de Optimalidad de Bellman (1957). Esto implica (i) el problema de CO
se subdivide en problemas menores; (ii) el método de resolución más efectivo es recursivo; (iii)
por ser un método recursivo, es más apropiado para resoluciones numéricas (computacionales),
especialmente para problemas de optimización complicados.
Sobre estas características entraremos en detalle, pues este enfoque es parte del curso.
1.4. Alcance del curso
Antes de continuar, vamos a limitar el alcance del curso. Veremos Control Optimo para proble-
mas en tiempo continuo y Programación Dinámica para problemas en tiempo discreto. Es impor-
tante aclarar que veremos los problemas en su formulación más sencilla. Por ejemplo, no veremos
casos en los que la variable de estado tiene otro tipo de restricciones, además de la asociada a su
evolución temporal, etc.
2. Control Optimo, tiempo continuo
2.1. Problema general
Planteo general del problema (sigo aproximadamente a Shone 2002 en la notación). El problema
se plantea en términos de maximización de J , pues m��nJ = m�ax(�J). Las negritas en x (t) y u (t)
denotan la posibilidad de que existan n variables de estado y m variables de control, respectiva-
mente.
8
Continuo
m�axfu(t)g J =
R T
0 e
��tV (x (t) ;u (t) ; t) + e��TF (x (T ) ; t)
x0 (t) = f (x (t) ;u (t) ; t)
fu (t)g 2 U
x (0) = x0
x(T ) = xT
t = 0 (más generalmente, t0) momento inicial; T momento �nal o terminal
x (t) = fx1(t); x2(t); :::; xn(t)g n variables de estado
u (t) = fu1(t); u2(t); :::; um(t)g m variables de control
x (0) = x0 estado inicial, siempre dado
x (T ) = xT estado �nal; puede ocurrir:
(a) T y xT dados;
(b) T dado y xT no;
(c) xT dado y T no;
(d) xT = � (T ) (el estado �nal es una función dada de T ) (ver Fig. 1.d)
J función objetivo
fu (t)g trayectoria de control continua
U conjunto de trayectorias de control admisibles
V (x (t) ;u (t) ; t) función intermedia o función de valor instantánea
F (x (T ) ; t) función �nal, valor del estado �nal (valor residual)
x0 (t) = f (x (t) ;u (t) ; t) ecuaciones demovimiento o de estado
e��t factor descuento instantáneo; si � = 0, sin descuento
9
(a) (b)
(c) (d)
(Fig. 1)
El problema básico de control óptimo consiste en maximizar J(:) eligiendo entre todas las
trayectorias de control admisibles, teniendo en cuenta que la evolución del estado está determinado
por la dinámica del sistema, la condición inicial y las restricciones �nales.
Es el concepto de estado (modelado a través de la variable de estado, x(t)) lo que distingue la
optimización dinámica de la estática. Es importante recalcar que el valor actual de x(t) no puede
ser in�uenciado directamente por quien toma decisiones. De hecho, la variable de estado resume
el resultado de decisiones pasadas. El rol de la variable de estado x es, entonces, la de proveer la
información en t para tomar la decisión.
Ejemplo 3 Un modelo de consumo (adaptado de Sethi & Thompson, 2006). El Sr. Rico Mac Pato
planea retirarse a la edad de 65 años con un monto de dinero (ganado hasta ese momento)
de w0 pesos. Rico estima que vivirá T años como jubilado, y quiere consumir su riqueza en
esos años y dejar una herencia en el momento T . Rico es racional, por lo tanto quiere hacer
todo esto maximizando su utilidad total por consumo y la herencia. Rico es bastante averso
al riesgo, por lo que planea poner su dinero en una cuenta de ahorro que paga intereses a la
tasa continua compuesta r. Sea w(t) la riqueza en t y c(t) la tasa de consumo en el momento
t, donde w(t) es, por lo tanto, la variable de estado y c(t) la variable de control (¿por qué?).
La ecuación que muestra cómo varía en el tiempo la riqueza es
w0(t) = rw(t)� c(t)
con la condición inicial w(0) = w0 (note que el momento t = 0 es el momento en que se
retira). Sea además v(c) la función de utilidad por consumir c, h(w) la función que valora
dejar una herencia de w en el momento T , y � es la tasa instantánea de descuento subjetiva.
10
Luego, el problema a resolver se puede formular de la siguiente manera
m�ax
fc(t)g
J =
R T
0 e
��tv (c(t)) dt+ e��Th (w (T ))
s:a:
w0(t) = rw(t)� c(t), w (0) = w0
c(t) � 0
w (t) � 0
con w0; T dados.
2.2. Intuición del enfoque
Para entender la intuición de este enfoque vamos a trabajar con un problema continuo de
horizonte �nito T dado, con n = m = 1 y sin descuento � = 0. Adicionalmente, consideraremos que
t no entra explícitamente en V; F ni en f (sistema autónomo) y que la solución es interior (no
hay posibilidades de que haya una solución esquina para la trayectoria de control).
Para cada t, la variable de estado x(t) 2 X � R y la variable de control u (t) 2 U � R.
Supondremos que X y U son convexos y no vacíos.
m�ax
fu(t)g
J =
Z T
0
V (x (t) ; u (t)) dt+ F (x (T ))
s:a:
x0(t) = f (x (t) ; u (t))
x (0) = x0
x (T ) libre, T y x0 dados
En este contexto, un par admisible de funciones o trayectorias es un par de trayectorias (x (t) ; u (t))
tal que x(t) 2 X, u (t) 2 U � R para todo t, x(0) = x0, satisfacen x0(t) = f (x (t) ; u (t)). Para todo
par admisible, supondremos que J <1. Asimismo, V : X � U ! R y f : X � U ! R.
De�nición: Solución Optima y Control Sea (x�(t); u�(t)) un par admisible para el problema
de control óptimo. Si J (u� (t)) � J (u(t)) para todas las trayectorias admisibles de control u,
entonces (x�(t); u�(t)) es una solución óptima o trayectoria óptima para el problema. u�(:) se
denomina control óptimo y x�(:) se denomina trayectoria de estado óptima.
Siguiendo la misma lógica del método de Lagrange, sea �(t) un multiplicador que, a diferencia
del caso estático, varía con el tiempo. Esta función pondera el efecto de la restricción, que es la
ecuación de movimiento o ecuación de estado. �(t) se denomina variable de coestado.
11
Luego, el Lagrangiano es3
L =
Z T
0
V (x (t) ; u (t)) dt+ F (x (T )) +
Z T
0
� (t)
�
f (x (t) ; u (t))� x0 (t)
�
dt
Reordenando
L =
Z T
0
�
V (x (t) ; u (t)) + � (t) f (x (t) ; u (t))� � (t)x0 (t)
�
dt+ F (x (T ))
Vamos a de�nir ahora una función que juega un rol muy importante: la función Hamiltoniana
o Hamiltoniano.
Esta función es igual a los dos primeros términos dentro de la integral, es decir
H (x (t) ; u (t)) = V (x (t) ; u (t)) + � (t) f (x (t) ; u (t))
Luego,
L =
Z T
0
�
H (x (t) ; u (t))� � (t)x0 (t)
�
dt+ F (x (T ))
Finalmente, suponiendo que � es diferenciable, se puede demostrar que4Z T
0
�
�� (t)x0 (t)
�
dt =
Z T
0
�0 (t)x (t) dt� [� (T )x (T )� � (0)x (0)]
y el Lagrangiano nos queda convenientemente planteado de la siguiente manera
L =
Z T
0
�
H (x (t) ; u (t)) + �0 (t)x (t)
�
dt+ F (x (T ))� � (T )x (T ) + � (0)x (0)
Razonamiento (recuerde, válido para solución interior!):
3Note que hemos planteado el Lagrangiano de una manera, pero podría haberse planteado de otra, como en el
caso de optimización estática
L =
Z T
0
V (x (t) ; u (t)) dt�
Z T
0
� (t)
�
x0(t)� f (x (t) ; u (t))
�
dt
a esta altura debería quedar en claro que son completamente equivalentes, pero que es importante no mezclar las dos
formas.
4La demostración es sencilla, planteeZ T
0
�
�� (t)x0 (t)
�
dt = �
Z T
0
� (t)x0 (t) dt
e integre por partes, con u = �(t) y dv = x0 (t) dt , de donde du = �0 (t) dt y v = x (t). Luego,
�
Z T
0
� (t)x0 (t) dt = ��(t)x (t)t=Tt=0 +
Z T
0
x (t)�0 (t) dt
= � [� (T )x (T )� � (0)x (0)] +
Z T
0
x (t)�0 (t) dt
12
1. ¿Cómo afecta �(t) el Lagrangiano? En la medida en que se cumpla la ecuación de movimien-
to, f (x (t) ; u (t)) = x0 (t) la variable de coestado no afecta (por favor, no confunda con su
movimiento, �0(t)). Luego, una condición necesaria será
x0 (t) = f (x (t) ; u (t)) 8t 2 [0; T ]
Esta condición, en términos del Hamiltoniano es equivalente a
x0 (t) =
@H
@�
(Cond. 1)
2. Suponga ahora que perturbamos la trayectoria de control óptima, resultando en una pertur-
bación de la trayectoria óptima de estado. Es decir, la perturbación de fu� (t)g que lleva a
una nueva trayectoria de control, fu� (t) + du� (t)g modi�ca la trayectoria de estado fx� (t)g
y la convierte en fx� (t) + dx� (t)g. Luego, el cambio en el Lagrangiano será (note que hemos
permitido que el estado �nal también sea perturbado y que el estado inicial no puede ser
perturbado porque está dado).
4L '
Z T
0
�
@H
@x
dx� (t) +
@H
@u
du� (t) + �0 (t) dx� (t)
�
dt+
@F
@x (T )
dx� (T )� � (T ) dx� (T )
reordenando convenientemente
4L '
Z T
0
��
@H
@x
+ �0 (t)
�
dx� (t) +
@H
@u
du� (t)
�
dt+
�
@F
@x (T )
� � (T )
�
dx� (T )
La condición necesaria para el máximo es que 4L ' 0 (es decir: si perturbamos en el entorno
de la solución óptima, el cambio será nulo).
Miremos un poco los sumandos de4L. El primer sumando depende, a su vez, de dos sumandos
a)
�
@H
@x + �
0 (t)
�
dx� (t)
b) @H@u du
� (t)
Dado que dx� (t), y du� (t) son curvas �perturbadoras�arbitrarias y dx� (T ) otra perturbación
arbitraria al estado �nal del sistema, para que el primer sumando sea cero, necesariamente ambos
términos deben ser nulos por separado y para todo t 2 [0; T ], es decir�
@H
@x
+ �0 (t)
�
dx� (t) = 0! @H
@x
+ �0 (t) = 0 para dx� (t) 6= 0
@H
@u
du� (t) = 0! @H
@u
= 0 para du� (t) 6= 0
Por lo tanto hemos obtenido dos condiciones necesarias más
@H
@x
= ��0 (t) ;8t 2 [0; T ] (Cond. 2)
@H
@u
= 0;8t 2 [0; T ] . (Cond. 3)
13
La condición (Cond. 3) es precisamente la aplicación directa del Principio del Máximo de Pontryagin
(es decir, es la condición necesaria para que u�(t) sea un maximizador interior del el Hamiltoniano).
Y el segundo sumando de 4L debe ser cero, independientemente del primero, es decir�
@F
@x (T )
� � (T )
�
dx� (T ) = 0!
�
@F
@x (T )
� � (T )
�
= 0 para dx� (T ) 6= 0
de donde obtenemos la última condición necesaria llamada de forma general condición de transver-
salidad
�(T ) =
@F
@x (T )
(Cond. 4)
2.3. Comentarios importantes
En la subsección anterior hemos intentado dar una idea de dónde provienen las condiciones
necesarias para resolver un problema de control óptimo. Hemos hecho algunas simpli�caciones que
es necesario aclarar.
1. Debe quedar en claro que la optimización se realiza punto por punto(pointwise optimization
problem). Es decir, dado t, u(t), x(t) y �(t) se pueden considerar variables en el sentido
tradicional de la palabra y por ello podemos derivar y tratarlas como variables comunes.
2. La solución no siempre será interior. Esto implica que la Cond. 3, @H@u = 0 se reemplaza
por una condición más general que, a la vez, aclara aún más: la trayectoria de control óptima
fu�(t)g maximiza el Hamiltoniano. Esto implica que @H@u = 0 será la condición necesaria solo
si fu�(t)g es interior, de lo contrario, tendremos que simplemente buscar la solución esquina
que maximice el Hamiltoniano.
3. La condición de transversalidad (Cond. 4) será distinta según sea el tipo de problema. Al
respecto, recuerde que hemos derivado las condiciones suponiendo que T está dado, luego
podríamos tener dos situaciones posibles: o bien x(T ) está también dado o no.
a) Si x(T ) también está dado (caso (a) de la Fig. 1), no podemos permitir que sea
perturbado, es decir, dx� (T ) = 0. Luego, básicamente, no existe en este caso condición
de transversalidad, pues
dx� (T ) = 0!
�
@F
@x (T )
� � (T )
�
dx� (T ) = 0
Es decir, cuando tanto T como x(T ) están dados (son conocidos) no existe una condición
de transversalidad propiamente dicha y se suele reemplazar por
x (T ) = xT dado
Note que esto NO depende de que F (x(T )) sea o no igual a cero. De hecho, si F (x (T )) =
0, el segundo sumando sería �� (T ) dx� (T ) = 0 y como x(T ) está dado, dx� (T ) = 0 y
no importa si �(T ) es o no nulo.
14
b) Si x(T ) no está dado (pero T sí, caso (b) de la Fig. 1), entonces en general dx� (T ) 6= 0.
Luego, acá podemos distinguir entre dos situaciones posibles: (i) F (x (T )) 6= 0 para
todo x (T ), en cuyo caso la condición de transversalidad es Cond. 4. (ii) Si, en cambio,
F (x (T )) = 0, el segundo sumando sería
�� (T ) dx� (T ) = 0! � (T ) = 0
Luego, la condición de transversalidad en este caso sería
� (T ) = 0
c) ¿Qué ocurre cuando T es variable y x(T ) está dado (caso (c) de la Fig. 1)?
En este caso, para simpli�car, supondremos que F (xT ) = 0. En este caso, el problema
ocurre cuando perturbamos el sistema, pues T puede ser perturbado, es decir, pasamos
de T � a T � + dT �. Y esta perturbación afecta también a la variable de coestado en T .
Luego
4L '
Z T
0
�
@H
@x
dx� (t) +
@H
@u
du� (t) + �0 (t) dx� (t)
�
dt
+
�
H (x (T �) ; u(T �)) + �0 (T �)x (T �)
�
dT �
�
�
� (T ) dx� (T ) + �0 (T �)x (T �) dT �
�
es decir, aparecen dos términos adicionales que dan cuenta del efecto de la perturbación
en T . Reordenando y cancelando los términos �0 (T �)x (T �) dT �
4L '
Z T
0
�
@H
@x
dx� (t) +
@H
@u
du� (t) + �0 (t) dx� (t)
�
dt
+H (x (T �) ; u(T �)) dT � � � (T ) dx� (T )
Para que 4L = 0, además de las condiciones 1-3, si x(T ) está dado, sabemos que
dx� (T ) = 0, pero ahora necesitamos que
H (x (T �) ; u(T �)) dT � = 0!
H (x (T �) ; u(T �)) = 0 para dT � 6= 0
Luego, en este caso, la condición de transversalidad es precisamente que el Hamiltoniano
en el momento �nal se anule, es decir
H (x (T �) ; u(T �)) = 0
y no hay restricciones sobre �(T ).
d) ¿Qué ocurre cuando T es variable y x(T ) son variables y están relacionadas
por una función (caso (d) de la Fig. 1)? En este caso, la perturbación se vería
igual que la que acabo de presentar, en la que tanto dx� (T ) 6= 0 como dT � 6= 0. Pero
hay una relación entre x(T ) y T , es decir x(T ) = � (T ). Luego, las perturbaciones están
relacionadas
dx (T ) =
@�
@T
dT
15
reemplazando en el cambio del Lagrangiano último
4L '
Z T
0
�
@H
@x
dx� (t) +
@H
@u
du� (t) + �0 (t) dx� (t)
�
dt
+H (x (T �) ; u(T �)) dT � � � (T ) @�
@T
dT �
'
Z T
0
�
@H
@x
dx� (t) +
@H
@u
du� (t) + �0 (t) dx� (t)
�
dt
+
�
H (x (T �) ; u(T �))� � (T ) @�
@T
�
dT �
y la condición de transversalidad sería
H (x (T �) ; u(T �))� � (T �) @�
@T
= 0
e) Finalmente, cabe destacar que hay variantes de las condiciones de transversalidad cuando
hay restricciones sobre los T o sobre x(T ). Es decir, podrían estar �libres�pero acota-
dos. Por ejemplo, T dado, x(T ) libre, pero x(T ) � K, etc. Este tipo de restricciones
modi�can las condiciones de transversalidad. Intuitivamente, se produce una mezcla de
casos, así, la condición establece que si x(T ) < K, la condición sería � (T ) = 0, pero si
x(T ) � K, la condición sería x(T ) = K. Estos dos casos se resumen en una condición
de transversalidad de este tipo
�(T ) � 0; � (T ) [x (T )�K] = 0
Por ejemplo, en muchos modelos económicos (con F = 0) resulta natural restringir que
xT � 0 (por ejemplo, si x es riqueza, y el Sr. Rico del ejemplo 3 maximiza su utilidad
intertemporal y no quiere dejar herencia, pero tampoco deudas). Luego, si xT > 0, �(T ) =
0, o si xT = 0, �(T ) � 0. Esta condición de transversalidad se puede escribir
xT � 0; �(T ) � 0; xT�(T ) = 0
(similar a una condición de holgura complementaria).
4. Con respecto al factor de descuento, la formulación no cambia esencialmente, solo aparecerán
nuevos términos, pero no la intuición.
5. La formalización de las condiciones necesarias se puede, por lo tanto, plantear en términos
del Hamiltoniano (que es, estrictamente, la aplicación del Principio del Máximo).
2.4. Condiciones necesarias (�condiciones de Pontryagin�)
Para simpli�car, en todos los casos que siguen el valor residual F (x (T )) = 0
16
2.4.1. T �nito, sin descuento
Teorema 1 Si u� (t) resuelve el problema de control óptimo en tiempo continuo y horizonte tem-
poral �nito
m�ax
fu(t)g
J =
Z T
0
V (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
especi�cación sobre x(T ) y T
entonces existe una función �(t) tal que
(C1) u� (t) maximiza H (x (t) ; u (t)), 8t 2 [0; T ]
(C2) x0 (t) = @H@� = f (x (t) ; u (t)) , 8t 2 [0; T ]
(C3) �0 (t) = �@H@x
(C4) Condición de transversalidad se satisface
donde H (x (t) ; u (t)) es el Hamiltoniano
H (x (t) ; u (t)) = V (x (t) ; u (t)) + �(t)f (x (t) ; u (t))
2.4.2. T �nito, con descuento
El problema de control óptimo es ahora
m�ax
fu(t)g
J =
Z T
0
e��tV (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
especi�cación sobre x(T ) y T
y el Hamiltoniano es
H (x (t) ; u (t)) = e��tV (x (t) ; u (t)) + �(t)f (x (t) ; u (t))
este Hamiltoniano está expresado en valores del momento inicial (pues está descontado). Pero
podríamos utilizar otra noción de Hamiltoniano, el llamado Hamiltoniano de valor corriente.
Hc (x (t) ; u (t)) = e
�tH (x (t) ; u (t)) = V (x (t) ; u (t)) + e�t�(t)f (x (t) ; u (t))
Usualmente se denota con otra letra el valor corriente de la variable de coestado, por ejemplo (no
usamos � para evitar confusiones con u(t))

(t) � e�t�(t)
17
Luego,
Hc (x (t) ; u (t)) = V (x (t) ; u (t)) + 
(t)f (x (t) ; u (t))
Esencialmente, las condiciones necesarias son las mismas, solo que hay que considerar el factor de
descuento.
Luego, dado que e�t es una constante, la primera condición necesaria es la misma, es decir
(C1) u� (t) maximiza Hc (x (t) ; u (t)) , 8t 2 [0; T ]
La segunda es análoga
(C2) x0 (t) =
@Hc
@
= f (x (t) ; u (t)) , 8t 2 [0; T ]
Para deducir la tercera condición, partimos del caso sin descuento
�0 (t) = �@H
@x
donde si 
(t) = e�t�(t), entonces �(t) = e��t
(t) y �0 (t) = ��e��t
(t) + e��t
0 (t). Similarmente,
si Hc = e�tH, entonces H = e��tHc y @H@x = e
��t @Hc
@x . Luego
��e��t
(t) + e��t
0 (t) = �e��t@Hc
@x
!
(C3) 
0 (t) = �@Hc
@x
+ �
(t)
Finalmente, para la condición de transversalidad analizaremos solo dos casos, si x(T ) y T están
dados, la condición sigue siendo x(T ) = xT dado. Si x(T ) no está dado (pero T sí), la condición de
transversalidad para F = 0 era en el caso sin descuento �(T ) = 0, ahora será 
(T )e��t = 0.
Remark 1 Tener en cuenta que al de�nir el factor de descuento instantáneo como e��t estamos
suponiendo que la tasa de descuento � es constante en el tiempo.
2.5. Interpretación (económica)
La variable de coestado �(t) mide para todo t 2 (0; T ) el impacto de x0(t) sobre el valor
óptimo. Se puede interpretar como el precio sombra de relajar la restricción variandox(t), o
bien, directamente el precio sombra de x(t).
En particular, en L hay dos términos �� (T )x (T ) + � (0)x (0) que involucran a �(T ) y �(0),
respectivamente. �(0) es el precio sombra de x(0), mide el aumento marginal en J por un
aumento in�nitesimal en la condición inicial del sistema, x(0). �(T ), por su parte, es el precio
sombra de x(T ), mide la disminución marginal en J por un aumento marginal en el estado
�nal del sistema, x(T ).
Note que, en general, en problemas económicos, x(t) se asocia con stock y u(t) con variable
de �ujo. Luego, �(t) es el precio sombra del stock.
18
El Hamiltoniano es la suma de los efectos directos e indirectos de la variable de control. En
efecto, dado
H (x (t) ; u (t)) = V (x (t) ; u (t)) + �(t)f (x (t) ; u (t)) ,
V (x (t) ; u (t)) es el efecto de u(t) sobre el valor actual en t de V y �(t)f (x (t) ; u (t)) es el
efecto de u(t) sobre el valor futuro de V . Normalmente, estos efectos son de signo contrario.
Luego, la condición necesaria de que u(t) maximiza H se interpreta como una condición en la
que la variable de control debe maximizar tanto el valor actual como el futuro, en cada t. En
términos de variables de stock y �ujo, la esencia del Principio del Máximo es maximizar el
retorno del �ujo (�(t)f (x (t) ; u (t))) más el valor del stock corriente de la variable de estado
(V (x (t) ; u (t))).
Si la solución es interior, esta condición @H@u = 0 es
@V
@u
= �� (t) @f
@u
es decir, que en la trayectoria óptima, se debe compensar cualquier aumento en V �hoy�, con
una disminución en su valor futuro.
La condición �0 (t) = �@H@x puede reescribirse
��0(t) = @V
@x
+ � (t)
@f
@x
y se puede interpretar de la siguiente manera: ��0(t) es la velocidad de disminución del precio
sombra de x(t), @V@x + � (t)
@f
@x es la contribución marginal de x(t) al valor actual y futuro de
V . En términos de stock-�ujo, ��0(t) es la depreciación del stock x(t) que debe igualar a la
contribución marginal de x(t) al valor del stock más el retorno del �ujo.
Ejemplo 3 (continuación) Suponga que Rico Mac Pato no desea dejar herencia y que v(c) = ln c.
El problema que resuelve es
m�ax
fc(t)g
J =
R T
0 e
��t ln c(t)dt
s:a:
w0(t) = rw(t)� c(t), w (0) = w0
c(t) � 0
w (T ) = wT = 0
con w0; T dados.
Planteamos el Hamiltoniano de valor corriente
Hc (w (t) ; c (t)) = ln (c (t)) + 
(t) [rw(t)� c(t)]
donde, recuerde, 
(t) � e�t�(t). Las condiciones necesarias son
(C1) c� (t) maximiza Hc (w (t) ; c (t)) , 8t 2 [0; T ]
19
es decir,
@Hc
@c
=
1
c (t)
� 
(t) = 0, 8t 2 [0; T ]
! 1
c (t)
= 
(t)! c (t) > 0
(C2) w0 (t) =
@Hc
@
, 8t 2 [0; T ]
es decir,
w0 (t) = rw(t)� c(t), 8t 2 [0; T ] , w(0) = w0
(C3) 
0 (t) = �@Hc
@w
+ �
(t)
es decir,

0 (t) = �
(t)r + �
(t) = �
(t) (r � �)
y la condición de transversalidad (T y wT = 0 dados)
(C4) w (T ) = 0.
Para obtener la trayectoria (w�(t); c�(t)) que satisface las condiciones necesarias, podemos
buscar la forma de colapsar C1, C2 y C3 en un sistema de dos ecuaciones diferenciales.
Podemos elegir de las tres variables w(t); c(t) y 
(t) dos de ellas (dependerá del problema en
cuestión con cuáles es más fácil). Por ejemplo, en este caso:
Dado que 
(t) = 1c(t) según C1, podemos calcular 
0(t) = � 1
c(t)2
c0(t) y reemplazando en C3,
obtenemos
� 1
c(t)2
c0(t) = � 1
c (t)
(r � �)
de donde,
c0(t) = c(t) (r � �)
luego, junto con C2, nos queda un sistema planar lineal homogéneo con dos condiciones que
nos permitirán obtener la solución particular que buscamos,�
w0 (t) = rw(t)� c(t)
c0(t) = c(t) (r � �) , w(0) = w0; w(T ) = 0.
La matriz de coe�cientes es
A =
�
r �1
0 (r � �)
�
que tiene los siguientes valores propios �1 = r � � R 0 y �1 = r > 0, con vectores propios
asociados (respectivamente)
v =
�
1
�
�
;u =
�
1
0
�
Independientemente de si r � � R 0, son reales y distintos, luego, la solución general puede
escribirse �
w (t) = c1e
(r��)t + c2ert
c(t) = c1e
(r��)t�
20
y usamos la condición inicial w(0) = w0 y la condición terminal w(T ) = 0 para obtener las
constantes. Resolvemos el siguiente sistema para obtener c1 y c2.
�
w0 = c1e
(r��)�0 + c2er�0
0 = c1e
(r��)T + c2erT
de donde
c1 =
w0
1� e��T ; c2 =
w0
1� 1
e��T
y las trayectorias que buscamos son (después de manipular algebraicamente)8<: w
� (t) = w0ert
�
e��t�e��T
1�e��T
�
c�(t) = w0ert�
�
e��t
1�e��T
�
= w0�
�
e(r��)t
1�e��T
�
de donde, por ejemplo, podemos concluir que la trayectoria del consumo será constante si
r = �, puesto que en ese caso
c�(t) = c� = w0�
�
1
1� e��T
�
;
si r > �, la trayectoria será creciente, y si r < �, decreciente. ¿Cuál es la intuición económica
de estos resultados?
2.6. Condiciones su�cientes (con o sin descuento, T �nito)
Enunciamos algunas condiciones su�cientes (Acemoglu, 2009).
Consideramos el problema de control óptimo
m�ax
fu(t)g
J =
Z T
0
V (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
x(T ) = xT (con T dado)
con V y f continuamente derivables y donde el Hamiltoniano es
H (x (t) ; u (t)) = V (x (t) ; u (t)) + � (t) f (x (t) ; u (t))
Teorema 2 (Condiciones su�cientes de Mangasarian) Considere el problema de control óp-
timo anterior y suponga que tiene solución interior, es decir (x� (t) ; u� (t)) 2 int (X � U)
para cada t. Suponga, asimismo, que el conjunto X �U es convexo y dada �(t), H(x(t); u(t))
es cóncavo en (x; u) 2 X � U para todo t 2 [0; T ]. Entonces, J alcanza un máximo global
para (x� (t) ; u� (t)). Si H(x(t); u(t)) es estrictamente cóncavo en (x; u) 2 X � U para todo
t 2 [0; T ], el máximo es único.
21
Note que, en de�nitiva, el requisito es que V y f sean diferenciables y (estrictamente) cóncavas
en (x; u).
Importante: si f es no lineal en x o en u, �(t) � 0 para todo t 2 [0; T ]. De lo contrario, si f es
lineal en x y en u no hay restricciones de signo para �(t). (Recuerde que el signo de la variable de
coestado es para un máximo y condicional a que plantee el Hamiltoniano como se plantea arriba).
Teorema 3 (Condiciones su�cientes de Arrow) Dado el problema de control óptimo plantea-
do, suponiendo solución interior, para �(t) dada, de�na el Hamiltoniano maximizado
H0 = H (x (t) ; u� (t))
(cuidado, no es el Hamiltoniano evaluado en (x; u) óptimas, solo el Hamitoniano maximizado
con respecto a la variable de control u(t)). Si X es convexo y H0 es cóncavo en x 2 X
para todo t 2 [0; T ], entonces J alcanza un máximo global para (x� (t) ; u� (t)). Si H0 es
estrictamente cóncavo en x 2 X para todo t 2 [0; T ], el máximo es único.
Remark 2 Para el caso con descuento, las condiciones su�cientes son similares, pero de�nidas
sobre Hc.
Ejemplo 3 (continuación) Analizamos las condiciones su�cientes para el problema de Rico Mac
Pato.
(a) Condiciones de Mangasarian. El problema de Rico tiene solución interior para cada t. El
conjunto X � U en nuestro ejemplo es el conjunto R2+, puesto que para cada t, w(t) � 0
y c(t) � 0. Para 
(t) dado, el hamiltoniano de valor corriente, ¿es cóncavo o estrictamente
cóncavo para todo t? Esto equivale a analizar el hessiano de la siguiente función, donde
obviamos la dependencia de cada función en t, y 
(t) se considera una constante para ese t.
Hc (w; c) = ln (c) + 
 [rw � c]
El hessiano sería la matriz (voy a obviar ponerle el nombre de siempre para evitar la confusión
con el Hamiltoniano) 
@2Hc
@w2
@2Hc
@w@c
@2Hc
@c@w
@2Hc
@c2
!
=
�
0 0
0 � 1
c2
�
luego, los valores propios son 0 y � 1
c2
< 0 (puesto que c > 0) y el hessiano es semide�nido
negativo, y por lo tanto el Hamiltoniano de valor corriente es cóncavo en R2+. Entonces las
trayectorias que encontramos constituyen un maximizador global de J .
(b) Condiciones su�cientes de Arrow. Obtenemos el hamiltoniano de valor corriente maxi-
mizado, es decir, Hc evaluado en c (t) = 1
(t) .
H0c = ln
�
1

(t)
�
+ 
(t)
�
rw(t)� 1

(t)
�
Note que con respecto a w(t) es lineal, por lo tanto es cóncavo (y convexo). Se satisfacen las
condiciones su�cientes para máximo global.
22
2.7. Control óptimo, T in�nito
Si bien los modelos con T �nito son útiles paraentender la esencia del enfoque, el modelo de
control óptimo más utilizado en economía es el de m = n = 1, con horizonte temporal in�nito y
descuento.
Cuando el horizonte temporal es in�nito, se puede demostrar que, bajo ciertas condiciones sobre
V , y con excepción de las condiciones de transversalidad, las condiciones necesarias que hemos visto
se aplican. Es decir, el Principio del Máximo se aplica, tal cual como hemos visto hasta ahora, pero
las condiciones de transversalidad serán diferentes.
Lo más interesante es que la aplicación del Principio del Máximo en este tipo de problemas
se puede realizar invocando el Principio de Optimalidad (sobre el cual está basado el enfoque de
Programación Dinámica). Por lo tanto, es donde se ve directamente la equivalencia entre ambos.
Ahora bien, antes de entrar en detalles, debemos tener en cuenta que con horizonte temporal
in�nito, surgen las siguientes di�cultades:
1. J puede no converger, i.e. J ! 1. Existen casos en los que a pesar de esta falta de conver-
gencia, el problema tiene solución, sin embargo, en este curso solo trataremos con casos en
los que J <1. Dos condiciones su�cientes para que esto ocurra son:
a) Existe un valor ~t tal que V (x (t) ; u (t)) = 0 para todo t � ~t
b) Cuando el problema es con descuento, e��tV (x (t) ; u (t)), � > 0, y V � V̂ (V̂ es un valor
�nito, luego V � V̂ signi�ca que V está acotada)
2. Condiciones de transversalidad. De hecho, hay mucha discusión teórica son sobre cuáles son
las condiciones de transversalidad apropiadas. En este curso vamos a adoptar la propuesta de
Acemoglu (2009), y de de la Fuente (2000).
3. Condiciones su�cientes. En este tema, básicamente la di�cultad consiste en probar algunas
condiciones. También seguiremos a Acemoglu (2009) y a de la Fuente (2000).
2.7.1. T in�nito, sin descuento
El problema básico es
m�ax
fu(t)g
J =
Z 1
0
V (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
y por supuesto, como antes, para cada t, x (t) 2 X � R y u (t) 2 U � R.
Un par admisible de trayectorias se de�ne de la misma manera que para T �nito, excepto que
ahora u(t) puede ser una función continua por partes.5 Para entender la diferencia, cuando u(t) es
5Estrictamente, muchos autores hacen este supuesto para T �nito también. En la práctica, no afecta en nada los
resultados, pues al ser u(t) continua por partes, lo es �casi siempre�y las condiciones necesarias se aplican para todo
t excepto para aquellos puntos en los que u(t) sea discontinua.
23
continua, x(t) será diferenciable y, por lo tanto, continua. Cuando u(t) es continua por partes, x(t)
será continua y diferenciable en casi todo su dominio.
Introducimos ahora el Principio de Optimalidad, sobre el cual se apoya la aplicación del Principio
del Máximo para T in�nito. Para ello, necesitamos de�nir la función de valor de J , denotada por
J (t0; x (t0)). Esta función nos entrega el valor óptimo del problema dinámico de maximización en
función de la condición inicial x(t0) y t0.
Dado que el foco estará sobre problemas en los cuales para las trayectorias admisibles J <1,
esta función será
J (t0; x (t0)) =
Z 1
t0
V (x� (t) ; u� (t)) dt
Note que esta función depende de las condiciones iniciales, puesto que de ellas dependerá cuáles
sean las trayectorias óptimas. En otras palabras, una vez resuelto el problema de optimización, y
considerando la condición inicial de la variable de estado como una constante cualquiera, tendremos
la expresión general del máximo valor alcanzado por J para cualquier x0 dada.
Se puede demostrar la siguiente versión del Principio de Optimalidad.
Proposición 1 (Principio Optimalidad Débil) Suponga que el par admisible (x� (t) ; u� (t))
es una solución al problema de control óptimo planteado, es decir alcanza el valor máximo
J (t0; x (t0)). Luego
J (t0; x (t0)) =
Z t1
t0
V (x� (t) ; u� (t)) dt+ J (t1; x
� (t1)) para todo t1 � t0.
El Principio de Optimalidad establece simplemente que si (x� (t) ; u� (t)) es una solución, en-
tonces la función de valor J (t0; x (t0)) se puede expresar como la suma del valor máximo alcanzado
en algún período �nito más la función de valor del problema con T in�nito para �condiciones
iniciales�posteriores.
La interpretación es sencilla: si (x� (t) ; u� (t)) es una solución al problema de control óptimo
planteado con condición inicial x(t0) entre t0 y t!1, entonces también es una solución al mismo
problema de control óptimo, pero iniciado en x(t1) entre t1 y t!1.
Remark 3 Una aclaración importante: en esta versión del Principio de Optimalidad no se requiere
consistencia intertemporal (algo que veremos en Programación Dinámica), pues NO se producen
cambios en (x� (t) ; u� (t)) a partir de t1. Es decir, acá simplemente se plantea que la misma solución
obtenida con condiciones iniciales x(t0) entre t0 y t!1, será solución para el �subproblema�que
comienza a partir de t1.
Remark 4 Este principio débil de optimalidad se utiliza para demostrar el Teorema siguiente (que
no demostraremos). La intuición es sencilla. Dado que el problema de control óptimo satisface este
principio, las condiciones necesarias del problema con T �nito necesariamente se cumplirán para T
in�nito (pues, en de�nitiva, la primera parte de J (t0; x (t0)) =
R t1
t0
V (x� (t) ; u� (t)) dt+J (t1; x� (t1))
tiene un horizonte temporal �nito y t1 es cualquier t1 � t0).
Teorema 4 (Condiciones necesarias T in�nito, sin descuento) Suponga que el problema de
control óptimo planteado, con V y f continuamente diferenciable, tiene una solución interi-
or continua por partes, (x� (t) ; u� (t)) 2 Int (X � U) para todo t. Y sea el Hamiltoniano,
24
de�nido como lo hemos hecho hasta ahora
H (x (t) ; u (t)) = V (x (t) ; u (t)) + � (t) f (x (t) ; u (t)) .
Entonces, H satisface el Principio del Máximo, es decir H (x� (t) ; u� (t)) � H (x� (t) ; u (t))
para todo u(t) 2 U , para todo t. Y para todo t para el cual u�(t) es continua, se satisfacen
las condiciones iniciales
(C1) @H@u = 0
(C2) x0 (t) = @H@� , con x (0) = x0
(C3) �0 (t) = �@H@x
Remark 5 Las condiciones necesarias pueden resumirse en la Ecuación Hamilton-Jacobi-Bellman
(se deriva del Principio de Optimalidad).
Remark 6 Note que el Teorema anterior no establece condiciones de transversalidad. El punto es
el siguiente (de la Fuente, 2000): si J converge, las condiciones necesarias para el caso T �nito
se aplican para T in�nito; las condiciones de transversalidad aparecen como condiciones su�-
cientes. En otras palabras: las condiciones de transversalidad pueden no cumplirse (pues no son
necesarias), pero si se cumplen junto con otras condiciones (que involucran concavidad de H, etc.),
entonces J alcanza un máximo global.
Condiciones de transversalidad y condiciones su�cientes Las condiciones de transversali-
dad no son (en general) análogas al caso de T �nito. Hay mucha discusión respecto a cuáles es la
condición de transversalidad apropiada y depende del tipo de problema. Por ejemplo, en un prob-
lema con x1 dado (estado �nal dado), no bastará (en general= con indicar que l��mt!1 �(t) = 0.
Acemoglu (2009) presenta un resultado en el que para T in�nito y sin descuento, la condición
de transversalidad es también necesaria. Pero este resultado asume, como parte del problema de
control óptimo, una condición que limita el valor de la variable de estado para t ! 1. De hecho,
le impone una cota inferior.
El problema de control óptimo se plantea de la siguiente manera
m�ax
fu(t)g
J =
Z 1
0
V (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
l��m
t!1
b (t)x (t) � x1, para algún x1 2 R
y por supuesto para cada t, x (t) 2 X � R y u (t) 2 U � R.
Es decir, Acemoglu (2009) introducirá una nueva función al problema. Así, supondremos que
existe b : R+ ! R+, tal que l��mt!1 b (t) existe y l��mt!1 b (t) <1. La condición l��mt!1 b (t)x (t) �
x1 establece una cota inferior para x(t). Note que si b(t) = 1 para todo t, se reduce a l��mt!1 x (t) �
x1, para algún x1 2 R. Pero, según el tipo especí�co de problema, b(t) podría tener otra forma.
Conel problema así planteado, Acemoglu (2009) enuncia el siguiente teorema. En este teorema,
la condición de transversalidad es necesaria.
25
Teorema 5 (Acemoglu) Suponga el problema de control óptimo planteado, con V y f continua-
mente diferenciable, con solución interior (y, como se indicó antes, u�(t) continua por partes,
como mínimo). Sea J (t; x (t)) la función de valor. Suponga que J (t; x� (t)) es diferenciable
en x y en t para t su�cientemente grande y que l��mt!1
@J(t;x�(t))
@t = 0. Entonces, el par
(x�(t); u�(t)) satisface las condiciones necesarias y la condición de transversalidad
l��m
t!1
H (x� (t) ; u� (t)) = 0
En este contexto, Acemoglu (2009) enuncia las condiciones su�cientes.
Teorema 6 (condiciones su�cientes Acemoglu) Considere el problema de control óptimo plantea-
do y suponga que un par admisile (x�(t); u�(t)) satisface las condiciones necesarias. Dada la
variable �(t) resultante, de�na el Hamiltoniano maximizado
H0 = H (x (t) ; u� (t))
(recuerde, no es el Hamiltoniano evaluado en (x; u) óptimas, solo el Hamitoniano max-
imizado con respecto a u(t)). Si X es convexo y H0 es cóncavo en x 2 X para todo
t y l��mt!1 �(t) (x� (t)� ~x (t)) � 0 para todo ~x (t) que forme parte de un par admisible
(~x (t) ; ~u (t)), entonces J alcanza un máximo global para (x� (t) ; u� (t)). Si H0 es estricta-
mente cóncavo en x 2 X para todo t, el máximo es único.
Remark 7 Las condiciones su�cientes son las de Arrow más el requisito l��mt!1 �(t) (x� (t)� ~x (t)) �
0. Es decir, l��mt!1 �(t) (x� (t)� ~x (t)) � 0 es una condición de transversalidad su�ciente.
Remark 8 No se olvide que hay una condición sobre el valor de x(t) en el in�nito, l��mt!1 b (t)x (t) �
x1 para algún x1 2 R.
2.7.2. T in�nito, con descuento, enfoque de Acemoglu (2009)
Cuando hay descuento, tendremos dos �versiones� del tipo de problema que enfrentaremos,
según Acemoglu (2009) y de la Fuente (2000). Empezaremos con el enfoque de Acemoglu.
En este caso, el problema es
m�ax
fu(t)g
J =
Z 1
0
e��tV (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
l��m
t!1
b (t)x (t) � x1, para algún x1 2 R
con el requisito adicional de que tanto x(t) como u(t) estarán en el interior de sus
respectivos conjuntos para todo t.
Teorema 7 (Condiciones necesarias, Acemoglu) Suponga el problema de control óptimo plantea-
do, con V y f continuamente diferenciable y con solución interior, con u�(t) siendo, como
26
mínimo, continua por partes. Sea J (t; x (t)) la función de valor. Suponga que J (t; x� (t))
es diferenciable en x y en t para t su�cientemente grande y que l��mt!1
@J(t;x�(t))
@t = 0. Sea
Hc = e
�tH (x (t) ; u (t)) el Hamiltoniano de valor corriente (tal como lo de�nimos). Entonces,
excepto en los puntos de discontinuidad de u�(t), el par admisible óptimo (x�(t); u�(t)) satis-
face las condiciones necesarias que impusimos para T �nito y la condición de transversalidad
l��m
t!1
e��tHc (x
� (t) ; u� (t)) = 0
Remark 9 Note que la condición de transversalidad es necesaria y, en de�nitiva, la misma que en
el caso anterior, pues e��tHc = H.
Remark 10 Las condiciones necesarias son, entonces, iguales que en caso de T �nito con descuen-
to, bajo la condición adicional impuesta sobre x(t) para cuando t!1, es decir l��mt!1 b (t)x (t) �
x1 para algún x1 2 R.
Remark 11 Acemoglu (2009) demuestra que, si adicionalmente, se satisfacen los siguientes supuestos:
(i) V débilmente monótona en x y en u, (ii) f es débilmente monótona en (t; x; u), (iii) existe m > 0
tal que
���@f@u ��� � m para todo t y para todo par admisible, (iv) existe M <1 tal que ��@V@u �� �M para
todo x y u, entonces la condición de transversalidad puede fortalecerse, siendo
l��m
t!1
�
e��t
(t)x�(t)
�
= 0,
donde, recuerde, 
(t) = e�t�(t).
Teorema 8 (Condiciones su�cientes, Acemoglu) Considere el problema de control óptimo
planteado y suponga que un par admisible (x�(t); u�(t)) satisface las condiciones necesarias.
Dada la variable �(t) resultante, de�na el Hamiltoniano de valor corriente maximizado
H0c = Hc (x (t) ; u
� (t))
(recuerde, no es el Hamiltoniano evaluado en (x; u) óptimas, solo el Hamiltoniano maximizado
con respecto a u(t)). Suponga que J (t; x� (t)) existe y es �nita para todo t, que para todo
par admisible (x (t) ; u (t)), l��mt!1
�
e��t
(t)x(t)
�
� 0, que X es convexo y H0c es cóncavo
en x 2 X para todo t. Entonces J alcanza un máximo global para (x� (t) ; u� (t)). Si H0c es
estrictamente cóncavo en x 2 X para todo t, el máximo es único.
Remark 12 Hay una �receta�que da Acemoglu para resolver los problemas con descuento y encon-
trar máximos globales. Puede o no servir (según la di�cultad), aquí va. (i) Utilice las condiciones
necesarias
(C1) u� (t) maximiza Hc (x (t) ; u (t))
(C2) x0 (t) = @Hc@
 = f (x (t) ; u (t))
(C3) 
0 (t) = �@Hc@x + �
(t)
(C4) l��mt!1 e��tHc (x� (t) ; u� (t)) = 0
para localizar un candidato a solución interior, (x (t) ; u (t)); luego (ii) veri�que las condiciones
de concavidad del Teorema de condiciones su�cientes, (es decir, Hamiltoniano maximizado, H0c =
Hc (x (t) ; u
� (t)) es cóncavo en x(t) (para 
(t) y t dados)) y veri�que que se satisface l��mt!1 e��t
(t)x(t) �
0 para otro par admisible con 
(t) asociado a la solución candidata. Si estas condiciones se satis-
facen, habremos caracterizado un máximo global.
27
2.7.3. T in�nito, con descuento, enfoque de de la Fuente (2000)
El problema planteado no especi�ca explícitamente para las condiciones necesarias la existencia
de una cota inferior para x(t) en el in�nito.
El problema de control óptimo es
m�ax
fu(t)g
J =
Z 1
0
e��tV (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
y las condiciones necesarias son las mismas que en el caso de T �nito, excluyendo la condición de
transversalidad. Recuerde que estas condiciones se establecen en función del Hamiltoniano de valor
corriente y que son
(C1) u� (t) maximiza Hc (x (t) ; u (t))
(C2) x0 (t) = @Hc@
 = f (x (t) ; u (t))
(C3) 
0 (t) = �@Hc@x + �
(t)
Ahora bien, de la Fuente (2000) señala que, en muchos problemas, resulta natural suponer que el
valor del estado sea no negativo asintóticamente. Es decir (aunque no lo explicita en una fórmula!),
en el límite, x(t) � 0.
En este contexto, la condición de transversalidad es una extensión de caso de T �nito y de la
Fuente enuncia el siguiente teorema. (Note que en el planteo del problema no aparece el requerim-
iento sobre el valor asintótico de la variable de estado, pero recuerde, está implícito!!!).
Teorema 9 (condiciones su�cientes, de la Fuente) Sea el problema de control óptimo
m�ax
fu(t)g
J =
Z 1
0
e��tV (x (t) ; u (t)) dt
s:a:
x0 (t) = f (x (t) ; u (t))
x (0) = x0
entonces, existe 
(t) continua tal que para todo t, satisface las condiciones
(C1) u� (t) maximiza Hc (x (t) ; u (t))
(C2) x0 (t) = @Hc@
 = f (x (t) ; u (t))
(C3) 
0 (t) = �@Hc@x + �
(t)
Más aún, si el Hamiltoniano maximizado, H0c = Hc (x (t) ; u
� (t)) es cóncavo en x(t) (para 
(t)
y t dados), entonces, todo par admisible (x�(t); u�(t)) que satisface C1�C3 y las condiciones
de transversalidad
l��m
t!1
e��t
(t) � 0 y l��m
t!1
e��t
(t)x�(t) = 0
es óptimo. Es decir, J alcanza un máximo global para (x� (t) ; u� (t)).
28
Remark 13 Las condiciones de transversalidad (que son su�cientes, no necesarias) son la exten-
sión natural de las condiciones mencionadas en el punto 3.e de la subsección 2.3, es decir:
xT � 0; �(T ) � 0; xT�(T ) = 0
Otro resultado interesante (de la Fuente, 2000) es el que se aplica directamente a sistemas
autónomos. Es decir, tal como ya hemos visto, a menudo este sistema tiene un estado estacionario
y trayectorias que llevan a dicho estado estacionario. Luego, el siguiente teorema establece que si
podemos encontrar una trayectoria (x (t) ; 
 (t)) (note que no se expresa en términos de la variable
de control) tal que satisfaga las condiciones necesarias y converja al estado estacionario, entonces,
bajo ciertas condiciones, esta trayectoria es óptima. Es decir, (x� (t) ; 
� (t)) es óptima y u�(t) se
obtiene a partir delas otras dos.
Teorema 10 (condiciones su�cientes 2, de la Fuente) Sea x� (t) ; 
� (t) ; u�(t) las trayectorias
que satisfacen las condiciones necesarias y suponga que la parte de la concavidad del Hamil-
toniano maximizado (ver Teorema 9) se satisface. Luego, si x� (t) y 
� (t) convergen a un
estado estacionario (x�; 
�) con x� � 0; 
� � 0, entonces constituyen una trayectoria óptima.
Es decir, J alcanza un máximo global para (x� (t) ; u� (t)).
Remark 14 Este resultado es muy útil cuando las condiciones necesarias del problema de control
óptimo de�nen un sistema de ecuaciones diferenciales en x(t) y 
(t) autónomo que tiene un único
punto de equilibrio de tipo ensilladura. Luego, como solo hay una trayectoria que llegue al punto de
ensilladura (el saddle-path), este saddle-path es la trayectoria óptima global.
29
3. Programación Dinámica, tiempo discreto
La Programación Dinámica (PD) es un enfoque para resolver problemas de optimización dinámi-
ca basado en el Principio de Optimalidad de Bellman (1957).
En esta parte trabajaremos con problemas de optimización dinámica en tiempo discreto. Hay
dos motivos: (i) razones de tiempo y (ii) razones pedagógicas. En mi opinión, el enfoque PD se
puede explicar mejor con tiempo discreto. Sin embargo, debe quedar en claro que cuando NO hay
incertidumbre (es decir, cuando, dadas las trayectorias de estado y de control, el valor de V queda
determinado pues no hay shocks aleatorios6), ambos enfoques (PD y CO) son equivalentes. Esto
implica, entre otras cosas, que podemos trabajar en tiempo continuo o en tiempo discreto con
ambos. Obviamente, esto no implica que, dado cualquier problema sin incertidumbre, el grado de
di�cultad sea el mismo...dependerá.
3.1. Introducción al problema básico, T �nito, con descuento
Al igual que en el caso de control óptimo, la idea es la siguiente. Consideremos un sistema
económico o de cualquier naturaleza cuya evolución temporal puede ser controlada (por lo menos
parcialmente) por quien toma las decisiones. Sin pérdida de generalidad, supondremos para la
exposición que sigue que n = m = 1 (luego, tendremos una variable de estado y una de control).
En cada momento del tiempo s,7 el estado del sistema puede ser descrito por una variable de
estado xs 2 R y en cada período s, el tomador de decisiones elige un control, us 2 R.
El estado actual del sistema xs y el control elegido us determinarán conjuntamente el estado
del período siguiente, xs+1 de acuerdo a una ecuación de movimiento o de transición (que depende
posiblemente del tiempo8):
xs+1 = fs (xs; us)
Diferentes elecciones del control implicarán diferentes trayectorias temporales del estado.
Supondremos que el tomador de decisiones tiene preferencias de�nidas sobre estas trayectorias
temporales que pueden ser sintetizadas con la suma del valor presente de los retornos en cada s
más el valor residual. La función objetivo es, por lo tanto,
T�1X
s=0
�sVs (xs; us) + �
TFT (xT )
donde, s = 0 es el momento inicial de plani�cación y T está dado, mientras que xT no. Note que
si xT estuviera dado, FT (xT ) es una constante que no afecta las decisiones, sino que simplemente
restringe uT�1. � es el factor de descuento subjetivo (que se supone constante y � 2 (0; 1], si � = 1,
no hay descuento).
Dado el estado inicial x0 y la sucesión fusgT�1s=0 de variables de control, la evolución del sistema
está determinada por la ecuación de transición, xs+1 = fs (xs; us). Luego, x0 y fusgT�1s=0 inducen
una sucesión de estados fxsgTs=1.
6La ventaja de PD es justamente que es posible utilizar este método cuando las restricciones son estocásticas.
7La razón por la que no uso t como genérico es para poder derivar la ecuación de Bellman en términos de t. Ver
más abajo.
8La dependencia del tiempo es la idea equivalente de tener sistemas no autónomos. En esta formulación general,
escribimos fs(:) para denotar que posiblemente, fs(:) 6= f� (:) para s 6= � . Lo mismo ocurrirá con la función de retorno
en s, Vs.
30
Una sucesión o secuencia de estados y controles
�
fxsgTs=1 [ fusg
T�1
s=0
�
es admisible si ambos
son factibles en todo s. El problema de optimización:
m�ax
fusgT�1s=0
J =
T�1X
s=0
�sVs (xs; us) + �
TFT (xT )
s:a:
xs+1 = fs (xs; us) ; s = 0; 1; :::; T � 1
x0; T dados
Note que el hecho de que el tiempo sea discreto, nos permite entender quizás mejor el proceso de
optimización. En s = 0, dado el estado inicial, x0, elegimos u0. Al elegir u0 afectamos directamente
el retorno en s = 0, es decir, obtenemos V (x0; u0), e indirectamente el retorno en s = 1, pues al
elegir u0 determinamos el valor de la variable de estado en s = 1, x1 = f(x0; u0).
En s = 1, dado el estado x1 (que resume la historia pasada), elegimos u1. Obtenemos un retorno
contemporáneo igual a V (x1; u1) y determinamos el estado x2 = f(x1; u1).
Y así, sucesivamente, hasta llegar a s = T �1. Al inicio de este período, el estado del sistema es
xT�1. Elegimos uT�1, obtenemos un retorno contemporáneo igual a V (xT�1; uT�1) y determinamos
el valor �nal del estado, xT = f(xT�1; uT�1), que nos reportará algún valor eventualmente en s = T ,
al que podríamos llamar FT (xT ).
Note:
x� es el estado (stock) al inicio del período s = � , que es el resultado de la elección de u��1
y del estado anterior, x��1.
u� es la elección que realizamos durante el período s = � y que, a través de la ecuación de
transición, determina x�+1, el estado al inicio del período siguiente, s = � + 1.
es decir, el tomador de decisiones no puede afectar en s = � el estado x� , pues este es el fruto
de las decisiones (acumuladas) pasadas, pero afecta el estado x�+1.
x0
&
u0 !
#
x1
&
u1 !
#
::: xT�1
&
uT�1 !
#
xT
#
V (x0; u0) V (x1; u1) ::: V (xT�1; uT�1) FT (xT )
s = 0 1 ::: T � 1 T
3.2. El Principio de Optimalidad
3.2.1. La Función de Valor
Uno de los pilares de este enfoque es la Función de Valor. Es muy importante saber plantearla.
La función de valor cumple el mismo rol que la función de utilidad indirecta en un problema de
optimización estático del consumidor. En este caso, recuerde, el consumidor maximiza su utilidad
U(x), eligiendo el vector de bienes x, sujeto a la restricción presupuestaria que depende del vector de
precios p y su ingreso I. Una vez resuelto el problema de optimización, si dejamos a los parámetros
p e I como �variables�, V (p;I) = fm�axx2X U(x) : p � x = Ig es la función de utilidad indirecta.
31
Para cada p; I nos entrega directamente la utilidad máxima que obtiene el consumidor. Luego,
ya no necesitamos maximizar nuevamente, ya que dicha función presupone que el consumidor ha
elegido óptimamente para cada p; I.
La función de máximo valor es la que usamos en 2.7.1. Es el valor de la función objetivo J(�)
evaluada en la secuencia óptima de u y, por lo tanto, en la secuencia óptima de x inducida
por las funciones de transición. Dado el esquema secuencial de decisiones, este valor máximo
dependerá, en de�nitiva, del valor inicial x0 (y del valor �nal xT si este estuviera dado).
Formalmente, denotaremos por J0(x0) a la función de máximo valor del problema iniciado en
t = 0, con condición inicial x0. Está implícito que �naliza en T .
J0 (x0) = m�ax
fusgT�1s=0
�
T�1P
s=0
�sVs (xs; us) + �
TFT (xT ) : xs+1 = fs(xs; us), s = 0; 1; ::; T � 1
�
3.2.2. El Principio de Optimalidad de Bellman
Ahora bien, dado que (i) la función objetivo es aditiva separable en s; y (ii) que para cada s, Vs
y fs dependen de s y de los valores contemporáneos (corrientes) de xs y us, dadas las secuencias
admisibles xs y por us, podemos dividir el horizonte temporal en tres subperíodos (o más, pero la
idea es mostrarlo con estos tres).
Suponga a y b dos enteros positivos tales que 0 � a � b � T �1. Luego, podemos dividir ambas
secuencias admisibles (de control y de estado) y escribir la función objetivo
J =
a�1X
s=0
�sVs (xs; us) +
b�1X
s=a
�sVs (xs; us) +
T�1X
s=b
�sVs (xs; us) + �
TFT (xT )
Utilizando este resultado, podemos enunciar formalmente el Principio de Optimalidad
Teorema 11 (Principio de Optimalidad)Sea fx�s; u�sg la solución óptima del problema de op-
timización dinámica planteado entre t = 0 y T , con condición inicial dada x0. Dados dos
puntos arbitrarios a y b con 0 � a � b � T �1, sean x�a y x�b los valores inicial y terminal de la
sucesión óptima correspondiente al período entre a y b. Luego, la solución óptima al problema
(note que hemos expresado el problema en valor corriente, es decir, la función objetivo es el
valor en s = a de la suma).
m�ax
fusgb�1s=a
J =
b�1X
s=a
�s�aVs (xs; us)
s:a:
xs+1 = fs(xs; us), s = a; a+ 1; :::; b� 1; a; b; x�a; x�b dados
está dada por la sucesión admisible fx�sg
b
s=a+1, fu�sg
b�1
s=a. Siendo la correspondiente función de
valor
J (x�a; a;x
�
b ; b) = m�ax
fusgb�1s=a
� Pb�1
s=a �
s�aVs (xs; us) + �
b�aFb(x
�
b) :
xs+1 = fs(xs; us); s = a; a+ 1; :::; b� 1
�
32
En palabras sencillas, el teorema señala que cada porción de una trayectoria óptima (de control
y de estado) de un problema entre t0 = 0 y tT = T , es una trayectoria óptima para un subproblema
correspondiente, en el cual restringimos al estado inicial y al estado �nal a que sean iguales a los
términos correspondientes de la secuencia óptima completa. Es decir, en este subproblema, t0 = a
y tT = b, luego, xt0 = x
�
a, xtT = x
�
b , donde tT indica momento terminal de cualquier (sub)problema
en general.
Consistencia Temporal (intuición) Es una implicación del Principio de Optimalidad. Suponga
que computamos la trayectoria óptima (x�s; u
�
s) desde el inicio del período de plani�cación y,
después de un rato, decidimos parar en el momento � < T . Si recalculamos la solución óptima
desde � en adelante, el Principio de Optimalidad nos pide que la solución de este subproblema
sea la porción de la solución del problema original que nos quedaba por obtener. Básicamente,
la consistencia temporal nos previene de cambiar de trayectoria a mitad de camino.
3.2.3. La Ecuación de Bellman
El Principio de Optimalidad nos permite de�nir la función de valor para períodos inter-
medios, es decir, para cualquier s = t > 0 hasta T .
Jt (xt) = m�ax
fusgT�1s=t
�
T�1P
s=t
�s�tVs (xs; us) + �
TFT (xT ) : xs+1 = fs(xs; us), s = t; t+ 1; :::; T � 1
�
Asimismo, el Principio de Optimalidad nos permite proceder secuencialmente, dejando para
mañana las decisiones sobre los controles futuros, y, por lo tanto, decomponer el problema original
dinámico en una secuencia de subproblemas estáticos.
En particular, considere el problema que comienza en t cualquiera y descompongamos entre la
optimización en t y la que ocurre a partir de t + 1. La función de valor se puede re-escribir de la
siguiente manera
Jt (xt) = m�ax
fusgT�1s=t
�
T�1P
s=t
�s�tVs (xs; us) + �
TFT (xT ) : xs+1 = fs(xs; us), s = t; t+ 1; :::; T � 1
�
= m�ax
fusgT�1s=t
�
Vt (xt; ut) +
� PT�1
s=t+1 �
s�tVs (xs; us) + �
TFT (xT ) :
xs+1 = fs(xs; us), s = t+ 1; :::; T � 1
��
= m�ax
ut
(
Vt (xt; ut) +
"
m�axfusgT�1s=t+1
PT�1
s=t+1 �
s�tVs (xs; us) + �
TFT (xT ) :
xs+1 = fs(xs; us), s = t+ 1; :::; T � 1
#)
Note que m�axfusgT�1s=t+1
PT�1
s=t+1 �
s�tVs (xs; us)+�
TFT (xT ) : xs+1 = fs(xs; us), s = t+1; :::; T �1
es, en de�nitiva, el valor presente de la función de valor en t del problema a partir de t + 1 hasta
T , es decir, descontada hasta t, �Jt+1(xt+1).
Podemos entonces expresar
Jt (xt) = m�ax
ut
fVt (xt; ut) + �Jt+1 (xt+1) : xt+1 = ft(xt; ut)g .
Si, adicionalmente, tenemos en cuenta que xt+1 = ft(xt; ut), y reemplazamos
Jt (xt) = m�ax
ut
fVt (xt; ut) + �Jt+1 (ft(xt; ut))g
33
Esta es la Ecuación de Bellman (en valor corriente).
La ecuación de Bellman es una relación de recurrencia que pone en evidencia el trade o¤ entre
el presente y el futuro (efecto directo versus efecto indirecto al elegir u).
Nos da también la intuición del enfoque. La ecuación de Bellman es una ecuación cuya incógnita
es una secuencia de funciones fJtgTt=0 que satisfacen la relación de recurrencia. Es decir, indepen-
dientemente del método que utilicemos para resolver el problema de optimización (hay varios),
la programación dinámica transforma el problema desde uno en el que buscamos las secuencias
óptimas (xt; ut) a uno donde (explícita o implícitamente) buscamos una secuencia de funciones de
valor, fJtgTt=0.
3.3. El método de �backward induction�para T �nito
Cuando T es �nito, podemos proceder desde T hacia t = 0. Para ello, de�niremos una función
hs (:) que llamaremos función de política (policy function). Esta función mapea para cada s
el estado xs a la elección óptima u�s.
Es decir,
u�s = hs(xs)
¿Cuál es el signi�cado de esta función? Básicamente la intuición es la siguiente: en cada momento s,
cuando elegimos us disponemos de la información acumulada por el estado del sistema, xs. Luego,
la función de política es una función que establece para cada s la elección óptima del control (que
afectará xs+1, no lo olvide) como función del estado actual, xs.
Ahora procedamos. Supongamos que xT no está dado. Luego, en el último período, la ecuación
de Bellman sería
JT�1 (xT�1) = m�ax
uT�1
fVT�1 (xT�1; uT�1) + �JT (xT ) : xT = fT�1(xT�1; uT�1)g
que, en de�nitiva, nos está indicando que hay que resolver un problema estático.
La solución de este período es u�T�1 = hT�1(xT�1). No conocemos el valor, pero sí la función
(es decir, hT�1(xT�1) nos entregará el valor de u�T�1 al �nal del procedimiento, cuando obtengamos
xT�1).
Luego, dada JT�1(xT�1), retrocedemos otro paso y resolvemos
JT�2 (xT�2) = m�ax
uT�2
fVT�2 (xT�2; uT�2) + �JT�1 (xT�1) : xT�1 = fT�2(xT�2; uT�2)g
de donde obtendremos u�T�2 = hT�2(xT�2). Y así sucesivamente, hasta llegar al inicio, donde
resolveremos
J0(x0) = m�ax
u0
fV0 (x0; u0) + �J1 (x1) : x1 = f0(x0; u0)g
de donde obtendremos el valor de J0(x0) (del problema original) y la función u�0 = h0(x0).
En este punto, x0 es un valor conocido, luego podemos recuperar la secuencia de u�s a partir
de las funciones de política hs(xs) y la secuencia de xs a partir de las ecuaciones de transición
correspondientes.
Exercise 15 Realice como ejercicio el ejemplo 7.10 de Carter, pág. 29 del capítulo 7 adicional.
34
Remark 16 Uno podría argumentar que este método no es el mejor si T es muy grande. Sin
embargo, en tales casos, es relativamente fácil su resolución computacional.
Remark 17 La solución que encontramos es un óptimo global (recuerde todo el procedimiento parte
del supuesto que existe la solución al problema completo).
3.4. Horizonte temporal in�nito, con descuento - Formato estacionario
Sea el siguiente problema de optimización dinámica, donde la función de retorno instantáneo y
la ecuación de transición no dependen del período t, luego, para todo t
Vt (xt; ut) = V (xt; ut) y ft(xt; ut) = f(xt; ut)
m�ax
fusg1t=0
J =
1X
t=0
�tV (xt; ut)
s:a:
xt+1 = f (xt; ut) ; con x0 dado
Este es el formato básico estacionario (pues no hay dependencia de t).
Bajo este formato, la función de valor es
J(x0) = m�ax
fusg1t=0
( 1X
t=0
�tV (xt; ut) : xt+1 = f(xt; ut)
)
Y la ecuación de Bellman en valor corriente
J (xt) = m�ax
ut
fV (xt; ut) + �J (xt+1) : xt+1 = f(xt; ut)g
de donde podemos deducir que la función de política también será estacionaria, es decir, la misma
para todo t
u�t = h (xt)
Esta característica simpli�ca mucho el problema, pues hay que encontrar solo una función de
política!.
Note, asimismo, que J(:) es una función (y no una secuencia).
Luego, si el problema tiene solución (y ojalá única), el objetivo es encontrar J(x) y h(x), que
están vinculadas por la ecuación de Bellman (con notación simpli�cada)
J (x) = m�ax
u
fV (x; h (x)) + �J (f (x; h (x)))g
esta es una ecuación funcional (pues las incógnitas son funciones) que debe ser resuelta para obtener
J(x) y h(x).
Ahora bien, (no todo podía ser tan fácil!), sabemos que si J(x) existe, satisface la ecuación de
Bellman. Es decir, si la función de valor existe, entonces satisface la ecuación de Bellman.
Sin embargo, no siempre podremos a�rmar lo contrario. La ecuación de Bellman puede tener
muchas soluciones y solo una ser la función de valor del problemade optimización.
Por lo tanto, resulta importantísimo estudiar las condiciones bajo las cuales podemos estar
seguros que, al solucionar la ecuación de Bellman y encontrar J(x), estaremos encontrando la
función de valor del problema planteado.
35
3.5. Supuestos y teoremas importantes
En esta subsección trataremos (de una forma lo más sencilla posible) de estudiar algunos de los
supuestos y teoremas más importantes que nos permiten garantizar que la solución a la ecuación de
Bellman es la solución que buscamos para el problema de optimización. En todos los casos seguimos
suponiendo n = m = 1. En esta parte sigo a Ljungqvist & Sargent (2004) (como es habitual en
estos casos, no existe un único conjunto de supuestos que garanticen los resultados, por ello nos
focalizaremos en los que estos autores proponen).
El problema a resolver es, por lo tanto, resolver la siguiente ecuación funcional (EB)
J (x) = m�ax
u
fV (x; u) + �J (x+1) : x+1 � f (x; u)g
donde x+1 representa la variable de estado en el período siguiente, � 2 (0; 1).
Para entender los supuestos, es necesario previamente recordar algunas de�niciones y aplicarlas.
3.5.1. De�niciones y teoremas previos
1. Sea un espacio métrico (W;d), con métrica habitual, entonces el operador T es una función
que mapea de (W;d) a (W;d). En general, T : W ! W . Es continuo si es continuo en cada
punto w 2W .
2. Recuerde el Teorema de Banach y su implicación: Sea (W;d) un espacio métrico completo y
T :W !W una contracción. Entonces existe un único punto �jo w0 2W tal que T (w0) = w0.
Más aún, si w es cualquier elemento de W y la sucesión fwng se de�ne inductivamente
según w1 = T (w); w2 = T (w1);...; wn+1 = T (wn), entonces fwng converge a w0. (Es decir,
cualquier secuencia cuyos elementos se vayan de�niendo a partir de la aplicación recursiva
de la contracción, converge al único punto �jo de la contracción).
3. Sea W un espacio de funciones. Es decir, los elementos del espacio son funciones. Si decimos
que w; v 2 W , entonces estamos hablando de funciones (que en nuestro caso son funciones
reales de variable real). Supongamos sin pérdida de generalidad que las funciones del espacio
tienen como argumento la variable x (es genérica). Luego, sean w; v 2W . Entonces, w � v si
y solo si w (x) � v (x) para cualquier x en el dominio de las funciones.
4. De�nimos T como el operador sobre el espacio métrico (W;d1), donde W es un espacio de
funciones y d1 (w (x) ; v(x)) = supx jw(x)� v(x)j.9
5. Teorema 13 (Condiciones su�cientes de Blackwell para que el operador T sea una
contracción)10: Sea T un operador sobre el espacio métrico de funciones (W;d1). Suponga
que T satisface las siguientes propiedades:
(a) Monotonicidad: para cualquier w; v 2W , w � v implica T (w) � T (v).
(b) Descuento: Sea c una función constante de valor real c para todo el dominio de las funciones
en W . Para cualquier c real positivo y cualquier w 2W , T (w + c) � T (w) +Kc para algún
K 2 [0; 1).
Entonces T es una contracción con constante de la contracción igual a K.
9Esto signi�ca que comparamos las dos funciones y la distancia entre las dos funciones estará dada por la cota
superior de todas las distancias para cada x del dominio de ambas.
10También llamadas condiciones su�cientes de Blackwell-Boyd.
36
3.5.2. Condiciones su�cientes, T in�nito, con descuento y en formato estacionario
La estrategia es la siguiente. Dada la ecuación de Bellman, J (x) = m�axu fV (x; u) + �J (x+1) : x+1 � f (x; u)g,
se de�ne un operador T que transforme funciones de valor real en funciones de valor real
TJ (x) = m�ax
u
fV (x; u) + �J (x+1) : x+1 � f (x; u)g
de tal manera que la ecuación de Bellman pueda escribirse
J(x) = TJ(x)
Luego, se realizan (o se chequean que se cumplan) los supuestos que garantizan
que dicho operador sea una contracción (supuestos que garantizan que se cumplan las condiciones
su�cientes de Blackwell-Boyd) y que, por lo tanto, por ser contracción, tenga un único �punto �jo�,
es decir, que la función que resuelve J(x) = TJ(x) exista y sea única.
1. V (:) es una función de valor real, continua, cóncava y acotada.
2. El conjunto delimitado por la ecuación de transición que determina la admisibilidad de las
sucesiones
fx+1; x; u : x+1 � f (x; u) ; u 2 Rg
es convexo y compacto.
3. f (x; u) es continua.
Con los supuestos 1-2, las funciones J pertenecen a un espacio de funciones continuas y acotadas
que mapean de X a R y junto con la métrica d1 de�nen un espacio métrico. Llamaremos a este
espacio (�; d1). El espacio métrico (�; d1) es completo, el operador T : � ! �, mapea cada
función continua y acotada J a una función continua y acotada TJ .
Probamos que se satisfacen las condiciones de Blackwell-Boyd.
1. Monotonicidad: Sean J0 y J1 2 � tal que J0(x) � J1 (x) para todo x 2 X. Luego
TJ0 = m�ax
u
�
V (x; u) + �J0 (x+1) : x+1 � f (x; u)
	
� m�ax
u
�
V (x; u) + �J1 (x+1) : x+1 � f (x; u)
	
= TJ1
luego, T es monótono.
2. Descuento: Considere cualquier constante positiva c
T (J + c) = m�ax
u
fV (x; u) + � [J (x+1) + c] : x+1 � f (x; u)g
= m�ax
u
fV (x; u) + �J (x+1) + �c : x+1 � f (x; u)g
= TJ + �c
y dado que � 2 (0; 1), entonces T descuenta.
37
T satisface ambas propiedades de Balckwell-Boyd.
Luego, T es una contracción en un espacio métrico completo. Por lo tanto, la ecuación de
Bellman que puede ser expresada
J = TJ
tendrá un único punto �jo (habrá una única función J� que resuelve la ecuación de Bellman). Más
aún:
- este punto �jo se puede aproximar en el límite con iteraciones Jn = Tn(J0), comenzando
desde cualquier función acotada y continua J0. Otra forma de entender esta aproximación, es la
siguiente: comenzando con cualquier función acotada y continua J0, se puede iterar hasta `!1
J`+1(x) = m�ax
u
fV (x; u) + �J`(x+1)g , x+1 = f(x; u).
- también se puede demostrar que T mapea funciones cóncavas a funciones cóncavas, luego la
solución J� = TJ� es cóncava.
- y �nalmente, se puede demostrar, que en el interior del dominio, la función J� es diferenciable
con
@J
@x
=
@V (x; h (x))
@x
+ �
@J (f (x; h (x)))
@x
@f (x; h (x))
@x
(esta es una versión de la llamada fórmula de Benveniste y Scheinkman (1979)). Si la ecuación
de transición no depende de xt, entonces @J@x =
@V (x;h(x))
@x .
Si adicionalmente se satisface el supuesto 3, habrá una única función de política de la forma
u = h(x) donde h maximiza el lado derecho de la ecuación de Bellman en el formato
J (x) = m�ax
u
fV (x; u) + �J (f (x; u)) : u = h(x)g
3.6. Métodos para computar la solución cuando T es in�nito
Presentaremos tres métodos.
1. (Educated Guess) Adivinar y veri�car. Este método se basa en suponer una función J , que
en general tiene coe�cientes para determinar, y luego veri�car que es una solución.
2. Iteración de la función de valor. Se basa en la propiedad que nos permite comenzar con
cualquier función acotada y continua J0, y luego iterar hasta ` ! 1, que, en la práctica,
signi�ca hasta que J converja.
J`+1(x) = m�ax
u
fV (x; u) + �J`(x+1): x+1 = f(x; u)g .
3. Algoritmo de mejoramiento de Howard. Este método, conocido como método de iteración de
la función de política, consiste en los siguientes pasos:
(i) Elija una función de política factible, u = h0(x) y compute la función de valor asociada a
operar con dicha política para siempre, es decir
Jhj =
1X
t=0
�tV (xt; hj (xt)) , donde xt+1 = f (xt; hj(xt)) , j = 0
38
(ii) Genere una nueva función de política, u = hj+1(x) que resuelva el problema de dos
períodos
m�ax
u
�
V (x; u) + �Jhj (f (x; u))
	
para cada x
(iii) Iterar sobre j hasta que que se produzca la convergencia repitiendo pasos (i) y (ii).
Está de más aclarar que los métodos iterativos son, en general, difíciles de aplicar sin uso de
computadores.
3.6.1. Ejemplo
Con el siguiente ejemplo ilustraremos los tres métodos.
Modelo de crecimiento óptimo.
Un plani�cador elige fct; kt+1g1t=0 para maximizar
1X
t=0
�t ln(ct)
� 2 (0; 1)
sujeto a un valor dado k0 y la ecuación de transición
kt+1 + ct = f(kt)
f (kt) = Ak
�
t , A > 0, � 2 (0; 1)
1. Elementos

Continuar navegando

Otros materiales