Logo Studenta

representacion-numeros

¡Este material tiene más páginas!

Vista previa del material en texto

Facultad de Ciencias Astronómicas y Geofísicas - UNLP -
Representación de los números
en la computadora
Pablo J. Santamaría
Representación de los números en la computadora.
Pablo J. Santamaría.
Abril 2013 - Versión 1.8.1
e-mail: pablo@fcaglp.unlp.edu.ar
web: http://gcp.fcaglp.unlp.edu.ar/
integrantes:psantamaria:fortran:
start
Las imágen que ilustra la portada es de dominio público
y fue obtenida en el sitio http://www.picdrome.
com/.
Esta obra se distribuye bajo una
licencia de Creative Commons Atribución-
CompartirDerivadasIgual 3.0 Unported. Es decir,
se permite compartir, copiar, distribuir, ejecutar y
comunicar públicamente, hacer obras derivadas e
incluso usos comerciales de esta obra, siempre que se
reconozca expresamente la autoría original y el trabajo
derivado se distribuya bajo una licencia idéntica a ésta.
pablo@fcaglp.unlp.edu.ar
http://gcp.fcaglp.unlp.edu.ar/integrantes:psantamaria:fortran:start
http://gcp.fcaglp.unlp.edu.ar/integrantes:psantamaria:fortran:start
http://gcp.fcaglp.unlp.edu.ar/integrantes:psantamaria:fortran:start
http://www.picdrome.com/
http://www.picdrome.com/
http://creativecommons.org/licenses/by-sa/3.0/deed.es_AR
http://creativecommons.org/licenses/by-sa/3.0/deed.es_AR
Sólo hay 10 tipos de personas:
las que saben binario y las que no.
Índice
1. Introducción. 7
2. El sistema posicional. 8
2.1. Sistemas numéricos posicionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Conversión entre sistemas numéricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Representación de enteros: números de punto fijo. 12
3.1. Representación signo–magnitud y complemento a dos. . . . . . . . . . . . . . . . . . . . . . 12
3.2. Aritmética con enteros complemento a dos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Representación de números reales: números de punto flotante. 17
4.1. Números de punto flotante. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2. Estándar del IEEE para la representación binaria en punto flotante. . . . . . . . . . . . . . . . 20
4.3. Anatomía del formato de precisión simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4. Anatomía del formato de precisión doble. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.5. Números especiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.6. Números de punto flotante y Fortran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.7. Dígitos de guarda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.8. Precisión extendida y exceso de precisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.9. Redondeo en la norma IEEE754. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5. Propagación del error de redondeo. 32
6. Colofón. 36
7. Referencias. 37
A. Códigos. 37
5
1. Introducción.
Consideremos el siguiente código escrito en Fortran 77.
Código 1. Entero mal comportado
program main
implicit none
integer i
i = 2**31 -1
write (*,*) i+1
end
Al compilarlo y ejecutar el programa resultante obtenemos la siguiente salida:
-2147483648
Es decir, ¡al sumar dos números positivos obtenemos un número negativo! Ahora consideremos este otro
programa en Fortran 77.
Código 2. Suma mal comportada
program main
implicit none
if ( 19.08d0 + 2.01d0 .eq. 21.09d0 ) then
write(*,*) ’19.08 + 2.01 es igual a 21.09’
else
write(*,*) ’19.08 + 2.01 es distinto a 21.09’
endif
end
Al compilarlo y ejecutarlo obtenemos como salida:
19.08 + 2.01 es distinto a 21.09
Parece haber algún tipo de error. ¡Los números no se están comportando como deberían!
Los dos ejemplos anteriores exponen ciertas características de la representación en la computadora de
los números enteros y los números reales. Pensemos un momento, el sistema de número reales constituye
un conjunto altamente sofisticado en virtud de las propiedades que posee: (i) no está acotado ni superior ni
inferiormente, (ii) es infinitamente denso, esto es, entre dos números reales siempre hay un número real, (iii)
es completo, esto es, el límite de toda sucesión convergente de números reales es un número real, (iv) las
operaciones aritméticas definida sobre ellos satisfacen una gran cantidad de propiedades, como ser los axiomas
de cuerpo, (v) es un conjunto ordenado. Ahora bien, para poder realizar los cálculos en forma rápida y eficiente,
todo dispositivo de cálculo, como una computadora o una calculadora, representa a los números con una cantidad
finita y fija de dígitos. Consecuencia inmediata de ésto es que no todas las propiedas de los números reales se
satisfacen en la representación de los mismos. La forma de la representación y sus consecuencias son discutidas
en lo largo de estas notas.
Estas notas distan de ser originales. Todo el material, incluso muchos de los ejemplos, han sido extraído
de diversas fuentes1. Sin embargo, el enfoque si es propio: el propósito de estas notas es tratar de dar a los
estudiantes e investigadores que hace ciencia con computadoras, pero que no son informáticos, una explicación
lo más completa posible de los aspectos a tener en cuenta sobre la representación de los números en la
computadora con el fin de que puedan comprender (y evitar) por que suceden ciertas cosas (como las de nuestros
programas anteriores) al utilizar software ya sea programado por uno mismo o por terceros. Estas notas están
divididas en cuatro secciones principales: primeramente introducimos el sistema posicional para una base
1Ver sección de referencias.
7
cualquiera, luego discutimos la representación de punto fijo, utilizada para representar números enteros, y
posteriormente la representación de punto flotante, utilizada para representar los números reales. Cierran estas
notas una discusión de la propagación de errores de redondeo en los algoritmos numéricos.
2. El sistema posicional.
2.1. Sistemas numéricos posicionales.
Cotidianamente, para representar los números utilizamos un sistema posicional de base 10: el sistema
decimal. En este sistema los números son representados usando diez diferentes caracteres, llamados dígitos
decimales, a saber, 0,1,2,3,4,5,6,7,8,9. La magnitud con la que un dado dígito a contribuye al valor del
número depende de su posición en el número de manera tal que, si el dígito ocupa la posición n a la izquierda
del punto decimal, el valor con que contribuye es a10n−1, mientras que si ocupa la posición n a la derecha del
punto decimal, su contribución es a10−n. Por ejemplo, la secuencia de dígitos 472.83 significa
472.83 = 4 ·102 +7 ·101 +2 ·100 +8 ·10−1 +3 ·10−2.
En general, la representación decimal
(−1)s(anan−1 · · ·a1a0.a−1a−2 · · ·)
corresponde al número
(−1)s(an10n +an−110n−1 + · · ·+a1101 +a0100 +a−110−1 +a−210−2 + . . .),
donde s depende del signo del número (s = 0 si el número es positivo y s = 1 si es negativo). De manera
análoga se puede concebir otros sistemas posicionales con una base distinta de 10. En principio, cualquier
número natural β ≥ 2 puede ser utilizado como base. Entonces, fijada una base, todo número real admite una
representación posicional en la base β de la forma
(−1)s(anβ n +an−1β n−1 + · · ·+a1β 1 +a0β 0 +a−1β−1 +a−2β−2 + . . .),
donde los coeficientes ai son los “dígitos” en el sistema con base β , esto es, enteros positivos tales que
0≤ ai ≤ β −1. Los coeficientes ai≥0 se consideran como los dígitos de la parte entera, en tanto que los ai<0,
son los dígitos de la parte fraccionaria. Si, como en el caso decimal, utilizamos un punto para separar tales
partes, el número es representado en la base β como
(−1)s(anan−1 · · ·a1a0.a−1a−2 · · ·)β ,
donde hemos utilizado el subíndice β para evitar cualquier ambigüedad con la base escogida.
Una de las grandes ventajas de los sistemas posicionales es que se pueden dar reglas generales simples
para las operaciones aritméticas2. Además tales reglas resultan más simples cuanto más pequeña es la base.Esta observación nos lleva a considerar el sistema de base β = 2, o sistema binario, en donde sólo tenemos los
dígitos 0 y 1. Pero existe otra razón. Una computadora, en su nivel más básico, sólo puede registrar si fluye
o no electricidad por cierta parte de un circuito. Estos dos estados pueden representar entonces dos dígitos,
convencionalmente, 1 cuando hay flujo de electricidad, 0 cuando no lo hay. Con una serie de circuitos apropiados
una computadora puede entonces contar (y realizar operaciones aritméticas) en el sistema binario. El sistema
binario consta, pues, sólo de los dígitos 0 y 1, llamados bits (del inglés binary digits). El 1 y el 0 en notación
binaria tienen el mismo significado que en notación decimal
02 = 010, 12 = 110,
2Por el contrario, en un sistema no-posicional como es la notación de números romanos las operaciones aritméticas resultan de gran
complejidad.
8
y las tablas de adición y multiplicación toman la forma
0+0 = 0, 0+1 = 1+0 = 1, 1+1 = 10,
0 ·0 = 0, 0 ·1 = 1 ·0 = 0, 1 ·1 = 1.
Otros números se representan con la notación posicional explicada anteriormente. Así, por ejemplo, 1101.01 es
la representación binaria del número 13.25 del sistema decimal, esto es,
(1101.01)2 = (13.25)10,
puesto que,
1 ·23 +1 ·22 +0 ·21 +1 ·20 +0 ·2−1 +1 ·2−2 = 13+0.25 = 13.25.
Además del sistema binario, otros dos sistemas posicionales resultan de interés en el ámbito computacional,
a saber, el sistema con base β = 8, denominado sistema octal, y el sistema con base β = 16, denominado
sistema hexadecimal. El sistema octal usa dígitos del 0 al 7, en tanto que el sistema hexadecimal usa los dígitos
del 0 al 9 y las letras A, B, C, D, E, F3. Por ejemplo,
(13.25)10 = (1101.01)2 = (15.2)8 = (D.4)16
La gran mayoría de las computadoras actuales (y efectivamente todas las computadoras personales, o PC)
utilizan internamente el sistema binario (β = 2). Las calculadoras, por su parte, utilizan el sistema decimal
(β = 10). Ahora bien, cualquiera sea la base β escogida, todo dispositivo de cálculo sólo puede almacenar un
número finito de dígitos para representar un número. En particular, en una computadora sólo se puede disponer
de un cierto número finito fijo N de posiciones de memoria para la representación de un número. El valor de
N se conoce como longitud de palabra (en inglés, word length). Además, aún cuando en el sistema binario
cualquier número puede representarse tan sólo con los dígitos 1 y 0, el signo − y el punto, la representación
interna en la computadora no tiene la posibilidad de disponer de los símbolos signo y punto. De este modo una
de tales posiciones debe ser reservada de algún modo para indicar el signo y cierta distinción debe hacerse para
representar la parte entera y fraccionaria. Esto puede hacerse de distintas formas. En las siguientes secciones
discutiremos, en primer lugar, la representación de punto fijo (utilizada para representar los números enteros) y,
en segundo lugar, la representación de punto flotante (utilizada para representar los números reales).
2.2. Conversión entre sistemas numéricos.
Ocasionalmente puede presentarse el problema de obtener la representación de un número, dado en
un sistema, en otro, por cálculos a mano4. Es fácil convertir un número de notación en base β a decimal.
Todo lo que se necesita es multiplicar cada dígito por la potencia de β apropiada y sumar los resultados. A
continuación veremos como puede convertirse la representación decimal de un número a un sistema de base β .
El procedimiento trata a las partes entera y fraccionaria por separado, así que supongamos, en primer lugar, que
el número p dado es un entero positivo. Entonces, en la base β ≥ 2, este puede ser escrito en la forma
p = anβ n +an−1β n−1 + · · ·+a1β 1 +a0 =
n
∑
j=0
a jβ j,
donde a j son los dígitos que queremos determinar. La igualdad anterior puede ser escrita en la forma
p = a0 +β
(
n
∑
j=1
a jβ j−1
)
,
de donde se sigue que el dígito ao se identifica con el resto de la división entera de p por la base β :
a0 = mod(p,β ).
3Para sistemas con base β > 10 es usual reemplazar los dígitos 10,11, . . . ,β −1 por las letras A, B, C, . . .
4O al menos nos interesa saber como podría hacerse.
9
Considerando ahora el cociente entero de tal división
c1 =
n
∑
j=1
a jβ j−1 = a1 +β
(
n
∑
j=2
a jβ j−2
)
,
resulta que el dígito a1 es el resto de la división entera de c1 por β :
a1 = mod(c1,β ).
Procediendo sucesivamente tenemos que, si ci denota el cociente de la división entera por β del paso anterior
(definiendo c0 = p), tenemos que
ci = ai +β
(
n
∑
j=i+1
a jβ j−i
)
, i = 0,1, . . . ,n,
con lo cual
ai = mod(ci,β ).
El proceso se detiene en n, puesto que le dividendo en el paso (n+ 1) es cero. En efecto, siendo cn = an =
an +0 ·β , es cn = 0. El procedimiento puede ser resumido esquemáticamente como sigue.
Para convertir un número entero positivo de base 10 a base β ≥ 2.
PASO 1. Realice la división entera por β del cociente obtenido en el paso anterior, comenzando con el número
dado.
PASO 2. Guarde el resto de tal división.
PASO 3. Continúe con el paso 1 hasta que el dividendo sea cero.
PASO 4. Lea los restos obtenidos, desde el último al primero, para formar la representación buscada.
Ejemplo: Convertir 29 a binario.
29
29/2 = 14 resto 1
14/2 = 7 resto 0
7/2 = 3 resto 1
3/2 = 1 resto 1
1/2 = 0 resto 1 ↑
Entonces (29)10 = (11101)2.
Consideremos ahora la parte fraccional del número en su representación decimal. Podemos entonces asumir
que el número p dado es un número real positivo entre 0 y 1. Entonces, en la base β ≥ 2, puede ser escrito en la
forma
p = a−1β−n +a−2β−2 + · · ·=
n
∑
j=1
a− jβ− j,
donde a− j son los dígitos que queremos determinar. Multiplicando la igualdad anterior por β tenemos que
q1 = β p = a−1 +
n
∑
j=2
a− jβ− j+1,
de donde se sigue que el dígito a−1 se identifica con la parte entera de la multiplicación de p por β :
a−1 = [q1] .
10
Consideremos ahora la parte fraccionaria de tal producto, si ésta no es nula podemos volver a multiplicar por β
para obtener
q2 = β (q1− [q1]) = a−2 +
n
∑
j=3
a− jβ− j+2,
de donde,
a−2 = [q2] .
Procediendo sucesivamente, si qi denota el producto de β por la parte fraccionaria del paso anterior (definiendo
q1 = β p), tenemos que
qi = a−i +
n
∑
j=i+1
a− jβ− j+i, i = 1,2, . . . ,
de donde,
a−i = [qi] .
Notemos que el procedimiento continúa indefinidamente, a menos que para algún qk su parte fraccionaria sea
nula. En tal caso qk+1 = β (qk− [qk]) = 0 y, en consecuencia, a−(k+1) = a−(k+2) = · · ·= 0, obteniéndose así una
cantidad finita de dígitos fraccionarios respecto de la base β . Resumimos el procedimiento como sigue.
Para convertir un número decimal entre 0 y 1 a la base β ≥ 2.
PASO 1. Realice la multiplicación por β de la parte fraccionaria obtenida en el paso anterior, comenzando con
el número dado.
PASO 2. Guarde la parte entera de tal producto.
PASO 3. Continúe con el paso 1 hasta que la parte fraccionaria sea cero, o hasta obtener el suficiente número de
dígitos requeridos para su representación.
PASO 4. Lea las partes enteras obtenidas, del principio hacia el final, para formar la representación buscada.
Ejemplo: Convertir 0.625 a binario.
0.625
2*0.625 = 1.25 [1.25] = 1 ↓
2*0.25 = 0.5 [0.5] = 0
2*0.5 = 1 [1] = 1
Nos detenemos puesto que 1− [1] = 0. Así, (0.625)10 = (0.101)2.
Ejemplo: Convertir 0.1 a binario.
0.1
2*0.1 = 0.2 [0.2] = 0 ↓
2*0.2 = 0.4 [0.4] = 0
2*0.4 = 0.8 [0.8] = 0
2*0.8 = 1.6 [1.6] = 1
2*0.6 = 1.2 [1.2] = 1
2*0.2 = 0.4 [0.4] = 0 (comienza a repetirse)
2*0.4 = 0.8 [0.8] = 0
2*0.8 = 1.6 [1.6] = 1
2*0.6 = 1.2 [1.2] = 1
2*0.2 = 0.4 [0.4] = 0 . . .
En este caso la representación es infinita y periódica: (0.1)10 = (0.00011 . . .)2.
Ejemplo: Convertir 5.75 en binario.
En este caso escribimos 5.75 = 5 + 0.75 y procedemos por separado con la parte entera y fraccionaria.
11
5
5/2 = 2 resto 1
2/2 = 1 resto 0
1/2 = 0 resto 1 ↑
Luego (5)10 = (101)2.
0.75
2*0.75 = 1.5 [1.5] = 1 ↓
2*0.5 = 1 [1] = 1
Así, (0.75)10 = (0.11)2 y, por lo tanto,(5.75)10 = (101.11)2.
En el apéndice A el código 3 implementa la conversión al sistema binario tal como fue descrita aquí.
Finalmente, veamos como podemos convertir un número binario en su representación hexadecimal, sin
necesidad de pasar por su representación decimal. Puesto que 24 = 16, la representación hexadecimal puede
ser obtenida de la representación binaria agrupando los bits de la misma en grupos de cuatro a partir del punto
binario tanto a la derecha e izquierda del mismo, agregando tantos ceros como sea necesario. Luego, cada grupo
de cuatro bits es trasladado directamente en un dígito hexadecimal de acuerdo a la siguiente tabla.
Binario Hexadecimal Binario Hexadecimal
0000 0 1000 8
0001 1 1001 9
0010 2 1010 A
0011 3 1011 B
0100 4 1100 C
0101 5 1101 D
0110 6 1110 E
0111 7 1111 F
Ejemplo: Convertir el número binario 11101.011 a hexadecimal. Simplemente agrupamos en grupo de cuatro
bits (agregando los ceros necesarios) y hacemos la conversión.
11101.011 = 0001 1101 . 0110 = 1D.6
Un procedimiento semejante permite obtener directamente la representación octal a partir de la representa-
ción binaria. Puesto que 23 = 8, el agrupamiento de los bits es, en este caso, en grupos de a tres.
3. Representación de enteros: números de punto fijo.
3.1. Representación signo–magnitud y complemento a dos.
Supongamos una longitud de palabra N, es decir, se dispone de N posiciones para guardar un número real
respecto de cierta base β . Una manera de disponer tales posiciones consiste en utilizar la primera para indicar el
signo, las N− k−1 posiciones siguientes para los dígitos de la parte entera y las k posiciones restantes para la
parte fraccionaria. De esta forma, la secuencia de N dígitos
aN−1 aN−2 aN−3 · · ·ak︸ ︷︷ ︸
N−k−1
ak−1 · · ·a0︸ ︷︷ ︸
k
,
12
donde aN−1 = s (0 ó 1), corresponde al número
(−1)s(aN−2 aN−3 · · ·ak .ak−1 · · ·a0)β = (−1)sβ−k
N−2
∑
j=0
a jβ j.
La representación de los números en esta forma se conoce como representación de punto fijo. El nombre hace
referencia al hecho de que al fijar en k el número de dígitos de la parte fraccionaria, el punto en la base β resulta
fijo a la derecha del dígito ak.
Ejemplo. Supongamos β = 10, N = 11 y k = 6. Entonces, disponemos de k = 6 dígitos para la parte fraccionaria y
N− k−1 = 4 dígitos para la parte entera. Por ejemplo,
−30.412 : 1 0030 412000
0.0437 : 0 0000 000437
Para una longitud palabra N y con k dígitos fijos para la parte fraccionaria, el rango de valores de los
números reales que pueden representarse se encuentra dentro del intervalo [−β N−k,β N−k]. Este rango es muy
restrictivo: los números muy grandes y las fracciones muy pequeñas no pueden representarse (a menos que una
longitud de palabra N muy grande sea utilizada). Por este motivo la representación de punto fijo no es utilizada
para implementar la representación de números reales. Sin embargo, con la convención k = 0, la representación
de punto fijo resulta útil para representar números enteros. En lo que resta de esta sección discutiremos como se
implementa en una computadora donde la base β = 2.
Considerando la base β = 2, dada una palabra de N bits existen 2N combinaciones distintas que pueden
generarse. Con ellas queremos representar los enteros positivos, negativos y el cero. Existen varias maneras
de proceder, pero todas ellas tratan al bit más significativo (el más de la izquierda) de la palabra como un bit
de signo. Si dicho bit es 0, el entero es positivo, y si es 1, es negativo. Ahora, la representación más sencilla
que puede considerarse es la representación signo-magnitud. En una palabra de N bits, mientras que el bit más
significativo indica el signo del entero, los restantes N−1 bits a la derecha representan la magnitud del entero.
Así, la secuencia de N bits
aN−1 aN−2 · · ·a1 a0,
corresponde, en la representación signo-magnitud, al número entero
(−1)s
N−2
∑
j=0
a j2 j,
con s = 0 si aN−1 = 0, ó s = 1 si aN−1 = 1. Esta representación, aunque directa, posee varias limitaciones. Una
de ellas es que las operaciones aritméticas de suma y resta requieren separar el bit que representa el signo de
los restantes para llevar a cabo la operación en cuestión. Otra limitación es que hay dos representaciones del
número cero 0, a saber,
000 · · ·00, 100 · · ·00.
Como indicamos, el número de combinaciones diferentes de una palabra de N bits es 2N , un número par.
Puesto que tenemos dos representaciones del cero, en la representación signo-magnitud se representan la misma
cantidad de enteros positivos que negativos. El rango de enteros que puede representarse comprende entonces al
intervalo [−(2N−1−1),2N−1−1]. En efecto, el entero positivo más grande tiene un bit de signo 0 y todos los
bits de magnitud son 1, y corresponde pues al entero
N−2
∑
j=0
2 j =
2N−1−1
2−1
= 2N−1−1.
Aquí hemos usado la fórmula para la suma (finita) de una progresión geométrica5. Por su parte, el entero
negativo de mayor magnitud tiene 1 por bit de signo y todos los bits de magnitud igual a 1, y es, por tanto,
−
N−2
∑
j=0
2 j =−2
N−1−1
2−1
=−(2N−1−1).
5Si r 6= 1, ∑n−1j=0 r
j = r
n−1
r−1
13
������������������������
������������������������
������������������������
������������������������
������������������������
������������������������
�
�
�
�
�
�
0−2N−1 2N−1 − 1
Figura 1. Enteros representables en complemento a dos para una longitud de palabra
de N bits.
La implementación de las operaciones aritméticas de suma y resta de enteros en una computadora resulta
mucho más simple y eficiente si el bit de signo puede ser tratado de la misma forma que los bits de magnitud. La
representación que permite ésto es la denominada representación complemento a dos. Puesto que en esta repre-
sentación la implementación de dichas operaciones resulta mucho más simple, la representación complemento
a dos es utilizada casi universalmente como representación de los números enteros en la computadora. Al igual
que la representación signo-magnitud, la representación complemento a dos utiliza el bit más significativo como
bit de signo (lo cual facilita la comprobación del signo de un entero), pero difiere en la forma de interpretar los
bits restantes. Específicamente, para una longitud de palabra de N bits, una secuencia de N dígitos binarios
aN−1 aN−2 · · ·a1 a0,
corresponde, en la representación complemento a dos, al entero
−aN−1 2N−1 +
N−2
∑
j=0
a j2 j.
Puesto que para los enteros positivos aN−1 = 0, el término−aN−1 2N−1 = 0. Así la representación complemento
a dos y signo-magnitud coinciden para los enteros positivos. Sin embargo, para los enteros negativos (aN−1 = 1)
el bit más significativo es ponderado con un factor de peso −2N−1. En esta representación el 0 se considera
positivo y es claro que hay una única representación del mismo, la cual corresponde a un bit de signo 0 al igual
que los restantes bits. Puesto que, como ya indicamos, para una longitud de palabra de N bits existe un número
par de combinaciones posibles distintas, si hay una única representación del 0 entonces existe un número
desigual de números enteros positivos que de números enteros negativos representables. El rango de los enteros
positivos en esta representación va desde 0 (todos los bits de magnitud son 0) hasta 2N−1−1 (todos los bits de
magnitud 1, como en el caso de la representación signo-magnitud). Ahora, para un número entero negativo, el
bit de signo, aN−1, es 1. Los N−1 bits restantes pueden tomar cualquiera de las 2N−1 combinaciones diferentes.
Por lo tanto, el rango de los enteros negativos que pueden representarse va desde −1 hasta −2N−1. Es claro de
la fórmula que define a la representación que −1 tiene una representación complemento a dos consistente de un
bit de signo igual a 1 al igual que los restos de los bits, mientras que −2N−1, el menor entero representable,
tiene un representación complemento a dos consistente en el bit de signo igual a 1 y el resto de los bits igual a 0.
En definitiva, en la representación complemento a dos, el rango de enteros que pueden representarse comprendeel intervalo [−2N−1,2N−1−1]. Esto implica, en particular, que no existe una representación complemento a
dos para el opuesto del menor entero representable. La figura 1 ilustra el rango de los enteros representables
complemento a dos sobre la recta real, mientras que la tabla 1 compara, para una longitud de palabra de N = 4
bits, las representaciones en signo-magnitud y en complemento a dos.
Las operaciones aritméticas de suma, resta, multiplicación y división (entera) entre dos enteros pueden
ser implementadas en la computadora de manera tal que su resultado siempre es exacto, es decir, sin error
de redondeo. Sin embargo, puede ocurrir que el resultado de tales operaciones esté fuera del rango de la
representación complemento a dos. Esta situación es conocida como desbordamiento entero (integer overflow,
en inglés). En la mayoría de las implementaciones está condición no se considera un error que detendrá al
programa, sino que simplemente se almacenan los dígitos binarios posibles. El entero correspondiente a la
representación complemento a dos resultante del overflow no es el resultado que uno esperaría. Por ejemplo,
considerando una longitud de palabra de N = 4 bits, al intentar sumar 1 al mayor entero representable se produce
14
Representación Representación Representación
decimal signo-magnitud complemento a dos
+7 0111 0111
+6 0110 0110
+5 0101 0101
+4 0100 0100
+3 0011 0011
+2 0010 0010
+1 0001 0001
+0 0000 0000
−0 1000 —
−1 1001 1111
−2 1010 1110
−3 1011 1101
−4 1100 1100
−5 1101 1011
−6 1110 1010
−7 1111 1001
−8 — 1000
Tabla 1. Representaciones alternativas de los enteros de 4 bits.
una condición de overflow y obtenemos el menor entero representable (¡un número negativo!):
7 0111
+ 1 0001
8 1000 = −8.
Este ejemplo anterior nos permite explicar el desconcertante resultado del código 1 presentado en la introducción.
En las computadoras personales los números enteros son implementados como enteros binarios con signo en
complemento a dos con una longitud de palabra de N = 32 bits. En consecuencia, una variable entera en Fortran,
declarada con la sentencia integer podrá representar exactamente a un número entero si éste se encuentra
dentro del intervalo [−231,231−1]. Así, al intentar sumar una unidad al mayor entero representable, 231−1,
se produce el desbordamiento y el entero almacenado corresponde, en complemento a dos, al menor entero
representable, el cual es −231. Claramente, el desbordamiento entero puede originar problemas en aquellas
secciones del programa que asuman que los enteros presentes son siempre positivos.
3.2. Aritmética con enteros complemento a dos.
En la representación complemento a dos, al tratar por igual todos los bits, la suma procede como se ilustra
a continuación en el caso particular de una longitud de palabra de N = 4 bits. Como vemos, las operaciones
son correctas, obteniéndose el correspondiente número positivo o negativo en forma de complemento a dos.
Obsérvese que si hay un bit de acarreo más allá del final de la palabra (el dígito sombreado), éste se ignora.
1001
+ 0101
1110 = −2
(−7)+(+5)
1100
+ 0100
1 0000 = 0
(−4)+(+4)
0011
+ 0100
0111 = 7
(+3)+(+4)
1100
+ 1111
1 1011 = −5
(−4)+(−1)
15
Por otra parte, los siguientes ejemplos muestran situaciones de desbordamiento entero.
0101
+ 0100
1001 = −7
(+5)+(+4)
1001
+ 1010
1 0011 = 3
(−7)+(−6)
La operación aritmética de sustracción entre dos números puede considerarse como la suma del primer
número y el opuesto del segundo. En la representación de signo-magnitud, el opuesto de un entero se obtiene
sencillamente invirtiendo el bit del signo. En la representación complemento a dos, el opuesto de un entero se
obtiene siguiendo los siguientes pasos:
1. Obtener el complemento booleano de cada bit (incluyendo el bit del signo). Es decir, cambiar cada 1 por
0 y cada 0 por 1. El patrón de bits obtenido se conoce como complemento a 1 de la secuencia original.
2. Sumar 1 al binario obtenido (tratando al bit de signo como un bit ordinario e ignorando cualquier acarreo
de la posición del bit más significativo que exceda el límite de la palabra).
El patrón de bits obtenido, interpretado ahora como un entero complemento a dos, es el opuesto del entero
representado por la secuencia original. Este proceso de dos etapas para obtener el opuesto se denomina transfor-
mación complemento a dos. La validez de este procedimiento puede demostrarse como sigue. Consideremos
una secuencia de N dígitos binarios
aN−1 aN−2 · · ·a1 a0,
que corresponde, en la representación complemento a dos, al entero A de valor
A =−aN−1 2N−1 +
N−2
∑
j=0
a j2 j.
Ahora se construye el complemento a uno
aN−1 aN−2 · · ·a1 a0,
y, tratando todos los bits por igual, se le suma 1. Finalmente, se interpreta la secuencia de bits resultante como
un entero complemento a dos, tal que su valor es
B =−aN−1 2N−1 +1+
N−2
∑
j=0
a j2 j.
Tenemos que mostrar que A =−B, o, equivalentemente, que A+B = 0. Esto se comprueba fácilmente,
A+B =−(aN−1 +aN−1)2N−1 +1+
(
N−2
∑
j=0
(a j +a j)
)
=−2N−1 +1
N−2
∑
j=0
2 j
=−2N−1 +1+2N−1−1
= 0.
Por ejemplo, para una longitud de palabra de N = 4 bits,
+5 = 0101
complemento a 1 = 1010
+ 0001
1011 = −5.
16
Como era de esperarse, el opuesto del opuesto es el propio número,
−5 = 1011
complemento a 1 = 0100
+ 0001
0101 = +5.
Hay dos situaciones especiales a considerar. En primer lugar, para el 0, en una representación con 4 bits,
0 = 0000
complemento a 1 = 1111
+ 0001
1 0000 = 0.
El bit de acarreo de la posición más significativa debe ser ignorado. De esta forma el opuesto de 0 es 0, como
debe ser. El segundo caso especial involucra el menor entero representable en complemento a dos. Para una
longitud de palabra de 4 dígitos, éste es −8. Su opuesto, formado con la regla anterior es
−8 = 1000
complemento a 1 = 0111
+ 0001
1000 = −8.
Esta anomalía debería ser evitada, puesto que, como hemos indicado, no existe una representación complemento
a dos del opuesto del menor entero representable. Sin embargo, en la mayoría de las implementaciones, al
calcular el opuesto del menor entero representable no se genera una situación de error sino que se obtiene el
mismo número. Esta situación puede resultar confusa, pero es así.
Conociendo el opuesto de un número, la operación aritmética de resta se trata entonces como sigue: para
substraer un número (el substraendo) de otro (minuendo), se forma el complemento a dos del substraendo y se
le suma el minuendo. Los siguientes ejemplos, ilustran la situación para una longitud de palabra de N = 4 bits.
0010
+ 1001
1011 = −5
(+2)− (+7)
0101
+ 1110
1 0011 = 3
(+5)− (+2)
1101
+ 0010
0111 = 7
(+5)− (−2)
1011
+ 1110
1 1001 = −7
(−5)− (−2)
En tanto que los siguientes ejemplos ilustran situaciones de desbordamiento.
0111
+ 0111
1110 = −2
(e) (+7)− (−7)
1010
+ 1100
1 0110 = 6
(−6)− (+4)
Las operaciones de multiplicación y división de enteros son más complejas de implementar y no serán
tratadas aquí.
4. Representación de números reales: números de punto flotante.
4.1. Números de punto flotante.
La representación del sistema de números reales en una computadora basa su idea en la conocida notación
científica. La notación científica nos permite representar números reales sobre un amplio rango de valores con
sólo unos pocos dígitos. Así 976000000000000 se representa como 9.76×1014 y 0.0000000000000976 como
17
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
����������������
�
�
�
�
�
�
0−xmáx xmáx−xmı́n xmı́n
Overflow
negativo
Underflow
negativo
Underflow
positivo
Overflow
positivo
Figura 2. Números de punto flotante F(β , t,L,U).
9.76× 10−14. En esta notación el punto decimal se mueve dinámicamente a una posición conveniente y se
utiliza el exponente de 10 para registrar la posición del punto decimal. En particular, todonúmero real no nulo
puede ser escrito en forma única en la notación científica normalizada
(−1)s 0.a1a2a3 · · ·atat+1at+2 · · ·×10e,
siendo el dígito a1 6= 0. De manera análoga, todo número real no nulo puede representarse en forma única,
respecto la base β , en la forma de punto flotante normalizada:
(−1)s 0.a1a2a3 · · ·atat+1at+2 · · ·×β e,
donde los “dígitos” ai respecto de la base β son enteros positivos tales que 1≤ a1 ≤ β −1, 0≤ ai ≤ β −1 para
i = 1,2, . . . y constituyen la parte fraccional o mantisa del número, en tanto que e, el cual es un número entero
llamado el exponente, indica la posición del punto correspondiente a la base β . Si m es la fracción decimal
correspondiente a (0.a1a2a3 · · ·)β entonces el número representado corresponde al número decimal
(−1)s m ·β e, siendo β−1 ≤ m < 1.
Ahora bien, en todo dispositivo de cálculo, ya sea una computadora o una calculadora, el número de dígitos
posibles para representar la mantisa es finito, digamos t dígitos en la base β , y el exponente puede variar sólo
dentro de un rango finito L≤ e≤U (con L < 0 y U > 0). Esto implica que sólo un conjunto finito de números
reales pueden ser representados, los cuales tienen la forma
(−1)s 0.a1a2a3 · · ·at ×β e.
Tales números se denominan números de punto flotante con t dígitos (o de precisión t) en la base β y rango
(L,U). Denotaremos a dicho conjunto de números por F(β , t,L,U).
Un sistema de números de punto flotante F(β , t,L,U) es, pues, discreto y finito. El número de elementos
del conjunto, esto es, la cantidad de números de puntos flotantes de F, es
2(β −1)β t−1(U−L+1),
dado que existen dos posibles elecciones del signo, β − 1 elecciones posibles para el dígito principal de la
mantisa, β elecciones para cada uno de los restantes dígitos de la mantisa, y U−L+1 posibles valores para el
exponente. Debido a la normalización el cero no puede ser representado como un número de punto flotante y
por lo tanto está excluido del conjunto F. Por otra parte, es claro que si x ∈ F entonces su opuesto −x ∈ F. Más
aún, el conjunto F está acotado tanto superior como inferiormente:
xmı́n = β L−1 ≤ |x| ≤ xmáx = βU(1−β−t),
donde xmı́n y xmáx son el menor y mayor número de punto flotante positivo representable, respectivamente.
De las consideraciones anteriores se sigue, entonces, que en la recta de los números reales hay cinco regiones
excluidas para los números de F, tal como se ilustra en la figura 2,
a) Los números negativos menores que −xmáx, región denominada desbordamiento (overflow) negativo.
b) Los números negativos mayores que −xmı́n, denominada desbordamiento a cero (underflow) negativo.
c) El cero.
18
-4 -3 -2 -1 0 1 2 3 4
Figura 3. Números de punto flotante del conjunto F(2,3,−1,2).
d) Los números positivos menores que xmı́n, denominada desbordamiento a cero (underflow) positivo.
e) Los números positivos mayores que xmáx, denominada desbordamiento (overflow) positivo.
Nótese que los números de punto flotante no están uniformemente distribuidos sobre la recta real, sino que
están más próximos cerca del origen y más separados a medida que nos alejamos de él. Con más precisión:
dentro de un intervalo fijo de la forma [β e,β e+1] los números de punto flotante presentes están igualmente
espaciados con una separación igual a β e+1−t . Conforme e se incrementa, el espaciado entre los mismos crece
también. Una medida de este espaciamiento es dado por el llamado epsilon de la máquina:
εM = β
1−t ,
el cual representa la distancia entre el número 1 y el número de punto flotante siguiente más próximo.
Ejemplo. Los números de punto flotante positivos del conjunto F(2,3,−1,2) son:
(0.100)2×2−1 =
1
4
, (0.101)2×2−1 =
5
16
, (0.110)2×2−1 =
3
8
, (0.111)2×2−1 =
7
16
,
(0.100)2×20 =
1
2
, (0.101)2×20 =
5
8
, (0.110)2×20 =
3
4
, (0.111)2×20 =
7
8
,
(0.100)2×21 = 1 (0.101)2×21 =
5
4
, (0.110)2×21 =
3
2
, (0.111)2×21 =
7
4
,
(0.100)2×22 = 2, (0.101)2×22 =
5
2
, (0.110)2×22 = 3, (0.111)2×22 =
7
2
.
Junto con los respectivos opuestos, tenemos un total de 2(β − 1)β t−1(U −L+ 1) = 2(2− 1)23−1(2+ 1+ 1) = 32 de
números de punto flotante en este sistema. Aquí xmı́n = β L−1 = 2−2 = 1/4 y xmáx = βU (1−β−t) = 22(1−2−3) = 7/2,
en tanto que εM = β 1−t = 2−2 = 1/4. La figura 3 muestra nuestro sistema sobre la recta real. Aunque éste es un sistema
de punto flotante muy pequeño todos lucen como nuestro ejemplo a un grado de magnificación suficiente.
El hecho de que en una computadora sólo un subconjunto F de los números reales es representable implica
que, dado un número real x, éste debe ser aproximado por un número de punto flotante de F al que designaremos
por f l(x). La manera usual de proceder consiste en considerar el redondeo al más próximo, ésto es, f l(x) es el
número de punto flotante más próximo a x. Tal número de punto flotante resulta del redondeando a t dígitos de
la mantisa correspondiente a la representación de punto flotante normalizada (infinita) de x. Esto es, siendo
x = (−1)s 0.a1a2 . . .atat+1at+2 · · ·×β e,
f l(x) está dado por
f l(x) = (−1)s 0.a1a2 . . . ãt ×β e, ãt =
{
at si at+1 < β/2
at +1 si at+1 ≥ β/2.
siempre que el exponente e esté dentro del rango −L≤ e≤U6. Claramente, f l(x) = x si x ∈ F, y un mismo
número de punto flotante puede representar a muchos números reales distintos.
El error que resulta de aproximar un número real por su forma de punto flotante se denomina error de
redondeo. Una estimación del mismo está dado en el siguiente resultado: Todo número real x dentro del rango
6Aquí estamos suponiendo que la base β es par, la cual es válido para las situaciones de interés β = 2,6,8,10.
19
de los números de punto flotante puede ser representado con un error relativo que no excede la unidad de
redondeo u:
|x− f l(x)|
|x|
≤ u≡ 1
2
εM =
1
2
β
1−t .
Se sigue de este resultado que existe un número real δ , que depende de x, tal que
f l(x) = x(1+δ ), siendo |δ | ≤ u.
Por otra parte, debido a que los números de punto flotante no están igualmente espaciados, el error absoluto
cometido en la representación no es uniforme, sino que está dado por
|x− f l(x)| ≤ 1
2
β
−t+e.
Además de dar una representación inexacta de los números, la aritmética realizada en la computadora no
es exacta. Aún si x e y son números de punto flotante, el resultado de una operación aritmética sobre ellos
no necesariamente es un número de punto flotante. En consecuencia, debe definirse una aritmética en F que
sea lo más semejante posible a la aritmética de los números reales. Así, si ◦ denota una operación aritmética
(suma, resta, multiplicación o división) la correspondiente operación de punto flotante, denotada por }, entre
dos números de punto flotante x e y es definida como:
x} y = f l(x◦ y), x,y ∈ F.
en tanto no se produzca desbordamiento. Esta aritmética consiste, pues, en efectuar la operación exacta en las
representaciones de punto flotante y luego redondear el resultado a su representación de punto flotante7. Se
sigue entonces que en una operación aritmética con números de punto flotante, el error relativo cometido no
excede a la unidad de redondeo, y por lo tanto, existe un número real δ tal que
x} y = (x◦ y)(1+δ ), siendo |δ | ≤ u.
Un punto importante a notar es que no todas las leyes de la aritmética real son preservadas al considerar la
aritmética de punto flotante. En particular, la suma y multiplicación de punto flotante son conmutativas, pero
no son asociativas. La tabla 2 muestra que propiedades de los números reales son retenidas, y cuales no, en el
sistema de números de punto flotante. Algunas propiedades que son consecuencia de los axiomas básicos son
aún válidas, por ejemplo:
x⊕ y = 0 equivale a x = 0 ó y = 0,
x≤ y y z > 0 implica que x⊕ z≤ y⊕ z,
mientras que x = y es equivalente a (x− y) = 0 sólo si se utilizan números de punto flotante denormalizados,
los cuales serán discutidos más adelante.
4.2. Estándar del IEEE para la representación binaria en punto flotante.
La precisión t de un sistema de números de punto flotante en una computadoraestará limitada por la longitud
de palabra N disponible para representar un número. Con el fin de evitar la proliferación de diversos sistemas
de puntos flotantes incompatibles entre sí, a fines de la década de 1980 se desarrolló la norma o estándar
IEEE754/IEC5598, la cual es implementada en todas las computadoras personales actuales y aplicado también
en otros sistemas. Esta norma define dos formatos básicos de punto flotante con base β = 2:
7La implementación efectiva de estas operaciones en una computadora no procede exactamente de esta forma pero el resultado final
se comporta como hemos indicado. En particular la operación de resta requiere de la presencia de dígitos de guarda, situación que
discutiremos más adelante.
8IEEE = Institute of Electrical and Electronics Engineeers, IEC = International Electronical Commission.
20
Propiedades topológicas
Conectividad No Todos los puntos están aislados
Completitud No No todas las sucesiones convergen
Axiomas de cuerpo
Cerrado para la suma No Puede haber desbordamiento
Asociatividad de la suma No (x⊕ y)⊕ z 6= x⊕ (y⊕ z)
Conmutatividad de la suma Si x⊕ y = y⊕ x
Unicidad del elemento neutro Si x⊕0 = x
Unicidad del inverso aditivo Si x⊕−x = 0
Cerrado para la multiplicación No Puede haber desbordamiento
Asociatividad de la multiplicación No (x� y)� z 6= x� (y� z)
Conmutatividad de la multiplicación Si x� y = y� x
Unicidad del elemento unidad Si x�1 = x
Unicidad del inverso multiplicativo Si x� (1/x) = 1
Distributividad de la multiplicación en la suma No x� (y⊕ z) 6= x� y⊕ x� z
Axiomas de orden
Transitividad Si x≥ y, y≥ z⇒ x≥ z
Tabla 2. Propiedades de la aritmética de punto flotante.
a) Precisión simple: F(2,24,−125,128) implementado en una longitud de palabra N = 32 bits. En este
sistema:
xmı́n = 2−126 ≈ 10−38,
xmáx = 2128(1−2−24)≈ 1038,
εM = 2−23 ≈ 10−7,
siendo la unidad de redondeo
u =
1
2
εM = 2−24 ≈ 6 ·10−8,
lo cual implica unos 7 dígitos decimales significativos.
b) Precisión doble: F(2,53,−1021,1024) implementado en una longitud de palabra N = 64 bits. En este
sistema:
xmı́n = 2−1022 ≈ 10−308,
xmáx = 21024(1−2−53)≈ 10308,
εM = 2−52 ≈ 10−16,
con una unidad de redondeo
u =
1
2
εM = 2−53 ≈ 10−16,
lo cual implica unos 16 dígitos decimales significativos.
La revisión del 2008 del estándar IEE754 incopora un nuevo formato básico de punto flotante con base
β = 2: la precisión cuádruple F(2,113,−16381,16384) implementado en una longitud de palabra N = 128
bits. Para dicha precisión:
xmı́n = 2−16382 ≈ 10−4932,
xmáx = 216384(1−2−113)≈ 104032,
εM = 2−112 ≈ 2 ·10−34,
21
con una unidad de redondeo
u =
1
2
εM = 2−53 ≈ 10−34,
lo cual implica unos 34 dígitos decimales significativos. Nótese, sin embargo, que mientras que las precisiones
simple y doble están implementadas en el hardware de las computadoras, la precisión cuádruple es implementada
actualmente por software, lo cual implica que cálculos realizados con esta precisión serán significativamente
más lentos que los efectuados en simple o doble precisión. Asimismo la disponibilidad del sistema de cuádruple
precisión dependerá de la existencia de su implementación en el compilador a utilizar 9.
4.3. Anatomía del formato de precisión simple.
En el formato de precisión simple, el conjunto de números de punto flotante tiene por parámetros β = 2,
t = 24, L = −125, U = 128. Los N = 32 bits disponibles en la palabra, numerados de 0 a 31 de derecha a
izquierda, son utilizados como sigue:
��������
��������
��������
��������
��������
��������
��������
��������
��
��
��
��
��
��
��
����������������������������������������������������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
3130 23 022
PSfrag
Bit de
signo
s
8 bits 23 bits
Exponente
sesgado Mantisa
El bit más significativo (el bit más a la izquierda de la palabra, el 31) es utilizado como bit de signo, esto
es, su valor es 0 si el número es positivo o 1 si es el número es negativo.
Los siguientes 8 bits (bits 30 a 23) son utilizados para almacenar la representación binaria del exponente
que varía en el rango L =−125≤ e≤U = 128. La representación utilizada para el exponente se conoce
como “sesgada”, ya que se introduce un nuevo exponente sumando 126 al original: E = e+ 126. El
exponente sesgado varía entonces en el rango 1≤ E ≤ 254 que puede ser representado por un binario
entero de 8 bits. Más aún, podemos incluir los valores del exponente para L− 1 = −126 (E = 0) y
U +1 = 129 (E = 255), ya que todos los enteros en el rango 0≤ E ≤ 255 pueden ser representados como
un binario entero sin signo de 8 bits. En efecto, con 8 bits tenemos 28 = 256 combinaciones distintas, una
para cada uno de los 256 números enteros del intervalo [0,255]. El límite inferior, el 0, corresponde a
todos los bits igual a 0, mientras que el límite superior, el 255, corresponde a todos los dígitos igual a 1
(∑7i=0 2
i = 2
8−1
2−1 = 255). Estos dos valores del exponente no representan números de punto flotante del
sistema, pero serán utilizados para almacenar números especiales, como veremos más adelante.
Los restantes 23 bits (bits 22 a 0) de la palabra son utilizados para almacenar la representación binaria de
la mantisa. En principio, esto parecería implicar que sólo pueden almacenarse t = 23 dígitos binarios de
la mantisa y no 24. Sin embargo, para la base β = 2, el primer dígito de la mantisa en la representación
normalizada siempre es igual a 1 y por lo tanto no necesita ser almacenado (tal bit se denomina bit
implícito – hidden bit, en inglés). Así pues, un campo de 23 bits permite albergar una mantisa efectiva de
24 bits.
Como ejemplo, consideremos la representación de formato simple del número cuya representación decimal es
−118.625. Su representación binaria es (¡verifíquelo!)
(−1)1(1110110.101)2,
con lo que, su representación binaria normalizada es
(−1)1 0.1110110101×27.
9El compilador gfortran soporta cuádruple precisión a partir de la versión 4.6.
22
El bit de signo es 1, y el exponente sesgado es E = 7+ 126 = 133 cuya representación binaria de 8 bits es
10000101. El bit implícito de la mantisa no es almacenado, por lo que tenemos 9 dígitos binarios provenientes de
la representación normalizada, el resto de los 23−9 = 14 dígitos binarios son ceros. Así pues, la representación
de formato simple del número propuesto es:
1 1 0 0 0 0 1 0 1 1 1 0 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
El código 4 presentado en el apéndice A permite visualizar la representación de precisión simple de cualquier
número real introducido.
4.4. Anatomía del formato de precisión doble.
En el formato de precisión doble, el conjunto de números de punto flotante tiene por parámetros β = 2,
t = 53, L =−1021, U = 1024. Los N = 64 bits disponibles en la palabra, numerados de 0 a 63 de derecha a
izquierda, son utilizados como sigue:
��������
��������
��������
��������
��������
��������
��������
��������
��
��
��
��
��
��
��
����������������������������������������������������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
�����������������������
52 06263 51
PSfrag
Bit de
signo
s
11 bits 52 bits
Exponente
sesgado Mantisa
El bit más significativo (el bit más a la izquierda de la palabra, el 63) es utilizado como bit de signo, esto
es, su valor es 0 si el número es positivo o 1 si es el número es negativo.
Los siguientes 11 bits (bits 62 a 52) son utilizados para almacenar la representación binaria del exponente
que varía en el rango L =−1021≤ e≤U = 1024. La representación sesgada corresponde al exponente:
E = e+1022. El exponente sesgado varía entonces en el rango 1≤ E ≤ 2046 que puede ser representado
por un binario entero de 11 bits. Incluyendo los valores del exponente para L− 1 = −1022 (E = 0) y
U +1 = 1025 (E = 2047), todos los enteros en el rango0≤ E ≤ 2047 pueden ser representados como
un binario entero sin signo de 11 bits (211 = 2048)
Los restantes 52 bits (bits 51 a 0) de la palabra son utilizados para almacenar la representación binaria de
la mantisa con el bit implícito no almacenado. De este modo el campo de 52 bits se corresponde con una
mantisa efectiva de 53 dígitos binarios.
4.5. Números especiales.
La condición de normalización sobre la mantisa de los números de punto flotante impide la representación
del cero, por lo tanto debe disponerse de una representación separada del mismo. Por otra parte, en la aritmética
de punto flotante pueden presentarse las tres siguientes condiciones excepcionales:
Una operación puede conducir a un resultado fuera del rango representable, ya sea porque |x| > xmáx
(overflow) o porque |x|< xmı́n (underflow),
el cálculo puede ser una operación matemática indefinida, tal como la división por cero,
el cálculo corresponde a una operación matemática ilegal, por ejemplo 0/0 ó
√
−1.
Antes de la implementación de la norma IEEE754, frente a tales situaciones excepcionales las computadoras
abortaban el cálculo y detenían el programa. Por el contrario, la norma IEEE754 define una aritmética cerrada
en F introduciendo ciertos números especiales. De esta manera, en las computadoras actuales cuando un cálculo
intermedio conduce a una de las situaciones excepcionales el resultado es asignado al número especial apropiado
y los cálculos continúan. Así la norma IEEE754 implementa una aritmética de no detención.
23
Valor Exponente Mantisa
normalizados L≤ e≤U 6= 0
denormalizados L−1 6= 0
±0 L−1 0
±Infinity U +1 0
NaN U +1 6= 0
Tabla 3. El sistema de números de punto flotante extendido en la norma IEEE754.
Ceros. En la norma IEEE754 el cero es representado por un número de punto flotante con una mantisa nula y
exponente e = L−1, pero, como ninguna condición es impuesta sobre el signo, existen dos ceros: +0 y −0
(con la salvedad de que en una comparación se consideran iguales en vez de −0 <+0). Un cero con signo es
útil en determinadas situaciones, pero en la mayoría de las aplicaciones el cero del signo es invisible.
Infinitos. Cuando un cálculo produce un desbordamiento (overflow) positivo el resultado es asignado al número
especial denominado infinito positivo, codificado como +Infinity10. De la misma manera, el cálculo de
un desbordamiento negativo es asignado al número especial infinito negativo, codificado como -Infinity.
Los infinitos permiten considerar también el caso excepcional de la división de un número no nulo por cero:
el resultado es asignado al infinito del signo apropiado. Los infinitos son representados en el estándar por los
números de punto flotante con mantisa nula y exponente e =U +1 con el correspondiente signo.
Números denormalizados. Tradicionalmente si una operación producía un valor de magnitud menor que xmı́n
(desbordamiento a cero, o underflow), el resultado era asignado a cero. Ahora bien, la distancia entre cero y
xmı́n = β L−1 (el menor número de punto flotante positivo representable) es mucho mayor que la distancia entre
este número y el siguiente por lo que la asignación a cero de una condición de underflow produce errores de
redondeo excepcionalmente grandes. Para cubrir esta distancia y reducir así el efecto de desbordamiento a cero
a un nivel comparable con el redondeo de los números de punto flotante se implementa el desbordamiento a
cero gradual (gradual underflow) introduciendo los números de punto flotante denormalizados. Los números
denormalizados son obtenidos removiendo en la representación de punto flotante la condición de que el dígito
a1 sea no nulo sólo para los números que corresponden al mínimo exponente e = L. De esta manera la unicidad
de la representación es mantenida y ahora es posible disponer de números de punto flotante en el intervalo
(−β L−1,β L−1). La magnitud del más pequeño de estos números denormalizados es igual a β L−t . De este modo,
cuando el resultado de una operación tiene magnitud menor que xmı́n el mismo es asignado al correspondiente
número de punto flotante denormalizado más próximo. Esto permite que la propiedad x = y⇔ (x− y) = 0
se mantenga válida en la representación de punto flotante. En el estándar, los números denormalizados son
representados como números de punto flotante con mantisa no nula y exponente e = L−1.
NaN. Operaciones matemáticamente ilegales, como 0/0 ó
√
x para x < 0, son asignadas al número especial
denominado Not a Number (literalmente, no es un número), codificado como NaN. En el estándar un NaN es
representado por un número de punto flotante con mantisa no nula y exponente e =U +1. Nótese que, puesto
que la mantisa no está especificada, no existe un único NaN sino un conjunto finito de ellos los cuales pueden
utilizarse para especificar situaciones de excepción particulares.
La tabla 3 resume esta representación de los números en la norma IEEE754.Las operaciones aritméticas que
involucran a los números especiales están definidas de manera de obtener resultados razonables, tales como
(±Infinity )+(+1) =±Infinity
(±Infinity ) · (−1) =∓Infinity
(±Infinity )+(±Infinity ) =±Infinity
(±Infinity )+(∓Infinity ) = NaN
1/(±0) =±Infinity 1/(±Infinity ) =±0
0/0 = NaN (±Infinity )/(±Infinity ) = NaN
0 · (±Infinity ) = NaN
10Nótese que “infinito” no significa necesariamente que el resultado sea realmente ∞, sino que significa “demasiado grande para
representar”.
24
-4 -3 -2 -1 0 1 2 3 4
Figura 4. Números de punto flotante, incluyendo los denormalizados, del conjunto
F(2,3,−1,2).
Además un NaN se propaga agresivamente a través de las operaciones aritméticas: en cualquier operación
donde un NaN participe como operando el resultado será un NaN.
Ejemplo. Consideremos nuevamente el sistema de punto flotante F(2,3,−1,2). Los números de punto flotante denormali-
zados positivos corresponden a mantisas no normalizadas para el exponente e = L =−1 y son, pues,
0.001×2−1 = 1
16
, 0.010×2−1 = 1
8
, 0.011×2−1 = 3
16
.
El más pequeño de estos números es, en efecto, β L−t = 2−1−3 = 1/16. La inclusión de los mismos, junto con sus opuestos,
en el sistema de puntos flotantes cubre el desbordamiento a cero en forma uniforme, tal como se ilustra en la figura 4.
4.6. Números de punto flotante y Fortran.
Todos los compiladores del lenguaje Fortran admiten, al menos, dos clases para los tipos de datos reales:
simple precisión y doble precisión los cuales se corresponden con los formatos de precisión simple y doble
de la norma IEEE754. En Fortran 77, las variables reales de simple y doble precisión son declarados con las
sentencias
REAL nombre de variable
DOUBLE PRECISION nombre de variable
respectivamente11. Las constantes literales reales de simple precisión siempre llevan un punto decimal, por
ejemplo 34.0. Si el punto decimal no está presente entonces la constante literal es un valor entero. Por otra
parte, las constantes de doble precisión llevan además del punto decimal el sufijo D0, como ser, 34.D0. Debería
quedar claro ahora que las constantes 34, 34.0 y 34.D0 se corresponden a tres diferentes tipos de números en
la computadora y no son intercambiables. El primero constituye un entero representado en complemento a dos
mientras que los otros dos son números de punto flotante en dos sistemas distintos, teniendo el último un mayor
número de dígitos binarios. Muchos errores de programación (bugs, en la jerga) tienen su origen en no utilizar
correctamente el tipo de dato. Por ejemplo, la asignación de un número de simple precisión a una variable de
doble precisión no incrementa el número de dígitos significativos, como se ejemplifica en el siguiente programa:
program wrong0
double precision d
d = 1.66661
write(*,*) d
end
La ejecución del programa conduce a
1.66610002517700
Esto se debe a que la conversión de tipo de simple a doble precisión se hace simplemente agregando ceros a la
representación binaria de simple precisión. Otro error típico involucra el pasaje incorrecto de tipos de datos a
subprogramas. Consideremos,por ejemplo, el siguiente código,
11Es usual ver también estas declaraciones en la forma, no estándar, REAL*4 y REAL*8, respectivamente. Notando que 1 byte = 8
bits, vemos que estas sentencias significan que la longitud de palabra utilizada para almacenar un dato real es de 4 bytes = 32 bits y 8
bytes = 64 bits, respectivamente.
25
program wrong1
call display(1)
end
subroutine display(x)
real x
write(*,*) x
end
Debido a que Fortran 77 no controla la consistencia de tipo entre los argumentos formales y los argumentos
realmente pasados a un subprograma, el código anterior compilará. Al ejecutarlo obtenemos
1.4012985E-45
El problema se debe a que, mientras que el valor pasado en la llamada de la subrutina es un entero, éste es
asignado a un tipo real de simple precisión debido a que el argumento formal x es declarado en la subrutina
como tal. Puesto que la computadora no convierte el tipo de los argumentos cuando la sentencia call es
ejecutada, la secuencia de 32 bits 0 · · ·01 correspondiente al entero 1 es interpretada como un número de
punto flotante de simple precisión. Dado que el exponente sesgado correspondiente a esta secuencia de bits
es 0, el número en cuestión corresponde a un número denormalizado. A saber, al número 0.0 · · ·01×2−125 =
2−24 ·2−125 = 2−149 ≈ 1.4 ·10−45. La situación es aún más problemática si pasamos un dato de simple precisión
a un subprograma que espera un dato de doble precisión:
program wrong2
call display(1.0)
end
subroutine display(x)
double precision x
write(*,*) x
end
El código compilará, ¡pero su ejecución arrojará un valor diferente en cada corrida! Esto se debe a que la
subrutina imprime el número de punto flotante correspondiente a la secuencia de bits almacenados en una
longitud de palabra de 64 bits, pero dado que el dato pasado está representado por una secuencia de 32 bits,
los 32 bits faltantes son leídos de posiciones de memoria aledañas cuyos valores no están especificados por el
programa. El número de doble precisión así construido cambia, entonces, con cada ejecución del programa.
Otro error de programación, tal como lo demuestra el código 2 presentado en la introducción de estas notas,
es el uso del operador igualdad .eq. (ó ==, en Fortran 90) entre dos datos numérico de tipo real. El problema
surge porque el operador igualdad testea la igual estricta de las representaciones de punto flotante de los
datos reales a comparar, pero, debido a la naturaleza inexacta de la representación y los errores de redondeo
introducidos en los cálculos que llevaron al valor de los datos, tal comparación puede dar un valor lógico falso
aún cuando los datos que representan sean matemáticamente iguales. Así dos números obtenidos a partir de
cálculos independientes que se esperan sea iguales, no lo serán, en general, dentro de la aritmética de punto
flotante. Una línea de código que testee la igualdad en la forma
if (x .eq. y) . . .
arrojará, en general, el valor lógico falso. Por lo tanto al testear la igual de dos números debemos permitir cierta
tolerancia en la comparación:
if ( abs(x-y) .le. eps ) . . .
o bien, en un sentido relativo,
if ( abs(x-y) .le. eps*max(abs(x),abs(y)) ) . . .
26
donde eps es un número pequeño, pero mayor que la unidad de redondeo u, adecuadamente escogido. La
elección de eps depende de los errores de redondeo esperados en la evaluación de x e y y no hay, por lo tanto,
un valor único que se adapte a todas las situaciones.
En Fortran 90 la declaración del tipo de clase de una variable real utiliza la siguiente sintaxis:
REAL(KIND=número de clase) :: nombre de variable
donde el número de clase es un número entero que identifica la clase de real a utilizar. Tal número, para el
compilador gfortran, es 4 en el caso de simple precisión y 8 para doble precisión. Si no se especifica la
clase, entonces se utiliza la clase por omisión, la cual es la simple precisión. Dado que el número de clase
es dependiente del compilador, es recomendable asignar los mismos a constantes con nombres y utilizar
éstas en todas las declaraciones de tipo. Esto permite asegurar la portabilidad del programa entre distintas
implementaciones cambiando simplemente el valor de las mismas.
INTEGER, PARAMETER :: SP = 4 ! Valor de la clase de simple precisión
INTEGER, PARAMETER :: DP = 8 ! Valor de la clase de doble precisión
...
REAL(KIND=SP) :: variables
REAL(KIND=DP) :: variables
Además, las constantes reales en el código son declaradas de una dada clase agregando a las mismas el guión
bajo seguida del número de clase. Por ejemplo:
34.0 ! Real de clase por omisión
34.0_SP ! Real de clase SP
124.5678_DP ! Real de clase DP
Una manera alternativa de especificar la clase de los tipos de datos reales y que resulta independiente del
compilador y procesador utilizado consiste en seleccionar el número de clase vía la función intrínseca
SELECTED_REAL_KIND. Esta función selecciona automáticamente la clase del tipo real al especificar la
precisión y rango de los números de punto flotante que se quiere utilizar. Para el formato de simple y doble
precisión de la norma IEEE754, la asignación apropiada es como sigue:
INTEGER, PARAMETER :: SP = SELECTED_REAL_KIND(6,37) ! Simple precisión
INTEGER, PARAMETER :: DP = SELECTED_REAL_KIND(15,307) ! Doble precisión
Si el formato de precisión cuádruple está disponible podemos proceder en forma análoga definiendo el número
de clase correspondiente a través del parámetro entero QP con la asignación12:
INTEGER, PARAMETER :: QP = SELECTED_REAL_KIND(33,4931) ! Cuádruple precisión
Una manera simple y eficiente, en Fortran 90, de escribir un programa que pueda ser compilado con variables
reales ya sea de una clase u otra según se requiera, consiste en utilizar un módulo para definir la precisión de
los tipos reales y luego invocarlo, en el programa, especificando el tipo de clase vía un alias como ser WP (por
working precisión, precisión de trabajo), la cual es utilizada para declarar los tipos de datos reales (variables y
constantes). Específicamente, definimos el módulo precision como sigue:
MODULE precision
! -----------------------------------------------------
! SP : simple precision de la norma IEEE 754
! DP : doble precision de la norma IEEE 754
! QP : quadruple precision de la norma IEEE 754-2008
12Si el formato de cuádruple precisión no está disponible el valor devuelto en QP será -1, lo cual indica la indisponibilidad del
mismo.
27
!
! Uso: USE precision, ONLY: WP => SP ó
! USE precision, ONLY: WP => DP ó
! USE precision, ONLY: WP => QP (si está disponible)
! -----------------------------------------------------
INTEGER, PARAMETER :: SP = SELECTED_REAL_KIND(6,37)
INTEGER, PARAMETER :: DP = SELECTED_REAL_KIND(15,307)
INTEGER, PARAMETER :: QP = SELECTED_REAL_KIND(33,4931)
END MODULE precision
Entonces podemos escribir un programa que se compile ya sea con reales de simple o doble precisión escogiendo
apropiadamente la sentencia que importa el módulo. Por ejemplo:
PROGRAM main
USE precision, ONLY: WP => SP ! ó WP => DP
IMPLICIT NONE
REAL(KIND=WP) :: a
a = 1.0_WP/3.0_WP
WRITE (*,*) a
END PROGRAM main
Mientras que en Fortran 77 no existen procedimientos estándar para determinar las propiedades de la
representación de punto flotante implementada en una clase de tipo real, Fortran 90, por su parte, dispone de
un conjunto de funciones intrínsecas para ello, las cuales presentamos en el siguiente código que hace uso del
módulo precisión discutido para asignar la clase de los tipos reales.
PROGRAM machar
USE precision, ONLY: WP => SP ! ó WP => DP
IMPLICIT NONE
INTEGER :: i
REAL(KIND=WP) :: x
WRITE(*,*) ’ base = ’, RADIX(i)
WRITE(*,*) ’ t = ’, DIGITS(x)
WRITE(*,*) ’ L = ’, MINEXPONENT(x)
WRITE(*,*) ’ U = ’, MAXEXPONENT(x)
WRITE(*,*) ’ x_max = ’, HUGE(x)
WRITE(*,*) ’ x_min = ’, TINY(x)
WRITE(*,*) ’ eps_M = ’, EPSILON(x)
END PROGRAM machar
La aritmética de no detención de la norma IEEE754 permite simplificar la programación cuando los cálculos
involucran los puntos singulares del sistema de punto flotante extendido.Por ejemplo, considérese el siguiente
código usual para calcular el error relativo:
program test1
real x, y, ZERO
parameter (ZERO = 0.0E0)
write (*,*) ’Ingrese dos numeros reales: ’
read (*,*) x, y
if (y .ne. ZERO) then
write (*,*) ’El error relativo es: ’, (x-y) / y
else
write (*,*) ’El error relativo no puede ser calculado.’
endif
end
Con la aritmética extendida no es necesario escribir una sentencia condicional para verificar si el segundo
número ingresado es nulo. Si y es nulo, entonces el resultado de (x-y)/y será un infinito (del signo apropiado)
y la sentencia de escritura procederá en consecuencia.
28
program test2
real x, y
write (*,*) ’Ingrese dos numeros reales: ’
read (*,*) x, y
write (*,*) ’El error relativo es: ’, (x-y) / y
end
En efecto, la ejecución de este programa conduce a:
Ingrese dos números reales:
1.0 0.0
El error relativo es: +Infinity
Muchos usuarios, sin embargo, encuentran a la aritmética de no detención algo confusa y prefieren que los
cálculos sean abortados con un apropiado mensaje de error. El compilador gfortran permite anular el
comportamiento del estándar en las situaciones excepcionales utilizando la opción
-ffpe-trap=invalid,zero,overflow,underflow,denormal
en el comando de compilación. Así la ejecución del código anterior, compilado con esta opción, conduce a:
Ingrese dos números reales:
1.0 0.0
Floating point exception
deteniéndose inmediatamente la ejecución del programa.
4.7. Dígitos de guarda.
La implementación de la operación de resta en el sistema de punto flotante, para poder satisfacer efectiva-
mente el requisito impuesto x	 y = (x− y)(1+δ ), siendo |δ |< u, requiere la presencia de uno o dos dígitos
extra en las mantisas de los números a restar. Tales dígitos extra se conocen como dígitos de guarda o de
respaldo. Para ejemplificar la importancia de los mismos consideremos, en el sistema F con β = 10 y t = 2,
la resta de los números x = 1 e y = 0.99. Para restar el menor de ellos del mayor, debe desplazarse el punto
(decimal en este caso) de y un dígito a la derecha para igualar los exponentes. En este proceso, y pierde un
dígito significativo y el resultado que se obtiene es 0.10, el cual difiere del resultado exacto por un factor de 10.
0.10×101
− 0.09×101,
0.01×101 = 0.10×100.
Consideremos ahora la misma operación, pero con un dígito de guarda. Ahora, el dígito menos significativo no
se pierde al alinear, y el resultado obtenido de la operación es exacto.
0.10 0 ×101
− 0.09 9 ×101,
0.00 1 ×101 = 0.01×100.
En la implementación en una computadora, como paso previo a una operación de punto flotante, el exponente y la
mantisa de los números a operar se cargan en ciertas regiones de memoria de la unidad central de procesamiento
(CPU, o simplemente procesador) conocidas como registros. En general, el tamaño del registro es siempre
mayor que la longitud de la mantisa. Los bits adicionales, que se añaden a la derecha de la mantisa en forma de
ceros, pueden, entonces, actuar como bits de guarda durante una resta.
29
4.8. Precisión extendida y exceso de precisión
Todas las computadoras actuales poseen procesadores basados en la arquitectura de 32 bits diseñada por la
empresa Intel (arquitectura designada como IA-32, o más informalmente x86)13. En esta arquitectura el tamaño
de los registros destinados a las operaciones de puntos flotante es de una longitud de palabra de N = 80 bits. De
este modo, aunque tengamos datos reales de simple (32 bits) o doble (64 bits) precisión en las variables del
programa, cuando las mismas son leídas de la memoria principal a los registros del procesador se convierten a
80 bits. El procesador efectúa entonces las operaciones requeridas en 80 bits y, después del cálculo, el resultado
es guardado nuevamente en la variable de 32 ó 64 bits correspondiente. Específicamente, el formato de punto
flotante implementado en los 80 bits es un formato extendido donde 64 bits se utilizan para la mantisa, 15 bits
para el exponente (representado en forma sesgada, con un sesgo de 16383) y un bit para el signo. Por razones
históricas este formato no tiene bit implícito. Una consecuencia de este diseño es que el resultado final de un
cálculo puede ser más preciso de lo esperado debido a que los cálculos intermedios involucrados son efectuados
en precisión extendida. En general esto es beneficioso, pero es el responsable del comportamiento anómalo del
siguiente programa.
program main
implicit none
real a
a = 2.0
if (1.0/a .eq. 0.5 ) then
write(*,*) ’1/2 es igual a 0.5’
else
write(*,*) ’1/2 es distinto de 0.5’
endif
a = 10.0
if ( 1.0/a .eq. 0.1 ) then
write(*,*) ’1/10 es igual a 0.1’
else
write(*,*) ’1/10 es distinto de 0.1’
endif
end
Aunque parecería que estamos actuando en contra de nuestra recomendación de no utilizar el operador igualdad
para comparar dos número de punto flotante, notemos, sin embargo, que el estándar IEE754 asegura la unicidad
del inverso multiplicativo (ver la tabla 2), por lo que debería esperarse un valor lógico verdadero en las dos
sentencia if. Sin embargo, su compilación y ejecución conduce a:
1/2 es igual a 0.5
1/10 es distinto de 0.1
La precisión extendida es el responsable de la diferencia en el segundo caso. En efecto, notemos primeramente
que el número (decimal) 0.1 tiene una representación binaria infinita y, por lo tanto, su representación normaliza-
da en simple precisión sólo dispone de 24 dígitos binarios. Por otra parte, la operación división entre los números
1.0 y 10.0 es efectuada en precisión extendida lo que equivale a redondear a 64 dígitos binarios la representación
binaria infinita de 0.1. La comparación entre este resultado y la representación de simple precisión de 0.1 es
efectuada en el registro en precisión extendida comparando bit a bit completado con ceros los bits restantes
del formato simple del 0.1. Claramente la representación de punto flotante en precisión extendida de dichas
cantidades es diferente y, por lo tanto, la comparación de igualdad en la sentencia condicional arroja el valor
falso. Incidentalmente, si el resultado de la división es guardado en una variable real, el resultado en precisión
extendida es convertido a precisión simple y ahora la comparación arroja el valor verdadero.
13Aún los procesadores más modernos de las computadoras personales, que extienden este diseño a 64 bits, mantienen la compatibili-
dad. Esta arquitectura es conocida como x86-64 o simplemente x64.
30
program main
implicit none
real a, b
a = 10.0
b = 1.0/a
if (b.eq.0.1) then
write(*,*) ’1/10 es igual a 0.1’
else
write(*,*) ’1/10 es distinto de 0.1’
endif
end
1/10 es igual a 0.1
En realidad, este comportamiento no depende solamente de la arquitectura x86, sino también del compilador
utilizado. En particular, el compilador gfortran (y toda la suite de compiladores GNU) generan código sobre
la arquitectura x86 que trabaja internamente en precisión extendida. Otros compiladores, tales como el ifort
de Intel, siguen estrictamente el estándar IEEE754 y la situación presentada no se da. En cualquier caso, como
ya se ha indicado, testear la igualdad de dos números de puntos flotantes no es recomendable14.
Una consideración final, ¿cuándo conviene utilizar doble precisión? La respuesta corta es siempre. Para
las aplicaciones científicas la precisión de los resultados es generalmente crucial, con lo cual debe utilizarse la
mejor representación de punto flotante disponible en la computadora. Puesto que los cálculos intermedios se
realizan internamente con 80 bits independientemente de la precisión de los datos a ser procesados no existe
una diferencia de velocidad sustancial entre los cálculos en doble y simple precisión. Por supuesto, la cantidad
de memoria utilizada para los datos de doble precisión es el doble que para sus contrapartes de simple precisión
pero, en tanto la disponibilidad de memoria no sea un límite, el uso de datos de doble precisión es, en general,
la mejor elección.
4.9. Redondeo en la norma IEEE754.
La política de redondeo implícitamente contempladaen el estándar es el redondeo al más próximo. Sin
embargo, el estándar IEEE754 enumera cuatro posibles alternativas para redondear el resultado de una operación:
Redondeo al más próximo: el resultado se redondea al número más próximo representable.
Redondeo hacia 0: el resultado se redondea hacia cero.
Redondeo hacia +∞: el resultado se redondea por exceso hacia más infinito.
Redondeo hacia −∞: el resultado se redondea por exceso hacia menos infinito.
El redondeo al más próximo ya ha sido discutido. El redondeo hacia cero consiste en un simple truncamiento
donde los dígitos siguientes al t−ésimo son ignorados. Esta es, ciertamente, una política de redondeo muy
simple de implementar, pero la unidad de redondeo correspondiente es u = εM, un factor dos veces mayor
que la correspondiente al redondeo al más próximo. Las dos siguientes opciones, redondeo a más o menos
infinito, son útiles en la implementación de una técnica conocida como aritmética de intervalos. La aritmética
de intervalos proporciona un método eficiente para monitorizar y controlar errores en los cálculos en punto
flotante, produciendo dos valores por cada resultado. Los dos valores se corresponden con los límites inferior y
superior de un intervalo que contiene al resultado exacto. La longitud del intervalo, que es la diferencia de los
límites superior e inferior, indica la precisión del resultado. Si los extremos del intervalo no son representables,
se redondean por defecto y por exceso, respectivamente. Aunque la anchura del intervalo puede variar de unas
implementaciones a otras, se han diseñado diversos algoritmos que permiten conseguir intervalos estrechos. Si
dicho intervalo es suficientemente estrecho se obtiene un resultado bastante preciso. Si no, al menos lo sabremos
y podemos considerar realizar análisis adicionales.
14Para aquellos (raros) programas que requieren trabajar a la precisión dictada por el estándar, en vez de modificar el código de
manera de almacenar los resultados intermedios en variables, el compilador gfortran dispone de la opción -ffloat-store para
mitigar (aunque no eliminar completamente) el exceso de precisión.
31
5. Propagación del error de redondeo.
Una cuestión de suma importancia es determinar el efecto de la propagación de un error introducido en algún
punto de un cálculo, es decir, determinar si su efecto aumenta o disminuye al efectuar operaciones subsiguientes.
Si los errores de redondeo se mantuvieran acotados después de cualquier número de operaciones entonces el
contenido de estas notas no tendría ninguna importancia. La cuestión es que los errores de redondeo pueden
acumularse de manera tal que el resultado numérico obtenido es una pobre aproximación al resultado buscado.
El hecho de que los errores de redondeo en el cálculo de una cantidad puedan amplificarse o no dependen de los
cálculos realizados, esto es, del algoritmo numérico utilizado o, incluso, puede depender de la propia naturaleza
del problema que se está resolviendo. En lo que sigue ejemplificamos algunas de las situaciones que pueden, y
suelen, ocurrir.
En la sección anterior hemos definido una aritmética en F asumiendo que los números involucrados eran
números de punto flotante. Si ahora x e y son dos números reales que no son exactamente representados en F, la
operación de punto flotante } correspondiente a la operación aritmética ◦ procede como sigue:
x} y = f l( f l(x)◦ f l(y))
Es decir, la operación se corresponde a efectuar la aritmética exacta en las representaciones de punto flotante de
x e y, y luego convertir el resultado a su representación de punto flotante. En particular, cuando ◦ es el operador
suma, se sigue que
x⊕ y = (x(1+δ1)+ y(1+δ2))(1+δ ),
para |δ1|, |δ2|, |δ | ≤ u. El error relativo cometido en la suma está acotado, entonces, por
|x⊕ y− (x+ y)|
|x+ y|
≤ u+ |x|+ |y|
|x+ y|
(1+u)u.
Además del error originado por la operación en sí, vemos que existe un término adicional proveniente de la
representación inexacta de los sumandos. Este término será pequeño en tanto x+ y no sea pequeño. Ahora bien,
si los números a sumar son aproximadamente iguales en magnitud, pero de signos opuestos, el error relativo
puede ser muy grande, aún cuando el error proveniente de la operación en sí no lo es. Esta situación, conocida
como fenómeno de cancelación de dígitos significativos debe ser evitada tanto como sea posible.
Por ejemplo, la fórmula cuadrática nos dice que las raíces de ax2 +bx+ c = 0 cuando a 6= 0 son
x1 =
−b+
√
b2−4ac
2a
, x2 =
−b−
√
b2−4ac
2a
.
Si b2� 4ac entonces, cuando b > 0 el cálculo de x1 involucra en el numerador la sustracción de dos números
casi iguales, mientras que, si b < 0, esta situación ocurre para el cálculo de x2. “Racionalizando el numerador”
se obtienen las siguientes fórmulas alternativas que no sufren de este problema,
x1 =
−2c
b+
√
b2−4ac
, x2 =
2c
−b+
√
b2−4ac
,
siendo la primera adecuada cuando b > 0 y la segunda cuando b < 0.
Ejemplo. Consideremos la ecuación
0.05x2−98.78x+5.015 = 0
cuyas raíces, redondeadas a diez dígitos significativos, son
x1 = 1971.605916, x2 = 0.05077069387.
Supongamos que efectuamos los cálculos utilizando aritmética decimal a cuatro dígitos, con redondeo al más próximo.
Primero tenemos que, en esta aritmética, √
b2−4ac =
√
9757−1.005
=
√
9756
= 98.77
32
así que,
x1 =
98.78+98.77
0.1002
= 1972, x2 =
98.78−98.77
0.1002
= 0.0998.
La aproximación obtenida para x1 es correcta a cuatro dígitos, pero la obtenida para x2 es completamente equivocada,
con un error relativo del orden del 100%. La resta de −b y la raíz cuadrada del determinante expone aquí los errores de
redondeo previos en el cálculo del discriminante y, dominando el error, conducen a una drástica cancelación de dígitos
significativos en x2. Utilizando la fórmula alternativa para x2 encontramos que, a cuatro dígitos decimales,
x2 =
10.03
98.78+98.77
= 0.05077,
la cual es una aproximación precisa de dicha raíz.
En general, el fenómeno de cancelación puede ser evitado reescribiendo en forma apropiada la fórmula que
origina el problema. Por ejemplo, la expresión
√
x+δ −
√
x puede ser reescrita como√
x+δ −
√
x =
x+δ − x√
x+δ +
√
x
=
δ√
x+δ +
√
x
,
evitándose así la cancelación cuando |δ | � x. En general, si no puede encontrarse una manera exacta de
reescribir la expresión f (x+δ )− f (x), donde f es una función continua, entonces puede resultar apropiado
utilizar uno o más términos de la serie de Taylor de f
f (x+δ )− f (x) = f ′(x)δ + 1
2
f ′′(x)δ 2 + . . .
Un problema donde el fenómeno de cancelación juega un papel relevante es la estimación de la derivada de
una función f en un punto x a través de una fórmula de diferenciación numérica. Estas fórmulas utilizan los
valores de f en puntos próximos a x equispaciados en una distancia, o paso, h. En principio, parece ser que
podemos calcular la derivada con cualquier precisión deseada tomando el paso h suficientemente pequeño. Sin
embargo estas fórmulas adolecen de cancelación debido a la necesidad de dividir por una potencia de h la resta
de dos cantidades que tienden a ser iguales conforme h→ 0. Como consecuencia de ésto el paso h no puede ser
tomado tan pequeño como se desee, sino que existe un valor a partir del cual el error en la estimación numérica
de la derivada comienza a incrementarse nuevamente.
Ejemplo. Consideremos la más simple fórmula de diferenciación numérica para estimar f ′(x), a saber
f (x+h)− f (x)
h
.
Supongamos que al evaluar f (x+h) y f (x) tenemos errores (absolutos) de redondeo e(x+h) y e(x), esto es, en el cálculo
utilizamos los números f̂ (x+h) y f̂ (x) siendo
f (x+h) = f̂ (x+h)+ e(x+h) y f (x) = f̂ (x)+ e(x).
Entonces, el error en la aproximación calculada está dado por:
f ′(x)− f̂ (x+h)− f̂ (x)
h
= f ′(x)− f (x+h)− f (x)
h
+
e(x+h)− e(x)
h
.
Suponiendo que f es derivable con continuidad al menos hasta la derivada segunda, el desarrollo de Taylor de f en torno a
x nos dice que
f (x+h) = f (x)+ f ′(x)h+
1
2
f ′′(ξ )h2,
donde ξ es un punto localizado entre x y

Continuar navegando