2327-2007-ESIQIE-MAESTRIA-quintana-mora-anibal

•

IPN

Todos los Materiales

24/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Introducción al Derecho I

136.629 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

INSTITUTO POLITÉCNICO NACIONAL
ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS
SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
PREDICCIÓN DE PROPIEDADES TERMODINÁMICAS
DE DISOLUCIONES ELECTROLÍTICAS USANDO
UNA RED NEURONAL ARTIFICIAL

T E S I S

Que para obtener el Grado de
Maestro en Ciencias en Ingeniería Química

PRESENTA:

ING. ANÍBAL QUINTANA MORA

DIRECTOR:

DR. RICARDO MACIAS SALINAS

MÉXICO D.F. JUNIO DE 2007

III

CARTA DE CESIÓN DE DERECHOS

En la Ciudad de México, el día 20 de Junio del año 2007, el que suscribe I.Q.I Aníbal Quintana
Mora, alumno del Programa de Maestría en Ciencias en Ingeniería Química, con número de
registro B041184, adscrito a la Escuela Superior de Ingeniería Química e Industrias
Extractivas, manifiesta que es autor intelectual del presente trabajo de tesis bajo la dirección del
Dr. Ricardo Macias Salinas y ceden los derechos del intitulado “Predicción de propiedades
termodinámicas de disoluciones electrolíticas usando una red neuronal artificial”, al Instituto
Politécnico Nacional, para su difusión con fines académicos y de investigación.

Los usuarios de la información no deberán de reproducir el contenido textual, gráficas o datos del
trabajo sin el permiso del autor y del director del trabajo. Este permiso puede obtenerse escribiendo
a las siguientes direcciones: aquintanam@ipn.mx, rms@ipn.mx. Si el permiso se otorga, el usuario
deberá dar el agradecimiento correspondiente y citar la fuente del mismo.

__________________________
I.Q.I. Aníbal Quintana Mora

INSTITUTO POLITÉCNICO NACIONAL
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO

IV
Agradecimientos

A JEHOVÁ DIOS, por el permiso y apoyo determinante que amorosamente me concedió día tras
día para cumplir con esta etapa importante de mi vida.

A JESUCRISTO, EL HIJO DE DIOS, por el vigoroso efecto de su ejemplo y enseñanzas que me
me infundieron ánimo y fortaleza hasta la culminación de este proyecto.

A MI ESPOSA LILIANA y A MI HIJA ASHLEY, por su amor y aguante fiel que fueron claves
para mi, en este periodo de nuestra vida de familia.

A MIS DEMÁS SERES QUERIDOS, por el apoyo que de diversas maneras me brindaron
constantemente.

V
AL INSTITUTO POLITÉCNICO NACIONAL, por ser la Institución de excelencia que forjó mi
formación de manera integral, a favor de mi superación académica y profesional.

A LA ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS,
por ser el recinto formativo en el que cursé mis estudios de Licenciatura y de Posgrado.

AL CONSEJO NACIONAL DE CIENCIA Y TECNOLOGÍA, por el apoyo económico concedido
para la realización de mis Estudios de Posgrado.

AL DR. RICARDO MACIAS SALINAS, por su inestimable apoyo y paciencia como mi asesor y
director de tesis, además de su enorme calidad como ser humano.

A LA COMISIÓN REVISORA, por su valiosa contribución al enriquecimiento del presente
trabajo.

VI
Resumen

Se desarrolló un modelo termodinámico de características híbridas para la predicción del coeficiente
de actividad iónico medio y del coeficiente osmótico de disoluciones electrolíticas del tipo acuoso a
25 °C. Los principios del modelo desarrollado se basan en el concepto de adición de energías libres
de Gibbs en exceso que representan las dos interacciones moleculares más dominantes en una
disolución electrolítica como son: ion-ion y ion-disolvente. Para tal efecto, se incorporo el modelo
primitivo de la MSA “Mean Spherical Approximation” para representar las fuerzas de largo alcance
o electroestáticas entre las especies iónicas mientras que una red neuronal artificial (RNA) del tipo
multi-capa con retro-propagación fue utilizada para reproducir las fuerzas de corto alcance del tipo
Van der Waals entre los iones y el disolvente. El presente modelo termodinámico asistido por una
RNA fue exitosamente validado en la correlación y/o predicción de propiedades iónicas
experimentales (coeficiente de actividad iónico medio y coeficiente osmótico) de 68 disoluciones
electrolíticas (27 del tipo 1-1, 7 del tipo 1-2, 27 del tipo 2-1 y 7 del tipo 2-2) con valores globales
del error cuadrático medio (RMS) de 1.03% en la etapa de entrenamiento y 1.21% durante la
validación cruzada en base a un total de 1706 puntos experimentales. A diferencia de otros modelos
termodinámicos reportados en la literatura los cuales requieren de dos o más parámetros específicos
por disolución electrolítica para la porción de corto alcance, el modelo propuesto en este trabajo es
de características totalmente predictivas, no requiere de ningún parámetro de interacción entre
especies y es aplicable a varios sistemas acuosos de electrolitos en amplios intervalos de
concentración, en particular a muy altas molalidades de la sal.

VII
Abstract

A thermodynamic model of the hybrid type has been developed for the prediction of the mean ionic
activity coefficient and the osmotic coefficient of aqueous electrolyte solutions at 25 °C. The
principles behind the proposed model are based on the concept of adding excess Gibbs free energies
whose represent the two most dominant molecular interactions present in an electrolyte solution; i.e.
ion-ion and ion-solvent. For such a purpose, the primitive model of MSA “Mean Spherical
Approximation” has been incorporated in this work to represent the long-range or electrostatic
forces between the ionic species whereas a multi-layer, back-propagation artificial neural network
(ANN) was used to reproduce the short-range forces of the van der Waals type between the ions and
the solvent. The proposed thermodynamic model assisted by an ANN was successfully validated
during the correlation and/or the prediction of experimental ionic properties (mean ionic activity
coefficient and osmotic coefficient) of 70 electrolyte solutions (27 of 1:1 electrolytes, 7 of 1:2
electrolytes, 27 of 2:1 electrolytes and 7 of 2:2 electrolytes) with overall values of the root mean
square error (RMS) of 1.03% for the training data and 1.21% for the test data based on a total of
1706 experimental points. Unlike other thermodynamic models reported in the literature for whose
two or more specific parameters per electrolyte system are required for the short-range modeling
portion, the model proposed in this work features entirely predictive capabilities, it does require
none interaction parameters between species being applicable to a variety of aqueous electrolyte
solutions over wide concentration ranges, particularly at very high salt molalities.

VIII
Índice general

Resumen………………………………………………………………….................................. V
Abstract………………………………………………………………………………………… VI
Índice General…………………………………………………………………......................... VII
Lista de Tablas…………………………………………………………………………………. IX
Lista de Figuras………………………………………………………………………………… X
Nomenclatura………………………………………………………………………………….. XII
Introducción……………………………………………………………………………………. XIII

1. Generalidades………………………………………………………………........................... 1
1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas………....................................... 1
1.1.1 Coeficiente de Actividad de un Soluto no Volátil………..………............................. 3
1.1.2 Electroneutralidad…………………….……………………………........................... 4
1.1.3 Coeficiente de Actividad Iónico Medio……………..…………....…………………. 5
1.1.4 Coeficiente Osmótico del Disolvente…….……………………...………………….. 9
1.1.5 Propiedades en Exceso…………………………………………………..................... 12
1.1.6 Fuerza Iónica………………………………………………………............................13
1.1.7 Ley límite de Debye – Hückel………………………………………………………. 14
1.1.8 Modelos Semiempíricos…………………………………………………………….. 18
1.1.9 Modelo de Aproximación Esférica Media (MSA)…………….……………………. 20
1.2 Redes Neuronales Artificiales………………………………………………......................... 23
1.2.1 Estructura de un Sistema Neuronal Artificial………………………………………. 23
1.2.2 Dinámica Operacional de una Red Neuronal Artificial………….……..................... 26
1.2.2.1 Función de Entrada……………...……………………………................................ 26
1.2.2.2 Función de Activación………………..…………………………………………... 28
1.2.2.3 Función de Salida………………………………………………………………….. 31
1.2.3 Mecanismos de Aprendizaje…...…………………………………………………..... 32
1.2.4 El Perceptrón Multicapa…………..………………………………............................ 35
1.2.5 Aproximación de Funciones con Redes Multicapa…………………………………. 37
1.2.5.1 Teorema de Kolmogorov………………………………………………………….. 37

IX
1.2.5.2 Teorema de Cybenko…………………………………………................................ 38
1.2.6 El Algoritmo de Retropropagación de Errores BP……..…………............................ 39
1.2.7 Capacidad de Generalización de una Red Neuronal Artificial…………………….... 40
2. Estado del Arte……………..……………………………………………………………….. 42
2.1 Redes Neuronales Aplicadas a Disoluciones Electrolíticas...….……………………………. 42
2.2 Redes Neuronales Aplicadas en otras Áreas de la Ingeniería Química…............................... 43
3. Modelo Propuesto………………………………………………………………………….… 49
3.1 Contribución de las Fuerzas de Largo Alcance………………….....………………………... 51
3.2 Contribución de las Fuerzas de Corto Alcance…………........................................................ 52
3.3 Entrenamiento de la Red Neuronal……..……………………………………………………. 55
3.3.1 Definición de Descriptores……………………………………………....................…... 55
3.3.2 Patrones de Entrenamiento………………………………………………....................... 58
3.4 Estructura de la Red Neuronal……………..…………………………………........................ 60
3.5 Verificación del Poder Predictivo de la Red Neuronal………..……………………............... 64
4. Aplicación del Modelo Asistido con la Red Neuronal Artificial…………………………... 66
4.1 Electrolitos Simétricos 1-1……………………………………………………........................ 67
4.2 Electrolitos No Simétricos 2-1……………………………………………………………….. 74
4.3 Electrolitos No Simétricos 1-2 y Simétricos 2-2……………………………………………… 76
4.4 Ejemplo Comparativo del Modelo Híbrido con el Modelo Semiempírico
MSA–Born –Margules……………….…………………………………………………………… 77
Conclusiones y Recomendaciones………………………………………………….................... 81
Bibliografía……………………………………………………………………………………..... 83
Apéndice A……………………………………………………………………………………….. 86
Tabla A1. Entropías y volúmenes de hidratación……………………………….……………... 86
Apéndice B. Contribuciones de Corto y Largo Alcance de Electrolitos Selectos………..…... 88
Apéndice C..………………………………………………………………………………………. 93
C1. Programa MSA en Fortran…………………………………………………………………. 93
C2. Ejemplo de Resultados Generados con el Programa MSA………..……………………… 103
Apéndice D. Programa QNET2000 para la Modelación con Redes Neuronales……………. 105

X
Lista de Tablas

1.1 Molalidad Iónica Media (m±) para Algunos Electrolitos Fuertes
(Robinson y Stokes, 1970)……………………………………………………………………. 8
1.2 Concentraciones de los principales iones presentes en el agua de mar
(Prausnitz et al., 2000)…………………………………………............................................... 12
3.1 Conformación del modelo propuesto ……………………...………................................... 49
3.2 Variables alimentadas al Programa MSA………….……………………………………... 51
3.3 Descriptores de la red neuronal artificial…………………………………………………. 56
3.4 Electrolitos de referencia utilizados en el entrenamiento de la RNA…………………….. 57
3.5 Electrolitos simétricos 1-1 para entrenamiento…………………………………………… 58
3.6 Electrolitos no simétricos 2-1 para entrenamiento………………………………………... 59
3.7 Electrolitos no simétricos 1-2 y simétricos 2-2 para entrenamiento……………………… 59
3.8 Características de los arreglos planteados en la selección de la estructura de la
red neuronal…………………………………………………………………………………... 62
3.9 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el
Coeficiente de Actividad Iónico Medio………………………………………………………. 63
3.10 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el
Coeficiente Osmótico…………………………………………………………………………. 63
3.11 Electrolitos simétricos 1-1 para predicción……………………………………………… 65
3.12 Electrolitos no simétricos 2-1 para predicción…………………………………………... 65
3.13 Electrolitos no simétricos 1-2 y simétricos 2-2 para predicción…………………………. 65
4.1 Parámetros ajustables del modelo MSA–Born–Margules………………………………… 77

XI
Lista de Figuras

1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC
(Hamer y Wu, 1972)…………………………………………….…………………..................... 7
1.2 Coeficiente osmótico para el NaCl a 25 oC
(Hamer y Wu, 1972)…………………………..………………………………...…..................... 12
1.3 Esquema básico de una red neuronal totalmente conectada………………...………………. 26
1.4 Ejemplo de una neurona con 2 entradas y 1 salida……………………...………................... 27
1.5 Función lineal…………...…………………………………………………………………... 29
1.6 Función sigmoidal………….…………………………………………………….................. 29
1.7 Función tangente hiperbólica……...………………………………………………………… 30
3.1 Descripción del modelo propuesto…….……………………………………………………. 50
3.2 Contribuciones de largo alcance para el NaCl obtenidas con el modelo MSA………………52
3.3 Contribuciones de corto alcance para el NaCl obtenidas a partir
de las ecuaciones (63) y (64)……………………………………………………………………..54
3.4 Patrón de entrenamiento en la capa de entrada de la RNA……………………..…………… 60
3.5 Estructura E6-12-1 (Gráfico generado por QNET2000)……………………………………..61
3.6 Estructura E6-6,6-1 (Gráfico generado por QNET2000)…………………………………….61
3.7 Estructura E6-6,4,2-1 (Gráfico generado por QNET2000)…………………………………..62
4.1 Gráfica de paridad generada por QNET2000 entre la contribuciones
teóricas de corto alcance para el coeficiente de actividad iónico medio
y las obtenidas con la RNA para electrolitos 1-1 ………………………………………………. 67
4.2 Gráfica de paridad generada por QNET2000 entre las contribuciones
teóricas de corto alcance para el coeficiente osmótico y las obtenidas con la RNA
para electrolitos 1-1……………...….…………………………………………………………... 68
4.3 Comportamiento del error cuadrático medio durante el entrenamiento de la RNA………… 69
4.4 Comportamiento del error cuadrático medio durante la validación cruzada de la RNA…… 69
4.5 Coeficientes actividad iónicos medios totales correlacionados con el
modelo híbrido MSA-RNA…………………………………………………………………….. 70
4.6 Coeficientes osmóticos totales correlacionados con el modelo híbrido MSA-RNA………. 71
4.7 Coeficientes actividad iónicos medios totales obtenidos en fase predictiva con el

XII
modelo híbrido MSA-RNA……………………………………………………………………….. 72
4.8 Coeficientes osmóticos totales obtenidos en fase predictiva con el
modelo híbrido MSA-RNA……………………………………………………………………….. 73
4.9 Gráfica de paridad generada por QNET2000 entre las contribuciones
teóricas de corto alcance para el coeficiente de actividad iónico medio
y las obtenidas con la RNA para electrolitos 2-1……………….………..……..……………........ 75
4.10 Gráfica de paridad generada por QNET2000 entre las contribuciones
teóricas de corto alcance para el coeficiente osmótico y las obtenidas
con la RNA para electrolitos 2-1……..…………………………………………...……………….. 75
4.11 Gráfica de paridad generada por QNET2000 entre las contribuciones
teóricas de corto alcance para el coeficiente de actividad iónico medio y las
obtenidas con la RNA para electrolitos no simétricos 1-2 y simétricos 2-2………………………..76
4.12 Gráfica de paridad generada por QNET2000 entre las contribuciones
teóricas de corto alcance para el coeficiente osmótico y las obtenidas
con la RNA paraelectrolitos no simétricos 1-2 y simétricos 2-2………………………………….. 76
4.13 Gráfica comparativa para el coeficiente de actividad iónico medio
del NaCl acuoso a 25oC…..……………………………………………………………………….. 78
4.14 Gráfica comparativa para el coeficiente osmótico del NaCl acuoso a 25oC….……………... 79

XIII
Nomenclatura

ia Actividad del componente i.
a Valor de la función de activación de la neurona.
γA Constante de Debye – Hückel para el coeficiente de actividad del soluto.
φA Constante de Debye – Hückel para el coeficiente osmótico del disolvente.
b Parámetro ajustable en la ecuación de la Ley límite de Debye – Hückel.
sd Densidad del disolvente.
e Carga del electrón.
( )kE Función de Error.
( ).f Función contínua definida en un intervalo.
ig Función de transferencia.
G Energía de Gibbs total.
*G Energía de Gibbs de la disolución ideal.
EXG Energía de Gibbs en exceso.
igin Entradas globales a la red neuronal.
ix,ini Valores de entradas a la red neuronal.
I Fuerza iónica.
im Concentración molal del soluto i.
M Masa molecular del disolvente.
MX Electrolito neutro.
MXm Molalidad de electrolito no disociado.
in Número de moles de ión.
tn Número total de moles de la disolución.
AN Número de Avogadro.
iN Número total de entradas a la red neuronal.
kz,out i Salida de la capa final de la red neuronal.
P Presión.

XIV
sp Presión parcial del disolvente.
sat
sP Presión de vapor del disolvente puto.
R Constante de los gases.
mn RR , Funciones vectoriales.
RMS Error cuadrático medio.
( )rii SS Entropía de hidratación iónica reducida.
t Tiempo.
kt Valor meta o salida objetivo en la capa final de la red neuronal.
T Temperatura absoluta.
wV Volumen total del disolvente.
( )rii VV Volumen parcial molal iónico reducido.
wx Fracción mol de disolvente.
jy Salida de la capa intermedia de la red neuronal.
z Valencia iónica.

Símbolos griegos

Γ Factor “screening”.
0
ijΓ Coeficiente de actividad iónico medio reducido.
iγ Coeficiente de actividad del componente i.
( )m
iγ Coeficiente de actividad del componente i en la escala de concentración molal.
±γ Coeficiente de actividad iónico medio.
ε Criterio de convergencia.
oε Permitividad en el vacío.
rε Permitividad relativa o constante dieléctrica.
,,,i kj θθΘ Valores de umbral.
κ Longitud de Debye.
iμ Potencial químico del componente i.

XV
0
iμ Potencial químico del componente i en un estado de referencia estándar expresado en
forma general.
*
iμ Potencial químico del componente i para una disolución hipotética ideal expresada en
forma general.
⊗
iμ Potencial químico del soluto i para una disolución hipotética ideal 1 molal del mismo
soluto i en el disolvente j.
r
CA±γln Contribución de corto alcance al coeficiente de actividad iónico medio del electrolito de
referencia.
ν Carga iónica.
sν Volumen molar del disolvente.
iξ Concentración del componente i expresada en forma general.
π Presión osmótica; número pi.
σ Diámetro iónico efectivo.
iσ Diámetro iónico de Pauling.
φ Coeficiente osmótico.
ijφ Función sigmoidal.
r
CAφ Contribución de corto alcance al coeficiente osmótico del electrolito de referencia.
θα,ω, Vectores de entrada a la red neuronal.

Subíndices

CA Fuerzas de corto alcance.
i Soluto; ión.
sj, Disolvente.
LA Fuerzas de largo alcance.
MSA Modelo de aproximación esférica media.
RNA Red neuronal artificial.

XVI
Introducción

Existen diversos procesos naturales e industriales que requieren de una información cuantitativa
acerca de las propiedades termodinámicas de disoluciones electrolíticas; ejemplos de estos
incluyen: procesos de partición en sistemas bioquímicos, procesos de precipitación y cristalización
en sistemas de energía geotérmica, desalado del agua, control de la contaminación del agua, efectos
de desplazamiento salino (“salting-in” y “salting-out”) en procesos de extracción y destilación,
producción de gas natural a partir de acuíferos a alta presión, procesamiento de alimentos y
producción de fertilizantes.

La modelación formal del comportamiento termodinámico de disoluciones conteniendo
electrolitos enfrenta grandes retos debido a la complejidad de las diferentes interacciones
moleculares existentes ya sea del tipo Van der Waals, electrostáticas y de hidratación. En las
últimas 5 décadas se han llevado a cabo avances teóricos significativos en la caracterización de
propiedades termodinámicas de disoluciones electrolíticas, debido en gran parte al acelerado
desarrollo de métodos basados en la mecánica estadística (Friedman, 1981). Sin embargo, debido a
la complejidad de estas nuevas teorías no existen aun modelos ingenieríles prácticos que incorporen
en forma simplificada representaciones de tales teorías. Diversos modelos semi-empíricos han sido
publicados en la literatura, sin embargo, la aplicabilidad de estos es limitada con respecto a varias
variables: concentración, temperatura, presión o naturaleza misma de la solución electrolítica
(Prausnitz et al., 2000; Tester y Modell, 1997).

Un procedimiento de modelación ampliamente favorecido por varios investigadores es el
cálculo de algunas propiedades termodinámicas de la disolución electrolítica a partir de una
expresión para la energía libre de Gibbs en exceso EXG de la mezcla en cuestión (Pitzer, 1973; Chen
et al., 1982; Pitzer y Simonson, 1986; Wilczec-Vera y H. Vera, 2003). En general, la expresión
resultante para EXG esta compuesta por dos principales contribuciones que representan el tipo de
interacciones existentes en la solución: uno de largo alcance o electrostático y el otro de corto
alcance o de van der Waals. El uso de un modelo basado en una expresión para EXG permite el
cálculo directo de coeficientes de actividad iónicos medios así como coeficientes osmóticos de las
especies iónicas disueltas en solventes acuosos o orgánicos. Sin embargo, la aplicabilidad de este

XVII
tipo de modelos es limitada por varios motivos: (1) no es posible determinar propiedades
volumétricas de la disolución electrolítica, (2) el poder predictivo del modelo disminuye a altas
temperaturas y presiones, particularmente cerca del punto crítico del disolvente, y (3) han
demostrado ser parcialmente exitosos en la representación de propiedades iónicas experimentales
para varias disoluciones electrolíticas particularmente a 25 °C y dentro de un intervalo moderado de
concentraciones de la sal. Adicionalmente, todos los modelos del tipo EXG reportados hasta ahora
en la literatura requieren el uso de uno o más parámetros específicos por disolución electrolítica en
la porción de corto alcance; impidiendo así su aplicabilidad predictiva para otros sistemas
electrolíticos para los cuales no se dispone de dichos datos.

En base a lo anteriormente expuesto, el propósito del presente trabajo fue desarrollar un
modelo termodinámico hibrido de características altamente predictivas para la representación
precisa de dos propiedades termodinámicas importantes: coeficientes de actividad iónicos medios y
coeficientes osmóticos de disoluciones electrolíticas acuosas a 25 °C en amplios intervalos de
concentración, en particular a muy altas molalidades del electrolito. El modelo propuesto combina
una expresión analítica basada en la MSA (Mean Spherical Approximation) para la estimación de
las fuerzas de largo alcance (tipo ion-ion) con una red neuronal artificial multi-capa con retro-
propagación encargada de reproducir las fuerzas de corto alcance (tipo ion-disolvente). El modelo
resultante no requiere de ningún parámetro ajustable y asume que existe una disociación total de la
sal en solución; por ende las únicas especies presentes dentro de la solución son el agua y los iones
(cationesy aniones). El modelo fue finalmente aplicado a varios sistemas acuosos con electrolitos
simétricos (del tipo 1-1 y 2-2) y no-simétricos (del tipo 1-2 y 2-1) en la representación de datos
experimentales reportados tales como coeficientes de actividad medios de las especies iónicas y
coeficientes osmóticos (actividad del solvente) a 25 ºC.

Estructura de la Tesis

El resto de esta tesis ha sido dividido en cuatro capítulos. El Capítulo 1 presenta algunos
conceptos y principios generales relacionados con la termodinámica de disoluciones electrolíticas
así como de redes neuronales artificiales (RNA). El Capítulo 2 proporciona una breve discusión de
los trabajos previos más pertinentes sobre la aplicación de las RNAs en problemas de ingeniería
química. La descripción detallada del modelo termodinámico hibrido propuesto en este trabajo es

XVIII
presentado en el Capítulo 3. Por otra parte, el Capítulo 4 presenta los resultados de la aplicación del
modelo así como una discusión de los mismos. Finalmente, al final de la tesis se incluye una lista de
conclusiones y recomendaciones derivadas a partir del presente trabajo.

Generalidades

1
Capítulo 1

Generalidades

En este capítulo se muestran conceptos básicos incluidos con el marco teórico definido para el
modelo propuesto en este trabajo. Los dos aspectos fundamentales en los que se centran dichos
conceptos son, por una parte, la termodinámica de las disoluciones electrolíticas acuosas y por
otra, las redes neuronales artificiales (RNA).

1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas

La termodinámica de disoluciones de electrolitos no es una simple continuación de la
termodinámica de disoluciones no electrolíticas.

Abundan en la bibliografía las referencias de estudios sobre disoluciones de electrolitos,
experimentales y teóricos. Desafortunadamente, muchos de ellos son confusos, principalmente
porque los autores no definen claramente las funciones termodinámicas y porque no hay una
notación estándar universalmente aceptada (Wilczec-Vera y H. Vera, 2003). El mejor estudio de
la termodinámica de disoluciones de electrolitos se encuentra en el libro de Robinson y Stokes
(2002). Sin embargo, como complemento pueden citarse, la publicación editada por Pitzer (1973)
y el libro de Barthel et al. (1998).

En las disoluciones electrolíticas acuosas el agua como disolvente presenta una constante
dieléctrica alta, y al agregar un electrolito, este se descompone en dos o más iones. Por tanto, una
disolución binaria, por ejemplo, cloruro de sodio acuoso es, en cierto sentido, una disolución
ternaria que contiene agua, un catión y un anión. Pero en otro sentido, no es una disolución
ternaria porque las concentraciones del catión y del anión no son dos variables independientes; si
una de ellas está fijada, la otra también lo está por el balance de materia y la condición de
electroneutralidad. Como la ionización y la condición de electroneutralidad deben tomarse en
cuenta en la termodinámica de disoluciones de electrolitos, pero no en la termodinámica de
Generalidades

2
disoluciones de no electrolitos, el tratamiento de las disoluciones electrolíticas es necesariamente
mucho más elaborado.

Para electrolitos fuertes (sales), la ionización suele ser completa, pero para los electrolitos
débiles (por ejemplo, ácido acético), la ionización es sólo parcial. En ese caso, para obtener una
descripción termodinámica útil, es necesario tener en cuenta los equilibrios químicos, además de
uno o más balances de materia y de la condición de electroneutralidad.

La termodinámica de las disoluciones de electrolitos suele utilizar escalas de concentración
diferentes de las empleadas en la termodinámica de las disoluciones de no electrolitos. En esta
última, las escalas más comunes son las fracciones molares o fracciones en volumen que tienen
una característica deseable: varían de cero a uno. Para disoluciones electrolíticas, la escala de
concentraciones más popular es la molalidad (moles de soluto por kg de disolvente). La
molalidad, sin embargo, puede variar de cero a valores muy altos (arriba de 100), pero se utiliza
porque, en la mayor parte de las aplicaciones, el estudio se limita a disoluciones diluidas o
moderadamente concentradas, en las que la molalidad puede llegar a 10 o 20, y en raras
excepciones es superior.

Otro aspecto importante que actualmente continúa siendo una fuente de confusiones en el
estudio de las disoluciones electrolíticas, es la elección de las variables. A diferencia de las
mezclas de no electrolitos, en las que se utiliza el tratamiento termodinámico de Lewis-Randall,
teniendo como variables la temperatura, la presión y las concentraciones de todos los
componentes, normalmente expresadas como fracciones molares, en las disoluciones
electrolíticas, especialmente en disoluciones diluidas, se usa el tratamiento termodinámico de
Mc-Millan-Mayer, en el que las variables pueden ser la temperatura, las concentraciones de todas
las especies disueltas y la presión osmótica. En el último caso, a partir de las variables indicadas e
incluyendo el concepto de electroneutralidad, se han desarrollado modelos teóricos o
semiempíricos, que requieren parámetros ajustables de interacción entre las especies que
conforman el sistema electrolítico y que son obtenidos a través de correlaciones realizadas a
partir de datos experimentales.

Generalidades

3
A continuación se describen algunos conceptos básicos importantes, relacionados con la
termodinámica de disoluciones electrolíticas.

1.1.1 Coeficiente de Actividad de un Soluto no Volátil

La actividad ai y el coeficiente de actividad γi del componente i a una cierta temperatura, presión
y composición, están relacionados en forma general con el potencial químico µi por:

( )iiiiii RTaRT ξγμμμ lnln 00 +=+= (1)

donde µi0 es el potencial químico de i en un estado estándar convenientemente definido y ξ es una
medida adecuada de la concentración.

Para una mezcla que contiene un soluto no volátil en un disolvente podemos utilizar la
ecuación (1) para el disolvente, con la definición convencional de µi0. Sin embargo, para un
soluto no volátil, el líquido i puro, a la temperatura y presión del sistema, no siempre es el estado
estándar conveniente por que en la mayor parte de los casos, a temperaturas y presiones
normales, el soluto puro no volátil no puede existir como líquido.

Tomando en cuenta que el coeficiente de actividad iónico medio de un sistema electrolítico
acuoso está relacionado con la actividad del soluto, el potencial químico del soluto disuelto se
escribe como:

( )iiiiii RTaRT ξγμμμ lnln ** +=+= (2)

donde µi* es el potencial químico de i en el estado estándar, que es independiente de la
composición pero depende de la temperatura, de la presión, y de la naturaleza del soluto y del
disolvente. Una elección conveniente para µi* es el potencial químico de i en una disolución
hipotética ideal de i en el disolvente, a la temperatura y presión del sistema y la concentración
unidad ξ i = 1. En esta disolución ideal, γi → 1 cuando ξ i → 0.

Generalidades

4
Es un error frecuente afirmar que el estado estándar para el soluto es el mismo a la temperatura y
presión del sistema y a dilución infinita. Esto no es correcto; a dilución infinita, el potencial
químico del soluto es -∞. El potencial químico en el estado estándar para el soluto i debe ser
definido a una concentración determinada (distinta de cero). Esta concentración es la
concentración unidad. Se utiliza la concentración unidad porque su logaritmo es cero.

Cuando hacemos ξ i = mi, la ecuación (2) se transforma en:

( )( )imiii mRT γμμ ln+= ⊗ (3)

donde γi (m) es el coeficiente de actividad en la escalade molalidades. El estado estándar es el
estado hipotético, de la disolución ideal, 1 molal de soluto i en el disolvente j. En la disolución
real γi (m) → 1 cuando m i → 0. Por lo tanto, el coeficiente de actividad iónico medio puede
definirse como una medida de la desviación del comportamiento real de una disolución
electrolítica, con respecto al comportamiento de una disolución hipotética ideal.

1.1.2 Electroneutralidad

Como ya se ha indicado, en una disolución electrolítica, el soluto se disocia en cationes y
aniones. Estas especies no son componentes independientes por la condición de
electroneutralidad. Por ejemplo, cuando un mol de un electrolito fuerte, como NaCl, está disuelto
en un volumen de agua de un litro, tendremos una disolución uno molal de NaCl que está
totalmente disociado en una disolución uno molal de los iones sodio, cargados positivamente, y
una disolución uno molal de los iones cloruro, cargados negativamente.

Las medidas termodinámicas habituales no dan las propiedades de una especie iónica, sino
la de los electrolitos neutros formados por cationes y aniones. En una disolución de electrolito, la
electroneutralidad impone la condición de no poder variar independientemente la cantidad de
sustancia de las especies iónicas. En NaCl acuoso hay tres especies, pero sólo dos (no tres)
componentes.

Generalidades

5
Cuando está disuelto en un disolvente de constante dieléctrica alta, como el agua, un electrolito
neutro MX se disocia en v+ iones positivos (cationes), cada uno con una carga z+, y
v- iones negativos (aniones), de carga z-. Las cargas se expresan en unidades normalizadas, en
donde z+ = 1 para un protón. La disociación electrolítica se representa por:

MX v+Mz+ + v-Xz- (4)

La electroneutralidad requiere que:

v+ z+ + v- z- = 0 = v+ z+ − v- |z-| (5)

Por ejemplo, en la disociación:

H2SO4 2H+ + SO42-

tenemos v+ = 2, z+ = 1, z- = 1 y v- = −2

1.1.3 Coeficiente de Actividad Iónico Medio

La ecuación (4) representa un equilibrio químico. El criterio del potencial químico para dicho
equilibrio es:

−+ −+ += zz vv XMMX μμμ (6)

Utilizando la escala de molalidad para los coeficientes de actividad como se indica en la
ecuación (3) y sustituyendo en la ecuación (6) se obtiene el potencial químico del electrolito:

( ) ( )−−−+++⊗ ++= γγμμ mRTvmRTv lnlnMXMX (7)

donde se ha eliminado el superíndice (m) para los coeficientes de actividad γ+ y γ-, y donde

Generalidades

6
⊗−
⊗
+
⊗
−+ += zz vv XMMX μμμ (8)

En la ecuación (8) µi⊗(Mz+) es el potencial químico del ion M (con carga z+) en una
disolución ideal hipotética donde la molalidad del ion M es la unidad. Una definición similar se
enuncia para µi⊗(Xz-).

La ecuación (7) se puede escribir de forma más eficiente:

( ) ( ) ( )−−++⊗−−++−−++⊗ +=++= vvvvvv aaRTRTmmRT lnlnln MXMXMX μγγμμ (7a)

Así, la molalidad iónica media, m±, y el coeficiente de actividad iónico medio, γ ± se
definen como:

( ) vvv mmm 1−−++± = (9)

( ) vvv 1−−++± = γγγ (10)

donde v = v+ + v-. Sustituyendo en la ecuación (7a) se obtiene:

( )( ) ( )( )mm avRTmvRT ±⊗±±⊗ +=+= lnln MXMXMX μγμμ (11)

con
( ) ( )mvvv maaa ±±−−++± == γ1 (12)

donde a± es la actividad iónica media.

Generalidades

0.6000
0.6500
0.7000
0.7500
0.8000
0.8500
0.9000
0.9500
1.0000
1.0500
0.0010 0.0100 0.1000 1.0000 10.0000
m (mol / kg)
γ±
[-
]
γ± Experimental

Figura 1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC
(Hamer y Wu, 1972)

Para electrolitos fuertes, donde la ionización es prácticamente completa, m+ = v + mMX y m- =
v - mMX. En este caso mMX, corresponde a la molalidad del electrolito determinada al preparar la
disolución, ignorando la disociación. Y bajo este desarrollo, el coeficiente de actividad iónico
medio viene dado por:

( ) vvv vvm
a
1−
+
+
+
±
± =
MX
γ (13)
Por ejemplo, la molalidad media y el coeficiente de actividad iónico medio para el NaCl, que es
un electrolito 1-1, son m± = mMX, y γ ± = [(γ Na+)(γ Cl-)] 1/2. Relaciones similares pueden deducirse
para electrolitos simétricos 2-2, 3-3, etc. Para electrolitos no simétricos 1-2 o 2-1 (por ejemplo,
Generalidades

8
CaCl2 ), m± = 41/3 mMX y γ ± = [(γ Ca2+)(γ Cl-)2] 1/3. La Tabla 1.1 muestra la molalidad media para
sales de diferentes estequiometrías.

Tabla 1.1 Molalidad iónica media (m±) para algunos electrolitos fuertes
(Robinson y Stokes, 2002)

Tipo de soluto Ejemplo m±
Electrolito Mv+ X v- mMX
1-1; 2-2; 3-3 NaCl; ZnSO4 mMX
1-2; 2-1 CaCl2 41/3 mMX
1-3; 3-1 AlCl3 271/4 mMX
1-4; 4-1 Th(NO3)4 2561/5 mMX
3-2 Al2(SO4)3 1081/5 mMX

La Figura 1.1 muestra los coeficientes de actividad iónicos medios en función de la
concentración para algunos electrolitos en agua a 25 oC. Por definición γ ± es la unidad a
molalidad cero de todos los electrolitos. En disoluciones diluidas γ ± disminuye rápidamente al
aumentar la concentración; la pendiente de esta caída inicial depende del tipo de electrolito. Para
la mayor parte de electrolitos, las curvas similares a las de la Figura 1.1 muestran un mínimo a
concentraciones intermedias (Robinson y Stokes, 2002). A concentraciones altas, γ ± puede ser
mucho mayor que la unidad.

La ecuación (10) indica que la cantidad medible γ ± está determinada por los coeficientes
individuales γ+ y γ- que, normalmente, no son medibles por separado.

Los datos de actividad para electrolitos se obtienen a partir de mediciones de potenciales de
celdas electroquímicas, o a partir de medidas de solubilidad y propiedades coligativas. Una
importante fuente de datos experimentales son las medidas de presión de vapor. El método más
preciso es el de presiones de vapor relativas, o método isopiéstico, descrito en la bibliografía
(Robinson y Stokes, 2002). Las medidas obtenidas con dicho método proporcionan la actividad
Generalidades

9
del disolvente. Para obtener la actividad del soluto, se utiliza la ecuación de Gibbs – Duhem que
relaciona la actividad del disolvente con la del soluto y la cual será descrita en el siguiente
apartado.

En la práctica, ha sido factible el uso de una normalización basada en el principio de
estados correspondientes aplicado por H. P. Meissner al coeficiente de actividad iónico medio,
para generalizar el comportamiento no ideal de los electrolitos fuertes (Tester y Model, 1997).
Dicha normalización, se expresa de la siguiente manera:

( ) −+±=Γ zzij 10 γ (14)

donde 0ijΓ es el coeficiente de actividad iónico medio reducido, para una disolución que contiene
un electrolito fuerte que se disocia totalmente.

1.1.4 Coeficiente Osmótico del Disolvente

Tal como el coeficiente de actividad está relacionado con la actividad del soluto, el coeficiente
osmótico está ligado a la actividad del disolvente. Para esté último, comúnmente se utiliza como
estado estándar el líquido puro a la temperatura y presión del sistema.

Sea un electrolito fuerte MX disuelto y completamente disociado en un disolvente s.
Utilizando la escala de molalidad, el potencial químico del disolvente, µs, es

( ) ( ) ( ) ( ) ( ){ }idealln,ln, 00 msmssss aRTPTaRTPT φμμμ +=+= (15)

donde µs0(T, P) es el potencial químico del disolvente puro s, a la temperatura T y presión P del
sistema; φ (m) es el coeficiente osmótico. El superíndice (m) para φ y as(ideal) indica que estas
cantidades dependen de la elección de la escala de concentración.

Generalidades

10
Para obtener la actividad del disolvente, se utiliza la ecuación de Gibss – Duhem, ya que a través
de ella se puede relacionarla actividad del soluto disociado con la del disolvente a temperatura y
presión constantes, como se indica a continuación:

( )
±
±
±
±± ∫ ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
∂
−−= dm
m
mMmMa i
m
PT
m
ss
s 0
,
ln
10001000
ln γ (16)

Debido a que el coeficiente osmótico, establece una medida de la desviación del
comportamiento real de un sistema con respecto al ideal, es posible representar dicha desviación
en diversas propiedades físicas de la mezcla. Una de ellas, la presión osmótica π viene dada por:

s
s
a
v
RT ln−=π (17)

donde vs es el volumen molar del disolvente.

El coeficiente osmótico φ es la relación π(real)/ π(ideal). Para encontrar π(real) y π(ideal) se
sustituye la ecuación (15) en la (16). Nótese que para la disolución ideal, el segundo sumando del
segundo miembro de la ecuación (15) se hace cero.

En base a lo anterior, la expresión general para calcular el coeficiente osmótico es:

( ) ( )( )
( )
( )
( )
±
±
±
±
±
∫
±
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
∂
+=== dm
m
m
ma
a m
PT
m
m
s
sm
0
,
ln11
ln
ln γ
π
πφ
ideal
real
ideal
real (18)

De la que:
( ) ( ) MXideal vm
MmMa ssms 10001000
ln −=−= ± (19)

Sustituyendo la ecuación (18) en la ecuación (17) se tiene que:
Generalidades

s
s
m a
Mvm
ln1000)( ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−=
MX
φ (20)
Ahora bien, en el caso de disoluciones diluidas, la representación de datos experimentales se hace
mejor a partir de los coeficientes osmóticos, ya que a diferencia de los coeficientes de actividad,
γs, son más sensibles a la concentración. Como se indicó en el apartado anterior,
experimentalmente φ se suele obtener a partir de medidas de presión de vapor puesto que, a
presiones reducidas, la actividad es:

sat
s
s
s P
pa = (21)

Aquí ps es la presión parcial del disolvente y Pssat es la presión de vapor del disolvente puro,
ambas a la temperatura del sistema, T. De esta forma, para disoluciones diluidas, la combinación
de las ecuaciones (19) y (20) dan lugar a una expresión útil para calcular el coeficiente osmótico,
es decir:

sat
s
s
s
m
P
P
Mvm
ln1000)( ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−=
MX
φ (22)
La figura 1.2 muestra gráficamente el comportamiento del coeficiente osmótico obtenido
experimentalmente para el NaCl, desde la región diluida hasta el punto de saturación de la sal.

Generalidades

0.8000
0.8500
0.9000
0.9500
1.0000
1.0500
1.1000
1.1500
1.2000
1.2500
1.3000
0.0010 0.0100 0.1000 1.0000 10.0000
m (mol / kg)
φ
[-]
φ Experimental

Figura 1.2 Coeficiente osmótico para el NaCl a 25 oC (Hamer y Wu, 1972)

1.1.5 Propiedades en Exceso

Las funciones en exceso son la diferencia entre las propiedades termodinámicas de la disolución
y las de la disolución ideal, a la misma temperatura, presión y composición.

Consideremos nuevamente una disolución binaria de electrolito que contiene m moles de
una sal MX (completamente disociada) en 1 kg de disolvente s. La cantidad de sustancia del
disolvente es ns = 1000/Ms, donde Ms es la masa molar del disolvente; si el disolvente es agua, ns
= 55.51 mol. A temperatura y presión constantes, la energía de Gibbs total, G, de la disolución es:
Generalidades

ssnnG μμ += MXMX (23)
donde el potencial químico de la sal, µMX, viene dado por la ecuación (10) y el potencial químico
del disolvente µs, viene dado por la ecuación (14). Sustituyendo las ecuaciones (11) y (12) en la
expresión de µMX, y la ecuación (18) en la expresión para µs, se obtiene:

( ) ( )[ ]{ } ⎟
⎠
⎞
⎜
⎝
⎛ −+++= −−
+
+±
⊗ φμγμ
1000
lnln 01MXMXMX sss
vvvm
disolución
vmMRTnvvmRTvnnG (24)

donde, por simplicidad, se ha omitido el subíndice MX para la molalidad m del electrolito.

Para una disolución ideal, γ ± (m) = φ = 1, y la energía de Gibbs viene dada por:

( )[ ]{ } ⎟
⎠
⎞
⎜
⎝
⎛ −++= −−
+
+
⊗
1000
ln 01MXMXMX
* s
ss
vvv vmMRTnvvmRTvnnG μμ (25)

Además, la energía de Gibbs en exceso, de la disolución que contiene m moles de sal en 1
kg de disolvente, viene dada por:

( ) ( )φγ −+=−= ± 11000lnMX
* s
s
mEX vmMRTnRTvnGGG (26)

Simplificando:

( )( )φγ −+= ± 1lnMX mEX RTvnG (27)

1.1.6 Fuerza Iónica

A la misma concentración de iones, los electrolitos con iones de cargas múltiples tienen un mayor
efecto sobre los coeficientes de actividad de lo iones que los electrolitos con iones de carga
Generalidades

14
unidad. Para expresar esta dependencia, resulta útil introducir la fuerza iónica (molal) de la
disolución, I, que se define como:

( ) ∑=−
i
ii zmkgmolI
21
2
1 (28)

donde zi es la carga del ion i y mi es su concentración expresada como molalidad. El sumatorio se
extiende a todas las especies iónicas en la disolución. Por ejemplo, para el agua de mar, cuya
composición se muestra en la Tabla 1.2, I = 0.72 mol kg-1.

Según esta definición, la fuerza iónica de un electolito 1-1 es igual a su molalidad, mMX;
para un electrolito 1-2 (por ejemplo, Na2SO4) es 3 mMX, y para un electrolito 2-2 (por ejemplo
ZnSO4) es 4 mMX.

Tabla 1.2 Concentraciones de los principales iones presentes en el agua de mar
(Prausnitz et al., 2000)

Componente Molalidad (mol kg-1)
Na+ 0.486
Mg2+ 0.055
Ca2+ 0.011
K+ 0.010
Cl- 0.566
SO42- 0.029

1.1.7 Ley límite de Debye – Hückel

El coeficiente de actividad de un electrolito depende mucho de su concentración. No obstante,
además de esta dependencia, en las disoluciones con electrolitos fuertes existen diferentes
Generalidades

15
interacciones entre las especies que la conforman. Dichas interacciones se describen brevemente
a continuación:

a) Fuerzas de largo alcance (LA): Son las interacciones ión – ión de atracción y repulsión
electrostáticas que predominan a concentraciones bajas de electrolito.
b) Fuerzas de corto alcance (CA): Son las interacciones entre todas las especies (ión – ión y
ión – disolvente), que predominan a concentraciones altas de electrolito. Cabe mencionar
que dos efectos producidos por estas interacciones son por una parte, el de la asociación
de iones, originado por la disociación incompleta de electrolitos a elevadas
concentraciones una vez que se rebasa el punto de saturación de la sal, y por otra parte la
solvatación de iones, que en el caso de disoluciones acuosas consiste en la formación de
complejos iónicos hidratados.

En las Figuras 1.1 y 1.2, el efecto de las interacciones descritas arriba, se puede describir de
la siguiente manera: A concentraciones bajas (0.001 hasta 1 molal), ambos coeficientes
disminuyen formando lo que se conoce como la pendiente de Debye –Hückel hasta llegar a un
mínimo. Esta parte del comportamiento se debe al efecto dominante de las fuerzas de largo
alcance. Posteriormente, al seguir aumentando la concentración (después de 1 molal), el
coeficiente supera el mínimo para continuar aumentando progresivamente. La razón de este
cambio en el comportamiento, se debe al efecto dominante de las fuerzas de corto alcance.
Aunque este comportamiento es característico para la mayoría de los electrolitos fuertes, cabe
aclarar que el punto de baja concentración en el cual se genera el mínimo para cada sustancia,
generalmente no es el mismo.

Utilizando los conceptos bien establecidos de la electrostática clásica, Debye y Hückel
dedujeron una expresión simple para el coeficiente de actividad γ i de un ión con una carga zi en
una disolución diluida de fuerza iónica I (Tester y Modell, 1997):

( ) 212ln IzA i
m
i γγ −= (29)

donde la constante Aγ viene dada por:
Generalidades

( ) 21
2232
2
8 s
A
ro
dN
RT
eA
πεεγ ⎟
⎟
⎠
⎞
⎜⎜
⎝
⎛
= (30)

y en la que a su vez, e es la carga del electrón (e = 1.60218 x 10-19 C), εo esla permitividad en el
vacío (εo = 8.8549 x 10-12 C2 N-1m-2), εr es la permitividad relativa o constante dielétrica, NA es la
constante de Avogadro (NA = 6.02214 x 1023mol-1) y ds es la densidad del disolvente (kg m-3).
Las ecuaciones (28) y (29) proporcionan los coeficientes de actividad de los iones, no el del
electrolito en una disolución eléctricamente neutra. Pero la magnitud que se suele medir
experimentalmente es el coeficiente de actividad iónico medio, γ ±(m). Como ya se vió
anteriormente, para un electrolito MX, γ ±(m) se define por medio de la ecuación (9). sustituyendo
la ecuación (28) en la ecuación (9), e introduciendo la condición de electroneutralidad expresada
por la ecuación (5) se obtiene:

( ) 21ln IzzAmi −+−= γγ (31)

donde | z+ z−| es el valor absoluto del producto de las cargas.

Una deducción similar conduce a la siguiente expresión para el coeficiente osmótico:

211 IzzA −+−=− φφ (32)

donde la constante de Debye –Hückel Aφ está directamente relacionada con la constante Aγ dada
por la ecuación (29):

γφ AA 3
1
= (33)

Generalidades

17
La ecuación (30) es la ley límite de Debye –Hückel, útil para interpretar las propiedades de las
disoluciones de electrolito. Es una ley límite exacta a bajas concentraciones en el mismo sentido
que la ecuación de estado del virial, truncada después del segundo coeficiente del virial, es una
ley límite exacta para el factor de compresibilidad de un gas a baja presión.

Si el disolvente es agua a 25 oC y presión atmosférica, Aγ = 1.174 kg1/2 mol-1/2 (εr = 78.41, ds
= 997 kg m-3). Convirtiendo la ecuación a logaritmos decimales, se obtiene:

( ) ( ) 21510.025log Izzm −+± −=acuosa C,oγ (30a)

donde I está en mol kg-1.

La ecuación de Debye–Hückel es aplicable sólo a disoluciones de muy bajas
concentraciones (normalmente, para fuerzas iónicas hasta 0.01 mol kg-1. Hay diversas causas para
explicar las desviaciones de la ley de Debye–Hückel a concentraciones altas. Entre ellas están las
repulsiones entre los iones debidas a su tamaño finito y las interacciones debidas a fuerzas
distintas a las electrostáticas (es decir, fuerzas de dispersión). Una desviación importante de la ley
de Debye–Hückel procede de las fuerzas de solvatación ión – disolvente que son fuertes y
específicas, e invalidan la suposición de considerar al disolvente como un dieléctrico continuo.
Para aplicaciones realistas, es necesario deducir expresiones aplicables a disoluciones muy
concentradas. Por ejemplo, la fuerza iónica del agua de mar es, aproximadamente, 0.7 mol kg-1.
Para aplicaciones industriales o geotérmicas, la fuerza iónica puede ser mucho mayor. En tales
casos, la ley límite de Debye–Hückel es insuficiente.

Para disoluciones concentradas de electrolitos, se han propuesto diversas correcciones
semiempíricas a la ley límite de Debye–Hückel (Prausnitz et al., 2000). Una expresión frecuente
para disoluciones acuosas con valores de I hasta 0.1 mol kg-1 es:

( ) 21
21
1
ln
I
IzzAm
i +
−
= −+γγ (34)

Generalidades

18
Para fuerzas iónicas hasta 1 mol kg-1, se añade un término lineal, resultando:

( ) bI
I
IzzAm
i ++
−
= −+ 21
21
1
ln γγ (35)

donde b es un parámetro ajustable.

El desarrollo de una teoría básica para disoluciones concentradas de electrolitos es un tema
abierto en el que trabajan muchos físico-químicos utilizando la mecánica estadística. Sin
embargo, aunque se han hecho muchos progresos, para aplicaciones de ingeniería,
frecuentemente es más útil el empleo de modelos semiempíricos. En la siguiente sección se
abordan los fundamentos teóricos de dichos modelos.

1.1.8 Modelos Semiempíricos

Se han desarrollado numerosos modelos semiempíricos para describir las propiedades de
equilibrio de disoluciones de electrolito. Estos modelos corrigen la teoría de Debye–Hückel a
través de términos adicionales que toman en cuenta las interacciones ion – ión y la disociación
incompleta a altas concentraciones, que en terminología moderna se denomina asociación de
iones.

En estos modelos semiempíricos, se suele suponer que la energía de Gibbs en exceso de las
disoluciones de electrolito, es la suma de dos contribuciones, una procedente de las fuerzas
coulombianas de largo alcance (LA), representadas por la teoría de Debye–Hückel o su
generalización, y la otra de las fuerzas de corto alcance (CA):

EXCA
EX
LA
EX GGG += (36)

Siguiendo las relaciones vistas anteriormente, la ecuación (36) aporta dos contribuciones a los
coeficientes de actividad iónicos medios que en base molal, se expresan de la siguiente manera:

Generalidades

19
( ) ( ) ( )CALA lnlnln
mmm
±±± += γγγ (37)
Aplicando lo mismo para el coeficiente osmótico, se obtiene:

( ) ( ) ( )mmm CALA φφφ += (38)

Aunque casi todos los modelos semiempíricos utilizan un término del tipo Debye–Hückel para la
contribución de largo alcance, hay diversas opciones para las contribuciones de corto alcance.
Las posibles opciones incluyen expresiones de composición local (UNIQUAC, NRTL, Wilson)
(Thomsen, 2005; Simonin et al., 2006) y las ecuaciones de Van Laar o Margules (Macías, 2003).
La mayor parte de los modelos suponen la disociación completa de los electrolitos. Utilizando, al
menos, dos parámetros binarios ajustables de interacción iónica, estos modelos tiene un éxito
razonable para disoluciones diluidas y moderadamente concentradas, hasta 6 molal,
aproximadamente.

Como un ejemplo de estos modelos, se puede citar el modelo de interacciones iónicas de
Pitzer, el cual ha recibido amplia aceptación desde 1973 (Pitzer, 1973; Pitzer y Mayorga, 1973).
En dicho modelo GEX viene dada por la suma de un término electrostático (tipo Debye – Hückel)
para la contribución de largo alcance y un desarrollo del virial en la molalidad del soluto para
representar la contribución de corto alcance. Y es precisamente esta última característica, la que
provoca la demanda de parámetros de interacción iónica que se determinan de un ajuste por
mínimos cuadrados de datos experimentales de coeficientes de actividad y coeficientes osmóticos
para los electrolitos a la temperatura ambiente.

Generalmente el modelo de Pitzer proporciona buena concordancia con los datos
experimentales hasta concentraciones de soluto de aproximadamente 6 molal. Por lo tanto, a no
ser que se añadan más términos, este modelo no se puede aplicar disoluciones electrolíticas muy
concentradas, es decir, hasta el límite de saturación de una sal muy soluble (Prausnitz, et al.,
2000). Algo similar ocurre con otros modelos semiempíricos, independientemente de que
requieran más o menos parámetros que el de Pitzer (Thomsen, 2005; Simonin, et al., 2006).

Generalidades

20
Por consiguiente, aunque en el modelo desarrollado en este trabajo se aplicó el criterio descrito
en este apartado de las contribuciones de las fuerzas de corto y de largo alcance a los coeficiente
de actividad iónico medio y osmótico, se consideró la importancia de prescindir de parámetros de
interacción entre especies que limiten su aplicabilidad predictiva. Por ello, para la contribución de
largo alcance, se consideró el uso del modelo primitivo de aproximación esférica media (mean
spheric aproximation (MSA)), y para la contribución de corto alcance, la asistencia de una red
neuronal artificial (RNA). A continuación se exponen algunos fundamentos teóricos del modelo
MSA y posteriormente los que se relacionan con las redes neuronales artificiales.

1.1.9 Modelo de Aproximación Esférica Media (MSA)

El modelo MSA fue desarrollado a partir del concepto de aproximación esférica media. Dicho
concepto se basa en lo que se conoce como el modelo primitivo derivado de la teoría de
Debye−Hückel (Vilariño et al., 2004). En este último,se encuentran establecidas las siguientes
dos suposiciones básicas:

a) Los iones son considerados como esferas rígidas cargadas.
b) El disolvente es un dieléctrico continuo, caracterizado por su constante dieléctrica.

En este modelo, no hay términos explícitos para las interacciones disolvente−disolvente y
ión−disolvente; se supone que estas interacciones se tienen en cuenta a través de la constante
dieléctrica en los términos de interacciones ión−ión. Esta drástica aproximación es satisfactoria
para disoluciones diluidas o para disoluciones de partículas, por ejemplo coloides, que son mucho
mayores que las moléculas del disolvente. Sin embargo, es una mala aproximación para
disoluciones iónicas concentradas, donde el tamaño del ión soluto es comparable con el de la
molécula de disolvente, debido al efecto de solvatación (hidratación) de iones.

La aproximación esférica media toma en cuenta los tamaños finitos de las partículas
cargadas (iones). Dicha aproximación, se reduce a la teoría de Debye−Hückel cuando las cargas
son puntuales en una disolución de electrolito muy diluida, y los resultados que se obtienen con
ella son analíticos y muy sensibles a los diámetros iónicos. Para conseguir concordancia con los
Generalidades

21
experimentos, estos radios pueden depender de la concentración de electrolito, reflejando el
efecto de hidratación. Además, el modelo MSA conduce a valores razonables de los coeficientes
de actividad de iones a concentraciones moderadas. De hecho, ha sido aplicado para describir el
equilibrio líquido−vapor de sistemas de electrolito en mezclas de disolventes y combinado con
una ecuación de estado para el equilibrio gas−disolución de electrolito a altas presiones
(Prausnitz, et. al., 2000).

Ahora bien retomando la ecuación (36), la contribución por efecto de las fuerzas de largo
alcance determinada con el modelo MSA se puede expresar de la siguiente manera:

( )Γ+⋅Γ−= σ
π
5.11
3
2 3
tA
wEX
MSA nN
RTVG (39)

donde: Γ es el factor “screening”, Vw es el volumen del disolvente, NA es el número de Avogadro
y nt es el número total de moles de la mezcla. En esta aproximación explícita se asume que todos
los iones tienen un mismo diámetro efectivo definido por:

∑
∑
=
iones
i
iones
ii
n
n σ
σ (40)

donde iσ es el diámetro iónico cristalino de Pauling.
En la versión original del modelo de MSA, el factor screening Γ requiere de una solución
implícita a partir de una ecuación complicada. En este trabajo, se empleó una aproximación del
modelo de MSA explícita en Γ propuesta por Harvey et al., (Simonin et al., 2006), es decir:

[ ]121
2
1
−+=Γ σκ
σ
(41)

∑⋅=
s
ii
wr
A Zn
RTV
Ne
ione
2
22
2 4
ε
πκ (42)
Generalidades

22
El parámetro κ en la Ec. (41) representa el recíproco de la longitud de Debye-Hückel; no debe
olvidarse que el modelo de MSA se reduce a la expresión de Debye-Hückel en el límite 0σ → .
A diferencia de la ecuación de Debye-Hückel, el modelo de MSA toma en cuenta los tamaños
finitos de la partículas con carga siendo aplicable a mayores concentraciones del soluto. Es
importante notar que el modelo MSA fue desarrollado dentro del tratamiento de McMillan-Mayer
donde las variables independientes son la temperatura T, el volumen V, el número de moles n y el
potencial químico del solvente µs. Existe, por lo tanto, una inconsistencia ya que las propiedades
termodinámicas obtenidas dentro de este tratamiento no son idénticas a las obtenidas bajo el
tratamiento de Lewis-Randall (cuyas variables independientes son T, P y n) utilizado en este
trabajo. Sin embargo, de acuerdo a Cardoso y O’Connell (1987), tal inconsistencia no tiene un
efecto significativo sobre la termodinámica de disoluciones iónicas que contengan un solo
disolvente. Sobre esta base teórica se aplicó el modelo MSA en este trabajo (Prausnitz et al.,
2000).

De acuerdo a lo anterior, en este trabajo se utilizaron a partir de la expresión propuesta para
GEX las siguientes relaciones para determinar la contribución de largo alcance con el modelo
MSA:

⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
⋅∂
=
i
EX
t
MSAi n
RTGnγln (43)

−+
−−++
± +
+
=
νν
γνγνγ MSAMSAMSA
lnlnln (44)

( ) ( )[ ]mM wMSAmMSA −+±± +−−= ννγγ 001.01lnlnln (45)

( )www xnn
n γφ ln⋅
+
−=
−+
(46)

Con las expresiones (39) a (46) se observa que el modelo MSA no requiere parámetros ajustables
de interacción iónica, por lo que entonces posee una capacidad predictiva que justifica su
Generalidades

23
implementación en el modelo híbrido conformado en este trabajo, para la reproducción de las
contribuciones por efecto de las fuerzas de largo alcance que predominan sobre todo a
concentraciones bajas.

A continuación se exponen los fundamentos relacionados con la otra parte integrante del
modelo híbrido: la red neuronal artificial.

1.2 Redes Neuronales Artificiales

En esta sección se presentan aspectos básicos de las redes neuronales artificiales, las cuales se
han convertido actualmente, en sobresalientes herramientas de aproximación de funciones que
permiten realizar modelación de fenómenos complejos que se caracterizan por ser
matemáticamente no lineales, y que en su caso, no es fácil reproducirlos con modelos
determinísticos. A continuación se exponen dichos fundamentos teóricos.

1.2.1 Estructura de un Sistema Neuronal Artificial

Las redes neuronales artificiales imitan la estructura hardware del sistema nervioso, con la
intención de construir sistemas de procesamiento de la información paralelos, distribuidos y
adaptativos, que puedan representar un cierto comportamiento “inteligente”.

El cerebro y un computador convencional son mucho más diferentes de lo que suele
suponerse cuando se habla de “cerebros electrónicos”. Un computador convencional es, en
esencia, una máquina de von Neumann, construida en torno a una única CPU o procesador, que
ejecuta de un modo secuencial un programa almacenado en memoria. Por el contrario, el cerebro
no está compuesto por un único procesador, sino por miles de millones de ellos (neuronas),
aunque muy elementales. Curiosamente, las neuronas son mucho más simples, lentas y memos
fiables que una CPU, y a pesar de ello, existen problemas difícilmente abordables mediante un
computador convencional, que el cerebro resuelve eficazmente (reconocimiento del habla, visión
de objetos inmersos en ambiente natural, respuesta ante estímulos del entorno, etc.).
Generalidades

24
Por lo tanto, la idea que subyace en los sistemas neuronales artificiales, es que, para abordar el
tipo de problemas que el cerebro resuelve con eficiencia, puede resultar conveniente construir
sistemas que “copien” en cierto modo la estructura de las redes neuronales biológicas con el fin
de alcanzar una funcionalidad similar.

Los tres conceptos clave de los sistemas nerviosos, que se pretende emular en los
artificiales, son: paralelismo de cálculo, memoria distribuida y adaptabilidad, al entorno. De esta
manera, podemos hablar de las redes neuronales como sistemas paralelos, distribuidos y
adaptativos.

El procesamiento paralelo resulta esencial, como se deduce de un sencillo ejemplo. Un
ordenador convencional tipo PC, que trabaja secuencialmente, instrucción a instrucción,
emplearía varios minutosen realizar sobre una imagen compuesta por, digamos, 256 x 256
pixeles, una sencilla tarea de acentuar contrastes, extraer contornos, etc., mucho más simple que
la que llevaba a cabo el sistema visual para reconocer una imagen. Por otra parte, el cerebro tarda
aproximadamente este mismo tiempo en preprocesar una imagen compuesta por millones de
píxeles (los que representan los conos y bastones de la retina), extraer sus rasgos característicos,
analizarla, e interpretarla. Ningún sistema creado por el hombre es capaz de realizar algo
semejante. La clave reside en que en éste último caso los miles de millones de neuronas que
intervienen en el proceso de visión (solamente en la retina, y sin contar el córtex cerebral,
intervienen millones de ellas) están operando en paralelo sobre la totalidad de la imagen.

Otro concepto importante que aparece en el cerebro es el de memoria distribuida. Mientras
que en un computador la información ocupa posiciones de memoria bien definidas, en los
sistemas neuronales se encuentra distribuida por las sinapsis de la red, de modo que si una red
resulta dañada, no perdemos más que una pequeña parte de la información. Además, los sistemas
neuronales biológicos son redundantes, de modo que muchas neuronas y sinapsis pueden realizar
un papel similar; en definitiva, el sistema tolerante a fallos (por ejemplo, cada día mueren miles
de neuronas en nuestro cerebro, y sin embargo tienen que pasar muchos años para que se
resientan nuestras capacidades).

Generalidades

25
El último concepto fundamental es el de adaptabilidad. Las redes neuronales artificiales se
adaptan fácilmente al entorno modificando sus sinapsis (y mediante otros mecanismos también),
y aprenden de la experiencia, pudiendo generalizar conceptos a partir de casos particulares. En el
campo de las redes neuronales llamaremos a esta propiedad generalización a partir de ejemplos.

Los elementos básicos de un sistema neuronal biológico son las neuronas, que se agrupan
en conjuntos compuestos por millones de ellas organizadas en capas constituyendo un sistema
con funcionalidad propia. Un conjunto de estos subsistemas da lugar a un sistema global (el
sistema nervioso, en el caso biológico). En la realización de un sistema neuronal puede
establecerse una estructura jerárquica similar. El elemento esencial de partida será la neurona
artificial, que se organizará en capas; varias capas constituirán una red neuronal; y por último,
una red neuronal (o un conjunto de ellas), junto con las interfaces de entrada y salida, más los
módulos convencionales adicionales necesarios, constituirán el sistema global de proceso.

Formalmente, y desde el punto de vista del grupo PDP (Parallel Distributed Processing
Research Group, de la Universidad de California en San Diego), de D. E. Rumelhart y J. L.
McClelland, un sistema neuronal o conexionista, está compuesto por los siguientes elementos
(Martín del Brío y Sanz Molina, 2001):

• Un conjunto de procesadores elementales o neuronas artificiales.
• Un patrón de conectividad o arquitectura.
• Una dinámica de activaciones.
• Una regla o dinámica de aprendizaje.
• El entorno donde opera.

A continuación se muestra, un esquema básico de una red neuronal artificial:

Generalidades

Figura 1.3. Esquema básico de una red neuronal totalmente conectada

1.2.2 Dinámica Operacional de una Red Neuronal Artificial

Las redes neuronales artificiales están constituida por neuronas interconectadas y arregladas en
tres capas (esto último puede variar). Los datos ingresan por medio de la “capa de entrada”, pasan
a través de la “capa oculta o intermedia” y salen por la “capa de salida”. Cabe mencionar que la
capa oculta puede estar constituida por varias capas.

1.2.2.1 Función de Entrada

La neurona trata a muchos valores de entrada como si fueran uno solo; esto recibe el
nombre de entrada global. Por lo tanto, ahora nos enfrentamos al problema de cómo se pueden
combinar estas simples entradas (ini1, ini2 …) dentro de la entrada global, (gini). Esto se logra a
través de la función de entrada, la cual se calcula a partir del vector entrada. La función de
entrada puede describirse como sigue:

( ) ( ) ( )inini2i2i1i1i winwinwininput •∗•∗•= K (47)

Donde: ∗ representa al operador apropiado (por ejemplo: máximo, sumatoria, productoria, etc.), n
al número de entradas a la neurona Ni y wi al peso.
Generalidades

27
Los valores de entrada se multiplican por los pesos anteriormente ingresados a la neurona. Por
consiguiente, los pesos que generalmente no están restringidos cambian la medida de influencia
que tienen los valores de entrada. Es decir, que permiten que un gran valor de entrada tenga
solamente una pequeña influencia, si estos son lo suficientemente pequeños.

Figura 1.4 Ejemplo de una neurona con 2 entradas y 1 salida

La nomenclatura utilizada en la Figura 1.4 es la siguiente: ini1 = entrada número 1 a la neurona
Ni; wi1 peso correspondiente a ini1; ini2 = entrada número 2 a la neurona Ni; wi2 = peso
correspondiente a ini2; y outi salida de la neurona Ni. El conjunto de todas las n entradas ini =
(ini1, ini2, …, inin) es comúnmente llamado “vector entrada”.

Algunas de las funciones de entrada más comúnmente utilizadas y conocidas son:

1) Sumatoria de las entradas pesadas: es la suma de todos los valores de entrada a neurona,
multiplicados por sus correspondientes pesos.

( )∑ =
j
ijij n,2,1,jcon,wn K (48)
2) Productoria de las entradas pesadas: es el producto de todos los valores de entrada a la
neurona, multiplicados por sus correspondientes pesos.
Generalidades

( ) n,2,1,jcon,wn
j
ijij K=∏ (49)

3) Máximo de las entradas pesadas: solamente toman consideración el valor de entrada
más fuerte, previamente multiplicado por su peso correspondiente.

( ) n,2,1,jcon,wnMax
j
ijij K= (50)
En este trabajo se utilizará la primera de las funciones de entrada ya descritas, debido a que es la
que comúnmente se usa en la práctica para ajustar los pesos en redes de retropropagación.

1.2.2.2 Función de Activación

Una neurona bilógica puede estar activa (excitada) o inactiva (no excitada), es decir, que tiene un
“estado de activación”. Las neuronas artificiales también tienen diferentes estados de activación;
algunas de ellas solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier
valor dentro de un conjunto determinado.

La función activación calcula el estado de actividad de una neurona; transformando la
entrada global (menos el umbral, Θi) en un valor (estado) de activación, cuyo rango
normalmente va de (0 a 1) o de (-1 a 1). Con dicho valor de umbral, se le añade un grado de
libertad adicional a la neurona, con el cual se establece el nivel mínimo que debe alcanzar la
neurona en su potencial de activación para que produzca una respuesta. Esto es así, porque una
neurona puede estar totalmente inactiva (0 o-1) o activa (1).

La función activación, es una función de la entrada global (gini) menos el umbral (Θi). Las
funciones de activación más comúnmente utilizadas se detallan a continuación:

Generalidades

29
1) Función lineal:

( )
0ay,Θginxcon
a1x1
a1xa1xa
a1x1
xf
ii >−=
⎪
⎩
⎪
⎨
⎧
≥
<<−∗
−≤−
=
(51)

Los valores de salida obtenidos por medio de esta función de activación serán: a (gini - Θi),
cuando el argumento de (gini - Θi) esté comprendido dentro del rango (-1/a, 1/a). Por encima o
por debajo de esta zona se fija la salida en 1 o -1, respectivamente. Cuando a = 1 (siendo que la
misma afecta la pendiente de la gráfica), la salida es igual a la entrada.

Figura 1.5 Función lineal

2) Función sigmoidal:

iixg Θginxcon,e1
1(x)f −=
+
= − (52)

Los valores de salida que proporcionaesta función están comprendidos dentro de un rango
que va de 0 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la función de
activación.

Lineal (a,x) Activación
Generalidades

Figura 1.6 Función sigmoidal

3) Función tangente hiperbólica:

iixgxg
xgxg
Θginxcon,
ee
ee(x)f −=
+
−
= −
−
(53)

Los valores de salida de función tangente hiperbólica están comprendidos dentro de un
rango que va de -1 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la
función de activación.

Figura 1.7 Función tangente hiperbólica

Sigmoidal (a, x) Activación
Tangente Hiperbólica (a, x) Activación
Generalidades

31
Para explicar porque se utilizan estas funciones de activación se suele emplear la analogía a la
aceleración de un automóvil. Cuando un auto inicia su movimiento necesita una potencia elevada
para comenzar a acelerar. Pero al ir tomando velocidad, este demanda un menor incremento de
dicha potencia para mantener la aceleración. Al llegar a altas velocidades, nuevamente un amplio
incremento en la potencia es necesario para obtener una pequeña ganancia de velocidad. En
resumen, en ambos extremos del rango de aceleración, se demanda una mayor potencia para la
aceleración que en la mitad de dicho rango.

En el caso de la red utilizada en este trabajo se utilizará la función sigmoidal por que
contribuye a que esta alcance la convergencia de manera uniforme, algo muy deseable en la
modelación y predicción que se llevará a cabo con este sistema de cómputo conexionista,
entrenado con el algoritmo de retropropagación.

1.2.2.3 Función de Salida

El último componente que una neurona necesita es la función de salida. El valor resultante
de esta función es la salida de la neurona i (outi), por ende, la función de salida determina que
valor se transfiere a las neuronas vinculadas. Si la función de activación está por debajo de un
umbral determinado, ninguna salida se pasa a la neurona subsiguiente. Normalmente, no
cualquier valor es permitido como una entrada para una neurona, por lo tanto, los valores de
salida están comprendidos en el rango [0, 1] o [-1, 1]. También pueden ser binarios {0, 1} o {-1,
1}.

Dos de las funciones de salida más comunes son:

- Identidad: este es el tipo de función más sencillo, tal que la salida es la misma que la
entrada.

- Binaria:
⎩
⎨
⎧ ≥
contrariolode0
umbralelesξdonde,ξactsi1 iii

Generalidades

32
En este trabajo la función identidad fue seleccionada debido a que el algoritmo de
retropropagación de errores (backpropagation) utilizado en el modelo desarrollado requiere una
comparación directa entre los valores estimados por la red y los valores meta, algo que la función
de salida ya mencionada permite llevar a cabo.

1.2.3 Mecanismos de Aprendizaje

Se ha visto que los datos de entrada se procesan a través de la red neuronal con el propósito de
lograr una salida. También se dijo que las redes neuronales extraen generalizaciones desde un
conjunto determinado de ejemplos de tales problemas de decisión. Una red neuronal debe
aprender a calcular la salida correcta para cada arreglo o vector de entrada en el conjunto de
ejemplos. Este proceso de aprendizaje se denomina: proceso de entrenamiento o
acondicionamiento. El conjunto de datos (o conjunto de ejemplos) sobre el cual este proceso se
basa es, por ende: conjunto de datos de entrenamiento.

Si la topología de la red y las diferentes funciones de cada neurona (entrada, activación y
salida) no pueden cambiar durante el aprendizaje, mientras que los pesos sobre cada una de las
conexiones si pueden hacerlo; el aprendizaje de una red neuronal significa: adaptación de los
pesos.

En otras palabras el aprendizaje es el proceso por el cual una red neuronal modifica sus
pesos en respuesta a una información de entrada. Los cambios que se producen durante el mismo
se reducen a la destrucción, modificación y creación de conexiones en las neuronas. En los
sistemas biológicos existe una continua destrucción y creación de conexiones entre las neuronas,
En los modelos de redes neuronales artificiales, la creación de una nueva conexión implica que el
peso de la misma pasa a tener un valor distinto de cero. De la misma manera, una conexión se
destruye cuando su peso pasa a ser cero.

Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren modificaciones,
por lo tanto, se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los
valores de los pesos permanecen estables (dwij / dt = 0).
Generalidades

33
Un aspecto importante respecto al aprendizaje de las redes neuronales es el conocer cómo se
modifican los valores de los pesos, es decir, cuáles son los criterios que se siguen para cambiar el
valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información.

Hay dos métodos de aprendizaje que pueden distinguirse:

a) Aprendizaje supervisado: Se caracteriza por que el proceso de aprendizaje se realiza
mediante un entrenamiento controlado por un agente externo (supervisor maestro) que
determina la respuesta que debería generar la red a partir de una entrada determinada. El
supervisor controla la salida de la red y en caso de que ésta no coincida con la deseada,
se procederá a modificar los pesos de las conexiones, con el fin de conseguir la salida
obtenida que se acerque a la deseada.

En este tipo de aprendizaje se suelen considerar, a su vez, tres formas de llevarlo a cabo,
que dan lugar a los siguientes aprendizajes supervisados:

• Aprendizaje por corrección de error: Consiste en ajustar los pesos de las conexiones
de la red en función de la diferencia entre los valores deseados y los obtenidos a la
salida de la red, es decir, en función del error cometido en la salida.

• Aprendizaje por refuerzo: Se trata de un aprendizaje supervisado, más lento que el
anterior, que se basa en la idea de no disponer de un ejemplo completo del
comportamiento deseado, es decir, de no indicar durante el entrenamiento
exactamente la salida que se desea que proporcione la red ante una determinada
entrada.

• Aprendizaje estocástico: Consiste básicamente en realizar cambios aleatorios en los
valores de los pesos de las conexiones de la red y evaluar a partir del objetivo
deseado y de distribuciones de probabilidad.

Generalidades

34
b) Aprendizaje no supervisado: Las redes con aprendizaje no supervisado (también
conocido como autosupervisado) no requieren influencia externa para ajustar los pesos
de las conexiones entre sus neuronas. La red no recibe ninguna información por parte
del entorno que le indique si la salida generada en respuesta a una determinada entrada
es o no correcta.

Estas redes deben encontrar las características, regularidades, correlaciones o categorías
que se puedan establecer entre los datos que se presenten en su entrada. Existen varias
posibilidades en cuanto a la interpretación de la salida de las redes, que dependen de su
estructura y del algoritmo de aprendizaje empleado.

En cuanto a los algoritmos de aprendizaje no supervisado, en general se suelen
considerar dos tipos, que dan lugar a los siguientes aprendizajes:

• Aprendizaje hebbiano: Este tipo de aprendizaje se basa en la regla de Hebb que se
originó a partir de la neurona biológica clásica, la cual solamente puede tener dos
estados: activa o inactiva. Con dicha regla, la red neuronal pretende medir la
familiaridad o extraer características de los datos de entrada. El fundamento es una
suposición bastante simple: si dos neuronas Ni y Nj toman el mismo estado
simultáneamente (ambas activas o ambas inactivas), el peso de la conexión entre
ambas se incrementa.
• Aprendizaje competitivo y comparativo: Se orienta a la clasificación