Logo Studenta

2327-2007-ESIQIE-MAESTRIA-quintana-mora-anibal

¡Este material tiene más páginas!

Vista previa del material en texto

INSTITUTO POLITÉCNICO NACIONAL 
ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS 
SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN 
PREDICCIÓN DE PROPIEDADES TERMODINÁMICAS 
DE DISOLUCIONES ELECTROLÍTICAS USANDO 
UNA RED NEURONAL ARTIFICIAL 
 
 
 T E S I S 
 
 
Que para obtener el Grado de 
Maestro en Ciencias en Ingeniería Química 
 
 
PRESENTA: 
 
ING. ANÍBAL QUINTANA MORA 
 
 
DIRECTOR: 
 
DR. RICARDO MACIAS SALINAS 
 
 
 
 
 
 MÉXICO D.F. JUNIO DE 2007 
 
II 
 
 
 
 
III 
 
 
 
 
 
 
 
 
 
 
CARTA DE CESIÓN DE DERECHOS 
 
En la Ciudad de México, el día 20 de Junio del año 2007, el que suscribe I.Q.I Aníbal Quintana 
Mora, alumno del Programa de Maestría en Ciencias en Ingeniería Química, con número de 
registro B041184, adscrito a la Escuela Superior de Ingeniería Química e Industrias 
Extractivas, manifiesta que es autor intelectual del presente trabajo de tesis bajo la dirección del 
Dr. Ricardo Macias Salinas y ceden los derechos del intitulado “Predicción de propiedades 
termodinámicas de disoluciones electrolíticas usando una red neuronal artificial”, al Instituto 
Politécnico Nacional, para su difusión con fines académicos y de investigación. 
 
Los usuarios de la información no deberán de reproducir el contenido textual, gráficas o datos del 
trabajo sin el permiso del autor y del director del trabajo. Este permiso puede obtenerse escribiendo 
a las siguientes direcciones: aquintanam@ipn.mx, rms@ipn.mx. Si el permiso se otorga, el usuario 
deberá dar el agradecimiento correspondiente y citar la fuente del mismo. 
 
 
 
 
 
__________________________ 
I.Q.I. Aníbal Quintana Mora 
 
 
 
INSTITUTO POLITÉCNICO NACIONAL 
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO 
 
IV 
Agradecimientos 
 
 
 
 
A JEHOVÁ DIOS, por el permiso y apoyo determinante que amorosamente me concedió día tras 
día para cumplir con esta etapa importante de mi vida. 
 
 
 
 
 
A JESUCRISTO, EL HIJO DE DIOS, por el vigoroso efecto de su ejemplo y enseñanzas que me 
me infundieron ánimo y fortaleza hasta la culminación de este proyecto. 
 
 
 
 
 
A MI ESPOSA LILIANA y A MI HIJA ASHLEY, por su amor y aguante fiel que fueron claves 
para mi, en este periodo de nuestra vida de familia. 
 
 
 
 
 
 
A MIS DEMÁS SERES QUERIDOS, por el apoyo que de diversas maneras me brindaron 
constantemente. 
 
 
 
V 
AL INSTITUTO POLITÉCNICO NACIONAL, por ser la Institución de excelencia que forjó mi 
formación de manera integral, a favor de mi superación académica y profesional. 
 
 
 
 
 
A LA ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS, 
por ser el recinto formativo en el que cursé mis estudios de Licenciatura y de Posgrado. 
 
 
 
 
 
AL CONSEJO NACIONAL DE CIENCIA Y TECNOLOGÍA, por el apoyo económico concedido 
para la realización de mis Estudios de Posgrado. 
 
 
 
 
 
AL DR. RICARDO MACIAS SALINAS, por su inestimable apoyo y paciencia como mi asesor y 
director de tesis, además de su enorme calidad como ser humano. 
 
 
 
 
 
A LA COMISIÓN REVISORA, por su valiosa contribución al enriquecimiento del presente 
trabajo. 
 
 
 
VI 
Resumen 
 
Se desarrolló un modelo termodinámico de características híbridas para la predicción del coeficiente 
de actividad iónico medio y del coeficiente osmótico de disoluciones electrolíticas del tipo acuoso a 
25 °C. Los principios del modelo desarrollado se basan en el concepto de adición de energías libres 
de Gibbs en exceso que representan las dos interacciones moleculares más dominantes en una 
disolución electrolítica como son: ion-ion y ion-disolvente. Para tal efecto, se incorporo el modelo 
primitivo de la MSA “Mean Spherical Approximation” para representar las fuerzas de largo alcance 
o electroestáticas entre las especies iónicas mientras que una red neuronal artificial (RNA) del tipo 
multi-capa con retro-propagación fue utilizada para reproducir las fuerzas de corto alcance del tipo 
Van der Waals entre los iones y el disolvente. El presente modelo termodinámico asistido por una 
RNA fue exitosamente validado en la correlación y/o predicción de propiedades iónicas 
experimentales (coeficiente de actividad iónico medio y coeficiente osmótico) de 68 disoluciones 
electrolíticas (27 del tipo 1-1, 7 del tipo 1-2, 27 del tipo 2-1 y 7 del tipo 2-2) con valores globales 
del error cuadrático medio (RMS) de 1.03% en la etapa de entrenamiento y 1.21% durante la 
validación cruzada en base a un total de 1706 puntos experimentales. A diferencia de otros modelos 
termodinámicos reportados en la literatura los cuales requieren de dos o más parámetros específicos 
por disolución electrolítica para la porción de corto alcance, el modelo propuesto en este trabajo es 
de características totalmente predictivas, no requiere de ningún parámetro de interacción entre 
especies y es aplicable a varios sistemas acuosos de electrolitos en amplios intervalos de 
concentración, en particular a muy altas molalidades de la sal. 
 
 
 
 
 
 
 
 
 
 
 
VII 
Abstract 
 
A thermodynamic model of the hybrid type has been developed for the prediction of the mean ionic 
activity coefficient and the osmotic coefficient of aqueous electrolyte solutions at 25 °C. The 
principles behind the proposed model are based on the concept of adding excess Gibbs free energies 
whose represent the two most dominant molecular interactions present in an electrolyte solution; i.e. 
ion-ion and ion-solvent. For such a purpose, the primitive model of MSA “Mean Spherical 
Approximation” has been incorporated in this work to represent the long-range or electrostatic 
forces between the ionic species whereas a multi-layer, back-propagation artificial neural network 
(ANN) was used to reproduce the short-range forces of the van der Waals type between the ions and 
the solvent. The proposed thermodynamic model assisted by an ANN was successfully validated 
during the correlation and/or the prediction of experimental ionic properties (mean ionic activity 
coefficient and osmotic coefficient) of 70 electrolyte solutions (27 of 1:1 electrolytes, 7 of 1:2 
electrolytes, 27 of 2:1 electrolytes and 7 of 2:2 electrolytes) with overall values of the root mean 
square error (RMS) of 1.03% for the training data and 1.21% for the test data based on a total of 
1706 experimental points. Unlike other thermodynamic models reported in the literature for whose 
two or more specific parameters per electrolyte system are required for the short-range modeling 
portion, the model proposed in this work features entirely predictive capabilities, it does require 
none interaction parameters between species being applicable to a variety of aqueous electrolyte 
solutions over wide concentration ranges, particularly at very high salt molalities. 
 
 
 
 
 
 
 
 
 
 
 
 
VIII 
Índice general 
 
Resumen………………………………………………………………….................................. V 
Abstract………………………………………………………………………………………… VI 
Índice General…………………………………………………………………......................... VII 
Lista de Tablas…………………………………………………………………………………. IX 
Lista de Figuras………………………………………………………………………………… X 
Nomenclatura………………………………………………………………………………….. XII 
Introducción……………………………………………………………………………………. XIII 
 
1. Generalidades………………………………………………………………........................... 1 
1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas………....................................... 1
 1.1.1 Coeficiente de Actividad de un Soluto no Volátil………..………............................. 3
 1.1.2 Electroneutralidad…………………….……………………………........................... 4
 1.1.3 Coeficiente de Actividad Iónico Medio……………..…………....…………………. 5
 1.1.4 Coeficiente Osmótico del Disolvente…….……………………...………………….. 9
 1.1.5 Propiedades en Exceso…………………………………………………..................... 12
 1.1.6 Fuerza Iónica………………………………………………………............................13
 1.1.7 Ley límite de Debye – Hückel………………………………………………………. 14
 1.1.8 Modelos Semiempíricos…………………………………………………………….. 18
 1.1.9 Modelo de Aproximación Esférica Media (MSA)…………….……………………. 20 
1.2 Redes Neuronales Artificiales………………………………………………......................... 23
 1.2.1 Estructura de un Sistema Neuronal Artificial………………………………………. 23
 1.2.2 Dinámica Operacional de una Red Neuronal Artificial………….……..................... 26
 1.2.2.1 Función de Entrada……………...……………………………................................ 26
 1.2.2.2 Función de Activación………………..…………………………………………... 28
 1.2.2.3 Función de Salida………………………………………………………………….. 31
 1.2.3 Mecanismos de Aprendizaje…...…………………………………………………..... 32
 1.2.4 El Perceptrón Multicapa…………..………………………………............................ 35
 1.2.5 Aproximación de Funciones con Redes Multicapa…………………………………. 37
 1.2.5.1 Teorema de Kolmogorov………………………………………………………….. 37
 
IX 
 1.2.5.2 Teorema de Cybenko…………………………………………................................ 38
 1.2.6 El Algoritmo de Retropropagación de Errores BP……..…………............................ 39
 1.2.7 Capacidad de Generalización de una Red Neuronal Artificial…………………….... 40 
2. Estado del Arte……………..……………………………………………………………….. 42 
2.1 Redes Neuronales Aplicadas a Disoluciones Electrolíticas...….……………………………. 42 
2.2 Redes Neuronales Aplicadas en otras Áreas de la Ingeniería Química…............................... 43 
3. Modelo Propuesto………………………………………………………………………….… 49 
3.1 Contribución de las Fuerzas de Largo Alcance………………….....………………………... 51 
3.2 Contribución de las Fuerzas de Corto Alcance…………........................................................ 52 
3.3 Entrenamiento de la Red Neuronal……..……………………………………………………. 55
 3.3.1 Definición de Descriptores……………………………………………....................…... 55
 3.3.2 Patrones de Entrenamiento………………………………………………....................... 58 
3.4 Estructura de la Red Neuronal……………..…………………………………........................ 60 
3.5 Verificación del Poder Predictivo de la Red Neuronal………..……………………............... 64 
4. Aplicación del Modelo Asistido con la Red Neuronal Artificial…………………………... 66 
4.1 Electrolitos Simétricos 1-1……………………………………………………........................ 67 
4.2 Electrolitos No Simétricos 2-1……………………………………………………………….. 74 
4.3 Electrolitos No Simétricos 1-2 y Simétricos 2-2……………………………………………… 76 
4.4 Ejemplo Comparativo del Modelo Híbrido con el Modelo Semiempírico 
MSA–Born –Margules……………….…………………………………………………………… 77 
Conclusiones y Recomendaciones………………………………………………….................... 81 
Bibliografía……………………………………………………………………………………..... 83 
Apéndice A……………………………………………………………………………………….. 86 
 Tabla A1. Entropías y volúmenes de hidratación……………………………….……………... 86 
Apéndice B. Contribuciones de Corto y Largo Alcance de Electrolitos Selectos………..…... 88 
Apéndice C..………………………………………………………………………………………. 93 
 C1. Programa MSA en Fortran…………………………………………………………………. 93 
 C2. Ejemplo de Resultados Generados con el Programa MSA………..……………………… 103 
Apéndice D. Programa QNET2000 para la Modelación con Redes Neuronales……………. 105 
 
 
 
X 
Lista de Tablas 
 
1.1 Molalidad Iónica Media (m±) para Algunos Electrolitos Fuertes 
(Robinson y Stokes, 1970)……………………………………………………………………. 8 
1.2 Concentraciones de los principales iones presentes en el agua de mar 
(Prausnitz et al., 2000)…………………………………………............................................... 12 
3.1 Conformación del modelo propuesto ……………………...………................................... 49 
3.2 Variables alimentadas al Programa MSA………….……………………………………... 51 
3.3 Descriptores de la red neuronal artificial…………………………………………………. 56 
3.4 Electrolitos de referencia utilizados en el entrenamiento de la RNA…………………….. 57 
3.5 Electrolitos simétricos 1-1 para entrenamiento…………………………………………… 58 
3.6 Electrolitos no simétricos 2-1 para entrenamiento………………………………………... 59 
3.7 Electrolitos no simétricos 1-2 y simétricos 2-2 para entrenamiento……………………… 59 
3.8 Características de los arreglos planteados en la selección de la estructura de la 
red neuronal…………………………………………………………………………………... 62 
3.9 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el 
Coeficiente de Actividad Iónico Medio………………………………………………………. 63 
3.10 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el 
Coeficiente Osmótico…………………………………………………………………………. 63 
3.11 Electrolitos simétricos 1-1 para predicción……………………………………………… 65 
3.12 Electrolitos no simétricos 2-1 para predicción…………………………………………... 65 
3.13 Electrolitos no simétricos 1-2 y simétricos 2-2 para predicción…………………………. 65 
4.1 Parámetros ajustables del modelo MSA–Born–Margules………………………………… 77
 
 
 
 
 
 
XI 
Lista de Figuras 
 
1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC 
(Hamer y Wu, 1972)…………………………………………….…………………..................... 7 
1.2 Coeficiente osmótico para el NaCl a 25 oC 
(Hamer y Wu, 1972)…………………………..………………………………...…..................... 12 
1.3 Esquema básico de una red neuronal totalmente conectada………………...………………. 26 
1.4 Ejemplo de una neurona con 2 entradas y 1 salida……………………...………................... 27 
1.5 Función lineal…………...…………………………………………………………………... 29 
1.6 Función sigmoidal………….…………………………………………………….................. 29 
1.7 Función tangente hiperbólica……...………………………………………………………… 30 
3.1 Descripción del modelo propuesto…….……………………………………………………. 50 
3.2 Contribuciones de largo alcance para el NaCl obtenidas con el modelo MSA………………52 
3.3 Contribuciones de corto alcance para el NaCl obtenidas a partir 
de las ecuaciones (63) y (64)……………………………………………………………………..54 
3.4 Patrón de entrenamiento en la capa de entrada de la RNA……………………..…………… 60 
3.5 Estructura E6-12-1 (Gráfico generado por QNET2000)……………………………………..61 
3.6 Estructura E6-6,6-1 (Gráfico generado por QNET2000)…………………………………….61 
3.7 Estructura E6-6,4,2-1 (Gráfico generado por QNET2000)…………………………………..62 
4.1 Gráfica de paridad generada por QNET2000 entre la contribuciones 
teóricas de corto alcance para el coeficiente de actividad iónico medio 
y las obtenidas con la RNA para electrolitos 1-1 ………………………………………………. 67 
4.2 Gráfica de paridad generada por QNET2000 entre las contribuciones 
teóricas de corto alcance para el coeficiente osmótico y las obtenidas con la RNA 
para electrolitos 1-1……………...….…………………………………………………………... 68 
4.3 Comportamiento del error cuadrático medio durante el entrenamiento de la RNA………… 69 
4.4 Comportamiento del error cuadrático medio durante la validación cruzada de la RNA…… 69 
4.5 Coeficientes actividad iónicos medios totales correlacionados con el 
modelo híbrido MSA-RNA…………………………………………………………………….. 70 
4.6 Coeficientes osmóticos totales correlacionados con el modelo híbrido MSA-RNA………. 71 
4.7 Coeficientes actividad iónicos medios totales obtenidos en fase predictiva con el 
 
XII 
modelo híbrido MSA-RNA……………………………………………………………………….. 72 
4.8 Coeficientes osmóticos totales obtenidos en fase predictiva con el 
modelo híbrido MSA-RNA……………………………………………………………………….. 73 
4.9 Gráfica de paridad generada por QNET2000 entre las contribuciones 
teóricas de corto alcance para el coeficiente de actividad iónico medio 
 y las obtenidas con la RNA para electrolitos 2-1……………….………..……..……………........ 75 
4.10 Gráfica de paridad generada por QNET2000 entre las contribuciones 
teóricas de corto alcance para el coeficiente osmótico y las obtenidas 
con la RNA para electrolitos 2-1……..…………………………………………...……………….. 75 
4.11 Gráfica de paridad generada por QNET2000 entre las contribuciones 
teóricas de corto alcance para el coeficiente de actividad iónico medio y las 
obtenidas con la RNA para electrolitos no simétricos 1-2 y simétricos 2-2………………………..76 
4.12 Gráfica de paridad generada por QNET2000 entre las contribuciones 
teóricas de corto alcance para el coeficiente osmótico y las obtenidas 
con la RNA paraelectrolitos no simétricos 1-2 y simétricos 2-2………………………………….. 76 
4.13 Gráfica comparativa para el coeficiente de actividad iónico medio 
del NaCl acuoso a 25oC…..……………………………………………………………………….. 78 
4.14 Gráfica comparativa para el coeficiente osmótico del NaCl acuoso a 25oC….……………... 79 
 
 
 
 
 
 
 
 
 
 
XIII 
Nomenclatura 
 
ia Actividad del componente i. 
a Valor de la función de activación de la neurona. 
γA Constante de Debye – Hückel para el coeficiente de actividad del soluto. 
φA Constante de Debye – Hückel para el coeficiente osmótico del disolvente. 
b Parámetro ajustable en la ecuación de la Ley límite de Debye – Hückel. 
sd Densidad del disolvente. 
e Carga del electrón. 
( )kE Función de Error. 
( ).f Función contínua definida en un intervalo. 
ig Función de transferencia. 
G Energía de Gibbs total. 
*G Energía de Gibbs de la disolución ideal. 
EXG Energía de Gibbs en exceso. 
igin Entradas globales a la red neuronal. 
ix,ini Valores de entradas a la red neuronal. 
I Fuerza iónica. 
im Concentración molal del soluto i. 
M Masa molecular del disolvente. 
MX Electrolito neutro. 
MXm Molalidad de electrolito no disociado. 
in Número de moles de ión. 
tn Número total de moles de la disolución. 
AN Número de Avogadro. 
iN Número total de entradas a la red neuronal. 
kz,out i Salida de la capa final de la red neuronal. 
P Presión. 
 
XIV 
sp Presión parcial del disolvente. 
sat
sP Presión de vapor del disolvente puto. 
R Constante de los gases. 
mn RR , Funciones vectoriales. 
RMS Error cuadrático medio. 
( )rii SS Entropía de hidratación iónica reducida. 
t Tiempo. 
kt Valor meta o salida objetivo en la capa final de la red neuronal. 
T Temperatura absoluta. 
wV Volumen total del disolvente. 
( )rii VV Volumen parcial molal iónico reducido. 
wx Fracción mol de disolvente. 
jy Salida de la capa intermedia de la red neuronal. 
z Valencia iónica. 
 
Símbolos griegos 
 
Γ Factor “screening”. 
0
ijΓ Coeficiente de actividad iónico medio reducido. 
iγ Coeficiente de actividad del componente i. 
( )m
iγ Coeficiente de actividad del componente i en la escala de concentración molal. 
±γ Coeficiente de actividad iónico medio. 
ε Criterio de convergencia. 
oε Permitividad en el vacío. 
rε Permitividad relativa o constante dieléctrica. 
,,,i kj θθΘ Valores de umbral. 
κ Longitud de Debye. 
iμ Potencial químico del componente i. 
 
XV 
0
iμ Potencial químico del componente i en un estado de referencia estándar expresado en 
forma general. 
*
iμ Potencial químico del componente i para una disolución hipotética ideal expresada en 
forma general. 
⊗
iμ Potencial químico del soluto i para una disolución hipotética ideal 1 molal del mismo 
soluto i en el disolvente j. 
r
CA±γln Contribución de corto alcance al coeficiente de actividad iónico medio del electrolito de 
referencia. 
ν Carga iónica. 
sν Volumen molar del disolvente. 
iξ Concentración del componente i expresada en forma general. 
π Presión osmótica; número pi. 
σ Diámetro iónico efectivo. 
iσ Diámetro iónico de Pauling. 
φ Coeficiente osmótico. 
ijφ Función sigmoidal. 
r
CAφ Contribución de corto alcance al coeficiente osmótico del electrolito de referencia. 
θα,ω, Vectores de entrada a la red neuronal. 
 
Subíndices 
 
CA Fuerzas de corto alcance. 
i Soluto; ión. 
sj, Disolvente. 
LA Fuerzas de largo alcance. 
MSA Modelo de aproximación esférica media. 
RNA Red neuronal artificial. 
 
 
 
XVI 
Introducción 
 
Existen diversos procesos naturales e industriales que requieren de una información cuantitativa 
acerca de las propiedades termodinámicas de disoluciones electrolíticas; ejemplos de estos 
incluyen: procesos de partición en sistemas bioquímicos, procesos de precipitación y cristalización 
en sistemas de energía geotérmica, desalado del agua, control de la contaminación del agua, efectos 
de desplazamiento salino (“salting-in” y “salting-out”) en procesos de extracción y destilación, 
producción de gas natural a partir de acuíferos a alta presión, procesamiento de alimentos y 
producción de fertilizantes. 
 
La modelación formal del comportamiento termodinámico de disoluciones conteniendo 
electrolitos enfrenta grandes retos debido a la complejidad de las diferentes interacciones 
moleculares existentes ya sea del tipo Van der Waals, electrostáticas y de hidratación. En las 
últimas 5 décadas se han llevado a cabo avances teóricos significativos en la caracterización de 
propiedades termodinámicas de disoluciones electrolíticas, debido en gran parte al acelerado 
desarrollo de métodos basados en la mecánica estadística (Friedman, 1981). Sin embargo, debido a 
la complejidad de estas nuevas teorías no existen aun modelos ingenieríles prácticos que incorporen 
en forma simplificada representaciones de tales teorías. Diversos modelos semi-empíricos han sido 
publicados en la literatura, sin embargo, la aplicabilidad de estos es limitada con respecto a varias 
variables: concentración, temperatura, presión o naturaleza misma de la solución electrolítica 
(Prausnitz et al., 2000; Tester y Modell, 1997). 
 
Un procedimiento de modelación ampliamente favorecido por varios investigadores es el 
cálculo de algunas propiedades termodinámicas de la disolución electrolítica a partir de una 
expresión para la energía libre de Gibbs en exceso EXG de la mezcla en cuestión (Pitzer, 1973; Chen 
et al., 1982; Pitzer y Simonson, 1986; Wilczec-Vera y H. Vera, 2003). En general, la expresión 
resultante para EXG esta compuesta por dos principales contribuciones que representan el tipo de 
interacciones existentes en la solución: uno de largo alcance o electrostático y el otro de corto 
alcance o de van der Waals. El uso de un modelo basado en una expresión para EXG permite el 
cálculo directo de coeficientes de actividad iónicos medios así como coeficientes osmóticos de las 
especies iónicas disueltas en solventes acuosos o orgánicos. Sin embargo, la aplicabilidad de este 
 
XVII
tipo de modelos es limitada por varios motivos: (1) no es posible determinar propiedades 
volumétricas de la disolución electrolítica, (2) el poder predictivo del modelo disminuye a altas 
temperaturas y presiones, particularmente cerca del punto crítico del disolvente, y (3) han 
demostrado ser parcialmente exitosos en la representación de propiedades iónicas experimentales 
para varias disoluciones electrolíticas particularmente a 25 °C y dentro de un intervalo moderado de 
concentraciones de la sal. Adicionalmente, todos los modelos del tipo EXG reportados hasta ahora 
en la literatura requieren el uso de uno o más parámetros específicos por disolución electrolítica en 
la porción de corto alcance; impidiendo así su aplicabilidad predictiva para otros sistemas 
electrolíticos para los cuales no se dispone de dichos datos. 
 
En base a lo anteriormente expuesto, el propósito del presente trabajo fue desarrollar un 
modelo termodinámico hibrido de características altamente predictivas para la representación 
precisa de dos propiedades termodinámicas importantes: coeficientes de actividad iónicos medios y 
coeficientes osmóticos de disoluciones electrolíticas acuosas a 25 °C en amplios intervalos de 
concentración, en particular a muy altas molalidades del electrolito. El modelo propuesto combina 
una expresión analítica basada en la MSA (Mean Spherical Approximation) para la estimación de 
las fuerzas de largo alcance (tipo ion-ion) con una red neuronal artificial multi-capa con retro-
propagación encargada de reproducir las fuerzas de corto alcance (tipo ion-disolvente). El modelo 
resultante no requiere de ningún parámetro ajustable y asume que existe una disociación total de la 
sal en solución; por ende las únicas especies presentes dentro de la solución son el agua y los iones 
(cationesy aniones). El modelo fue finalmente aplicado a varios sistemas acuosos con electrolitos 
simétricos (del tipo 1-1 y 2-2) y no-simétricos (del tipo 1-2 y 2-1) en la representación de datos 
experimentales reportados tales como coeficientes de actividad medios de las especies iónicas y 
coeficientes osmóticos (actividad del solvente) a 25 ºC. 
 
Estructura de la Tesis 
 
 
El resto de esta tesis ha sido dividido en cuatro capítulos. El Capítulo 1 presenta algunos 
conceptos y principios generales relacionados con la termodinámica de disoluciones electrolíticas 
así como de redes neuronales artificiales (RNA). El Capítulo 2 proporciona una breve discusión de 
los trabajos previos más pertinentes sobre la aplicación de las RNAs en problemas de ingeniería 
química. La descripción detallada del modelo termodinámico hibrido propuesto en este trabajo es 
 
XVIII
presentado en el Capítulo 3. Por otra parte, el Capítulo 4 presenta los resultados de la aplicación del 
modelo así como una discusión de los mismos. Finalmente, al final de la tesis se incluye una lista de 
conclusiones y recomendaciones derivadas a partir del presente trabajo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Generalidades 
 
1 
Capítulo 1 
 
Generalidades 
 
En este capítulo se muestran conceptos básicos incluidos con el marco teórico definido para el 
modelo propuesto en este trabajo. Los dos aspectos fundamentales en los que se centran dichos 
conceptos son, por una parte, la termodinámica de las disoluciones electrolíticas acuosas y por 
otra, las redes neuronales artificiales (RNA). 
 
1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas 
 
La termodinámica de disoluciones de electrolitos no es una simple continuación de la 
termodinámica de disoluciones no electrolíticas. 
 
 Abundan en la bibliografía las referencias de estudios sobre disoluciones de electrolitos, 
experimentales y teóricos. Desafortunadamente, muchos de ellos son confusos, principalmente 
porque los autores no definen claramente las funciones termodinámicas y porque no hay una 
notación estándar universalmente aceptada (Wilczec-Vera y H. Vera, 2003). El mejor estudio de 
la termodinámica de disoluciones de electrolitos se encuentra en el libro de Robinson y Stokes 
(2002). Sin embargo, como complemento pueden citarse, la publicación editada por Pitzer (1973) 
y el libro de Barthel et al. (1998). 
 
 En las disoluciones electrolíticas acuosas el agua como disolvente presenta una constante 
dieléctrica alta, y al agregar un electrolito, este se descompone en dos o más iones. Por tanto, una 
disolución binaria, por ejemplo, cloruro de sodio acuoso es, en cierto sentido, una disolución 
ternaria que contiene agua, un catión y un anión. Pero en otro sentido, no es una disolución 
ternaria porque las concentraciones del catión y del anión no son dos variables independientes; si 
una de ellas está fijada, la otra también lo está por el balance de materia y la condición de 
electroneutralidad. Como la ionización y la condición de electroneutralidad deben tomarse en 
cuenta en la termodinámica de disoluciones de electrolitos, pero no en la termodinámica de 
Generalidades 
 
2 
disoluciones de no electrolitos, el tratamiento de las disoluciones electrolíticas es necesariamente 
mucho más elaborado. 
 
 Para electrolitos fuertes (sales), la ionización suele ser completa, pero para los electrolitos 
débiles (por ejemplo, ácido acético), la ionización es sólo parcial. En ese caso, para obtener una 
descripción termodinámica útil, es necesario tener en cuenta los equilibrios químicos, además de 
uno o más balances de materia y de la condición de electroneutralidad. 
 
 La termodinámica de las disoluciones de electrolitos suele utilizar escalas de concentración 
diferentes de las empleadas en la termodinámica de las disoluciones de no electrolitos. En esta 
última, las escalas más comunes son las fracciones molares o fracciones en volumen que tienen 
una característica deseable: varían de cero a uno. Para disoluciones electrolíticas, la escala de 
concentraciones más popular es la molalidad (moles de soluto por kg de disolvente). La 
molalidad, sin embargo, puede variar de cero a valores muy altos (arriba de 100), pero se utiliza 
porque, en la mayor parte de las aplicaciones, el estudio se limita a disoluciones diluidas o 
moderadamente concentradas, en las que la molalidad puede llegar a 10 o 20, y en raras 
excepciones es superior. 
 
 Otro aspecto importante que actualmente continúa siendo una fuente de confusiones en el 
estudio de las disoluciones electrolíticas, es la elección de las variables. A diferencia de las 
mezclas de no electrolitos, en las que se utiliza el tratamiento termodinámico de Lewis-Randall, 
teniendo como variables la temperatura, la presión y las concentraciones de todos los 
componentes, normalmente expresadas como fracciones molares, en las disoluciones 
electrolíticas, especialmente en disoluciones diluidas, se usa el tratamiento termodinámico de 
Mc-Millan-Mayer, en el que las variables pueden ser la temperatura, las concentraciones de todas 
las especies disueltas y la presión osmótica. En el último caso, a partir de las variables indicadas e 
incluyendo el concepto de electroneutralidad, se han desarrollado modelos teóricos o 
semiempíricos, que requieren parámetros ajustables de interacción entre las especies que 
conforman el sistema electrolítico y que son obtenidos a través de correlaciones realizadas a 
partir de datos experimentales. 
 
Generalidades 
 
3 
A continuación se describen algunos conceptos básicos importantes, relacionados con la 
termodinámica de disoluciones electrolíticas. 
 
1.1.1 Coeficiente de Actividad de un Soluto no Volátil 
 
La actividad ai y el coeficiente de actividad γi del componente i a una cierta temperatura, presión 
y composición, están relacionados en forma general con el potencial químico µi por: 
 
 ( )iiiiii RTaRT ξγμμμ lnln 00 +=+= (1) 
 
donde µi0 es el potencial químico de i en un estado estándar convenientemente definido y ξ es una 
medida adecuada de la concentración. 
 
 Para una mezcla que contiene un soluto no volátil en un disolvente podemos utilizar la 
ecuación (1) para el disolvente, con la definición convencional de µi0. Sin embargo, para un 
soluto no volátil, el líquido i puro, a la temperatura y presión del sistema, no siempre es el estado 
estándar conveniente por que en la mayor parte de los casos, a temperaturas y presiones 
normales, el soluto puro no volátil no puede existir como líquido. 
 
 Tomando en cuenta que el coeficiente de actividad iónico medio de un sistema electrolítico 
acuoso está relacionado con la actividad del soluto, el potencial químico del soluto disuelto se 
escribe como: 
 
 ( )iiiiii RTaRT ξγμμμ lnln ** +=+= (2) 
 
donde µi* es el potencial químico de i en el estado estándar, que es independiente de la 
composición pero depende de la temperatura, de la presión, y de la naturaleza del soluto y del 
disolvente. Una elección conveniente para µi* es el potencial químico de i en una disolución 
hipotética ideal de i en el disolvente, a la temperatura y presión del sistema y la concentración 
unidad ξ i = 1. En esta disolución ideal, γi → 1 cuando ξ i → 0. 
 
Generalidades 
 
4 
Es un error frecuente afirmar que el estado estándar para el soluto es el mismo a la temperatura y 
presión del sistema y a dilución infinita. Esto no es correcto; a dilución infinita, el potencial 
químico del soluto es -∞. El potencial químico en el estado estándar para el soluto i debe ser 
definido a una concentración determinada (distinta de cero). Esta concentración es la 
concentración unidad. Se utiliza la concentración unidad porque su logaritmo es cero. 
 
 Cuando hacemos ξ i = mi, la ecuación (2) se transforma en: 
 
 ( )( )imiii mRT γμμ ln+= ⊗ (3) 
 
donde γi (m) es el coeficiente de actividad en la escalade molalidades. El estado estándar es el 
estado hipotético, de la disolución ideal, 1 molal de soluto i en el disolvente j. En la disolución 
real γi (m) → 1 cuando m i → 0. Por lo tanto, el coeficiente de actividad iónico medio puede 
definirse como una medida de la desviación del comportamiento real de una disolución 
electrolítica, con respecto al comportamiento de una disolución hipotética ideal. 
 
1.1.2 Electroneutralidad 
 
Como ya se ha indicado, en una disolución electrolítica, el soluto se disocia en cationes y 
aniones. Estas especies no son componentes independientes por la condición de 
electroneutralidad. Por ejemplo, cuando un mol de un electrolito fuerte, como NaCl, está disuelto 
en un volumen de agua de un litro, tendremos una disolución uno molal de NaCl que está 
totalmente disociado en una disolución uno molal de los iones sodio, cargados positivamente, y 
una disolución uno molal de los iones cloruro, cargados negativamente. 
 
 Las medidas termodinámicas habituales no dan las propiedades de una especie iónica, sino 
la de los electrolitos neutros formados por cationes y aniones. En una disolución de electrolito, la 
electroneutralidad impone la condición de no poder variar independientemente la cantidad de 
sustancia de las especies iónicas. En NaCl acuoso hay tres especies, pero sólo dos (no tres) 
componentes. 
 
Generalidades 
 
5 
Cuando está disuelto en un disolvente de constante dieléctrica alta, como el agua, un electrolito 
neutro MX se disocia en v+ iones positivos (cationes), cada uno con una carga z+, y 
v- iones negativos (aniones), de carga z-. Las cargas se expresan en unidades normalizadas, en 
donde z+ = 1 para un protón. La disociación electrolítica se representa por: 
 
 MX v+Mz+ + v-Xz- (4) 
 
 La electroneutralidad requiere que: 
 
 v+ z+ + v- z- = 0 = v+ z+ − v- |z-| (5) 
 
 Por ejemplo, en la disociación: 
 
 H2SO4 2H+ + SO42- 
 
 tenemos v+ = 2, z+ = 1, z- = 1 y v- = −2 
 
1.1.3 Coeficiente de Actividad Iónico Medio 
 
La ecuación (4) representa un equilibrio químico. El criterio del potencial químico para dicho 
equilibrio es: 
 
 −+ −+ += zz vv XMMX μμμ (6) 
 
 Utilizando la escala de molalidad para los coeficientes de actividad como se indica en la 
ecuación (3) y sustituyendo en la ecuación (6) se obtiene el potencial químico del electrolito: 
 
 ( ) ( )−−−+++⊗ ++= γγμμ mRTvmRTv lnlnMXMX (7) 
 
donde se ha eliminado el superíndice (m) para los coeficientes de actividad γ+ y γ-, y donde 
 
Generalidades 
 
6 
 ⊗−
⊗
+
⊗
−+ += zz vv XMMX μμμ (8) 
 
 En la ecuación (8) µi⊗(Mz+) es el potencial químico del ion M (con carga z+) en una 
disolución ideal hipotética donde la molalidad del ion M es la unidad. Una definición similar se 
enuncia para µi⊗(Xz-). 
 
 La ecuación (7) se puede escribir de forma más eficiente: 
 
 ( ) ( ) ( )−−++⊗−−++−−++⊗ +=++= vvvvvv aaRTRTmmRT lnlnln MXMXMX μγγμμ (7a) 
 
 Así, la molalidad iónica media, m±, y el coeficiente de actividad iónico medio, γ ± se 
definen como: 
 
 ( ) vvv mmm 1−−++± = (9) 
 
 ( ) vvv 1−−++± = γγγ (10) 
 
 donde v = v+ + v-. Sustituyendo en la ecuación (7a) se obtiene: 
 
 ( )( ) ( )( )mm avRTmvRT ±⊗±±⊗ +=+= lnln MXMXMX μγμμ (11) 
 
 con 
 ( ) ( )mvvv maaa ±±−−++± == γ1 (12) 
 
 donde a± es la actividad iónica media. 
 
 
 
 
 
Generalidades 
 
7 
 
0.6000
0.6500
0.7000
0.7500
0.8000
0.8500
0.9000
0.9500
1.0000
1.0500
0.0010 0.0100 0.1000 1.0000 10.0000
m (mol / kg)
γ±
 [-
]
γ± Experimental
 
Figura 1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC 
(Hamer y Wu, 1972) 
 
 Para electrolitos fuertes, donde la ionización es prácticamente completa, m+ = v + mMX y m- = 
v - mMX. En este caso mMX, corresponde a la molalidad del electrolito determinada al preparar la 
disolución, ignorando la disociación. Y bajo este desarrollo, el coeficiente de actividad iónico 
medio viene dado por: 
 
 ( ) vvv vvm
a
1−
+
+
+
±
± =
MX
γ (13) 
Por ejemplo, la molalidad media y el coeficiente de actividad iónico medio para el NaCl, que es 
un electrolito 1-1, son m± = mMX, y γ ± = [(γ Na+)(γ Cl-)] 1/2. Relaciones similares pueden deducirse 
para electrolitos simétricos 2-2, 3-3, etc. Para electrolitos no simétricos 1-2 o 2-1 (por ejemplo, 
Generalidades 
 
8 
CaCl2 ), m± = 41/3 mMX y γ ± = [(γ Ca2+)(γ Cl-)2] 1/3. La Tabla 1.1 muestra la molalidad media para 
sales de diferentes estequiometrías. 
 
Tabla 1.1 Molalidad iónica media (m±) para algunos electrolitos fuertes 
(Robinson y Stokes, 2002) 
 
Tipo de soluto Ejemplo m± 
Electrolito Mv+ X v- mMX 
1-1; 2-2; 3-3 NaCl; ZnSO4 mMX 
1-2; 2-1 CaCl2 41/3 mMX 
1-3; 3-1 AlCl3 271/4 mMX 
1-4; 4-1 Th(NO3)4 2561/5 mMX 
3-2 Al2(SO4)3 1081/5 mMX 
 
 La Figura 1.1 muestra los coeficientes de actividad iónicos medios en función de la 
concentración para algunos electrolitos en agua a 25 oC. Por definición γ ± es la unidad a 
molalidad cero de todos los electrolitos. En disoluciones diluidas γ ± disminuye rápidamente al 
aumentar la concentración; la pendiente de esta caída inicial depende del tipo de electrolito. Para 
la mayor parte de electrolitos, las curvas similares a las de la Figura 1.1 muestran un mínimo a 
concentraciones intermedias (Robinson y Stokes, 2002). A concentraciones altas, γ ± puede ser 
mucho mayor que la unidad. 
 
La ecuación (10) indica que la cantidad medible γ ± está determinada por los coeficientes 
individuales γ+ y γ- que, normalmente, no son medibles por separado. 
 
 Los datos de actividad para electrolitos se obtienen a partir de mediciones de potenciales de 
celdas electroquímicas, o a partir de medidas de solubilidad y propiedades coligativas. Una 
importante fuente de datos experimentales son las medidas de presión de vapor. El método más 
preciso es el de presiones de vapor relativas, o método isopiéstico, descrito en la bibliografía 
(Robinson y Stokes, 2002). Las medidas obtenidas con dicho método proporcionan la actividad 
Generalidades 
 
9 
del disolvente. Para obtener la actividad del soluto, se utiliza la ecuación de Gibbs – Duhem que 
relaciona la actividad del disolvente con la del soluto y la cual será descrita en el siguiente 
apartado. 
 
 En la práctica, ha sido factible el uso de una normalización basada en el principio de 
estados correspondientes aplicado por H. P. Meissner al coeficiente de actividad iónico medio, 
para generalizar el comportamiento no ideal de los electrolitos fuertes (Tester y Model, 1997). 
Dicha normalización, se expresa de la siguiente manera: 
 
 ( ) −+±=Γ zzij 10 γ (14) 
 
donde 0ijΓ es el coeficiente de actividad iónico medio reducido, para una disolución que contiene 
un electrolito fuerte que se disocia totalmente. 
 
1.1.4 Coeficiente Osmótico del Disolvente 
 
Tal como el coeficiente de actividad está relacionado con la actividad del soluto, el coeficiente 
osmótico está ligado a la actividad del disolvente. Para esté último, comúnmente se utiliza como 
estado estándar el líquido puro a la temperatura y presión del sistema. 
 
 Sea un electrolito fuerte MX disuelto y completamente disociado en un disolvente s. 
Utilizando la escala de molalidad, el potencial químico del disolvente, µs, es 
 
 ( ) ( ) ( ) ( ) ( ){ }idealln,ln, 00 msmssss aRTPTaRTPT φμμμ +=+= (15) 
 
donde µs0(T, P) es el potencial químico del disolvente puro s, a la temperatura T y presión P del 
sistema; φ (m) es el coeficiente osmótico. El superíndice (m) para φ y as(ideal) indica que estas 
cantidades dependen de la elección de la escala de concentración. 
 
Generalidades 
 
10 
Para obtener la actividad del disolvente, se utiliza la ecuación de Gibss – Duhem, ya que a través 
de ella se puede relacionarla actividad del soluto disociado con la del disolvente a temperatura y 
presión constantes, como se indica a continuación: 
 
 
( )
±
±
±
±± ∫ ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
∂
−−= dm
m
mMmMa i
m
PT
m
ss
s 0
,
ln
10001000
ln γ (16) 
 
 Debido a que el coeficiente osmótico, establece una medida de la desviación del 
comportamiento real de un sistema con respecto al ideal, es posible representar dicha desviación 
en diversas propiedades físicas de la mezcla. Una de ellas, la presión osmótica π viene dada por: 
 
 s
s
a
v
RT ln−=π (17) 
 
 donde vs es el volumen molar del disolvente. 
 
 El coeficiente osmótico φ es la relación π(real)/ π(ideal). Para encontrar π(real) y π(ideal) se 
sustituye la ecuación (15) en la (16). Nótese que para la disolución ideal, el segundo sumando del 
segundo miembro de la ecuación (15) se hace cero. 
 
En base a lo anterior, la expresión general para calcular el coeficiente osmótico es: 
 
 
 ( ) ( )( )
( )
( )
( )
±
±
±
±
±
∫
±
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
∂
+=== dm
m
m
ma
a m
PT
m
m
s
sm
0
,
ln11
ln
ln γ
π
πφ
ideal
real
ideal
real (18) 
 
 De la que: 
 ( ) ( ) MXideal vm
MmMa ssms 10001000
ln −=−= ± (19) 
 
Sustituyendo la ecuación (18) en la ecuación (17) se tiene que: 
Generalidades 
 
11 
 
 s
s
m a
Mvm
ln1000)( ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−=
MX
φ (20) 
Ahora bien, en el caso de disoluciones diluidas, la representación de datos experimentales se hace 
mejor a partir de los coeficientes osmóticos, ya que a diferencia de los coeficientes de actividad, 
γs, son más sensibles a la concentración. Como se indicó en el apartado anterior, 
experimentalmente φ se suele obtener a partir de medidas de presión de vapor puesto que, a 
presiones reducidas, la actividad es: 
 
 sat
s
s
s P
pa = (21) 
 
 Aquí ps es la presión parcial del disolvente y Pssat es la presión de vapor del disolvente puro, 
ambas a la temperatura del sistema, T. De esta forma, para disoluciones diluidas, la combinación 
de las ecuaciones (19) y (20) dan lugar a una expresión útil para calcular el coeficiente osmótico, 
es decir: 
 
 sat
s
s
s
m
P
P
Mvm
ln1000)( ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−=
MX
φ (22) 
La figura 1.2 muestra gráficamente el comportamiento del coeficiente osmótico obtenido 
experimentalmente para el NaCl, desde la región diluida hasta el punto de saturación de la sal. 
 
 
 
 
 
 
 
 
 
 
Generalidades 
 
12 
 
 
 
0.8000
0.8500
0.9000
0.9500
1.0000
1.0500
1.1000
1.1500
1.2000
1.2500
1.3000
0.0010 0.0100 0.1000 1.0000 10.0000
m (mol / kg)
φ 
[-]
φ Experimental
 
 Figura 1.2 Coeficiente osmótico para el NaCl a 25 oC (Hamer y Wu, 1972) 
 
1.1.5 Propiedades en Exceso 
 
Las funciones en exceso son la diferencia entre las propiedades termodinámicas de la disolución 
y las de la disolución ideal, a la misma temperatura, presión y composición. 
 
 Consideremos nuevamente una disolución binaria de electrolito que contiene m moles de 
una sal MX (completamente disociada) en 1 kg de disolvente s. La cantidad de sustancia del 
disolvente es ns = 1000/Ms, donde Ms es la masa molar del disolvente; si el disolvente es agua, ns 
= 55.51 mol. A temperatura y presión constantes, la energía de Gibbs total, G, de la disolución es: 
Generalidades 
 
13 
 
 ssnnG μμ += MXMX (23) 
donde el potencial químico de la sal, µMX, viene dado por la ecuación (10) y el potencial químico 
del disolvente µs, viene dado por la ecuación (14). Sustituyendo las ecuaciones (11) y (12) en la 
expresión de µMX, y la ecuación (18) en la expresión para µs, se obtiene: 
 
 ( ) ( )[ ]{ } ⎟
⎠
⎞
⎜
⎝
⎛ −+++= −−
+
+±
⊗ φμγμ
1000
lnln 01MXMXMX sss
vvvm
disolución
vmMRTnvvmRTvnnG (24) 
 
 
donde, por simplicidad, se ha omitido el subíndice MX para la molalidad m del electrolito. 
 
 Para una disolución ideal, γ ± (m) = φ = 1, y la energía de Gibbs viene dada por: 
 
 ( )[ ]{ } ⎟
⎠
⎞
⎜
⎝
⎛ −++= −−
+
+
⊗
1000
ln 01MXMXMX
* s
ss
vvv vmMRTnvvmRTvnnG μμ (25) 
 
 Además, la energía de Gibbs en exceso, de la disolución que contiene m moles de sal en 1 
kg de disolvente, viene dada por: 
 
 ( ) ( )φγ −+=−= ± 11000lnMX
* s
s
mEX vmMRTnRTvnGGG (26) 
 
 Simplificando: 
 
 ( )( )φγ −+= ± 1lnMX mEX RTvnG (27) 
 
1.1.6 Fuerza Iónica 
 
A la misma concentración de iones, los electrolitos con iones de cargas múltiples tienen un mayor 
efecto sobre los coeficientes de actividad de lo iones que los electrolitos con iones de carga 
Generalidades 
 
14 
unidad. Para expresar esta dependencia, resulta útil introducir la fuerza iónica (molal) de la 
disolución, I, que se define como: 
 
 ( ) ∑=−
i
ii zmkgmolI
21
2
1 (28) 
 
donde zi es la carga del ion i y mi es su concentración expresada como molalidad. El sumatorio se 
extiende a todas las especies iónicas en la disolución. Por ejemplo, para el agua de mar, cuya 
composición se muestra en la Tabla 1.2, I = 0.72 mol kg-1. 
 
 Según esta definición, la fuerza iónica de un electolito 1-1 es igual a su molalidad, mMX; 
para un electrolito 1-2 (por ejemplo, Na2SO4) es 3 mMX, y para un electrolito 2-2 (por ejemplo 
ZnSO4) es 4 mMX. 
 
Tabla 1.2 Concentraciones de los principales iones presentes en el agua de mar 
(Prausnitz et al., 2000) 
 
Componente Molalidad (mol kg-1) 
Na+ 0.486 
Mg2+ 0.055 
Ca2+ 0.011 
K+ 0.010 
Cl- 0.566 
SO42- 0.029 
 
 
1.1.7 Ley límite de Debye – Hückel 
 
El coeficiente de actividad de un electrolito depende mucho de su concentración. No obstante, 
además de esta dependencia, en las disoluciones con electrolitos fuertes existen diferentes 
Generalidades 
 
15 
interacciones entre las especies que la conforman. Dichas interacciones se describen brevemente 
a continuación: 
 
a) Fuerzas de largo alcance (LA): Son las interacciones ión – ión de atracción y repulsión 
electrostáticas que predominan a concentraciones bajas de electrolito. 
b) Fuerzas de corto alcance (CA): Son las interacciones entre todas las especies (ión – ión y 
ión – disolvente), que predominan a concentraciones altas de electrolito. Cabe mencionar 
que dos efectos producidos por estas interacciones son por una parte, el de la asociación 
de iones, originado por la disociación incompleta de electrolitos a elevadas 
concentraciones una vez que se rebasa el punto de saturación de la sal, y por otra parte la 
solvatación de iones, que en el caso de disoluciones acuosas consiste en la formación de 
complejos iónicos hidratados. 
 
 En las Figuras 1.1 y 1.2, el efecto de las interacciones descritas arriba, se puede describir de 
la siguiente manera: A concentraciones bajas (0.001 hasta 1 molal), ambos coeficientes 
disminuyen formando lo que se conoce como la pendiente de Debye –Hückel hasta llegar a un 
mínimo. Esta parte del comportamiento se debe al efecto dominante de las fuerzas de largo 
alcance. Posteriormente, al seguir aumentando la concentración (después de 1 molal), el 
coeficiente supera el mínimo para continuar aumentando progresivamente. La razón de este 
cambio en el comportamiento, se debe al efecto dominante de las fuerzas de corto alcance. 
Aunque este comportamiento es característico para la mayoría de los electrolitos fuertes, cabe 
aclarar que el punto de baja concentración en el cual se genera el mínimo para cada sustancia, 
generalmente no es el mismo. 
 
 Utilizando los conceptos bien establecidos de la electrostática clásica, Debye y Hückel 
dedujeron una expresión simple para el coeficiente de actividad γ i de un ión con una carga zi en 
una disolución diluida de fuerza iónica I (Tester y Modell, 1997): 
 
 ( ) 212ln IzA i
m
i γγ −= (29) 
 
donde la constante Aγ viene dada por: 
Generalidades 
 
16 
 
 ( ) 21
2232
2
8 s
A
ro
dN
RT
eA
πεεγ ⎟
⎟
⎠
⎞
⎜⎜
⎝
⎛
= (30) 
 
y en la que a su vez, e es la carga del electrón (e = 1.60218 x 10-19 C), εo esla permitividad en el 
vacío (εo = 8.8549 x 10-12 C2 N-1m-2), εr es la permitividad relativa o constante dielétrica, NA es la 
constante de Avogadro (NA = 6.02214 x 1023mol-1) y ds es la densidad del disolvente (kg m-3). 
Las ecuaciones (28) y (29) proporcionan los coeficientes de actividad de los iones, no el del 
electrolito en una disolución eléctricamente neutra. Pero la magnitud que se suele medir 
experimentalmente es el coeficiente de actividad iónico medio, γ ±(m). Como ya se vió 
anteriormente, para un electrolito MX, γ ±(m) se define por medio de la ecuación (9). sustituyendo 
la ecuación (28) en la ecuación (9), e introduciendo la condición de electroneutralidad expresada 
por la ecuación (5) se obtiene: 
 
 
 ( ) 21ln IzzAmi −+−= γγ (31) 
 
donde | z+ z−| es el valor absoluto del producto de las cargas. 
 
 Una deducción similar conduce a la siguiente expresión para el coeficiente osmótico: 
 
 211 IzzA −+−=− φφ (32) 
 
donde la constante de Debye –Hückel Aφ está directamente relacionada con la constante Aγ dada 
por la ecuación (29): 
 
 γφ AA 3
1
= (33) 
 
Generalidades 
 
17 
La ecuación (30) es la ley límite de Debye –Hückel, útil para interpretar las propiedades de las 
disoluciones de electrolito. Es una ley límite exacta a bajas concentraciones en el mismo sentido 
que la ecuación de estado del virial, truncada después del segundo coeficiente del virial, es una 
ley límite exacta para el factor de compresibilidad de un gas a baja presión. 
 
 Si el disolvente es agua a 25 oC y presión atmosférica, Aγ = 1.174 kg1/2 mol-1/2 (εr = 78.41, ds 
= 997 kg m-3). Convirtiendo la ecuación a logaritmos decimales, se obtiene: 
 
 ( ) ( ) 21510.025log Izzm −+± −=acuosa C,oγ (30a) 
 
donde I está en mol kg-1. 
 
 La ecuación de Debye–Hückel es aplicable sólo a disoluciones de muy bajas 
concentraciones (normalmente, para fuerzas iónicas hasta 0.01 mol kg-1. Hay diversas causas para 
explicar las desviaciones de la ley de Debye–Hückel a concentraciones altas. Entre ellas están las 
repulsiones entre los iones debidas a su tamaño finito y las interacciones debidas a fuerzas 
distintas a las electrostáticas (es decir, fuerzas de dispersión). Una desviación importante de la ley 
de Debye–Hückel procede de las fuerzas de solvatación ión – disolvente que son fuertes y 
específicas, e invalidan la suposición de considerar al disolvente como un dieléctrico continuo. 
Para aplicaciones realistas, es necesario deducir expresiones aplicables a disoluciones muy 
concentradas. Por ejemplo, la fuerza iónica del agua de mar es, aproximadamente, 0.7 mol kg-1. 
Para aplicaciones industriales o geotérmicas, la fuerza iónica puede ser mucho mayor. En tales 
casos, la ley límite de Debye–Hückel es insuficiente. 
 
 Para disoluciones concentradas de electrolitos, se han propuesto diversas correcciones 
semiempíricas a la ley límite de Debye–Hückel (Prausnitz et al., 2000). Una expresión frecuente 
para disoluciones acuosas con valores de I hasta 0.1 mol kg-1 es: 
 
 ( ) 21
21
1
ln
I
IzzAm
i +
−
= −+γγ (34) 
 
Generalidades 
 
18 
Para fuerzas iónicas hasta 1 mol kg-1, se añade un término lineal, resultando: 
 
 ( ) bI
I
IzzAm
i ++
−
= −+ 21
21
1
ln γγ (35) 
 
 donde b es un parámetro ajustable. 
 
 El desarrollo de una teoría básica para disoluciones concentradas de electrolitos es un tema 
abierto en el que trabajan muchos físico-químicos utilizando la mecánica estadística. Sin 
embargo, aunque se han hecho muchos progresos, para aplicaciones de ingeniería, 
frecuentemente es más útil el empleo de modelos semiempíricos. En la siguiente sección se 
abordan los fundamentos teóricos de dichos modelos. 
 
1.1.8 Modelos Semiempíricos 
 
Se han desarrollado numerosos modelos semiempíricos para describir las propiedades de 
equilibrio de disoluciones de electrolito. Estos modelos corrigen la teoría de Debye–Hückel a 
través de términos adicionales que toman en cuenta las interacciones ion – ión y la disociación 
incompleta a altas concentraciones, que en terminología moderna se denomina asociación de 
iones. 
 
 En estos modelos semiempíricos, se suele suponer que la energía de Gibbs en exceso de las 
disoluciones de electrolito, es la suma de dos contribuciones, una procedente de las fuerzas 
coulombianas de largo alcance (LA), representadas por la teoría de Debye–Hückel o su 
generalización, y la otra de las fuerzas de corto alcance (CA): 
 
 EXCA
EX
LA
EX GGG += (36) 
 
Siguiendo las relaciones vistas anteriormente, la ecuación (36) aporta dos contribuciones a los 
coeficientes de actividad iónicos medios que en base molal, se expresan de la siguiente manera: 
 
Generalidades 
 
19 
 ( ) ( ) ( )CALA lnlnln
mmm
±±± += γγγ (37) 
Aplicando lo mismo para el coeficiente osmótico, se obtiene: 
 
 ( ) ( ) ( )mmm CALA φφφ += (38) 
 
Aunque casi todos los modelos semiempíricos utilizan un término del tipo Debye–Hückel para la 
contribución de largo alcance, hay diversas opciones para las contribuciones de corto alcance. 
Las posibles opciones incluyen expresiones de composición local (UNIQUAC, NRTL, Wilson) 
(Thomsen, 2005; Simonin et al., 2006) y las ecuaciones de Van Laar o Margules (Macías, 2003). 
La mayor parte de los modelos suponen la disociación completa de los electrolitos. Utilizando, al 
menos, dos parámetros binarios ajustables de interacción iónica, estos modelos tiene un éxito 
razonable para disoluciones diluidas y moderadamente concentradas, hasta 6 molal, 
aproximadamente. 
 
 Como un ejemplo de estos modelos, se puede citar el modelo de interacciones iónicas de 
Pitzer, el cual ha recibido amplia aceptación desde 1973 (Pitzer, 1973; Pitzer y Mayorga, 1973). 
En dicho modelo GEX viene dada por la suma de un término electrostático (tipo Debye – Hückel) 
para la contribución de largo alcance y un desarrollo del virial en la molalidad del soluto para 
representar la contribución de corto alcance. Y es precisamente esta última característica, la que 
provoca la demanda de parámetros de interacción iónica que se determinan de un ajuste por 
mínimos cuadrados de datos experimentales de coeficientes de actividad y coeficientes osmóticos 
para los electrolitos a la temperatura ambiente. 
 
 Generalmente el modelo de Pitzer proporciona buena concordancia con los datos 
experimentales hasta concentraciones de soluto de aproximadamente 6 molal. Por lo tanto, a no 
ser que se añadan más términos, este modelo no se puede aplicar disoluciones electrolíticas muy 
concentradas, es decir, hasta el límite de saturación de una sal muy soluble (Prausnitz, et al., 
2000). Algo similar ocurre con otros modelos semiempíricos, independientemente de que 
requieran más o menos parámetros que el de Pitzer (Thomsen, 2005; Simonin, et al., 2006). 
 
Generalidades 
 
20 
Por consiguiente, aunque en el modelo desarrollado en este trabajo se aplicó el criterio descrito 
en este apartado de las contribuciones de las fuerzas de corto y de largo alcance a los coeficiente 
de actividad iónico medio y osmótico, se consideró la importancia de prescindir de parámetros de 
interacción entre especies que limiten su aplicabilidad predictiva. Por ello, para la contribución de 
largo alcance, se consideró el uso del modelo primitivo de aproximación esférica media (mean 
spheric aproximation (MSA)), y para la contribución de corto alcance, la asistencia de una red 
neuronal artificial (RNA). A continuación se exponen algunos fundamentos teóricos del modelo 
MSA y posteriormente los que se relacionan con las redes neuronales artificiales. 
 
1.1.9 Modelo de Aproximación Esférica Media (MSA) 
 
El modelo MSA fue desarrollado a partir del concepto de aproximación esférica media. Dicho 
concepto se basa en lo que se conoce como el modelo primitivo derivado de la teoría de 
Debye−Hückel (Vilariño et al., 2004). En este último,se encuentran establecidas las siguientes 
dos suposiciones básicas: 
 
a) Los iones son considerados como esferas rígidas cargadas. 
b) El disolvente es un dieléctrico continuo, caracterizado por su constante dieléctrica. 
 
En este modelo, no hay términos explícitos para las interacciones disolvente−disolvente y 
ión−disolvente; se supone que estas interacciones se tienen en cuenta a través de la constante 
dieléctrica en los términos de interacciones ión−ión. Esta drástica aproximación es satisfactoria 
para disoluciones diluidas o para disoluciones de partículas, por ejemplo coloides, que son mucho 
mayores que las moléculas del disolvente. Sin embargo, es una mala aproximación para 
disoluciones iónicas concentradas, donde el tamaño del ión soluto es comparable con el de la 
molécula de disolvente, debido al efecto de solvatación (hidratación) de iones. 
 
 La aproximación esférica media toma en cuenta los tamaños finitos de las partículas 
cargadas (iones). Dicha aproximación, se reduce a la teoría de Debye−Hückel cuando las cargas 
son puntuales en una disolución de electrolito muy diluida, y los resultados que se obtienen con 
ella son analíticos y muy sensibles a los diámetros iónicos. Para conseguir concordancia con los 
Generalidades 
 
21 
experimentos, estos radios pueden depender de la concentración de electrolito, reflejando el 
efecto de hidratación. Además, el modelo MSA conduce a valores razonables de los coeficientes 
de actividad de iones a concentraciones moderadas. De hecho, ha sido aplicado para describir el 
equilibrio líquido−vapor de sistemas de electrolito en mezclas de disolventes y combinado con 
una ecuación de estado para el equilibrio gas−disolución de electrolito a altas presiones 
(Prausnitz, et. al., 2000). 
 
 Ahora bien retomando la ecuación (36), la contribución por efecto de las fuerzas de largo 
alcance determinada con el modelo MSA se puede expresar de la siguiente manera: 
 
 ( )Γ+⋅Γ−= σ
π
5.11
3
2 3
tA
wEX
MSA nN
RTVG (39) 
 
donde: Γ es el factor “screening”, Vw es el volumen del disolvente, NA es el número de Avogadro 
y nt es el número total de moles de la mezcla. En esta aproximación explícita se asume que todos 
los iones tienen un mismo diámetro efectivo definido por: 
 
 
∑
∑
=
iones
i
iones
ii
n
n σ
σ (40) 
 
donde iσ es el diámetro iónico cristalino de Pauling. 
 En la versión original del modelo de MSA, el factor screening Γ requiere de una solución 
implícita a partir de una ecuación complicada. En este trabajo, se empleó una aproximación del 
modelo de MSA explícita en Γ propuesta por Harvey et al., (Simonin et al., 2006), es decir: 
 
 [ ]121
2
1
−+=Γ σκ
σ
 (41) 
 
 ∑⋅=
s
ii
wr
A Zn
RTV
Ne
ione
2
22
2 4
ε
πκ (42) 
Generalidades 
 
22 
El parámetro κ en la Ec. (41) representa el recíproco de la longitud de Debye-Hückel; no debe 
olvidarse que el modelo de MSA se reduce a la expresión de Debye-Hückel en el límite 0σ → . 
A diferencia de la ecuación de Debye-Hückel, el modelo de MSA toma en cuenta los tamaños 
finitos de la partículas con carga siendo aplicable a mayores concentraciones del soluto. Es 
importante notar que el modelo MSA fue desarrollado dentro del tratamiento de McMillan-Mayer 
donde las variables independientes son la temperatura T, el volumen V, el número de moles n y el 
potencial químico del solvente µs. Existe, por lo tanto, una inconsistencia ya que las propiedades 
termodinámicas obtenidas dentro de este tratamiento no son idénticas a las obtenidas bajo el 
tratamiento de Lewis-Randall (cuyas variables independientes son T, P y n) utilizado en este 
trabajo. Sin embargo, de acuerdo a Cardoso y O’Connell (1987), tal inconsistencia no tiene un 
efecto significativo sobre la termodinámica de disoluciones iónicas que contengan un solo 
disolvente. Sobre esta base teórica se aplicó el modelo MSA en este trabajo (Prausnitz et al., 
2000). 
 
 De acuerdo a lo anterior, en este trabajo se utilizaron a partir de la expresión propuesta para 
GEX las siguientes relaciones para determinar la contribución de largo alcance con el modelo 
MSA: 
 
 ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
∂
⋅∂
=
i
EX
t
MSAi n
RTGnγln (43) 
 
 
 
−+
−−++
± +
+
=
νν
γνγνγ MSAMSAMSA
lnlnln (44) 
 
 ( ) ( )[ ]mM wMSAmMSA −+±± +−−= ννγγ 001.01lnlnln (45) 
 
 ( )www xnn
n γφ ln⋅
+
−=
−+
 (46) 
 
Con las expresiones (39) a (46) se observa que el modelo MSA no requiere parámetros ajustables 
de interacción iónica, por lo que entonces posee una capacidad predictiva que justifica su 
Generalidades 
 
23 
implementación en el modelo híbrido conformado en este trabajo, para la reproducción de las 
contribuciones por efecto de las fuerzas de largo alcance que predominan sobre todo a 
concentraciones bajas. 
 
 A continuación se exponen los fundamentos relacionados con la otra parte integrante del 
modelo híbrido: la red neuronal artificial. 
 
1.2 Redes Neuronales Artificiales 
 
En esta sección se presentan aspectos básicos de las redes neuronales artificiales, las cuales se 
han convertido actualmente, en sobresalientes herramientas de aproximación de funciones que 
permiten realizar modelación de fenómenos complejos que se caracterizan por ser 
matemáticamente no lineales, y que en su caso, no es fácil reproducirlos con modelos 
determinísticos. A continuación se exponen dichos fundamentos teóricos. 
 
1.2.1 Estructura de un Sistema Neuronal Artificial 
 
 Las redes neuronales artificiales imitan la estructura hardware del sistema nervioso, con la 
intención de construir sistemas de procesamiento de la información paralelos, distribuidos y 
adaptativos, que puedan representar un cierto comportamiento “inteligente”. 
 
 El cerebro y un computador convencional son mucho más diferentes de lo que suele 
suponerse cuando se habla de “cerebros electrónicos”. Un computador convencional es, en 
esencia, una máquina de von Neumann, construida en torno a una única CPU o procesador, que 
ejecuta de un modo secuencial un programa almacenado en memoria. Por el contrario, el cerebro 
no está compuesto por un único procesador, sino por miles de millones de ellos (neuronas), 
aunque muy elementales. Curiosamente, las neuronas son mucho más simples, lentas y memos 
fiables que una CPU, y a pesar de ello, existen problemas difícilmente abordables mediante un 
computador convencional, que el cerebro resuelve eficazmente (reconocimiento del habla, visión 
de objetos inmersos en ambiente natural, respuesta ante estímulos del entorno, etc.). 
Generalidades 
 
24 
Por lo tanto, la idea que subyace en los sistemas neuronales artificiales, es que, para abordar el 
tipo de problemas que el cerebro resuelve con eficiencia, puede resultar conveniente construir 
sistemas que “copien” en cierto modo la estructura de las redes neuronales biológicas con el fin 
de alcanzar una funcionalidad similar. 
 
 Los tres conceptos clave de los sistemas nerviosos, que se pretende emular en los 
artificiales, son: paralelismo de cálculo, memoria distribuida y adaptabilidad, al entorno. De esta 
manera, podemos hablar de las redes neuronales como sistemas paralelos, distribuidos y 
adaptativos. 
 
 El procesamiento paralelo resulta esencial, como se deduce de un sencillo ejemplo. Un 
ordenador convencional tipo PC, que trabaja secuencialmente, instrucción a instrucción, 
emplearía varios minutosen realizar sobre una imagen compuesta por, digamos, 256 x 256 
pixeles, una sencilla tarea de acentuar contrastes, extraer contornos, etc., mucho más simple que 
la que llevaba a cabo el sistema visual para reconocer una imagen. Por otra parte, el cerebro tarda 
aproximadamente este mismo tiempo en preprocesar una imagen compuesta por millones de 
píxeles (los que representan los conos y bastones de la retina), extraer sus rasgos característicos, 
analizarla, e interpretarla. Ningún sistema creado por el hombre es capaz de realizar algo 
semejante. La clave reside en que en éste último caso los miles de millones de neuronas que 
intervienen en el proceso de visión (solamente en la retina, y sin contar el córtex cerebral, 
intervienen millones de ellas) están operando en paralelo sobre la totalidad de la imagen. 
 
 Otro concepto importante que aparece en el cerebro es el de memoria distribuida. Mientras 
que en un computador la información ocupa posiciones de memoria bien definidas, en los 
sistemas neuronales se encuentra distribuida por las sinapsis de la red, de modo que si una red 
resulta dañada, no perdemos más que una pequeña parte de la información. Además, los sistemas 
neuronales biológicos son redundantes, de modo que muchas neuronas y sinapsis pueden realizar 
un papel similar; en definitiva, el sistema tolerante a fallos (por ejemplo, cada día mueren miles 
de neuronas en nuestro cerebro, y sin embargo tienen que pasar muchos años para que se 
resientan nuestras capacidades). 
 
Generalidades 
 
25 
El último concepto fundamental es el de adaptabilidad. Las redes neuronales artificiales se 
adaptan fácilmente al entorno modificando sus sinapsis (y mediante otros mecanismos también), 
y aprenden de la experiencia, pudiendo generalizar conceptos a partir de casos particulares. En el 
campo de las redes neuronales llamaremos a esta propiedad generalización a partir de ejemplos. 
 
 Los elementos básicos de un sistema neuronal biológico son las neuronas, que se agrupan 
en conjuntos compuestos por millones de ellas organizadas en capas constituyendo un sistema 
con funcionalidad propia. Un conjunto de estos subsistemas da lugar a un sistema global (el 
sistema nervioso, en el caso biológico). En la realización de un sistema neuronal puede 
establecerse una estructura jerárquica similar. El elemento esencial de partida será la neurona 
artificial, que se organizará en capas; varias capas constituirán una red neuronal; y por último, 
una red neuronal (o un conjunto de ellas), junto con las interfaces de entrada y salida, más los 
módulos convencionales adicionales necesarios, constituirán el sistema global de proceso. 
 
 Formalmente, y desde el punto de vista del grupo PDP (Parallel Distributed Processing 
Research Group, de la Universidad de California en San Diego), de D. E. Rumelhart y J. L. 
McClelland, un sistema neuronal o conexionista, está compuesto por los siguientes elementos 
(Martín del Brío y Sanz Molina, 2001): 
 
• Un conjunto de procesadores elementales o neuronas artificiales. 
• Un patrón de conectividad o arquitectura. 
• Una dinámica de activaciones. 
• Una regla o dinámica de aprendizaje. 
• El entorno donde opera. 
 
 A continuación se muestra, un esquema básico de una red neuronal artificial: 
 
Generalidades 
 
26 
 
Figura 1.3. Esquema básico de una red neuronal totalmente conectada 
 
1.2.2 Dinámica Operacional de una Red Neuronal Artificial 
 
Las redes neuronales artificiales están constituida por neuronas interconectadas y arregladas en 
tres capas (esto último puede variar). Los datos ingresan por medio de la “capa de entrada”, pasan 
a través de la “capa oculta o intermedia” y salen por la “capa de salida”. Cabe mencionar que la 
capa oculta puede estar constituida por varias capas. 
 
1.2.2.1 Función de Entrada 
 
 La neurona trata a muchos valores de entrada como si fueran uno solo; esto recibe el 
nombre de entrada global. Por lo tanto, ahora nos enfrentamos al problema de cómo se pueden 
combinar estas simples entradas (ini1, ini2 …) dentro de la entrada global, (gini). Esto se logra a 
través de la función de entrada, la cual se calcula a partir del vector entrada. La función de 
entrada puede describirse como sigue: 
 
 ( ) ( ) ( )inini2i2i1i1i winwinwininput •∗•∗•= K (47) 
 
Donde: ∗ representa al operador apropiado (por ejemplo: máximo, sumatoria, productoria, etc.), n 
al número de entradas a la neurona Ni y wi al peso. 
Generalidades 
 
27 
Los valores de entrada se multiplican por los pesos anteriormente ingresados a la neurona. Por 
consiguiente, los pesos que generalmente no están restringidos cambian la medida de influencia 
que tienen los valores de entrada. Es decir, que permiten que un gran valor de entrada tenga 
solamente una pequeña influencia, si estos son lo suficientemente pequeños. 
 
 
 
 
Figura 1.4 Ejemplo de una neurona con 2 entradas y 1 salida 
 
La nomenclatura utilizada en la Figura 1.4 es la siguiente: ini1 = entrada número 1 a la neurona 
Ni; wi1 peso correspondiente a ini1; ini2 = entrada número 2 a la neurona Ni; wi2 = peso 
correspondiente a ini2; y outi salida de la neurona Ni. El conjunto de todas las n entradas ini = 
(ini1, ini2, …, inin) es comúnmente llamado “vector entrada”. 
 
 Algunas de las funciones de entrada más comúnmente utilizadas y conocidas son: 
 
1) Sumatoria de las entradas pesadas: es la suma de todos los valores de entrada a neurona, 
multiplicados por sus correspondientes pesos. 
 
 ( )∑ =
j
ijij n,2,1,jcon,wn K (48) 
2) Productoria de las entradas pesadas: es el producto de todos los valores de entrada a la 
neurona, multiplicados por sus correspondientes pesos. 
Generalidades 
 
28 
 
 ( ) n,2,1,jcon,wn
j
ijij K=∏ (49) 
 
3) Máximo de las entradas pesadas: solamente toman consideración el valor de entrada 
más fuerte, previamente multiplicado por su peso correspondiente. 
 
 ( ) n,2,1,jcon,wnMax
j
ijij K= (50) 
En este trabajo se utilizará la primera de las funciones de entrada ya descritas, debido a que es la 
que comúnmente se usa en la práctica para ajustar los pesos en redes de retropropagación. 
 
1.2.2.2 Función de Activación 
 
Una neurona bilógica puede estar activa (excitada) o inactiva (no excitada), es decir, que tiene un 
“estado de activación”. Las neuronas artificiales también tienen diferentes estados de activación; 
algunas de ellas solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier 
valor dentro de un conjunto determinado. 
 
 La función activación calcula el estado de actividad de una neurona; transformando la 
entrada global (menos el umbral, Θi) en un valor (estado) de activación, cuyo rango 
normalmente va de (0 a 1) o de (-1 a 1). Con dicho valor de umbral, se le añade un grado de 
libertad adicional a la neurona, con el cual se establece el nivel mínimo que debe alcanzar la 
neurona en su potencial de activación para que produzca una respuesta. Esto es así, porque una 
neurona puede estar totalmente inactiva (0 o-1) o activa (1). 
 
 La función activación, es una función de la entrada global (gini) menos el umbral (Θi). Las 
funciones de activación más comúnmente utilizadas se detallan a continuación: 
 
 
 
 
Generalidades 
 
29 
1) Función lineal: 
 
 
( )
0ay,Θginxcon
a1x1
a1xa1xa
a1x1
xf
ii >−=
⎪
⎩
⎪
⎨
⎧
≥
<<−∗
−≤−
=
 (51) 
 
Los valores de salida obtenidos por medio de esta función de activación serán: a (gini - Θi), 
cuando el argumento de (gini - Θi) esté comprendido dentro del rango (-1/a, 1/a). Por encima o 
por debajo de esta zona se fija la salida en 1 o -1, respectivamente. Cuando a = 1 (siendo que la 
misma afecta la pendiente de la gráfica), la salida es igual a la entrada. 
 
 
 
Figura 1.5 Función lineal 
 
2) Función sigmoidal: 
 
 iixg Θginxcon,e1
1(x)f −=
+
= − (52) 
 
 Los valores de salida que proporcionaesta función están comprendidos dentro de un rango 
que va de 0 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la función de 
activación. 
 
 
Lineal (a,x) Activación 
Generalidades 
 
30 
 
 
 
Figura 1.6 Función sigmoidal 
 
3) Función tangente hiperbólica: 
 
 iixgxg
xgxg
Θginxcon,
ee
ee(x)f −=
+
−
= −
−
 (53) 
 
 Los valores de salida de función tangente hiperbólica están comprendidos dentro de un 
rango que va de -1 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la 
función de activación. 
 
 
 
Figura 1.7 Función tangente hiperbólica 
 
 
 
Sigmoidal (a, x) Activación
Tangente Hiperbólica (a, x) Activación 
Generalidades 
 
31 
Para explicar porque se utilizan estas funciones de activación se suele emplear la analogía a la 
aceleración de un automóvil. Cuando un auto inicia su movimiento necesita una potencia elevada 
para comenzar a acelerar. Pero al ir tomando velocidad, este demanda un menor incremento de 
dicha potencia para mantener la aceleración. Al llegar a altas velocidades, nuevamente un amplio 
incremento en la potencia es necesario para obtener una pequeña ganancia de velocidad. En 
resumen, en ambos extremos del rango de aceleración, se demanda una mayor potencia para la 
aceleración que en la mitad de dicho rango. 
 
 En el caso de la red utilizada en este trabajo se utilizará la función sigmoidal por que 
contribuye a que esta alcance la convergencia de manera uniforme, algo muy deseable en la 
modelación y predicción que se llevará a cabo con este sistema de cómputo conexionista, 
entrenado con el algoritmo de retropropagación. 
 
1.2.2.3 Función de Salida 
 
 El último componente que una neurona necesita es la función de salida. El valor resultante 
de esta función es la salida de la neurona i (outi), por ende, la función de salida determina que 
valor se transfiere a las neuronas vinculadas. Si la función de activación está por debajo de un 
umbral determinado, ninguna salida se pasa a la neurona subsiguiente. Normalmente, no 
cualquier valor es permitido como una entrada para una neurona, por lo tanto, los valores de 
salida están comprendidos en el rango [0, 1] o [-1, 1]. También pueden ser binarios {0, 1} o {-1, 
1}. 
 
 Dos de las funciones de salida más comunes son: 
 
- Identidad: este es el tipo de función más sencillo, tal que la salida es la misma que la 
entrada. 
 
- Binaria: 
⎩
⎨
⎧ ≥
contrariolode0
umbralelesξdonde,ξactsi1 iii 
 
Generalidades 
 
32 
En este trabajo la función identidad fue seleccionada debido a que el algoritmo de 
retropropagación de errores (backpropagation) utilizado en el modelo desarrollado requiere una 
comparación directa entre los valores estimados por la red y los valores meta, algo que la función 
de salida ya mencionada permite llevar a cabo. 
 
1.2.3 Mecanismos de Aprendizaje 
 
Se ha visto que los datos de entrada se procesan a través de la red neuronal con el propósito de 
lograr una salida. También se dijo que las redes neuronales extraen generalizaciones desde un 
conjunto determinado de ejemplos de tales problemas de decisión. Una red neuronal debe 
aprender a calcular la salida correcta para cada arreglo o vector de entrada en el conjunto de 
ejemplos. Este proceso de aprendizaje se denomina: proceso de entrenamiento o 
acondicionamiento. El conjunto de datos (o conjunto de ejemplos) sobre el cual este proceso se 
basa es, por ende: conjunto de datos de entrenamiento. 
 
 Si la topología de la red y las diferentes funciones de cada neurona (entrada, activación y 
salida) no pueden cambiar durante el aprendizaje, mientras que los pesos sobre cada una de las 
conexiones si pueden hacerlo; el aprendizaje de una red neuronal significa: adaptación de los 
pesos. 
 
 En otras palabras el aprendizaje es el proceso por el cual una red neuronal modifica sus 
pesos en respuesta a una información de entrada. Los cambios que se producen durante el mismo 
se reducen a la destrucción, modificación y creación de conexiones en las neuronas. En los 
sistemas biológicos existe una continua destrucción y creación de conexiones entre las neuronas, 
En los modelos de redes neuronales artificiales, la creación de una nueva conexión implica que el 
peso de la misma pasa a tener un valor distinto de cero. De la misma manera, una conexión se 
destruye cuando su peso pasa a ser cero. 
 
Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren modificaciones, 
por lo tanto, se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los 
valores de los pesos permanecen estables (dwij / dt = 0). 
Generalidades 
 
33 
Un aspecto importante respecto al aprendizaje de las redes neuronales es el conocer cómo se 
modifican los valores de los pesos, es decir, cuáles son los criterios que se siguen para cambiar el 
valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. 
 
 Hay dos métodos de aprendizaje que pueden distinguirse: 
 
a) Aprendizaje supervisado: Se caracteriza por que el proceso de aprendizaje se realiza 
mediante un entrenamiento controlado por un agente externo (supervisor maestro) que 
determina la respuesta que debería generar la red a partir de una entrada determinada. El 
supervisor controla la salida de la red y en caso de que ésta no coincida con la deseada, 
se procederá a modificar los pesos de las conexiones, con el fin de conseguir la salida 
obtenida que se acerque a la deseada. 
 
En este tipo de aprendizaje se suelen considerar, a su vez, tres formas de llevarlo a cabo, 
que dan lugar a los siguientes aprendizajes supervisados: 
 
• Aprendizaje por corrección de error: Consiste en ajustar los pesos de las conexiones 
de la red en función de la diferencia entre los valores deseados y los obtenidos a la 
salida de la red, es decir, en función del error cometido en la salida. 
 
• Aprendizaje por refuerzo: Se trata de un aprendizaje supervisado, más lento que el 
anterior, que se basa en la idea de no disponer de un ejemplo completo del 
comportamiento deseado, es decir, de no indicar durante el entrenamiento 
exactamente la salida que se desea que proporcione la red ante una determinada 
entrada. 
 
• Aprendizaje estocástico: Consiste básicamente en realizar cambios aleatorios en los 
valores de los pesos de las conexiones de la red y evaluar a partir del objetivo 
deseado y de distribuciones de probabilidad. 
 
Generalidades 
 
34 
b) Aprendizaje no supervisado: Las redes con aprendizaje no supervisado (también 
conocido como autosupervisado) no requieren influencia externa para ajustar los pesos 
de las conexiones entre sus neuronas. La red no recibe ninguna información por parte 
del entorno que le indique si la salida generada en respuesta a una determinada entrada 
es o no correcta. 
 
Estas redes deben encontrar las características, regularidades, correlaciones o categorías 
que se puedan establecer entre los datos que se presenten en su entrada. Existen varias 
posibilidades en cuanto a la interpretación de la salida de las redes, que dependen de su 
estructura y del algoritmo de aprendizaje empleado. 
 
En cuanto a los algoritmos de aprendizaje no supervisado, en general se suelen 
considerar dos tipos, que dan lugar a los siguientes aprendizajes: 
 
• Aprendizaje hebbiano: Este tipo de aprendizaje se basa en la regla de Hebb que se 
originó a partir de la neurona biológica clásica, la cual solamente puede tener dos 
estados: activa o inactiva. Con dicha regla, la red neuronal pretende medir la 
familiaridad o extraer características de los datos de entrada. El fundamento es una 
suposición bastante simple: si dos neuronas Ni y Nj toman el mismo estado 
simultáneamente (ambas activas o ambas inactivas), el peso de la conexión entre 
ambas se incrementa. 
• Aprendizaje competitivo y comparativo: Se orienta a la clasificación

Continuar navegando