Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN PREDICCIÓN DE PROPIEDADES TERMODINÁMICAS DE DISOLUCIONES ELECTROLÍTICAS USANDO UNA RED NEURONAL ARTIFICIAL T E S I S Que para obtener el Grado de Maestro en Ciencias en Ingeniería Química PRESENTA: ING. ANÍBAL QUINTANA MORA DIRECTOR: DR. RICARDO MACIAS SALINAS MÉXICO D.F. JUNIO DE 2007 II III CARTA DE CESIÓN DE DERECHOS En la Ciudad de México, el día 20 de Junio del año 2007, el que suscribe I.Q.I Aníbal Quintana Mora, alumno del Programa de Maestría en Ciencias en Ingeniería Química, con número de registro B041184, adscrito a la Escuela Superior de Ingeniería Química e Industrias Extractivas, manifiesta que es autor intelectual del presente trabajo de tesis bajo la dirección del Dr. Ricardo Macias Salinas y ceden los derechos del intitulado “Predicción de propiedades termodinámicas de disoluciones electrolíticas usando una red neuronal artificial”, al Instituto Politécnico Nacional, para su difusión con fines académicos y de investigación. Los usuarios de la información no deberán de reproducir el contenido textual, gráficas o datos del trabajo sin el permiso del autor y del director del trabajo. Este permiso puede obtenerse escribiendo a las siguientes direcciones: aquintanam@ipn.mx, rms@ipn.mx. Si el permiso se otorga, el usuario deberá dar el agradecimiento correspondiente y citar la fuente del mismo. __________________________ I.Q.I. Aníbal Quintana Mora INSTITUTO POLITÉCNICO NACIONAL SECRETARÍA DE INVESTIGACIÓN Y POSGRADO IV Agradecimientos A JEHOVÁ DIOS, por el permiso y apoyo determinante que amorosamente me concedió día tras día para cumplir con esta etapa importante de mi vida. A JESUCRISTO, EL HIJO DE DIOS, por el vigoroso efecto de su ejemplo y enseñanzas que me me infundieron ánimo y fortaleza hasta la culminación de este proyecto. A MI ESPOSA LILIANA y A MI HIJA ASHLEY, por su amor y aguante fiel que fueron claves para mi, en este periodo de nuestra vida de familia. A MIS DEMÁS SERES QUERIDOS, por el apoyo que de diversas maneras me brindaron constantemente. V AL INSTITUTO POLITÉCNICO NACIONAL, por ser la Institución de excelencia que forjó mi formación de manera integral, a favor de mi superación académica y profesional. A LA ESCUELA SUPERIOR DE INGENIERÍA QUÍMICA E INDUSTRIAS EXTRACTIVAS, por ser el recinto formativo en el que cursé mis estudios de Licenciatura y de Posgrado. AL CONSEJO NACIONAL DE CIENCIA Y TECNOLOGÍA, por el apoyo económico concedido para la realización de mis Estudios de Posgrado. AL DR. RICARDO MACIAS SALINAS, por su inestimable apoyo y paciencia como mi asesor y director de tesis, además de su enorme calidad como ser humano. A LA COMISIÓN REVISORA, por su valiosa contribución al enriquecimiento del presente trabajo. VI Resumen Se desarrolló un modelo termodinámico de características híbridas para la predicción del coeficiente de actividad iónico medio y del coeficiente osmótico de disoluciones electrolíticas del tipo acuoso a 25 °C. Los principios del modelo desarrollado se basan en el concepto de adición de energías libres de Gibbs en exceso que representan las dos interacciones moleculares más dominantes en una disolución electrolítica como son: ion-ion y ion-disolvente. Para tal efecto, se incorporo el modelo primitivo de la MSA “Mean Spherical Approximation” para representar las fuerzas de largo alcance o electroestáticas entre las especies iónicas mientras que una red neuronal artificial (RNA) del tipo multi-capa con retro-propagación fue utilizada para reproducir las fuerzas de corto alcance del tipo Van der Waals entre los iones y el disolvente. El presente modelo termodinámico asistido por una RNA fue exitosamente validado en la correlación y/o predicción de propiedades iónicas experimentales (coeficiente de actividad iónico medio y coeficiente osmótico) de 68 disoluciones electrolíticas (27 del tipo 1-1, 7 del tipo 1-2, 27 del tipo 2-1 y 7 del tipo 2-2) con valores globales del error cuadrático medio (RMS) de 1.03% en la etapa de entrenamiento y 1.21% durante la validación cruzada en base a un total de 1706 puntos experimentales. A diferencia de otros modelos termodinámicos reportados en la literatura los cuales requieren de dos o más parámetros específicos por disolución electrolítica para la porción de corto alcance, el modelo propuesto en este trabajo es de características totalmente predictivas, no requiere de ningún parámetro de interacción entre especies y es aplicable a varios sistemas acuosos de electrolitos en amplios intervalos de concentración, en particular a muy altas molalidades de la sal. VII Abstract A thermodynamic model of the hybrid type has been developed for the prediction of the mean ionic activity coefficient and the osmotic coefficient of aqueous electrolyte solutions at 25 °C. The principles behind the proposed model are based on the concept of adding excess Gibbs free energies whose represent the two most dominant molecular interactions present in an electrolyte solution; i.e. ion-ion and ion-solvent. For such a purpose, the primitive model of MSA “Mean Spherical Approximation” has been incorporated in this work to represent the long-range or electrostatic forces between the ionic species whereas a multi-layer, back-propagation artificial neural network (ANN) was used to reproduce the short-range forces of the van der Waals type between the ions and the solvent. The proposed thermodynamic model assisted by an ANN was successfully validated during the correlation and/or the prediction of experimental ionic properties (mean ionic activity coefficient and osmotic coefficient) of 70 electrolyte solutions (27 of 1:1 electrolytes, 7 of 1:2 electrolytes, 27 of 2:1 electrolytes and 7 of 2:2 electrolytes) with overall values of the root mean square error (RMS) of 1.03% for the training data and 1.21% for the test data based on a total of 1706 experimental points. Unlike other thermodynamic models reported in the literature for whose two or more specific parameters per electrolyte system are required for the short-range modeling portion, the model proposed in this work features entirely predictive capabilities, it does require none interaction parameters between species being applicable to a variety of aqueous electrolyte solutions over wide concentration ranges, particularly at very high salt molalities. VIII Índice general Resumen………………………………………………………………….................................. V Abstract………………………………………………………………………………………… VI Índice General…………………………………………………………………......................... VII Lista de Tablas…………………………………………………………………………………. IX Lista de Figuras………………………………………………………………………………… X Nomenclatura………………………………………………………………………………….. XII Introducción……………………………………………………………………………………. XIII 1. Generalidades………………………………………………………………........................... 1 1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas………....................................... 1 1.1.1 Coeficiente de Actividad de un Soluto no Volátil………..………............................. 3 1.1.2 Electroneutralidad…………………….……………………………........................... 4 1.1.3 Coeficiente de Actividad Iónico Medio……………..…………....…………………. 5 1.1.4 Coeficiente Osmótico del Disolvente…….……………………...………………….. 9 1.1.5 Propiedades en Exceso…………………………………………………..................... 12 1.1.6 Fuerza Iónica………………………………………………………............................13 1.1.7 Ley límite de Debye – Hückel………………………………………………………. 14 1.1.8 Modelos Semiempíricos…………………………………………………………….. 18 1.1.9 Modelo de Aproximación Esférica Media (MSA)…………….……………………. 20 1.2 Redes Neuronales Artificiales………………………………………………......................... 23 1.2.1 Estructura de un Sistema Neuronal Artificial………………………………………. 23 1.2.2 Dinámica Operacional de una Red Neuronal Artificial………….……..................... 26 1.2.2.1 Función de Entrada……………...……………………………................................ 26 1.2.2.2 Función de Activación………………..…………………………………………... 28 1.2.2.3 Función de Salida………………………………………………………………….. 31 1.2.3 Mecanismos de Aprendizaje…...…………………………………………………..... 32 1.2.4 El Perceptrón Multicapa…………..………………………………............................ 35 1.2.5 Aproximación de Funciones con Redes Multicapa…………………………………. 37 1.2.5.1 Teorema de Kolmogorov………………………………………………………….. 37 IX 1.2.5.2 Teorema de Cybenko…………………………………………................................ 38 1.2.6 El Algoritmo de Retropropagación de Errores BP……..…………............................ 39 1.2.7 Capacidad de Generalización de una Red Neuronal Artificial…………………….... 40 2. Estado del Arte……………..……………………………………………………………….. 42 2.1 Redes Neuronales Aplicadas a Disoluciones Electrolíticas...….……………………………. 42 2.2 Redes Neuronales Aplicadas en otras Áreas de la Ingeniería Química…............................... 43 3. Modelo Propuesto………………………………………………………………………….… 49 3.1 Contribución de las Fuerzas de Largo Alcance………………….....………………………... 51 3.2 Contribución de las Fuerzas de Corto Alcance…………........................................................ 52 3.3 Entrenamiento de la Red Neuronal……..……………………………………………………. 55 3.3.1 Definición de Descriptores……………………………………………....................…... 55 3.3.2 Patrones de Entrenamiento………………………………………………....................... 58 3.4 Estructura de la Red Neuronal……………..…………………………………........................ 60 3.5 Verificación del Poder Predictivo de la Red Neuronal………..……………………............... 64 4. Aplicación del Modelo Asistido con la Red Neuronal Artificial…………………………... 66 4.1 Electrolitos Simétricos 1-1……………………………………………………........................ 67 4.2 Electrolitos No Simétricos 2-1……………………………………………………………….. 74 4.3 Electrolitos No Simétricos 1-2 y Simétricos 2-2……………………………………………… 76 4.4 Ejemplo Comparativo del Modelo Híbrido con el Modelo Semiempírico MSA–Born –Margules……………….…………………………………………………………… 77 Conclusiones y Recomendaciones………………………………………………….................... 81 Bibliografía……………………………………………………………………………………..... 83 Apéndice A……………………………………………………………………………………….. 86 Tabla A1. Entropías y volúmenes de hidratación……………………………….……………... 86 Apéndice B. Contribuciones de Corto y Largo Alcance de Electrolitos Selectos………..…... 88 Apéndice C..………………………………………………………………………………………. 93 C1. Programa MSA en Fortran…………………………………………………………………. 93 C2. Ejemplo de Resultados Generados con el Programa MSA………..……………………… 103 Apéndice D. Programa QNET2000 para la Modelación con Redes Neuronales……………. 105 X Lista de Tablas 1.1 Molalidad Iónica Media (m±) para Algunos Electrolitos Fuertes (Robinson y Stokes, 1970)……………………………………………………………………. 8 1.2 Concentraciones de los principales iones presentes en el agua de mar (Prausnitz et al., 2000)…………………………………………............................................... 12 3.1 Conformación del modelo propuesto ……………………...………................................... 49 3.2 Variables alimentadas al Programa MSA………….……………………………………... 51 3.3 Descriptores de la red neuronal artificial…………………………………………………. 56 3.4 Electrolitos de referencia utilizados en el entrenamiento de la RNA…………………….. 57 3.5 Electrolitos simétricos 1-1 para entrenamiento…………………………………………… 58 3.6 Electrolitos no simétricos 2-1 para entrenamiento………………………………………... 59 3.7 Electrolitos no simétricos 1-2 y simétricos 2-2 para entrenamiento……………………… 59 3.8 Características de los arreglos planteados en la selección de la estructura de la red neuronal…………………………………………………………………………………... 62 3.9 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el Coeficiente de Actividad Iónico Medio………………………………………………………. 63 3.10 Resultados de Entrenamiento y Validación Cruzada de la Red Neuronal para el Coeficiente Osmótico…………………………………………………………………………. 63 3.11 Electrolitos simétricos 1-1 para predicción……………………………………………… 65 3.12 Electrolitos no simétricos 2-1 para predicción…………………………………………... 65 3.13 Electrolitos no simétricos 1-2 y simétricos 2-2 para predicción…………………………. 65 4.1 Parámetros ajustables del modelo MSA–Born–Margules………………………………… 77 XI Lista de Figuras 1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC (Hamer y Wu, 1972)…………………………………………….…………………..................... 7 1.2 Coeficiente osmótico para el NaCl a 25 oC (Hamer y Wu, 1972)…………………………..………………………………...…..................... 12 1.3 Esquema básico de una red neuronal totalmente conectada………………...………………. 26 1.4 Ejemplo de una neurona con 2 entradas y 1 salida……………………...………................... 27 1.5 Función lineal…………...…………………………………………………………………... 29 1.6 Función sigmoidal………….…………………………………………………….................. 29 1.7 Función tangente hiperbólica……...………………………………………………………… 30 3.1 Descripción del modelo propuesto…….……………………………………………………. 50 3.2 Contribuciones de largo alcance para el NaCl obtenidas con el modelo MSA………………52 3.3 Contribuciones de corto alcance para el NaCl obtenidas a partir de las ecuaciones (63) y (64)……………………………………………………………………..54 3.4 Patrón de entrenamiento en la capa de entrada de la RNA……………………..…………… 60 3.5 Estructura E6-12-1 (Gráfico generado por QNET2000)……………………………………..61 3.6 Estructura E6-6,6-1 (Gráfico generado por QNET2000)…………………………………….61 3.7 Estructura E6-6,4,2-1 (Gráfico generado por QNET2000)…………………………………..62 4.1 Gráfica de paridad generada por QNET2000 entre la contribuciones teóricas de corto alcance para el coeficiente de actividad iónico medio y las obtenidas con la RNA para electrolitos 1-1 ………………………………………………. 67 4.2 Gráfica de paridad generada por QNET2000 entre las contribuciones teóricas de corto alcance para el coeficiente osmótico y las obtenidas con la RNA para electrolitos 1-1……………...….…………………………………………………………... 68 4.3 Comportamiento del error cuadrático medio durante el entrenamiento de la RNA………… 69 4.4 Comportamiento del error cuadrático medio durante la validación cruzada de la RNA…… 69 4.5 Coeficientes actividad iónicos medios totales correlacionados con el modelo híbrido MSA-RNA…………………………………………………………………….. 70 4.6 Coeficientes osmóticos totales correlacionados con el modelo híbrido MSA-RNA………. 71 4.7 Coeficientes actividad iónicos medios totales obtenidos en fase predictiva con el XII modelo híbrido MSA-RNA……………………………………………………………………….. 72 4.8 Coeficientes osmóticos totales obtenidos en fase predictiva con el modelo híbrido MSA-RNA……………………………………………………………………….. 73 4.9 Gráfica de paridad generada por QNET2000 entre las contribuciones teóricas de corto alcance para el coeficiente de actividad iónico medio y las obtenidas con la RNA para electrolitos 2-1……………….………..……..……………........ 75 4.10 Gráfica de paridad generada por QNET2000 entre las contribuciones teóricas de corto alcance para el coeficiente osmótico y las obtenidas con la RNA para electrolitos 2-1……..…………………………………………...……………….. 75 4.11 Gráfica de paridad generada por QNET2000 entre las contribuciones teóricas de corto alcance para el coeficiente de actividad iónico medio y las obtenidas con la RNA para electrolitos no simétricos 1-2 y simétricos 2-2………………………..76 4.12 Gráfica de paridad generada por QNET2000 entre las contribuciones teóricas de corto alcance para el coeficiente osmótico y las obtenidas con la RNA paraelectrolitos no simétricos 1-2 y simétricos 2-2………………………………….. 76 4.13 Gráfica comparativa para el coeficiente de actividad iónico medio del NaCl acuoso a 25oC…..……………………………………………………………………….. 78 4.14 Gráfica comparativa para el coeficiente osmótico del NaCl acuoso a 25oC….……………... 79 XIII Nomenclatura ia Actividad del componente i. a Valor de la función de activación de la neurona. γA Constante de Debye – Hückel para el coeficiente de actividad del soluto. φA Constante de Debye – Hückel para el coeficiente osmótico del disolvente. b Parámetro ajustable en la ecuación de la Ley límite de Debye – Hückel. sd Densidad del disolvente. e Carga del electrón. ( )kE Función de Error. ( ).f Función contínua definida en un intervalo. ig Función de transferencia. G Energía de Gibbs total. *G Energía de Gibbs de la disolución ideal. EXG Energía de Gibbs en exceso. igin Entradas globales a la red neuronal. ix,ini Valores de entradas a la red neuronal. I Fuerza iónica. im Concentración molal del soluto i. M Masa molecular del disolvente. MX Electrolito neutro. MXm Molalidad de electrolito no disociado. in Número de moles de ión. tn Número total de moles de la disolución. AN Número de Avogadro. iN Número total de entradas a la red neuronal. kz,out i Salida de la capa final de la red neuronal. P Presión. XIV sp Presión parcial del disolvente. sat sP Presión de vapor del disolvente puto. R Constante de los gases. mn RR , Funciones vectoriales. RMS Error cuadrático medio. ( )rii SS Entropía de hidratación iónica reducida. t Tiempo. kt Valor meta o salida objetivo en la capa final de la red neuronal. T Temperatura absoluta. wV Volumen total del disolvente. ( )rii VV Volumen parcial molal iónico reducido. wx Fracción mol de disolvente. jy Salida de la capa intermedia de la red neuronal. z Valencia iónica. Símbolos griegos Γ Factor “screening”. 0 ijΓ Coeficiente de actividad iónico medio reducido. iγ Coeficiente de actividad del componente i. ( )m iγ Coeficiente de actividad del componente i en la escala de concentración molal. ±γ Coeficiente de actividad iónico medio. ε Criterio de convergencia. oε Permitividad en el vacío. rε Permitividad relativa o constante dieléctrica. ,,,i kj θθΘ Valores de umbral. κ Longitud de Debye. iμ Potencial químico del componente i. XV 0 iμ Potencial químico del componente i en un estado de referencia estándar expresado en forma general. * iμ Potencial químico del componente i para una disolución hipotética ideal expresada en forma general. ⊗ iμ Potencial químico del soluto i para una disolución hipotética ideal 1 molal del mismo soluto i en el disolvente j. r CA±γln Contribución de corto alcance al coeficiente de actividad iónico medio del electrolito de referencia. ν Carga iónica. sν Volumen molar del disolvente. iξ Concentración del componente i expresada en forma general. π Presión osmótica; número pi. σ Diámetro iónico efectivo. iσ Diámetro iónico de Pauling. φ Coeficiente osmótico. ijφ Función sigmoidal. r CAφ Contribución de corto alcance al coeficiente osmótico del electrolito de referencia. θα,ω, Vectores de entrada a la red neuronal. Subíndices CA Fuerzas de corto alcance. i Soluto; ión. sj, Disolvente. LA Fuerzas de largo alcance. MSA Modelo de aproximación esférica media. RNA Red neuronal artificial. XVI Introducción Existen diversos procesos naturales e industriales que requieren de una información cuantitativa acerca de las propiedades termodinámicas de disoluciones electrolíticas; ejemplos de estos incluyen: procesos de partición en sistemas bioquímicos, procesos de precipitación y cristalización en sistemas de energía geotérmica, desalado del agua, control de la contaminación del agua, efectos de desplazamiento salino (“salting-in” y “salting-out”) en procesos de extracción y destilación, producción de gas natural a partir de acuíferos a alta presión, procesamiento de alimentos y producción de fertilizantes. La modelación formal del comportamiento termodinámico de disoluciones conteniendo electrolitos enfrenta grandes retos debido a la complejidad de las diferentes interacciones moleculares existentes ya sea del tipo Van der Waals, electrostáticas y de hidratación. En las últimas 5 décadas se han llevado a cabo avances teóricos significativos en la caracterización de propiedades termodinámicas de disoluciones electrolíticas, debido en gran parte al acelerado desarrollo de métodos basados en la mecánica estadística (Friedman, 1981). Sin embargo, debido a la complejidad de estas nuevas teorías no existen aun modelos ingenieríles prácticos que incorporen en forma simplificada representaciones de tales teorías. Diversos modelos semi-empíricos han sido publicados en la literatura, sin embargo, la aplicabilidad de estos es limitada con respecto a varias variables: concentración, temperatura, presión o naturaleza misma de la solución electrolítica (Prausnitz et al., 2000; Tester y Modell, 1997). Un procedimiento de modelación ampliamente favorecido por varios investigadores es el cálculo de algunas propiedades termodinámicas de la disolución electrolítica a partir de una expresión para la energía libre de Gibbs en exceso EXG de la mezcla en cuestión (Pitzer, 1973; Chen et al., 1982; Pitzer y Simonson, 1986; Wilczec-Vera y H. Vera, 2003). En general, la expresión resultante para EXG esta compuesta por dos principales contribuciones que representan el tipo de interacciones existentes en la solución: uno de largo alcance o electrostático y el otro de corto alcance o de van der Waals. El uso de un modelo basado en una expresión para EXG permite el cálculo directo de coeficientes de actividad iónicos medios así como coeficientes osmóticos de las especies iónicas disueltas en solventes acuosos o orgánicos. Sin embargo, la aplicabilidad de este XVII tipo de modelos es limitada por varios motivos: (1) no es posible determinar propiedades volumétricas de la disolución electrolítica, (2) el poder predictivo del modelo disminuye a altas temperaturas y presiones, particularmente cerca del punto crítico del disolvente, y (3) han demostrado ser parcialmente exitosos en la representación de propiedades iónicas experimentales para varias disoluciones electrolíticas particularmente a 25 °C y dentro de un intervalo moderado de concentraciones de la sal. Adicionalmente, todos los modelos del tipo EXG reportados hasta ahora en la literatura requieren el uso de uno o más parámetros específicos por disolución electrolítica en la porción de corto alcance; impidiendo así su aplicabilidad predictiva para otros sistemas electrolíticos para los cuales no se dispone de dichos datos. En base a lo anteriormente expuesto, el propósito del presente trabajo fue desarrollar un modelo termodinámico hibrido de características altamente predictivas para la representación precisa de dos propiedades termodinámicas importantes: coeficientes de actividad iónicos medios y coeficientes osmóticos de disoluciones electrolíticas acuosas a 25 °C en amplios intervalos de concentración, en particular a muy altas molalidades del electrolito. El modelo propuesto combina una expresión analítica basada en la MSA (Mean Spherical Approximation) para la estimación de las fuerzas de largo alcance (tipo ion-ion) con una red neuronal artificial multi-capa con retro- propagación encargada de reproducir las fuerzas de corto alcance (tipo ion-disolvente). El modelo resultante no requiere de ningún parámetro ajustable y asume que existe una disociación total de la sal en solución; por ende las únicas especies presentes dentro de la solución son el agua y los iones (cationesy aniones). El modelo fue finalmente aplicado a varios sistemas acuosos con electrolitos simétricos (del tipo 1-1 y 2-2) y no-simétricos (del tipo 1-2 y 2-1) en la representación de datos experimentales reportados tales como coeficientes de actividad medios de las especies iónicas y coeficientes osmóticos (actividad del solvente) a 25 ºC. Estructura de la Tesis El resto de esta tesis ha sido dividido en cuatro capítulos. El Capítulo 1 presenta algunos conceptos y principios generales relacionados con la termodinámica de disoluciones electrolíticas así como de redes neuronales artificiales (RNA). El Capítulo 2 proporciona una breve discusión de los trabajos previos más pertinentes sobre la aplicación de las RNAs en problemas de ingeniería química. La descripción detallada del modelo termodinámico hibrido propuesto en este trabajo es XVIII presentado en el Capítulo 3. Por otra parte, el Capítulo 4 presenta los resultados de la aplicación del modelo así como una discusión de los mismos. Finalmente, al final de la tesis se incluye una lista de conclusiones y recomendaciones derivadas a partir del presente trabajo. Generalidades 1 Capítulo 1 Generalidades En este capítulo se muestran conceptos básicos incluidos con el marco teórico definido para el modelo propuesto en este trabajo. Los dos aspectos fundamentales en los que se centran dichos conceptos son, por una parte, la termodinámica de las disoluciones electrolíticas acuosas y por otra, las redes neuronales artificiales (RNA). 1.1 Termodinámica de las Disoluciones Electrolíticas Acuosas La termodinámica de disoluciones de electrolitos no es una simple continuación de la termodinámica de disoluciones no electrolíticas. Abundan en la bibliografía las referencias de estudios sobre disoluciones de electrolitos, experimentales y teóricos. Desafortunadamente, muchos de ellos son confusos, principalmente porque los autores no definen claramente las funciones termodinámicas y porque no hay una notación estándar universalmente aceptada (Wilczec-Vera y H. Vera, 2003). El mejor estudio de la termodinámica de disoluciones de electrolitos se encuentra en el libro de Robinson y Stokes (2002). Sin embargo, como complemento pueden citarse, la publicación editada por Pitzer (1973) y el libro de Barthel et al. (1998). En las disoluciones electrolíticas acuosas el agua como disolvente presenta una constante dieléctrica alta, y al agregar un electrolito, este se descompone en dos o más iones. Por tanto, una disolución binaria, por ejemplo, cloruro de sodio acuoso es, en cierto sentido, una disolución ternaria que contiene agua, un catión y un anión. Pero en otro sentido, no es una disolución ternaria porque las concentraciones del catión y del anión no son dos variables independientes; si una de ellas está fijada, la otra también lo está por el balance de materia y la condición de electroneutralidad. Como la ionización y la condición de electroneutralidad deben tomarse en cuenta en la termodinámica de disoluciones de electrolitos, pero no en la termodinámica de Generalidades 2 disoluciones de no electrolitos, el tratamiento de las disoluciones electrolíticas es necesariamente mucho más elaborado. Para electrolitos fuertes (sales), la ionización suele ser completa, pero para los electrolitos débiles (por ejemplo, ácido acético), la ionización es sólo parcial. En ese caso, para obtener una descripción termodinámica útil, es necesario tener en cuenta los equilibrios químicos, además de uno o más balances de materia y de la condición de electroneutralidad. La termodinámica de las disoluciones de electrolitos suele utilizar escalas de concentración diferentes de las empleadas en la termodinámica de las disoluciones de no electrolitos. En esta última, las escalas más comunes son las fracciones molares o fracciones en volumen que tienen una característica deseable: varían de cero a uno. Para disoluciones electrolíticas, la escala de concentraciones más popular es la molalidad (moles de soluto por kg de disolvente). La molalidad, sin embargo, puede variar de cero a valores muy altos (arriba de 100), pero se utiliza porque, en la mayor parte de las aplicaciones, el estudio se limita a disoluciones diluidas o moderadamente concentradas, en las que la molalidad puede llegar a 10 o 20, y en raras excepciones es superior. Otro aspecto importante que actualmente continúa siendo una fuente de confusiones en el estudio de las disoluciones electrolíticas, es la elección de las variables. A diferencia de las mezclas de no electrolitos, en las que se utiliza el tratamiento termodinámico de Lewis-Randall, teniendo como variables la temperatura, la presión y las concentraciones de todos los componentes, normalmente expresadas como fracciones molares, en las disoluciones electrolíticas, especialmente en disoluciones diluidas, se usa el tratamiento termodinámico de Mc-Millan-Mayer, en el que las variables pueden ser la temperatura, las concentraciones de todas las especies disueltas y la presión osmótica. En el último caso, a partir de las variables indicadas e incluyendo el concepto de electroneutralidad, se han desarrollado modelos teóricos o semiempíricos, que requieren parámetros ajustables de interacción entre las especies que conforman el sistema electrolítico y que son obtenidos a través de correlaciones realizadas a partir de datos experimentales. Generalidades 3 A continuación se describen algunos conceptos básicos importantes, relacionados con la termodinámica de disoluciones electrolíticas. 1.1.1 Coeficiente de Actividad de un Soluto no Volátil La actividad ai y el coeficiente de actividad γi del componente i a una cierta temperatura, presión y composición, están relacionados en forma general con el potencial químico µi por: ( )iiiiii RTaRT ξγμμμ lnln 00 +=+= (1) donde µi0 es el potencial químico de i en un estado estándar convenientemente definido y ξ es una medida adecuada de la concentración. Para una mezcla que contiene un soluto no volátil en un disolvente podemos utilizar la ecuación (1) para el disolvente, con la definición convencional de µi0. Sin embargo, para un soluto no volátil, el líquido i puro, a la temperatura y presión del sistema, no siempre es el estado estándar conveniente por que en la mayor parte de los casos, a temperaturas y presiones normales, el soluto puro no volátil no puede existir como líquido. Tomando en cuenta que el coeficiente de actividad iónico medio de un sistema electrolítico acuoso está relacionado con la actividad del soluto, el potencial químico del soluto disuelto se escribe como: ( )iiiiii RTaRT ξγμμμ lnln ** +=+= (2) donde µi* es el potencial químico de i en el estado estándar, que es independiente de la composición pero depende de la temperatura, de la presión, y de la naturaleza del soluto y del disolvente. Una elección conveniente para µi* es el potencial químico de i en una disolución hipotética ideal de i en el disolvente, a la temperatura y presión del sistema y la concentración unidad ξ i = 1. En esta disolución ideal, γi → 1 cuando ξ i → 0. Generalidades 4 Es un error frecuente afirmar que el estado estándar para el soluto es el mismo a la temperatura y presión del sistema y a dilución infinita. Esto no es correcto; a dilución infinita, el potencial químico del soluto es -∞. El potencial químico en el estado estándar para el soluto i debe ser definido a una concentración determinada (distinta de cero). Esta concentración es la concentración unidad. Se utiliza la concentración unidad porque su logaritmo es cero. Cuando hacemos ξ i = mi, la ecuación (2) se transforma en: ( )( )imiii mRT γμμ ln+= ⊗ (3) donde γi (m) es el coeficiente de actividad en la escalade molalidades. El estado estándar es el estado hipotético, de la disolución ideal, 1 molal de soluto i en el disolvente j. En la disolución real γi (m) → 1 cuando m i → 0. Por lo tanto, el coeficiente de actividad iónico medio puede definirse como una medida de la desviación del comportamiento real de una disolución electrolítica, con respecto al comportamiento de una disolución hipotética ideal. 1.1.2 Electroneutralidad Como ya se ha indicado, en una disolución electrolítica, el soluto se disocia en cationes y aniones. Estas especies no son componentes independientes por la condición de electroneutralidad. Por ejemplo, cuando un mol de un electrolito fuerte, como NaCl, está disuelto en un volumen de agua de un litro, tendremos una disolución uno molal de NaCl que está totalmente disociado en una disolución uno molal de los iones sodio, cargados positivamente, y una disolución uno molal de los iones cloruro, cargados negativamente. Las medidas termodinámicas habituales no dan las propiedades de una especie iónica, sino la de los electrolitos neutros formados por cationes y aniones. En una disolución de electrolito, la electroneutralidad impone la condición de no poder variar independientemente la cantidad de sustancia de las especies iónicas. En NaCl acuoso hay tres especies, pero sólo dos (no tres) componentes. Generalidades 5 Cuando está disuelto en un disolvente de constante dieléctrica alta, como el agua, un electrolito neutro MX se disocia en v+ iones positivos (cationes), cada uno con una carga z+, y v- iones negativos (aniones), de carga z-. Las cargas se expresan en unidades normalizadas, en donde z+ = 1 para un protón. La disociación electrolítica se representa por: MX v+Mz+ + v-Xz- (4) La electroneutralidad requiere que: v+ z+ + v- z- = 0 = v+ z+ − v- |z-| (5) Por ejemplo, en la disociación: H2SO4 2H+ + SO42- tenemos v+ = 2, z+ = 1, z- = 1 y v- = −2 1.1.3 Coeficiente de Actividad Iónico Medio La ecuación (4) representa un equilibrio químico. El criterio del potencial químico para dicho equilibrio es: −+ −+ += zz vv XMMX μμμ (6) Utilizando la escala de molalidad para los coeficientes de actividad como se indica en la ecuación (3) y sustituyendo en la ecuación (6) se obtiene el potencial químico del electrolito: ( ) ( )−−−+++⊗ ++= γγμμ mRTvmRTv lnlnMXMX (7) donde se ha eliminado el superíndice (m) para los coeficientes de actividad γ+ y γ-, y donde Generalidades 6 ⊗− ⊗ + ⊗ −+ += zz vv XMMX μμμ (8) En la ecuación (8) µi⊗(Mz+) es el potencial químico del ion M (con carga z+) en una disolución ideal hipotética donde la molalidad del ion M es la unidad. Una definición similar se enuncia para µi⊗(Xz-). La ecuación (7) se puede escribir de forma más eficiente: ( ) ( ) ( )−−++⊗−−++−−++⊗ +=++= vvvvvv aaRTRTmmRT lnlnln MXMXMX μγγμμ (7a) Así, la molalidad iónica media, m±, y el coeficiente de actividad iónico medio, γ ± se definen como: ( ) vvv mmm 1−−++± = (9) ( ) vvv 1−−++± = γγγ (10) donde v = v+ + v-. Sustituyendo en la ecuación (7a) se obtiene: ( )( ) ( )( )mm avRTmvRT ±⊗±±⊗ +=+= lnln MXMXMX μγμμ (11) con ( ) ( )mvvv maaa ±±−−++± == γ1 (12) donde a± es la actividad iónica media. Generalidades 7 0.6000 0.6500 0.7000 0.7500 0.8000 0.8500 0.9000 0.9500 1.0000 1.0500 0.0010 0.0100 0.1000 1.0000 10.0000 m (mol / kg) γ± [- ] γ± Experimental Figura 1.1 Coeficiente de actividad iónico medio para el NaCl a 25 oC (Hamer y Wu, 1972) Para electrolitos fuertes, donde la ionización es prácticamente completa, m+ = v + mMX y m- = v - mMX. En este caso mMX, corresponde a la molalidad del electrolito determinada al preparar la disolución, ignorando la disociación. Y bajo este desarrollo, el coeficiente de actividad iónico medio viene dado por: ( ) vvv vvm a 1− + + + ± ± = MX γ (13) Por ejemplo, la molalidad media y el coeficiente de actividad iónico medio para el NaCl, que es un electrolito 1-1, son m± = mMX, y γ ± = [(γ Na+)(γ Cl-)] 1/2. Relaciones similares pueden deducirse para electrolitos simétricos 2-2, 3-3, etc. Para electrolitos no simétricos 1-2 o 2-1 (por ejemplo, Generalidades 8 CaCl2 ), m± = 41/3 mMX y γ ± = [(γ Ca2+)(γ Cl-)2] 1/3. La Tabla 1.1 muestra la molalidad media para sales de diferentes estequiometrías. Tabla 1.1 Molalidad iónica media (m±) para algunos electrolitos fuertes (Robinson y Stokes, 2002) Tipo de soluto Ejemplo m± Electrolito Mv+ X v- mMX 1-1; 2-2; 3-3 NaCl; ZnSO4 mMX 1-2; 2-1 CaCl2 41/3 mMX 1-3; 3-1 AlCl3 271/4 mMX 1-4; 4-1 Th(NO3)4 2561/5 mMX 3-2 Al2(SO4)3 1081/5 mMX La Figura 1.1 muestra los coeficientes de actividad iónicos medios en función de la concentración para algunos electrolitos en agua a 25 oC. Por definición γ ± es la unidad a molalidad cero de todos los electrolitos. En disoluciones diluidas γ ± disminuye rápidamente al aumentar la concentración; la pendiente de esta caída inicial depende del tipo de electrolito. Para la mayor parte de electrolitos, las curvas similares a las de la Figura 1.1 muestran un mínimo a concentraciones intermedias (Robinson y Stokes, 2002). A concentraciones altas, γ ± puede ser mucho mayor que la unidad. La ecuación (10) indica que la cantidad medible γ ± está determinada por los coeficientes individuales γ+ y γ- que, normalmente, no son medibles por separado. Los datos de actividad para electrolitos se obtienen a partir de mediciones de potenciales de celdas electroquímicas, o a partir de medidas de solubilidad y propiedades coligativas. Una importante fuente de datos experimentales son las medidas de presión de vapor. El método más preciso es el de presiones de vapor relativas, o método isopiéstico, descrito en la bibliografía (Robinson y Stokes, 2002). Las medidas obtenidas con dicho método proporcionan la actividad Generalidades 9 del disolvente. Para obtener la actividad del soluto, se utiliza la ecuación de Gibbs – Duhem que relaciona la actividad del disolvente con la del soluto y la cual será descrita en el siguiente apartado. En la práctica, ha sido factible el uso de una normalización basada en el principio de estados correspondientes aplicado por H. P. Meissner al coeficiente de actividad iónico medio, para generalizar el comportamiento no ideal de los electrolitos fuertes (Tester y Model, 1997). Dicha normalización, se expresa de la siguiente manera: ( ) −+±=Γ zzij 10 γ (14) donde 0ijΓ es el coeficiente de actividad iónico medio reducido, para una disolución que contiene un electrolito fuerte que se disocia totalmente. 1.1.4 Coeficiente Osmótico del Disolvente Tal como el coeficiente de actividad está relacionado con la actividad del soluto, el coeficiente osmótico está ligado a la actividad del disolvente. Para esté último, comúnmente se utiliza como estado estándar el líquido puro a la temperatura y presión del sistema. Sea un electrolito fuerte MX disuelto y completamente disociado en un disolvente s. Utilizando la escala de molalidad, el potencial químico del disolvente, µs, es ( ) ( ) ( ) ( ) ( ){ }idealln,ln, 00 msmssss aRTPTaRTPT φμμμ +=+= (15) donde µs0(T, P) es el potencial químico del disolvente puro s, a la temperatura T y presión P del sistema; φ (m) es el coeficiente osmótico. El superíndice (m) para φ y as(ideal) indica que estas cantidades dependen de la elección de la escala de concentración. Generalidades 10 Para obtener la actividad del disolvente, se utiliza la ecuación de Gibss – Duhem, ya que a través de ella se puede relacionarla actividad del soluto disociado con la del disolvente a temperatura y presión constantes, como se indica a continuación: ( ) ± ± ± ±± ∫ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ −−= dm m mMmMa i m PT m ss s 0 , ln 10001000 ln γ (16) Debido a que el coeficiente osmótico, establece una medida de la desviación del comportamiento real de un sistema con respecto al ideal, es posible representar dicha desviación en diversas propiedades físicas de la mezcla. Una de ellas, la presión osmótica π viene dada por: s s a v RT ln−=π (17) donde vs es el volumen molar del disolvente. El coeficiente osmótico φ es la relación π(real)/ π(ideal). Para encontrar π(real) y π(ideal) se sustituye la ecuación (15) en la (16). Nótese que para la disolución ideal, el segundo sumando del segundo miembro de la ecuación (15) se hace cero. En base a lo anterior, la expresión general para calcular el coeficiente osmótico es: ( ) ( )( ) ( ) ( ) ( ) ± ± ± ± ± ∫ ± ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ +=== dm m m ma a m PT m m s sm 0 , ln11 ln ln γ π πφ ideal real ideal real (18) De la que: ( ) ( ) MXideal vm MmMa ssms 10001000 ln −=−= ± (19) Sustituyendo la ecuación (18) en la ecuación (17) se tiene que: Generalidades 11 s s m a Mvm ln1000)( ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= MX φ (20) Ahora bien, en el caso de disoluciones diluidas, la representación de datos experimentales se hace mejor a partir de los coeficientes osmóticos, ya que a diferencia de los coeficientes de actividad, γs, son más sensibles a la concentración. Como se indicó en el apartado anterior, experimentalmente φ se suele obtener a partir de medidas de presión de vapor puesto que, a presiones reducidas, la actividad es: sat s s s P pa = (21) Aquí ps es la presión parcial del disolvente y Pssat es la presión de vapor del disolvente puro, ambas a la temperatura del sistema, T. De esta forma, para disoluciones diluidas, la combinación de las ecuaciones (19) y (20) dan lugar a una expresión útil para calcular el coeficiente osmótico, es decir: sat s s s m P P Mvm ln1000)( ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= MX φ (22) La figura 1.2 muestra gráficamente el comportamiento del coeficiente osmótico obtenido experimentalmente para el NaCl, desde la región diluida hasta el punto de saturación de la sal. Generalidades 12 0.8000 0.8500 0.9000 0.9500 1.0000 1.0500 1.1000 1.1500 1.2000 1.2500 1.3000 0.0010 0.0100 0.1000 1.0000 10.0000 m (mol / kg) φ [-] φ Experimental Figura 1.2 Coeficiente osmótico para el NaCl a 25 oC (Hamer y Wu, 1972) 1.1.5 Propiedades en Exceso Las funciones en exceso son la diferencia entre las propiedades termodinámicas de la disolución y las de la disolución ideal, a la misma temperatura, presión y composición. Consideremos nuevamente una disolución binaria de electrolito que contiene m moles de una sal MX (completamente disociada) en 1 kg de disolvente s. La cantidad de sustancia del disolvente es ns = 1000/Ms, donde Ms es la masa molar del disolvente; si el disolvente es agua, ns = 55.51 mol. A temperatura y presión constantes, la energía de Gibbs total, G, de la disolución es: Generalidades 13 ssnnG μμ += MXMX (23) donde el potencial químico de la sal, µMX, viene dado por la ecuación (10) y el potencial químico del disolvente µs, viene dado por la ecuación (14). Sustituyendo las ecuaciones (11) y (12) en la expresión de µMX, y la ecuación (18) en la expresión para µs, se obtiene: ( ) ( )[ ]{ } ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ −+++= −− + +± ⊗ φμγμ 1000 lnln 01MXMXMX sss vvvm disolución vmMRTnvvmRTvnnG (24) donde, por simplicidad, se ha omitido el subíndice MX para la molalidad m del electrolito. Para una disolución ideal, γ ± (m) = φ = 1, y la energía de Gibbs viene dada por: ( )[ ]{ } ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ −++= −− + + ⊗ 1000 ln 01MXMXMX * s ss vvv vmMRTnvvmRTvnnG μμ (25) Además, la energía de Gibbs en exceso, de la disolución que contiene m moles de sal en 1 kg de disolvente, viene dada por: ( ) ( )φγ −+=−= ± 11000lnMX * s s mEX vmMRTnRTvnGGG (26) Simplificando: ( )( )φγ −+= ± 1lnMX mEX RTvnG (27) 1.1.6 Fuerza Iónica A la misma concentración de iones, los electrolitos con iones de cargas múltiples tienen un mayor efecto sobre los coeficientes de actividad de lo iones que los electrolitos con iones de carga Generalidades 14 unidad. Para expresar esta dependencia, resulta útil introducir la fuerza iónica (molal) de la disolución, I, que se define como: ( ) ∑=− i ii zmkgmolI 21 2 1 (28) donde zi es la carga del ion i y mi es su concentración expresada como molalidad. El sumatorio se extiende a todas las especies iónicas en la disolución. Por ejemplo, para el agua de mar, cuya composición se muestra en la Tabla 1.2, I = 0.72 mol kg-1. Según esta definición, la fuerza iónica de un electolito 1-1 es igual a su molalidad, mMX; para un electrolito 1-2 (por ejemplo, Na2SO4) es 3 mMX, y para un electrolito 2-2 (por ejemplo ZnSO4) es 4 mMX. Tabla 1.2 Concentraciones de los principales iones presentes en el agua de mar (Prausnitz et al., 2000) Componente Molalidad (mol kg-1) Na+ 0.486 Mg2+ 0.055 Ca2+ 0.011 K+ 0.010 Cl- 0.566 SO42- 0.029 1.1.7 Ley límite de Debye – Hückel El coeficiente de actividad de un electrolito depende mucho de su concentración. No obstante, además de esta dependencia, en las disoluciones con electrolitos fuertes existen diferentes Generalidades 15 interacciones entre las especies que la conforman. Dichas interacciones se describen brevemente a continuación: a) Fuerzas de largo alcance (LA): Son las interacciones ión – ión de atracción y repulsión electrostáticas que predominan a concentraciones bajas de electrolito. b) Fuerzas de corto alcance (CA): Son las interacciones entre todas las especies (ión – ión y ión – disolvente), que predominan a concentraciones altas de electrolito. Cabe mencionar que dos efectos producidos por estas interacciones son por una parte, el de la asociación de iones, originado por la disociación incompleta de electrolitos a elevadas concentraciones una vez que se rebasa el punto de saturación de la sal, y por otra parte la solvatación de iones, que en el caso de disoluciones acuosas consiste en la formación de complejos iónicos hidratados. En las Figuras 1.1 y 1.2, el efecto de las interacciones descritas arriba, se puede describir de la siguiente manera: A concentraciones bajas (0.001 hasta 1 molal), ambos coeficientes disminuyen formando lo que se conoce como la pendiente de Debye –Hückel hasta llegar a un mínimo. Esta parte del comportamiento se debe al efecto dominante de las fuerzas de largo alcance. Posteriormente, al seguir aumentando la concentración (después de 1 molal), el coeficiente supera el mínimo para continuar aumentando progresivamente. La razón de este cambio en el comportamiento, se debe al efecto dominante de las fuerzas de corto alcance. Aunque este comportamiento es característico para la mayoría de los electrolitos fuertes, cabe aclarar que el punto de baja concentración en el cual se genera el mínimo para cada sustancia, generalmente no es el mismo. Utilizando los conceptos bien establecidos de la electrostática clásica, Debye y Hückel dedujeron una expresión simple para el coeficiente de actividad γ i de un ión con una carga zi en una disolución diluida de fuerza iónica I (Tester y Modell, 1997): ( ) 212ln IzA i m i γγ −= (29) donde la constante Aγ viene dada por: Generalidades 16 ( ) 21 2232 2 8 s A ro dN RT eA πεεγ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = (30) y en la que a su vez, e es la carga del electrón (e = 1.60218 x 10-19 C), εo esla permitividad en el vacío (εo = 8.8549 x 10-12 C2 N-1m-2), εr es la permitividad relativa o constante dielétrica, NA es la constante de Avogadro (NA = 6.02214 x 1023mol-1) y ds es la densidad del disolvente (kg m-3). Las ecuaciones (28) y (29) proporcionan los coeficientes de actividad de los iones, no el del electrolito en una disolución eléctricamente neutra. Pero la magnitud que se suele medir experimentalmente es el coeficiente de actividad iónico medio, γ ±(m). Como ya se vió anteriormente, para un electrolito MX, γ ±(m) se define por medio de la ecuación (9). sustituyendo la ecuación (28) en la ecuación (9), e introduciendo la condición de electroneutralidad expresada por la ecuación (5) se obtiene: ( ) 21ln IzzAmi −+−= γγ (31) donde | z+ z−| es el valor absoluto del producto de las cargas. Una deducción similar conduce a la siguiente expresión para el coeficiente osmótico: 211 IzzA −+−=− φφ (32) donde la constante de Debye –Hückel Aφ está directamente relacionada con la constante Aγ dada por la ecuación (29): γφ AA 3 1 = (33) Generalidades 17 La ecuación (30) es la ley límite de Debye –Hückel, útil para interpretar las propiedades de las disoluciones de electrolito. Es una ley límite exacta a bajas concentraciones en el mismo sentido que la ecuación de estado del virial, truncada después del segundo coeficiente del virial, es una ley límite exacta para el factor de compresibilidad de un gas a baja presión. Si el disolvente es agua a 25 oC y presión atmosférica, Aγ = 1.174 kg1/2 mol-1/2 (εr = 78.41, ds = 997 kg m-3). Convirtiendo la ecuación a logaritmos decimales, se obtiene: ( ) ( ) 21510.025log Izzm −+± −=acuosa C,oγ (30a) donde I está en mol kg-1. La ecuación de Debye–Hückel es aplicable sólo a disoluciones de muy bajas concentraciones (normalmente, para fuerzas iónicas hasta 0.01 mol kg-1. Hay diversas causas para explicar las desviaciones de la ley de Debye–Hückel a concentraciones altas. Entre ellas están las repulsiones entre los iones debidas a su tamaño finito y las interacciones debidas a fuerzas distintas a las electrostáticas (es decir, fuerzas de dispersión). Una desviación importante de la ley de Debye–Hückel procede de las fuerzas de solvatación ión – disolvente que son fuertes y específicas, e invalidan la suposición de considerar al disolvente como un dieléctrico continuo. Para aplicaciones realistas, es necesario deducir expresiones aplicables a disoluciones muy concentradas. Por ejemplo, la fuerza iónica del agua de mar es, aproximadamente, 0.7 mol kg-1. Para aplicaciones industriales o geotérmicas, la fuerza iónica puede ser mucho mayor. En tales casos, la ley límite de Debye–Hückel es insuficiente. Para disoluciones concentradas de electrolitos, se han propuesto diversas correcciones semiempíricas a la ley límite de Debye–Hückel (Prausnitz et al., 2000). Una expresión frecuente para disoluciones acuosas con valores de I hasta 0.1 mol kg-1 es: ( ) 21 21 1 ln I IzzAm i + − = −+γγ (34) Generalidades 18 Para fuerzas iónicas hasta 1 mol kg-1, se añade un término lineal, resultando: ( ) bI I IzzAm i ++ − = −+ 21 21 1 ln γγ (35) donde b es un parámetro ajustable. El desarrollo de una teoría básica para disoluciones concentradas de electrolitos es un tema abierto en el que trabajan muchos físico-químicos utilizando la mecánica estadística. Sin embargo, aunque se han hecho muchos progresos, para aplicaciones de ingeniería, frecuentemente es más útil el empleo de modelos semiempíricos. En la siguiente sección se abordan los fundamentos teóricos de dichos modelos. 1.1.8 Modelos Semiempíricos Se han desarrollado numerosos modelos semiempíricos para describir las propiedades de equilibrio de disoluciones de electrolito. Estos modelos corrigen la teoría de Debye–Hückel a través de términos adicionales que toman en cuenta las interacciones ion – ión y la disociación incompleta a altas concentraciones, que en terminología moderna se denomina asociación de iones. En estos modelos semiempíricos, se suele suponer que la energía de Gibbs en exceso de las disoluciones de electrolito, es la suma de dos contribuciones, una procedente de las fuerzas coulombianas de largo alcance (LA), representadas por la teoría de Debye–Hückel o su generalización, y la otra de las fuerzas de corto alcance (CA): EXCA EX LA EX GGG += (36) Siguiendo las relaciones vistas anteriormente, la ecuación (36) aporta dos contribuciones a los coeficientes de actividad iónicos medios que en base molal, se expresan de la siguiente manera: Generalidades 19 ( ) ( ) ( )CALA lnlnln mmm ±±± += γγγ (37) Aplicando lo mismo para el coeficiente osmótico, se obtiene: ( ) ( ) ( )mmm CALA φφφ += (38) Aunque casi todos los modelos semiempíricos utilizan un término del tipo Debye–Hückel para la contribución de largo alcance, hay diversas opciones para las contribuciones de corto alcance. Las posibles opciones incluyen expresiones de composición local (UNIQUAC, NRTL, Wilson) (Thomsen, 2005; Simonin et al., 2006) y las ecuaciones de Van Laar o Margules (Macías, 2003). La mayor parte de los modelos suponen la disociación completa de los electrolitos. Utilizando, al menos, dos parámetros binarios ajustables de interacción iónica, estos modelos tiene un éxito razonable para disoluciones diluidas y moderadamente concentradas, hasta 6 molal, aproximadamente. Como un ejemplo de estos modelos, se puede citar el modelo de interacciones iónicas de Pitzer, el cual ha recibido amplia aceptación desde 1973 (Pitzer, 1973; Pitzer y Mayorga, 1973). En dicho modelo GEX viene dada por la suma de un término electrostático (tipo Debye – Hückel) para la contribución de largo alcance y un desarrollo del virial en la molalidad del soluto para representar la contribución de corto alcance. Y es precisamente esta última característica, la que provoca la demanda de parámetros de interacción iónica que se determinan de un ajuste por mínimos cuadrados de datos experimentales de coeficientes de actividad y coeficientes osmóticos para los electrolitos a la temperatura ambiente. Generalmente el modelo de Pitzer proporciona buena concordancia con los datos experimentales hasta concentraciones de soluto de aproximadamente 6 molal. Por lo tanto, a no ser que se añadan más términos, este modelo no se puede aplicar disoluciones electrolíticas muy concentradas, es decir, hasta el límite de saturación de una sal muy soluble (Prausnitz, et al., 2000). Algo similar ocurre con otros modelos semiempíricos, independientemente de que requieran más o menos parámetros que el de Pitzer (Thomsen, 2005; Simonin, et al., 2006). Generalidades 20 Por consiguiente, aunque en el modelo desarrollado en este trabajo se aplicó el criterio descrito en este apartado de las contribuciones de las fuerzas de corto y de largo alcance a los coeficiente de actividad iónico medio y osmótico, se consideró la importancia de prescindir de parámetros de interacción entre especies que limiten su aplicabilidad predictiva. Por ello, para la contribución de largo alcance, se consideró el uso del modelo primitivo de aproximación esférica media (mean spheric aproximation (MSA)), y para la contribución de corto alcance, la asistencia de una red neuronal artificial (RNA). A continuación se exponen algunos fundamentos teóricos del modelo MSA y posteriormente los que se relacionan con las redes neuronales artificiales. 1.1.9 Modelo de Aproximación Esférica Media (MSA) El modelo MSA fue desarrollado a partir del concepto de aproximación esférica media. Dicho concepto se basa en lo que se conoce como el modelo primitivo derivado de la teoría de Debye−Hückel (Vilariño et al., 2004). En este último,se encuentran establecidas las siguientes dos suposiciones básicas: a) Los iones son considerados como esferas rígidas cargadas. b) El disolvente es un dieléctrico continuo, caracterizado por su constante dieléctrica. En este modelo, no hay términos explícitos para las interacciones disolvente−disolvente y ión−disolvente; se supone que estas interacciones se tienen en cuenta a través de la constante dieléctrica en los términos de interacciones ión−ión. Esta drástica aproximación es satisfactoria para disoluciones diluidas o para disoluciones de partículas, por ejemplo coloides, que son mucho mayores que las moléculas del disolvente. Sin embargo, es una mala aproximación para disoluciones iónicas concentradas, donde el tamaño del ión soluto es comparable con el de la molécula de disolvente, debido al efecto de solvatación (hidratación) de iones. La aproximación esférica media toma en cuenta los tamaños finitos de las partículas cargadas (iones). Dicha aproximación, se reduce a la teoría de Debye−Hückel cuando las cargas son puntuales en una disolución de electrolito muy diluida, y los resultados que se obtienen con ella son analíticos y muy sensibles a los diámetros iónicos. Para conseguir concordancia con los Generalidades 21 experimentos, estos radios pueden depender de la concentración de electrolito, reflejando el efecto de hidratación. Además, el modelo MSA conduce a valores razonables de los coeficientes de actividad de iones a concentraciones moderadas. De hecho, ha sido aplicado para describir el equilibrio líquido−vapor de sistemas de electrolito en mezclas de disolventes y combinado con una ecuación de estado para el equilibrio gas−disolución de electrolito a altas presiones (Prausnitz, et. al., 2000). Ahora bien retomando la ecuación (36), la contribución por efecto de las fuerzas de largo alcance determinada con el modelo MSA se puede expresar de la siguiente manera: ( )Γ+⋅Γ−= σ π 5.11 3 2 3 tA wEX MSA nN RTVG (39) donde: Γ es el factor “screening”, Vw es el volumen del disolvente, NA es el número de Avogadro y nt es el número total de moles de la mezcla. En esta aproximación explícita se asume que todos los iones tienen un mismo diámetro efectivo definido por: ∑ ∑ = iones i iones ii n n σ σ (40) donde iσ es el diámetro iónico cristalino de Pauling. En la versión original del modelo de MSA, el factor screening Γ requiere de una solución implícita a partir de una ecuación complicada. En este trabajo, se empleó una aproximación del modelo de MSA explícita en Γ propuesta por Harvey et al., (Simonin et al., 2006), es decir: [ ]121 2 1 −+=Γ σκ σ (41) ∑⋅= s ii wr A Zn RTV Ne ione 2 22 2 4 ε πκ (42) Generalidades 22 El parámetro κ en la Ec. (41) representa el recíproco de la longitud de Debye-Hückel; no debe olvidarse que el modelo de MSA se reduce a la expresión de Debye-Hückel en el límite 0σ → . A diferencia de la ecuación de Debye-Hückel, el modelo de MSA toma en cuenta los tamaños finitos de la partículas con carga siendo aplicable a mayores concentraciones del soluto. Es importante notar que el modelo MSA fue desarrollado dentro del tratamiento de McMillan-Mayer donde las variables independientes son la temperatura T, el volumen V, el número de moles n y el potencial químico del solvente µs. Existe, por lo tanto, una inconsistencia ya que las propiedades termodinámicas obtenidas dentro de este tratamiento no son idénticas a las obtenidas bajo el tratamiento de Lewis-Randall (cuyas variables independientes son T, P y n) utilizado en este trabajo. Sin embargo, de acuerdo a Cardoso y O’Connell (1987), tal inconsistencia no tiene un efecto significativo sobre la termodinámica de disoluciones iónicas que contengan un solo disolvente. Sobre esta base teórica se aplicó el modelo MSA en este trabajo (Prausnitz et al., 2000). De acuerdo a lo anterior, en este trabajo se utilizaron a partir de la expresión propuesta para GEX las siguientes relaciones para determinar la contribución de largo alcance con el modelo MSA: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ⋅∂ = i EX t MSAi n RTGnγln (43) −+ −−++ ± + + = νν γνγνγ MSAMSAMSA lnlnln (44) ( ) ( )[ ]mM wMSAmMSA −+±± +−−= ννγγ 001.01lnlnln (45) ( )www xnn n γφ ln⋅ + −= −+ (46) Con las expresiones (39) a (46) se observa que el modelo MSA no requiere parámetros ajustables de interacción iónica, por lo que entonces posee una capacidad predictiva que justifica su Generalidades 23 implementación en el modelo híbrido conformado en este trabajo, para la reproducción de las contribuciones por efecto de las fuerzas de largo alcance que predominan sobre todo a concentraciones bajas. A continuación se exponen los fundamentos relacionados con la otra parte integrante del modelo híbrido: la red neuronal artificial. 1.2 Redes Neuronales Artificiales En esta sección se presentan aspectos básicos de las redes neuronales artificiales, las cuales se han convertido actualmente, en sobresalientes herramientas de aproximación de funciones que permiten realizar modelación de fenómenos complejos que se caracterizan por ser matemáticamente no lineales, y que en su caso, no es fácil reproducirlos con modelos determinísticos. A continuación se exponen dichos fundamentos teóricos. 1.2.1 Estructura de un Sistema Neuronal Artificial Las redes neuronales artificiales imitan la estructura hardware del sistema nervioso, con la intención de construir sistemas de procesamiento de la información paralelos, distribuidos y adaptativos, que puedan representar un cierto comportamiento “inteligente”. El cerebro y un computador convencional son mucho más diferentes de lo que suele suponerse cuando se habla de “cerebros electrónicos”. Un computador convencional es, en esencia, una máquina de von Neumann, construida en torno a una única CPU o procesador, que ejecuta de un modo secuencial un programa almacenado en memoria. Por el contrario, el cerebro no está compuesto por un único procesador, sino por miles de millones de ellos (neuronas), aunque muy elementales. Curiosamente, las neuronas son mucho más simples, lentas y memos fiables que una CPU, y a pesar de ello, existen problemas difícilmente abordables mediante un computador convencional, que el cerebro resuelve eficazmente (reconocimiento del habla, visión de objetos inmersos en ambiente natural, respuesta ante estímulos del entorno, etc.). Generalidades 24 Por lo tanto, la idea que subyace en los sistemas neuronales artificiales, es que, para abordar el tipo de problemas que el cerebro resuelve con eficiencia, puede resultar conveniente construir sistemas que “copien” en cierto modo la estructura de las redes neuronales biológicas con el fin de alcanzar una funcionalidad similar. Los tres conceptos clave de los sistemas nerviosos, que se pretende emular en los artificiales, son: paralelismo de cálculo, memoria distribuida y adaptabilidad, al entorno. De esta manera, podemos hablar de las redes neuronales como sistemas paralelos, distribuidos y adaptativos. El procesamiento paralelo resulta esencial, como se deduce de un sencillo ejemplo. Un ordenador convencional tipo PC, que trabaja secuencialmente, instrucción a instrucción, emplearía varios minutosen realizar sobre una imagen compuesta por, digamos, 256 x 256 pixeles, una sencilla tarea de acentuar contrastes, extraer contornos, etc., mucho más simple que la que llevaba a cabo el sistema visual para reconocer una imagen. Por otra parte, el cerebro tarda aproximadamente este mismo tiempo en preprocesar una imagen compuesta por millones de píxeles (los que representan los conos y bastones de la retina), extraer sus rasgos característicos, analizarla, e interpretarla. Ningún sistema creado por el hombre es capaz de realizar algo semejante. La clave reside en que en éste último caso los miles de millones de neuronas que intervienen en el proceso de visión (solamente en la retina, y sin contar el córtex cerebral, intervienen millones de ellas) están operando en paralelo sobre la totalidad de la imagen. Otro concepto importante que aparece en el cerebro es el de memoria distribuida. Mientras que en un computador la información ocupa posiciones de memoria bien definidas, en los sistemas neuronales se encuentra distribuida por las sinapsis de la red, de modo que si una red resulta dañada, no perdemos más que una pequeña parte de la información. Además, los sistemas neuronales biológicos son redundantes, de modo que muchas neuronas y sinapsis pueden realizar un papel similar; en definitiva, el sistema tolerante a fallos (por ejemplo, cada día mueren miles de neuronas en nuestro cerebro, y sin embargo tienen que pasar muchos años para que se resientan nuestras capacidades). Generalidades 25 El último concepto fundamental es el de adaptabilidad. Las redes neuronales artificiales se adaptan fácilmente al entorno modificando sus sinapsis (y mediante otros mecanismos también), y aprenden de la experiencia, pudiendo generalizar conceptos a partir de casos particulares. En el campo de las redes neuronales llamaremos a esta propiedad generalización a partir de ejemplos. Los elementos básicos de un sistema neuronal biológico son las neuronas, que se agrupan en conjuntos compuestos por millones de ellas organizadas en capas constituyendo un sistema con funcionalidad propia. Un conjunto de estos subsistemas da lugar a un sistema global (el sistema nervioso, en el caso biológico). En la realización de un sistema neuronal puede establecerse una estructura jerárquica similar. El elemento esencial de partida será la neurona artificial, que se organizará en capas; varias capas constituirán una red neuronal; y por último, una red neuronal (o un conjunto de ellas), junto con las interfaces de entrada y salida, más los módulos convencionales adicionales necesarios, constituirán el sistema global de proceso. Formalmente, y desde el punto de vista del grupo PDP (Parallel Distributed Processing Research Group, de la Universidad de California en San Diego), de D. E. Rumelhart y J. L. McClelland, un sistema neuronal o conexionista, está compuesto por los siguientes elementos (Martín del Brío y Sanz Molina, 2001): • Un conjunto de procesadores elementales o neuronas artificiales. • Un patrón de conectividad o arquitectura. • Una dinámica de activaciones. • Una regla o dinámica de aprendizaje. • El entorno donde opera. A continuación se muestra, un esquema básico de una red neuronal artificial: Generalidades 26 Figura 1.3. Esquema básico de una red neuronal totalmente conectada 1.2.2 Dinámica Operacional de una Red Neuronal Artificial Las redes neuronales artificiales están constituida por neuronas interconectadas y arregladas en tres capas (esto último puede variar). Los datos ingresan por medio de la “capa de entrada”, pasan a través de la “capa oculta o intermedia” y salen por la “capa de salida”. Cabe mencionar que la capa oculta puede estar constituida por varias capas. 1.2.2.1 Función de Entrada La neurona trata a muchos valores de entrada como si fueran uno solo; esto recibe el nombre de entrada global. Por lo tanto, ahora nos enfrentamos al problema de cómo se pueden combinar estas simples entradas (ini1, ini2 …) dentro de la entrada global, (gini). Esto se logra a través de la función de entrada, la cual se calcula a partir del vector entrada. La función de entrada puede describirse como sigue: ( ) ( ) ( )inini2i2i1i1i winwinwininput •∗•∗•= K (47) Donde: ∗ representa al operador apropiado (por ejemplo: máximo, sumatoria, productoria, etc.), n al número de entradas a la neurona Ni y wi al peso. Generalidades 27 Los valores de entrada se multiplican por los pesos anteriormente ingresados a la neurona. Por consiguiente, los pesos que generalmente no están restringidos cambian la medida de influencia que tienen los valores de entrada. Es decir, que permiten que un gran valor de entrada tenga solamente una pequeña influencia, si estos son lo suficientemente pequeños. Figura 1.4 Ejemplo de una neurona con 2 entradas y 1 salida La nomenclatura utilizada en la Figura 1.4 es la siguiente: ini1 = entrada número 1 a la neurona Ni; wi1 peso correspondiente a ini1; ini2 = entrada número 2 a la neurona Ni; wi2 = peso correspondiente a ini2; y outi salida de la neurona Ni. El conjunto de todas las n entradas ini = (ini1, ini2, …, inin) es comúnmente llamado “vector entrada”. Algunas de las funciones de entrada más comúnmente utilizadas y conocidas son: 1) Sumatoria de las entradas pesadas: es la suma de todos los valores de entrada a neurona, multiplicados por sus correspondientes pesos. ( )∑ = j ijij n,2,1,jcon,wn K (48) 2) Productoria de las entradas pesadas: es el producto de todos los valores de entrada a la neurona, multiplicados por sus correspondientes pesos. Generalidades 28 ( ) n,2,1,jcon,wn j ijij K=∏ (49) 3) Máximo de las entradas pesadas: solamente toman consideración el valor de entrada más fuerte, previamente multiplicado por su peso correspondiente. ( ) n,2,1,jcon,wnMax j ijij K= (50) En este trabajo se utilizará la primera de las funciones de entrada ya descritas, debido a que es la que comúnmente se usa en la práctica para ajustar los pesos en redes de retropropagación. 1.2.2.2 Función de Activación Una neurona bilógica puede estar activa (excitada) o inactiva (no excitada), es decir, que tiene un “estado de activación”. Las neuronas artificiales también tienen diferentes estados de activación; algunas de ellas solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier valor dentro de un conjunto determinado. La función activación calcula el estado de actividad de una neurona; transformando la entrada global (menos el umbral, Θi) en un valor (estado) de activación, cuyo rango normalmente va de (0 a 1) o de (-1 a 1). Con dicho valor de umbral, se le añade un grado de libertad adicional a la neurona, con el cual se establece el nivel mínimo que debe alcanzar la neurona en su potencial de activación para que produzca una respuesta. Esto es así, porque una neurona puede estar totalmente inactiva (0 o-1) o activa (1). La función activación, es una función de la entrada global (gini) menos el umbral (Θi). Las funciones de activación más comúnmente utilizadas se detallan a continuación: Generalidades 29 1) Función lineal: ( ) 0ay,Θginxcon a1x1 a1xa1xa a1x1 xf ii >−= ⎪ ⎩ ⎪ ⎨ ⎧ ≥ <<−∗ −≤− = (51) Los valores de salida obtenidos por medio de esta función de activación serán: a (gini - Θi), cuando el argumento de (gini - Θi) esté comprendido dentro del rango (-1/a, 1/a). Por encima o por debajo de esta zona se fija la salida en 1 o -1, respectivamente. Cuando a = 1 (siendo que la misma afecta la pendiente de la gráfica), la salida es igual a la entrada. Figura 1.5 Función lineal 2) Función sigmoidal: iixg Θginxcon,e1 1(x)f −= + = − (52) Los valores de salida que proporcionaesta función están comprendidos dentro de un rango que va de 0 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la función de activación. Lineal (a,x) Activación Generalidades 30 Figura 1.6 Función sigmoidal 3) Función tangente hiperbólica: iixgxg xgxg Θginxcon, ee ee(x)f −= + − = − − (53) Los valores de salida de función tangente hiperbólica están comprendidos dentro de un rango que va de -1 a 1. Al modificar el valor de g se ve afectada la pendiente al origen de la función de activación. Figura 1.7 Función tangente hiperbólica Sigmoidal (a, x) Activación Tangente Hiperbólica (a, x) Activación Generalidades 31 Para explicar porque se utilizan estas funciones de activación se suele emplear la analogía a la aceleración de un automóvil. Cuando un auto inicia su movimiento necesita una potencia elevada para comenzar a acelerar. Pero al ir tomando velocidad, este demanda un menor incremento de dicha potencia para mantener la aceleración. Al llegar a altas velocidades, nuevamente un amplio incremento en la potencia es necesario para obtener una pequeña ganancia de velocidad. En resumen, en ambos extremos del rango de aceleración, se demanda una mayor potencia para la aceleración que en la mitad de dicho rango. En el caso de la red utilizada en este trabajo se utilizará la función sigmoidal por que contribuye a que esta alcance la convergencia de manera uniforme, algo muy deseable en la modelación y predicción que se llevará a cabo con este sistema de cómputo conexionista, entrenado con el algoritmo de retropropagación. 1.2.2.3 Función de Salida El último componente que una neurona necesita es la función de salida. El valor resultante de esta función es la salida de la neurona i (outi), por ende, la función de salida determina que valor se transfiere a las neuronas vinculadas. Si la función de activación está por debajo de un umbral determinado, ninguna salida se pasa a la neurona subsiguiente. Normalmente, no cualquier valor es permitido como una entrada para una neurona, por lo tanto, los valores de salida están comprendidos en el rango [0, 1] o [-1, 1]. También pueden ser binarios {0, 1} o {-1, 1}. Dos de las funciones de salida más comunes son: - Identidad: este es el tipo de función más sencillo, tal que la salida es la misma que la entrada. - Binaria: ⎩ ⎨ ⎧ ≥ contrariolode0 umbralelesξdonde,ξactsi1 iii Generalidades 32 En este trabajo la función identidad fue seleccionada debido a que el algoritmo de retropropagación de errores (backpropagation) utilizado en el modelo desarrollado requiere una comparación directa entre los valores estimados por la red y los valores meta, algo que la función de salida ya mencionada permite llevar a cabo. 1.2.3 Mecanismos de Aprendizaje Se ha visto que los datos de entrada se procesan a través de la red neuronal con el propósito de lograr una salida. También se dijo que las redes neuronales extraen generalizaciones desde un conjunto determinado de ejemplos de tales problemas de decisión. Una red neuronal debe aprender a calcular la salida correcta para cada arreglo o vector de entrada en el conjunto de ejemplos. Este proceso de aprendizaje se denomina: proceso de entrenamiento o acondicionamiento. El conjunto de datos (o conjunto de ejemplos) sobre el cual este proceso se basa es, por ende: conjunto de datos de entrenamiento. Si la topología de la red y las diferentes funciones de cada neurona (entrada, activación y salida) no pueden cambiar durante el aprendizaje, mientras que los pesos sobre cada una de las conexiones si pueden hacerlo; el aprendizaje de una red neuronal significa: adaptación de los pesos. En otras palabras el aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. Los cambios que se producen durante el mismo se reducen a la destrucción, modificación y creación de conexiones en las neuronas. En los sistemas biológicos existe una continua destrucción y creación de conexiones entre las neuronas, En los modelos de redes neuronales artificiales, la creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero. De la misma manera, una conexión se destruye cuando su peso pasa a ser cero. Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren modificaciones, por lo tanto, se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los valores de los pesos permanecen estables (dwij / dt = 0). Generalidades 33 Un aspecto importante respecto al aprendizaje de las redes neuronales es el conocer cómo se modifican los valores de los pesos, es decir, cuáles son los criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. Hay dos métodos de aprendizaje que pueden distinguirse: a) Aprendizaje supervisado: Se caracteriza por que el proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor controla la salida de la red y en caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir la salida obtenida que se acerque a la deseada. En este tipo de aprendizaje se suelen considerar, a su vez, tres formas de llevarlo a cabo, que dan lugar a los siguientes aprendizajes supervisados: • Aprendizaje por corrección de error: Consiste en ajustar los pesos de las conexiones de la red en función de la diferencia entre los valores deseados y los obtenidos a la salida de la red, es decir, en función del error cometido en la salida. • Aprendizaje por refuerzo: Se trata de un aprendizaje supervisado, más lento que el anterior, que se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. • Aprendizaje estocástico: Consiste básicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar a partir del objetivo deseado y de distribuciones de probabilidad. Generalidades 34 b) Aprendizaje no supervisado: Las redes con aprendizaje no supervisado (también conocido como autosupervisado) no requieren influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada en respuesta a una determinada entrada es o no correcta. Estas redes deben encontrar las características, regularidades, correlaciones o categorías que se puedan establecer entre los datos que se presenten en su entrada. Existen varias posibilidades en cuanto a la interpretación de la salida de las redes, que dependen de su estructura y del algoritmo de aprendizaje empleado. En cuanto a los algoritmos de aprendizaje no supervisado, en general se suelen considerar dos tipos, que dan lugar a los siguientes aprendizajes: • Aprendizaje hebbiano: Este tipo de aprendizaje se basa en la regla de Hebb que se originó a partir de la neurona biológica clásica, la cual solamente puede tener dos estados: activa o inactiva. Con dicha regla, la red neuronal pretende medir la familiaridad o extraer características de los datos de entrada. El fundamento es una suposición bastante simple: si dos neuronas Ni y Nj toman el mismo estado simultáneamente (ambas activas o ambas inactivas), el peso de la conexión entre ambas se incrementa. • Aprendizaje competitivo y comparativo: Se orienta a la clasificación
Compartir