Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 REDES NEURONALES III C on te ni do • Redes RBF • Redes SOM (Kohonen) • Redes ART • García Martínez R., Servente M., Pasquini D. “SISTEMAS INTELIGENTES”. Editorial Nueva Librería. Argentina, 2003. • Isasi Viñuela P y Galván León I. "REDES NEURONALES - UN ENFOQUE PRÁCTICO". Ed. Pearson Educación S.A. Madrid. 2004. • Del Brio, B.M. – Sanz Molina, A. “REDES NEURONALES Y SISTEMAS BORROSOS”. Editorial RA-MA. • Hilera González, J.R. – Martínez Hernando, B.J. “REDES NEURONALES ARTIFICIALES”. Editorial RA-MA. 1995. B ib lio gr af ía 2 Creada por Moody y Darken en 1989, es una red híbrida de aprendizaje supervisado y no supervisado. Se forma con tres capas, donde la capa oculta utiliza funciones gaussianas y la capa de salida funciones lineales. xi cji zk σj / yj wkj U3-3 REDES NEURONALES REDES DE FUNCIONES DE BASE RADIAL (RBF) Christian J. Darken John E. Moody http://faculty.nps.edu/cjdarken/newHeadShotSmall.jpg 3 Características (Isasi pg. 75) • Modelo híbrido de 3 capas que utiliza aprendizaje supervisado y no supervisado. • Pueden modelar con relativa facilidad sistemas no lineales arbitrarios. • La principal diferencia con los modelos feed- forward está en la actividad de las neuronas ocultas. • Éstas operan en base a la distancia entre el vector de entrada y un vector sináptico almacenado, denominado centroide. • En las redes feedforward, las neuronas ocultas producen respuesta en un rango ± infinito, en las redes RBF la respuesta es localizada en el entorno de la función gussiana. U3-3 REDES NEURONALES REDES R.B.F. 4 Descripción del modelo 22 2 j j i ji i=1 r = X - C = (x - c )∑ I U3-3 REDES NEURONALES REDES R.B.F. • Cada neurona oculta almacena un vector cij denominado centroide. • Modelo de tres capas, entrada (de distribución), oculta (de neuronas RBF) y salida (de neuronas lineales). • Cada neurona calcula la distancia euclídea rj entre un vector de entrada X y su centroide Cj x1 xi xI φ1 φj φJ z1 zk zK . . . . . . . . . . . . . . . . . . Capa de entrada Capa oculta Capa de salida y1 yj yJ wkj w11 wKJ 1 θ1 1 θk 1 θK 5 Descripción del modelo • La salida de las neuronas ocultas se calcula con una función de activación denominada función radial φ(r, σ), siendo la más usual la gaussiana. • El parámetro σ determina el ancho de la curva. Mientras mayor sea σ la neurona domina una región más amplia en torno a su centroide. 2 2 r 2σ(r)= e − φ U3-3 REDES NEURONALES REDES R.B.F. 6 Descripción del modelo • La salida de las neuronas ocultas se calcula con una función de activación denominada función radial φ(r, σ), siendo la más usual la gaussiana. • El parámetro σ determina el ancho de la curva. Según la función y del valor de σ, la neurona domina una región mayor o menor en torno a su centroide. 2 2 r 2σ(r,σ)= e − φ U3-3 REDES NEURONALES REDES R.B.F. 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 f(r ,s ig m a) sigma=1 sigma=0.5 r 2 2 2 σ(r,σ)= σ r+ φ 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 f(r ,s ig m a) sigma=2 sigma=1 r 2 2 σ(r,σ)= σ r+ φ 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 f(r ,s ig m a) sigma=1 sigma=0.5 r gussiana Inversa cuadrática Inv. multi cuadrática 7 Descripción del modelo • Cada nodo gaussiano (neurona oculta) se ocupa de una zona del espacio de entrada, de modo que el conjunto de todos los nodos debe cubrir la zona de datos de interés. U3-3 REDES NEURONALES REDES R.B.F. Datos sin cobertura Datos sin cobertura 8 Descripción del modelo • La salida yj de las neuronas ocultas se calcula como • La salida zk de las neuronas de salida se calcula como • La salida es directamente la función net de la neurona debido a que la función de excitación es una recta a 45º. / / 2 2 j j 2 2 i ji j i r 2σ j (x -c ) 2σ y = e = e ∑ − . = φ∑ ∑k kj j κ kj j j κ j j z = w y + w . (r )+θ θ U3-3 REDES NEURONALES REDES R.B.F. x1 xi xI φ1 φj φJ z1 zk zK . . . . . . . . . . . . . . . . . . y1 yj yJ wkj w11 wKJ 1 θ1 1 θk 1 θK 9 Aprendizaje • Se pueden aplicar dos tipos de aprendizaje: • HÍBRIDO: los parámetros de la capa oculta (centros y desviación σj) se determinan por métodos externos de clusterización (por ej. algoritmo K-medias) → No supervisado. Los pesos y umbrales de la capa de salida se determinan por medio de la regla de cuadrados mínimos → supervisado. • TOTALMENTE SUPERVISADO: todos los parámetros se determinan por medio de un algoritmo de descenso por gradiente. U3-3 REDES NEURONALES REDES R.B.F. 10 Aprendizaje híbrido • Se elige una cantidad de nodos radiales que cubran el espacio de entrada. Este proceso se denomina agrupación (clusterización). • Se determinan los parámetros de las funciones RBF, como se indica a continuación: • Se eligen los valores de los k centroides cij a partir de los patrones de entrenamiento x. Se asigna un patrón a cada neurona. • Se calcula el parámetro σj como el promedio de las distancia cuadráticas entre los centroides ∑ij i ij 1c = x N ∑ ∑∑ N N22 2 j h j hk jk h=1 h=1 k 1 1σ = c -c = (c -c ) N N U3-3 REDES NEURONALES REDES R.B.F. 11 Aprendizaje híbrido (continuación) • Se procede al entrenamiento de las neuronas de salida. • Se utiliza el algoritmo LMS (de la adaline) para determinar la actualización de los pesos wkj de la capa de salida donde dk es la salida deseada y zk es la salida calculada (neurona k), α es el paso de aprendizaje y φ(rj,σj) (función radial) es la salida de la neurona oculta j. kj kj k k j jw (t+1) = w (t) + α.(d - z ) . (r ,σ )φ U3-3 REDES NEURONALES REDES R.B.F. 12 Aprendizaje totalmente supervisado • Se utiliza la minimización de una función de error. ∑ K 2 k k k=1 1e = . (d - z ) 2 U3-3 REDES NEURONALES REDES R.B.F. k k d = salida deseada z = salida calculada K = nº neuronas salida • Los parámetros actualizados de la red se calculan con las ecuaciones adjuntas. w = pesos u = umbral c = centros d = desviación α = aprendizaje (Isasi pag. 90) 13 A partir de la idea que la información captada por los sentidos se organiza en el cerebro como mapas bidimensionales. Teuvo Kohonen presenta en 1982 un modelo de red auto organizada, de tipo competitivo, capaz de formar mapas topológicos con la información de entrada. Dr. Eng., Emeritus Professor of the Academy of Finland U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) 14 Generalidades • La idea se basa en la evidencia que el cerebro hay neuronas que se organizan internamente –como mapas– para representar la información captada en forma característica. • La idea básica para estas redes es permitir que las neuronas artificiales se auto organicen –a través del aprendizaje- para formar mapas especiales para representar atributos y características de la información. • Red bicapa: capa de entrada → de distribución; capa de salida → de competición. • Un patrón de entrada mide su distancia con el vector de pesos y activa una neurona de la capa de salida (ganadora) para indicar el tipo de clasificación. U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) 15 Generalidades • Existen dos variantes. El modelo LQV (Lerning Vector Quantization) donde las neuronas de la capa de salida se organizan en forma unidimensional. • El modelo SOM (Self Organizing Map) con organización de las neuronas de salida en forma bidimensional. Se pueden configurar estructuras tridimensionales. U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) Arquitectura LVQ Arquitectura SOM 16 Arquitectura • Red bicapa con N neuronas de entrada (distribución) y M neuronas de salida(competición). • Las neuronas de entrada se conectan a todas las salidas con conexiones progresivas. • Las neuronas de salida se conectan entre sí con conexiones laterales. • Cada neurona influye sobre sus vecinas en función de la distancia. Una de las formas de influencia más comunes es del tipo mex-hat. U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) 17 Funcionamiento Al recibir un patrón de entrada Ek = {e1(k), e2(k), … eN(k)} cada neurona de salida recibe el mismo patrón ponderado por los pesos wij. con Intpj función mex-hat que representa la influencia lateral de la neurona p sobre la j. El recibir Ek la red evoluciona hasta alcanzar un estado estable en el que sólo hay una neurona activada que se identifica como ganadora. ∑ ∑ N M (k) j ij i pj p j=1 p=1 s (t+1) = w . e + Int . s (t)ƒ j 1 si min ||Ek - W || s = 0 resto U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) 18 Aprendizaje SOM • Los pesos entre la neurona ganadora y la de entrada se calcula como donde α(t) es el coeficiente de aprendizaje dinámico que decrece con el número de iteraciones siendo α1 un valor entre 0,1 ó 0,2 y α2 un valor próximo a la cantidad total de iteraciones en el aprendizaje. (k) ji ji i j*iw (t+1) = w (t) + (t) [e - w (t)]α 1 2 1 t(t) = (t) = 1- t α α α α U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) 19 U3-3 REDES NEURONALES REDES S.O.M. (KOHONEN) Aplicaciones Las aplicaciones para este tipo de redes están basadas en las siguientes posibilidades operativas: • Reducción de dimensiones. • Preprocesamiento de datos para otros sistemas. • Monitorización de procesos. • Análisis de agrupamiento (clustering). • Cuantificación vectorial. • Modelado de funciones densidad. 20 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Las redes neuronales ART fueron desarrolladas por Grossberg, Carpenter y un equipo de investigadores. Deben su denominación a las siglas Adaptive Resonance Theory. Son redes bicapa con conexiones progresivas, regresivas, laterales y autorrecurrentes. Presentan un aprendizaje no supervisado ON LINE de tipo competitivo. Stephen Grossberg PhD, Mathematics, Rockefeller University Gail A. Carpenter Ph.D. mathematics University of Wisconsin http://soma.crl.mcmaster.ca/~zhechen/carpenter.gif 21 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) • La teoría de resonancia adaptiva se basa en el concepto de lograr resonancia de la información de entrada con los patrones ya conocidos por la red. • Si la resonancia se produce, se reconoce a la entrada como un patrón aprendido y produce la salida correspondiente. Si no se produce resonancia, la información de entrada no pertenece a ningún patrón conocido y la red crea una nueva clase. • Puede considerarse que estas redes son especialistas en la clasificación de patrones. • Se disponen de dos formatos de redes ART: ART1 que trabaja con patrones binarios y ART2 que procesa información analógica. Generalidades 22 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Arquitectura Las redes neuronales ART son redes bicapa con conexiones de todas las categorías. Como idea general se puede considerar que una red ART se compone varios bloques como muestra el diagrama. LTM LTM STM STM STM STM SUBSISITEMA ORIENTACIÓN SUBSISITEMA ORIENTACIÓNSUBSISTEMA ATENCIÓN SUBSISTEMA ATENCIÓN ENTRADA SALIDA 23 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Arquitectura Memoria a largo plazo – LTM: Se compone de los pesos de las conexiones hacia delante (wji) y de las conexiones hacia atrás (vij). Le da a la red su característica de estabilidad reteniendo la información aprendida. Memoria a corto plazo – STM: Estructura complementaria a la anterior, se localiza a la entrada y salida de la red. Le permite recordar los aspectos inmediatos mediante la retención temporal de los valores de entrada. 24 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Arquitectura Subsistema de atención: Tiene como función principal el reconocimiento y clasificación de los patrones aprendidos. Provee además el control de ganancia de atención que actúa sobre las neuronas de entrada (STM) para contribuir a la estabilidad de la red y aumentar su sensibilidad. Subsistema de orientación: Se utiliza para determinar si el patrón de entrada pertenece o no a una clase conocida por la red. Si no es así, resetea al sistema y prueba con otras clase. 25 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Arquitectura 26 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Arquitectura • Pesos autorrecurrentes de las neuronas de salida fijos en +1. • Pesos de salida laterales negativos para asegurar la convergencia con valor –e, tal que e < 1/M (M cantidad de neuronas de salida). • Pesos de conexiones feed- forward y feedback, iniciali- zados en wji = 1/(1+N) vij = +1 (N cantidad de neuronas de entrada). •Pesos de la neurona G Desde neuronas salida -N Desde neuronas entrada +1 • Pesos de la neurona R Desde entradas r Desde neuronas entrada -1 27 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Operación • Se presenta la información de entrada a la red • Las neuronas de entrada envían el vector a las de salida a través de los pesos wji. • Las neuronas de salida compiten entre ellas hasta que solo una permanece activa (ganadora). (k ) (k) (k) k 1 2 NE [e e ... e ]= j j p i M N ns ns ns ji ne p 1 i 1 S (t 1) S (t) . S (t) w .S (t) = = + = − + ∑ ∑εf i j N (k ) ji ne ns î=1 1 máx w .SS 0 resto = ∑ 28 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Operación • La neurona ganadora de la salida (nsj*) envía un 1 a través de los pesos feedback (vj*). Luego, cada neurona de entrada recibe un valor (desde la salida) • Esto significa que se transmite a la entrada el vector de pesos feedback que es el representante de la clase j-ésima si la neurona ganadora ha sido la nsj*. X = [x1 x2 … xN] = [v1j* v2j* … vNj*] = Vj* • Se compara el valor de Ek de la entrada con el representante de la clase X (la comparación es una operación AND ya que todos los vectores son binarios). Esta comparación se evalúa a través del parámetro r en la neurona R. {j jMi ij ns ij* ns j 1 1 si j=j*x v .S v debido a S 0 si j j* = = = = ≠∑ 29 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Operación • La neurona R evalúa la relación de módulos de los vectores [Ek . X] y [Ek]. Si resulta la neurona ganadora (nsj*) no representa a la clase. La neurona R la “resetea” con un elevado valor negativo (-∞) y repite el proceso con la siguiente neurona de salida. • Si resulta entonces la neurona ganadora nsj* si representa a la clase procediéndose a ajustar los pesos w y v para incorporar el nuevo patrón efectivamente a la clase. k k E .X E < ρ k k E .X E ≥ ρ 30 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Aprendizaje • El aprendizaje en las redes ART se realiza ON- LINE. • El ajuste de los pesos responde a las siguientes ecuaciones (considerando el modelo ART1) (k ) ij ij ij* i (k ) ij* i ji j*i N (k ) ij* i i 1 v (t 0) 1 v (t 1) v (t).e v (t).e1w (t 0) w (t 1) 1 N v (t).e = = = + = = = + = + + ∑γ 31 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) E1 = [1 1 0 0] E2 = [0 0 1 1] E3 = [1 1 1 0] Inicialización de pesos: vij = 1 wji = 1/(1+N) = 1/(1+4) = 0.2 Se aplica la primera entrada E1 = [1 1 0 0], los pesos serán El patrón E1 ha quedado almacenado en los pesos VE1 Ejemplo:Red ART1 estructura 4+2. Patrones de entrada 11 21 11 21 31 41 12 22 13 2321 21 21 21 14 24 w w 0.2 0.2 v v v v w w1 1 1 1 0.2 0.2V(t 0) W(t=0) = w w1 1 1 1 0.2 0.2v v v v 0.2 0.2w w = = = = E1 E1 0.4 0.2 1 1 0 0 0.4 0.2V W =1 1 1 1 0 0.2 0 0.2 = 32 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) Ejemplo: Red ART1 estructura 4+2. E1 = [1 1 0 0] E2 = [0 0 1 1] E3 = [1 1 1 0] Se introduce el segundo patrón y se genera una competencia entre las neuronas de salida Gana la neurona de salida 2 y queda como representante de la clase del patrón E2. Se aplica la tercera entrada E3 = [1 1 1 0] y se produce la competencia de salida Gana la neurona de salida 1. La entrada E3 se ha identificado como perteneciente (por semejanza) a la clase 1. Si se desea una nueva clase debe agregarse otra neurona de salida. 4 4 (2) (2) 1i i 2i i i 1 i 1 w .e 0 0 0 0 w .e 0.2 0.2 0 0 0.4 = = = + + + = + + + =∑ ∑ 4 4 (3) (3) 1i i 2i i i 1 i 1 w .e 0.8 w .e 0.4 = = = =∑ ∑ 33 U3-3 REDES NEURONALES REDES A.R.T. (Adaptive Resonance Theory) • Reconocimiento de patrones: Es la capacidad específica de las redes ART, con la propiedad de no requerir un procesamiento adicional para incorporar nuevos patrones. • Reconocimiento y clasificación de imágenes: Es un proceso encuadrado dentro de la aplicación anterior. • Reconocimiento de señales analógicas: Se realiza con una red tipo ART2. Es importante manejar correctamente el parámetro de vigilancia r para conseguir una buena clasificación de patrones. • Reconocimiento de anomalías en gráficos ECG: Es un proceso encuadrado en la aplicación general anterior. Resulta muy importante desde el punto de vista médico para identificar patrones que no se observan a simple vista. Aplicaciones REDES NEURONALES III U3-3 REDES NEURONALES� REDES DE FUNCIONES DE BASE RADIAL (RBF) U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES R.B.F. U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES S.O.M. (KOHONEN) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory) U3-3 REDES NEURONALES� REDES A.R.T. (Adaptive Resonance Theory)
Compartir