Logo Studenta

¿Cuál de los cinco sentidos consideras que sea el más difícil de sustituir por medios de inteligencia artificial?

💡 1 Respuesta

User badge image

Aprendiendo con Apuntes

Por mi experiencia profesional, diseñando filtros e IA para visión artificial, votaría por la visión ,seguida de la audición.

La visión humana es una obra impresionante de ingeniería, a un nivel deprimente para la Ciencia. He estudiado la visión desde el punto de vista del procesamiento de señales y reconocimiento de imágenes, y la verdad es que la ingeniería recién logra empatar el nivel de visión de caracoles o arañas.

La retina está hecha de una lámina de células fotorreceptoras (conos y bastones) equivalentes al sensor de imagen de una cámara digital , y una lámina de ganglios neuronales que hace las mismas funciones de un chip procesador de imagen, y redes neuronales convolucionales, como las de los sistemas de reconocimiento de imágenes. Calcula filtros digitales como "promedio ponderado" de la información de sectores de la imagen (en rigor, calcula la convolución), para destacar bordes, filtrar ruido y percibir color.

En resumen, la retina por sí sola compite con la mitad de la tecnología de procesamiento de imágenes existente, y ni siquiera he llegado al cerebro.

El Núcleo Geniculado Lateral, ubicado en el tálamo cerebral, es el chip de procesamiento de vídeo del cerebro, y primera fase de percepción visual. Hace una cantidad de cálculos de álgebra lineal a altísima velocidad, que la tecnología apenas puede empatar con procesadores paralelos (GPU), como los que hoy se usan en IA.
Las retinas no entregan una imagen instantánea como una cámara de vídeo, el nervio óptico lleva un torrente de millones de impulsos que llegan con distintos retrasos y en posiciones revueltas. El NGL debe convertir este flujo desordenado en una película, con cada "pixel" en su lugar (decorrelación espacial) y cada recuadro ordenado en el tiempo (decorrelación temporal), todo esto sin tener idea de qué ocurre fuera de la cabeza. Lo que llamamos "realidad" es una interpretación que hace el tálamo a partir de la información visual y de otros sentidos.

El NGL además hace las mismas funciones de un sistema de visión artificial: procesa las imagenes de las 2 retinas para calcular la profundidad de los objetos principales de la escena (visión estereoscópica), identifica los objetos más importantes de primer plano y fondo, además de apuntar los ojos y enfocarse en esos objetos.

Esta escena es difícil de enfocar para una cámara digital. El sistema de auto-enfoque calcula la nitidez como la diferencia de luz entre pixeles vecinos. El NGL va mucho más allá: "etiqueta" cada varilla como un objeto diferente, con su propia posición estereoscópica en el espacio, y decide a cuál de todas enfocar, incluso si tienen el mismo color y están a la misma distancia.

El NGL además identifica "blancos" en el campo visual según su velocidad, dirección y posición estereoscópica, igual que un radar militar. Una mancha negra que pasa por el campo visual produce una reacción instintiva de atención. Incluso antes de reconocer si se trata de una mosca, un pájaro o una piedra, el cerebro ya sabe su posición tridimensional y velocidad, los ojos se enfocan y siguen el objeto mientras la corteza cerebral lo identifica.

La corteza visual es la zona del cerebro donde reside la percepción visual, lo que hace posible reconocer un alicate en una caja de herramientas, conducir, reconocer un rostro o un billete incluso con malas condiciones de luz.

Las redes neuronales artificiales más complejas, que se usan en sistemas expertos, finanzas o usos militares, tienen hasta 100 capas de cientos de nodos, y funcionan con procesadores paralelos, como los GPU de tarjetas de vídeo.

La corteza visual tiene hasta 23 capas distribuidas en 6 regiones, cada una formada de cientos de millones de neuronas. La capacidad de procesamiento y abstracción visual del cerebro deja fuera de combate a toda la tecnología de IA actual, y seguramente va a seguir así por varios años.

Comparación de performance de las Redes Neuronales Profundas más modernas en reconocimiento de imágenes. Microsoft ResNet fue la ganadora del torneo ILSVRC de 2015, y la primera en superar a humanos en precisión para reconocer un set de imágenes. ResNet, una red de tipo residual, tiene aprendizaje acelerado porque imita la función de las células piramidales de la corteza cerebral. Tiene 152 capas, la mayoría con menos de mil nodos.

Imagen microscópica de una sección de corteza visual, teñida para ver mejor las células y conexiones de mielina. Aunque sólo tiene 23 capas, cada una está compuesta de cientos de millones de nodos (neuronas), que le dan una capacidad de procesamiento inigualable frente a la tecnología.
Las Redes Neuronales artificiales aprenden de muestras de millones de ejemplos de imágenes, mientras el cerebro humano aprende por experiencia, recibiendo billones de TB de información multi-sensorial durante décadas.

0
Dislike0

✏️ Responder

FlechasNegritoItálicoSubrayadaTachadoCitaCódigoLista numeradaLista con viñetasSuscritoSobreDisminuir la sangríaAumentar la sangríaColor de fuenteColor de fondoAlineaciónLimpiarInsertar el linkImagenFórmula

Para escribir su respuesta aquí, Ingresar o Crear una cuenta

User badge image

Otros materiales