u820917

Organizacional

•

SIN SIGLA

Andrea Serrot

9/11/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Organizacional

866 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

PROYECTO DE GRADO

Presentado a

LA UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Y ELECTRÓNICA

Para obtener el título de

INGENIERO ELECTRÓNICO

por

Juan Fernando Guerrero Citelly

TRADUCTOR DE LENGUAJE DE SEÑAS PORTATIL POR MEDIO DE
RECONOCIMIENTO DE IMÁGENES.

Sustentado el 10 de diciembre de 2018 frente al jurado:

- Asesor: Fredy Segura Quijano PhD, Profesor Asociado, Universidad de Los Andes
- Jurado: Luis Felipe Giraldo Trujillo PhD, Profesor Asistente, Universidad de Los Andes

A mis padres, mi hermana y a mi familia...

A todos ustedes...

Agradecimientos
A Dios por ser mi guía y brindarme todas las herramientas necesarias para lograr mis
metas.
A mis padres por ser un apoyo incondicional y por guiarme hacia el camino del é́xito.
A mi hermana por ser una amiga y compañera de vida.

Tabla de contenido
1 Introducción
1.1 Descripción de la problemática y justificación del trabajo .................................................... 1
1.2 Alcance y productos finales......................................................................................................... 2
1.3 Objetivos ........................................................................................................................................ 2
1.3.1 Objetivo General ............................................................................................................. 2
1.3.2 Objetivos Espećıficos ...................................................................................................... 2
2 Marco teórico
2.1 Marco Teórico .............................................................................................................................. 4
2.1.1 Convolutional neural network (CNN) ............................................................................... 4
2.1.2 You only look once (YOLO) ............................................................................................. 5
2.1.3 Retinanet ........................................................................................................................... 6
2.1.4 Single shot multibox detector (SDD) ................................................................................. 7
3 Definición y especificación del trabajo
3.1 Definición ...................................................................................................................................... 10
3.2 Especificaciones ............................................................................................................................. 10
4 Metodoloǵıa del trabajo
4.1 Plan de trabajo ....................................................................................................................... 11
4.2 Búsqueda de información ........................................................................................................... 11
4.3 Alternativas de desarrollo ........................................................................................................... 12
5 Trabajo realizado
5.1 Descripción del Resultado Final ................................................................................................ 13
5.1.1 Uso del traductor de señas escogido................................................................................. 13
5.1.2 Especificación en los programas instalados ..................................................................... 13
6 Conclusiones y trabajos futuros
6.1 Conclusiones .................................................................................................................................. 14
6.2 Trabajo Futuros ............................................................................................................................ 14
Referencias 15

1. Introducción
1.1 Descripción de la problemática y justificación del trabajo

La lengua de señas colombiana o L.S.C. es el lenguaje de señas empleado por la comunidad sorda en
Colombia. Este lenguaje tiene como base la lengua de señas francesa por lo que tienen varias similitudes.
Ethnologue, una organización cristiana evangélica de servicios lingüísticos encargada de estudiar lenguas
menos comunes o conocidas asegura que algunos signos son similares a aquellos de las lenguas de señas
española, americana y salvadoreña. [1]

Es necesario mencionar que la lengua de señas es considerada el idioma natural con el que se comunican
las personas sordas. El idioma natural equivalente a las personas colombianas sin discapacidad auditiva
sería el español. Además, el lenguaje de señas es considerado una lengua ágrafa, lo que quiere decir que
carece de escritura. [2] Además de la L.S.C., existe el A.S.L. (American Sign Language) el cual es
considerado el idioma universal de señas, es decir, este se enseñó en primera instancia en todos los países
donde era conocido antes de enseñar el lenguaje de señas propio del país si es que contaba con uno.

El número de personas sordas colombianas que utiliza la L.S.C. es desconocido, pero se sabe con certeza
que es un número creciente. Además, los medios de comunicación masivos colombianos no cuentan con
un sistema propio de traducción de señas, por lo que la comunidad sorda está limitada a entretenerse por
otros medios o a observar limitados programas que cuenten con la traducción de señas. El mismo
fenómeno puede ser observado al momento de querer comunicarse con una persona parlante, las
instituciones educativas colombianas no enseñan ningún tipo de lenguaje de señas. En el mundo se estima
un total de 360 millones de personas con discapacidad auditiva, 328 millones de adultos y 32 millones
de niños, equivalente a más del 5% de la población. Por lo anterior, se ve la necesidad de disminuir la
brecha de comunicación entre las personas, no solo colombianas sino del mundo con discapacidad
auditiva, y el resto de la población mundial mediante un traductor de señas colombianas a español.

Actualmente se cuenta con un traductor señas colombianas virtual el cual busca incluir socialmente a la
persona sorda, sin embargo, es un sistema que requiere una conexión constante a internet y por ende
supone una gran restricción para su uso continuo. Adicionalmente solo presenta el alfabeto de señas
colombiano de tal forma que su uso poblacional es muy restringido. Dada la situación actual, surge la
necesidad de crear un traductor de lenguaje de señas y optimizarlo de tal forma que la persona no requiera
conexión a internet y sea de uso práctico, es decir, que se pueda utilizar todos los días con facilidad.

1.2 Alcance y productos finales
El compromiso adquirido con la propuesta de tesis fue realizar un estudio de los traductores de señas
existentes y evaluar la facilidad de implementarlo en distintos softwares. Realizar pruebas piloto en
ambientes ideales, es decir, utilizando tanto un sistema de manejo fácil y respuesta rápida como es un
computador y con características como iluminación y movimiento ideales que faciliten el trabajo del
programa de reconocimiento. Posteriormente se implementaría el traductor en un sistema embebido
de tal forma que se vuelva portátil y de uso práctico para el usuario y se realizarían un nuevo número
de pruebas evaluando el desempeño de este en una situación cotidiana. Finalmente, el sistema
embebido quedaría totalmente portátil en una arquitectura compacta que se pueda llevar con bastante
simplicidad maximizando así su portabilidad.
Este trabajo será el paso inicial para la posible creación de un traductor de señas a manera de producto
comercial, que suimplementación sea viable y que ejecute a cabalidad la tarea para la cual fue
diseñado.

1.3 Objetivos
1.3.1 Objetivo General
El objetivo general de este proyecto consiste en implementar un sistema de traducción de señas americana
portátil que sea capaz de reconocer una cantidad determinada de palabras y letras en lenguaje de señas
únicamente por medio de formas estáticas de la mano y traducir su significado. Los motivos del cambio de la
propuesta inicial radicaron en que se vio un uso con mayor potencial si el traductor de señas se implementaba
en un sistema embebido en vez de volver la base de datos de señas únicamente de la lengua de señas
colombiana. Cuando se menciona sistema se refiere a la idea de un producto comercial que sea de uso práctico,
en este caso sería un traductor de señas que el usuario pueda llevar a todos lados y utilizar sin problema alguno.

1.3.2 Objetivos Espećıficos
Los objetivos específicos, debido al cambio en el objetivo general fueron los siguientes:
1. Implementar el traductor de lenguaje de señas escogido en Windows para evaluar la facilidad de
utilización y de posterior implementación en otros softwares como Linux y Raspbian.
2. Reconocer letras y palabras de ASL sin movimiento por medio de una cámara.
3. Validar la adición de señas colombianas a la base de datos y evaluar la respuesta del sistema frente a
estas.
4. Implementar el proyecto en un sistema embebido.
5. Maximizar la portabilidad del traductor enfocado hacia un producto.

2. Marco teórico
2.1.1 Convolutional Neural Network (CNN)

En los algoritmos de aprendizaje de machine learning, una red neural convolucional es un tipo de Deep neural
network, aplicado típicamente para analizar imágenes visuales. Utilizan una variedad de perceptrones
multicapa diseñados para requerir el mínimo de preprocesamiento. Las redes convolucionales surgieron de
los procesos biológicos relacionados con el patrón de conectividad entre neuronas.

En comparación con otros algoritmos de clasificación de imágenes, las redes neuronales convolucionales
utilizan muy poco preprocesamiento el cual se ve reflejado en el aprendizaje que esta tiene sobre los filtros
del algoritmo que anteriormente se debían implementar a mano. Sus aplicaciones más comunes se encuentran
en reconocimiento de imagen y video, clasificación de imágenes, análisis de imágenes médicas y
procesamiento de lenguaje.

La siguiente imagen permite entender de manera más fácil la arquitectura que una red neuronal convolucional
tiene y como esta comparte bastantes similitudes con la del perceptrón multicapa:

Figura 1. Arquitectura de una red neuronal convolucional. Tomado de [1].

Este tipo de red neural es justamente la que el traductor de lenguaje de señas utiliza, por esta razón se vio
pertinente mostrar una definición para que el lector pueda entender con mayor facilidad el funcionamiento
de este trabajo de grado. Si bien este tipo de red neuronal no es la más avanzada ni la más optimizada, sigue
cumpliendo de manera muy eficiente la tarea de reconocer imágenes, por lo cual se decidió utilizarla. A
manera de trabajo futuro se sugiere buscar un algoritmo de reconocimiento más optimizado que traduzca en
tiempo real como los que se mencionan a continuación.

2.1.2 You Only Look Once (YOLO)

You only look once o YOLO por su abreviatura, es un sistema de detección de objetivos en tiempo real.
Procesa imágenes a 30 FPS y tiene un mAP de 57.9%. El sistema es extremadamente rápido y preciso, si se
lo compara con el sistema de Focal Loss estos están a la par con la única diferencia de que YOLO es
aproximadamente 4 veces más rápido. Una característica que identifica a este sistema es que se puede
modificar la velocidad por la precisión o viceversa únicamente cambiando el tamaño del modelo, sin
necesidad de reentrenamiento.

YOLO aplica una sola red neuronal a la imagen que se quiere analizar, de esta forma la red divide a la imagen
en regiones y predice las cajas de unión y las probabilidades para cada región. Las cajas de unión tienen su
prioridad basada en la probabilidad encontrada. A diferencia con la red neural convolucional, esta realiza su
8

predicción con una única evaluación de la red en vez de utilizar miles de redes como lo hace CNN. Por lo
anterior es que se logra obtener una velocidad tan alta, 1000 veces más veloz que CNN y hasta 100 veces
más veloz que fast CNN. La siguiente imagen permite apreciar de manera visual el proceso que YOLO realiza
para la detección de objetos:

Figura 2. Funcionamiento del algoritmo de reconocimiento YOLO. Tomado de [2].

Observando las características que este sistema de detección tiene, surge la duda de por qué no se utilizó este
sistema inicialmente, la respuesta radica en el enfoque que este trabajo de grado tuvo, que, si bien era utilizar
un traductor de lenguaje de señas, lo que se quería lograr era implementarlo en un sistema embebido que fue
la tarjeta Raspberry Pi, razón por la cual se eligió un traductor que sea fácil de implementar para replicarlo
en distintos sistemas operativos.

2.1.3 Retinanet

RetinaNet es una red única y unificada compuesta por una red troncal y dos subredes específicas de tareas. La
red troncal es responsable de calcular un mapa de características de convolución sobre una imagen de entrada
completa y es una red de convolución fuera de lo propio. La primera subred realiza la clasificación en la salida
de la red troncal; la segunda subred realiza la regresión del cuadro delimitador de convolución.

La arquitectura que retinanet utiliza es una base de la red de características piramidal combinado con una
arquitectura ResNet para generar una pirámide convolucional multi-escala. A la base de la red de características
piramidal se le agregan dos subredes, encargadas de clasificar cajas de anclaje y moverse entre las cajas de
anclaje y cajas del objeto a detectar. A continuación, se muestra todo lo descrito anteriormente acerca de la
arquitectura de RetinaNet:

Figura 3. Arquitectura de RetinaNet. Tomado de [3]

Esta red de entrenamiento y reconocimiento también debería ser considerada por el lector en caso de que se
busque continuar con este trabajo y optimizar el traductor de lenguaje de señas. Se menciona RetinaNet para
darle distintas opciones al lector acerca de los algoritmos de machine learning que más a la vanguardia van, de
esta manera se busca que el lector sea critico a manera de cual escoger, dependiendo del nuevo objetivo que se
quiera lograr.

2.1.4 Single Shot Multibox Detector (SDD)

Finalmente se presenta esta última definición de un sistema de detección en tiempo real, se recomienda al lector
realizar una mayor búsqueda de los algoritmos existentes, como se mencionó anteriormente, estos se
mencionan en este documento dado que unos de los más actuales y óptimos que funcionarían para mejorar el
traductor de señas específicamente mas no se garantiza que funcionen eficientemente para otras tareas.

Los SSD están diseñados para la detección de objetos en tiempo real. Una red neural convolucional usa una
red de propuestas de región para crear cuadros de límites y utiliza esos cuadros para clasificar objetos. Si bien
se considera el inicio de la técnica en precisión, todo el proceso se ejecuta a 7 cuadros por segundo. Muy por
debajo de lo que necesita un procesamiento en tiempo real. SSD acelera el proceso al eliminar la necesidad de
la red de propuestas de la región.

Para recuperar la caída en la precisión, SSD aplica algunas mejoras que incluyen características de escala
múltiple y cuadros predeterminados. Estas mejoras permiten que SSD coincida con la precisión de la R-CNN
más rápida utilizando imágenes de menor resolución, lo que aumenta aún más la velocidad. De acuerdo con lasiguiente comparación, alcanza la velocidad de procesamiento en tiempo real e incluso supera la precisión del
Fast-R-CNN. (La precisión se mide como el promedio de precisión mAP).

Tabla 2.1.4: Comparación realizada entre varios sistemas de detección. Tomado de [4].
Sistema VOC2007 test
mAP
FPS Número de
cajas
Resolución de
entrada
Fast-R-CNN 73.2 7 ~6000 ~1000x600
YOLO 63.4 45 98 448x448
SSD300 77.2 46 8732 300x300
SSD512 79.8 1 24564 512x512

3.Definición y especificación del trabajo

Dado que el trabajo realizado consiste en una primera aproximación a la solución del problema planteado, es
necesario definir detalladamente el producto realizado, las características del ambiente bajo el cual este
funciona y las restricciones y características que se requieren para su uso:

3.1 Definición
Definir el trabajo final realizado no es tarea fácil, de igual forma se cree que no será fácil entenderlo
totalmente para el lector a menos de que este tenga el producto físico en sus manos, pero haciendo el
ejercicio de definición, se puede decir que el producto final terminado consiste en un traductor de señas
americanas, el cual se encuentra en una tarjeta Raspberry Pi el cual, a su vez, se encuentra en una caja
acrílica negra compacta que permite su portabilidad a todos lados. El traductor tiene una interfaz que
muestra las señas que el usuario está realizando y el significado de dicha seña, tal como se ve en la figura
4.

Figura 4. Interfaz del traductor de señas.
Dada la interfaz que este presenta, es necesario el uso de un monitor para mostrarla, se intentó hacer uso
de una pantalla portátil conectada a la Raspberry Pi pero el retraso en imagen presentado era bastante
considerable, por lo cual por ahora solo se puede mostrar en un monitor con salida HDMI.
Como el traductor requiere visualizar la mano del usuario, se hace uso de una cámara conocida como
RaspiCam, que es la cámara con la que la Raspberry Pi funciona. En este orden de ideas la caja acrílica en
la que se encuentra el producto tiene un orificio para la cámara y para la entrada HDMI, así como un
compartimiento para la tarjeta Raspberry Pi y para la batería de alimentación. En la siguiente imagen
correspondiente a la figura 5 se puede apreciar todo el producto final:

Figura 5. Caja de acrílico negra en la que se encuentra el traductor de señas con batería y cámara.
El problema en el uso del traductor de lenguas utilizado es que requiere de una configuración previa de luz
para detectar la imagen que se quiere analizar, lo anterior implica un paso extra para el usuario en
configuración y una característica poco practica en el uso diario del sistema. Una aproximación para
solucionar dicho problema consistió en someter a la cámara del sistema embebido el cual es una Raspberry
pi a una iluminación constante por parte de una bombilla, de esta forma solo se requerirá una única
configuración al prender el sistema logrando así disminuir los errores que puedan ocurrir. La bombilla
utilizada se puede apreciar en la figura 5.

3.2 Especificaciones y restricciones
1. La configuración de luminosidad debe realizarse obligatoriamente antes de utilizar el traductor, para
verificar su calibración y su funcionamiento.
2. Es necesario escribir en la consola un código para que open cv reconozca a la cámara de Raspberry
como la salida de video y se pueda obtener una visualización de lo que la cámara está obteniendo.
3. Existe un retraso de 1 segundo y 40 milisegundos en la imagen de video, esto se debe al tresh generado
de la imagen procesada. Lo anterior dificulta un poco el uso del dispositivo.
4. El producto por presentar se trata de un primer prototipo y de una primera aproximación a lo que se
quiere lograr, por esta razón el funcionamiento se presenta en un monitor de computador y no en
una pantalla portátil.
5. Para facilitar el reconocimiento de la seña realizada, se debe utilizar un guante de un color muy
diferente al entorno en el que se encuentre el usuario, por esta razón, se optó por un guante color azul
claro fluorescente que se reconoce con facilidad en la mayoría de los escenarios cotidianos.

4. Metodoloǵıa de trabajo

La metodología de trabajo consistió en un proceso de prueba y error y mejoramiento continuo, no se siguió
ningún algoritmo de solución de problema en particular. Esta sección se divide entre el plan de trabajo el cual
habla de los pasos que se siguieron y elaboraron hasta conseguir el objetivo planteado y una búsqueda de
información donde se describe con mayor detalle toda la búsqueda realizada. Debe entenderse que, si bien el
plan de trabajo y la búsqueda de información están separadas, en la práctica estas fueron de la mano,
especialmente en los puntos 1,2 y 3.

4.1 Plan de trabajo
1. Investigar los diferentes tipos de traductores de señas existentes en internet, que sean gratis y
fáciles de implementar.
2. Realizar la implementación del traductor escogido en un sistema de fácil uso para verificar
funcionalidad y demás características como tiempo de instalación, practicidad, entre otros. El
sistema utilizado fue Windows en un computador portátil.
3. Añadir a la base de datos del traductor letras del alfabeto de señas colombiano con el fin de analizar
la viabilidad de implementar nuevas señas al sistema.
4. Revisar el reconocimiento del traductor frente a las nuevas señas añadidas.
5. Implementar el sistema en Linux para verificar que la funcionalidad permanezca intacta y así
validar su posterior implementación en Raspbian.
6. Realizar la configuración del traductor en Raspbian y validar su uso.
7. Volver el sistema embebido lo más portátil posible.

Este plan de trabajo resalta las acciones más relevantes realizadas durante todo el proceso de este trabajo
de grado, desde que se inició hasta que se terminó. Como se mencionó al inicio de esta sección, la
metodología utilizada para este plan de trabajo consistió en probar cada paso, verificar que, si funcione o
no correctamente, en caso de que no lo haga modificarlo hasta que se tenga el funcionamiento deseado y
avanzar al siguiente punto. La siguiente figura presenta de manera compacta la metodología descrita:

Figura 6. Metodología utilizada para el trabajo.

4.2 Búsqueda de información

Al realizar una revisión bibliográfica se encuentran diversos traductores virtuales, como el mencionado
en la sección anterior. Especificando la bibliográfica encontrada, se tiene la aplicación conocida como
Sign’n la cual permite comunicarse con una persona con discapacidades auditivas. Dicha aplicación fue
creada por Briana Osorio y su equipo en Jalisco, México y esta permite aprender el lenguaje de señas o
bien comunicarse con una persona sorda. Además de la descripción de la funcionalidad de la aplicación,
se encuentra detalladamente el funcionamiento detrás de esta y los métodos empleados para su diseño
(algoritmos, base de datos utilizadas, software necesario, entre otros). [3]

Adicionalmente se cuenta con la bibliografía de la aplicación PSLT (Portable sign languaje translator)
la cual utiliza la cámara del dispositivo en donde se encuentra instalada y con esto es capaz de captar los
movimientos realizados por el usuario y traducirlo a texto en inglés. La aplicación fue creada por la
compañía Technabling, compañía que surgió de la universidad de Aberdeen en Escocia. Respecto a esta
aplicación se tiene conocimiento de los algoritmos de machine learning empleados para entrenar la red
neuronal, así como la base de datos utilizada por los diseñadores. [4]

A nivel local se encuentra el trabajo realizado por Gustavo Alejandro Realpe, quien llevo a cabo una
tesis de maestría en la Universidad de los Andes en reconocimiento de lenguaje de señas manuales
utilizando un Kinect. En su trabajo se llevó a cabo el reconocimiento de gestosde lenguaje de señas,
haciendo énfasis en la identificación de la forma de la mano tanto estática como en movimiento haciendo
uso de la información del esqueleto que brinda el Kinect. [7]

Un segundo trabajo desarrollado a nivel local se trata del traductor virtual de señas colombianas
desarrollado por el ingeniero Jorge Enrique Leal, quien es director de fundación HETAH (herramienta
tecnológica para ayuda tecnológica). Esta es una herramienta gratuita que traduce letra a letra la palabra
que uno introduce en el traductor. Como se mencionó anteriormente la restricción presentada por dicha
herramienta es que requiere de una conexión continua a internet, sin embargo, es una bibliografía
esencial en la aproximación a la problemática.

Finalmente se conoce el proyecto generado por Dibakar Saha, quien creo un programa capaz de
reconocer las señas de la mano del usuario y traducirlos tanto en texto, como en habla. De este último
proyecto se tienen al alcance las librerías utilizadas y una explicación de los algoritmos utilizados, así
como una justificación del software utilizado y como se debería elegir dicho software en comparación a
los demás. Este programa fue el escogido para implementación. [5][6]
4.3 Alternativas de desarrollo
Una alternativa de desarrollo considerada consistió en la implementación del proyecto escogido en
computador, se pensaba inicialmente que ese podía llegar a ser el alcance máximo del proyecto dado
que se creía que la complejidad de la instalación era muy elevada. Una vez se logró la implementación
exacta del traductor en computador, se visualizaron unas metas más prometedoras que se vieron
reflejadas en los cambios de objetivos generales y específicos de este trabajo de grado.
A manera de trabajo futuro, una posible alternativa podría ser implementar el traductor directamente a
un teléfono inteligente, así el usuario podría ahorrar la acción de llevar un dispositivo adicional a este.
Cabe aclarar señor lector que para llevar a cabalidad esta alternativa de desarrollo es obligatorio el uso
de un algoritmo más optimizado de reconocimiento como YOLO el cual se encuentra descrito en la
sección de marco teórico.

5. Trabajo realizado
5.1 Descripción del Resultado Final
5.1.1 Uso del traductor de señas escogido
Una de las razones principales por las que se escogió dicho traductor de señas era porque se contaba a la
mano con todas las librerías y tutoriales utilizados por el autor, que en este caso llevaron a la rápida y fácil
réplica del sistema. Adicional a tener toda la información disponible, se observó que era un sistema que
funcionaba bajo algoritmos y scripts realizados en Python, lo que llevo a pensar que este trabajo podría
funcionar en una alta variedad de softwares dado el lenguaje en el que fue programado.
Todos los comandos utilizados en Python para la implementación del modelo son métodos ya creados por
el autor que realizan distintas tareas, si se quiere conocer cuáles son estos y que función cumplen se invita
al lector a remitirse a la referencia numero 5.

5.1.2 Especificaciones en los programas instalados

Para la etapa final de este proyecto se buscaba la implementación del traductor en un sistema embebido como
lo es la Raspberry Pi utilizada, a pesar de haber realizado la previa instalación en Linux para verificar el correcto
funcionamiento del traductor, fue necesario realizar una búsqueda exhaustiva dado que la instalación de
algunos programas requería unos pasos adicionales y exactos para funcionar como OpenCV. Además de lograr
la correcta instalación de todos los programas, cabe mencionar que Raspbian viene con Python 2.7 y Python
3.4 instalados por defecto. Lo anterior requiere ser aún más cuidadoso al instalar todas las extensiones y
librerías de los programas ya que se debe especificar con cual versión de Python quiere que sea compatible.

La implementación previa en computador fue clave ya que el entrenamiento del sistema en Raspberry puede
tomar un tiempo muerto considerable, al haber realizado la instalación en el computador, solo fue necesario
pasar la carpeta donde se encontraban todos los archivos generados del entrenamiento a la raspberry, de tal
forma que esta solo los utilice y no tenga que realizar todo el proceso de entrenamiento de nuevo.

OpenCV, además de demorarse aproximadamente 3 horas en instalar en Raspberry, requiere de un código de
activación para que reconozca a la cámara (RaspyCam) como la fuente de salida de video, este código debe
ejecutarse cada vez que se quiera utilizar el sistema, de lo contrario se generara un error diciendo que no hay
salida de video disponible.

6.Conclusiones y trabajos futuros
6.1 Conclusiones
Luego de finalizar la instalación del traductor de señas en la tarjeta Raspberry Pi y de analizar su
funcionamiento, se puede concluir que el objetivo general de este proyecto de grado se logró. Se
implemento en un sistema embebido un traductor de señas de ASL el cual puede ser considerado como un
producto portátil que el usuario podría llevar a todos lados y que es de uso práctico en el día a día.
Como se mencionó anteriormente, el producto terminado se trata de un primer prototipo por lo que la
portabilidad de este no está completada, para volverlo totalmente portátil es necesario el uso de una pantalla
pequeña que permita la visualización de la interfaz del traductor, por ahora toda la visualización se realiza
por medio de un monitor para computador para minimizar el retardo ya existente.
Respecto al funcionamiento del traductor, es necesario mencionar que el retardo existente en el video hace

que su uso se vuelva un poco tedioso, se intentó bajar la calidad de imagen para lograr que el video fuera
lo más fluido posible, pero aun así el retardo fue inevitable. Además de esto, el uso del guante es
indispensable si se quiere lograr una traducción rápida de la seña que se está haciendo. El hecho de no
usarlo puede llevar a que el sistema se demore un tiempo considerable mientras logra llevar a cabo la
traducción lo cual es poco deseable.

6.2 Trabajo Futuros
Como trabajo futuro, conociendo los algoritmos de reconocimientos de imagen presentados en el marco
teórico, se buscaría utilizarlos para analizar la diferencia de desempeño que el sistema embebido puede
presentar. Una primera alternativa seria la implementación de YOLO en Raspberry y la búsqueda de
librerías existentes con las señas de ASL para verificar que tan eficiente puede llegar a ser el sistema. Si la
respuesta es positiva, se buscaría la forma de que funcione en una pantalla portátil conectada todo el tiempo
a la Raspberry de tal forma que se logre la total portabilidad del sistema y se maximice su practicidad de
uso. Lo anterior es solo una sugerencia dada al lector, no significa que sea la mejor o la más indicada, todo
depende del nuevo enfoque que usted como lector de este documento quiera darle y dependiendo de eso
usted mismo elegiría que solución utilizar, de cualquier forma se busca incentivar al lector de seguir con
este trabajo que podría ayudar a miles de personas si se lo realiza correctamente.

Referencias
[1] Simons, Gary F. and Charles D. Fennig (eds.). 2018. Ethnologue: Languages of the World,
Twenty-first edition. Dallas, Texas: SIL International. Online version:
http://www.ethnologue.com.
[2] F. (n.d.). Que es L.S.C. Retrieved May 24, 2018, from
http://www.fenascol.org.co/index.php/lengua-de-senas-colombiana/que-es-l-s-c
[3] E. (n.d.). Jóvenes crean una app que traduce voz a lenguaje de señas. Retrieved May 24,
2018, from https://elcomercio.pe/tecnologia/inventos/traductor-jovenes-crean-app-traduce-
voz-lenguaje-senas-noticia-497375
[4] Corporales, F. (n.d.). La aplicación que traduce de lenguaje de señas a texto. Retrieved May 24,
2018, from http://www.finanzaspersonales.co/consumo-inteligente/articulo/la-aplicacion-traduce-lenguaje-senas-texto/44762
[5] Port, E. (n.d.). Sing-Languaje. Retrieved May 24, 2018, from
https://github.com/Evilport2/Sign-Language
[6] Saha, D.. (2018, May 9). Sign-Language (Version 1). figshare.
https://doi.org/10.6084/m9.figshare.6241901.v1A very simple CNN project.
[7] Realpe, G. A. (n.d.). Reconocimiento de lenguaje de señas manuales con kinect. Retrieved
May 24, 2018, from
https://biblioteca.uniandes.edu.co/visor_de_tesis/web/?SessionID=L1Rlc2lzXzIyMDEzMjIw
LzIyODYucGRm

http://www.ethnologue.com/