Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Austral de Chile Facultad de Ciencias de la Ingeniería Escuela de Ingeniería Civil Acústica Profesor Patrocinante: Dr. Jorge Sommerhoff H. Instituto de Acústica. Universidad Austral de Chile. “DESCRIPCIÓN DE LOS MÉTODOS UTILIZADOS EN RECONOCIMIENTO FORENSE DE LOCUTORES Y SU IMPLEMENTACIÓN EN CHILE.” Tesis presentada como parte de los requisitos para optar al título profesional de Ingeniero Civil Acústico PABLO ALEJANDRO CELIS HERRERA Valdivia – Chile 2009 “Este trabajo de titilación está dedicado a mi madre, María Alicia Herrera Astete” INDICE RESUMEN.............................................................................................................................1 ABSTRACT............................................................................................................................2 OBJETIVOS ..........................................................................................................................3 1. INTRODUCCIÓN..............................................................................................................4 2. ANTECEDENTES HISTÓRICOS VINCULADOS A LA VERIFICACIÓN E IDENTIFICACIÓN FORENSE DE LOCUTORES............................................................6 2.1 PRIMEROS ANTECEDENTES CONOCIDOS, RECONOCIMIENTO E IDENTIFICACIÓN AUDITIVA................................................................................................. 6 2.1.1 Primeros sistemas de análisis cualitativo .................................................................................... 6 2.2 LAWRENCE KERSTA .................................................................................................. 8 2.3 EL SURGIMIENTO DE LA TÉCNICA DE IDENTIFICACIÓN Y VERIFICACIÓN DE LOCUTORES EN ESTADOS UNIDOS............................................. 10 2.4 ANTECEDENTES CONOCIDOS FUERA DE ESTADOS UNIDOS..................... 13 2.5 EL ESTADO DE LA TÉCNICA EN LA ACTUALIDAD......................................... 14 2.5.1 Estados Unidos.......................................................................................................................... 14 2.5.2 Antecedentes importantes en el resto del mundo ...................................................................... 15 2.6 FUTUROS TRABAJOS................................................................................................ 16 3. PRODUCCIÓN DEL HABLA ........................................................................................18 3.1 PRODUCCIÓN DE LA VOZ HUMANA, FONÉTICA ARTICULATORIA ........ 18 3.1.1 Fisiología y funcionalidad del aparato fonador......................................................................... 18 3.2 ALGUNOS CONCEPTOS BÁSICOS DEL LENGUAJE ......................................... 22 3.2.1 Fonología y fonética ................................................................................................................. 22 3.2.2 Clasificación de los sonidos de la voz humana. ........................................................................ 23 3.2.3 El alfabeto fonético internacional (A.F.I.) ................................................................................ 27 4. PROBLEMÁTICA EXISTENTE PARA CREAR UN MÉTODO INFALIBLE PARA VERIFICAR E IDENTIFICAR PERSONAS POR SU VOZ............................................29 4.1 INTRODUCCIÓN ......................................................................................................... 29 4.2 VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR.................................... 29 4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto emisor............................ 30 4.2.1.1 Variaciones no relacionadas con el plano expresivo .............................................................. 30 4.2.1.2 Variaciones relacionadas con el plano expresivo .................................................................. 32 4.2.2 Circunstancias ajenas a la naturaleza del habla y del sujeto emisor.......................................... 33 5. EXPRESIÓN DE RESULTADOS E INFERENCIAS BAYESIANAS.........................35 5.1 INFERENCIA BAYESIANA ....................................................................................... 35 5.1.1 Antecedentes históricos............................................................................................................. 35 5.1.2 La interpretación de la metodología bayesiana y las cortes ..................................................... 36 5.2 LA PROPORCIÓN DE VEROSIMILITUD (LR) ..................................................... 36 5.2.1 Combinación de LRs................................................................................................................. 38 5.2.2 Escalas verbales para la proporción de verosimilitud ............................................................... 39 5.2.3 Escala logarítmica para la proporción de verosimilitud ............................................................ 40 5.3 PROBABILIDAD A PRIORI....................................................................................... 41 5.4 HIPÓTESIS DE DEFENSA.......................................................................................... 42 6. CARACTERÍSTICAS ACÚSTICAS IMPORTANTES DEL HABLA DESDE EL PUNTO DE VISTA FORENSE ..........................................................................................43 6.1 FUENTE Y FILTRO ACÚSTICO DEL TRACTO VOCAL .................................... 43 6.1.1 Fuente acústica en el tracto vocal.............................................................................................. 43 6.1.2 Filtro del tracto vocal ................................................................................................................ 45 6.2 CARACTERÍSTICAS DEL HABLA UTILIZADAS EN RECONOCIMIENTO FORENSE DE LOCUTORES................................................................................................... 49 6.2.1 Los formantes............................................................................................................................ 49 6.2.1.1 Determinando las frecuencias centrales de formantes para una schwa................................... 50 6.2.1.2 Función de área....................................................................................................................... 51 6.2.1.3 Comportamiento de los formantes de las vocales en el español ............................................ 51 6.2.1.4 Variación intralocutor e interlocutor en formantes del español ............................................. 53 6.2.1.5 Visualización de una schwa................................................................................................... 53 6.2.1.6 Significado forense para la longitud del tracto vocal y las frecuencias formantes ................ 54 6.2.2 Frecuencia fundamental ............................................................................................................ 55 6.2.2.1 Determinación de la frecuencia fundamental según masa y longitud de las cuerdas vocales. 56 6.2.2.2 Un ejemplo de la frecuencia fundamental en la palabra hija .................................................. 57 6.2.2.3 Significado forense de la frecuencia fundamental .................................................................. 58 6.2.3 Formantes de alta frecuencia..................................................................................................... 58 6.2.3.1 El significado forensede los formantes de alta frecuencia..................................................... 59 6.2.4 El espectro a largo plazo ........................................................................................................... 60 6.2.4.1 Significado forense del LTAS ................................................................................................ 61 6.2.5 El cepstrum ............................................................................................................................... 62 6.2.5.1 Análisis técnico del cepstrum ................................................................................................. 64 6.2.5.2 Coeficientes cepstrales de Mel (MFCC)................................................................................. 65 6.2.5.3 Parámetros derivados.............................................................................................................. 67 6.2.5.4 Importancia forense del cepstrum........................................................................................... 68 6.2.6 Distribuciones de la frecuencia fundamental a largo plazo....................................................... 69 6.2.6.1 Parámetros estadísticos importantes en distribuciones a largo plazo...................................... 71 6.2.6.2 La frecuencia fundamental y la salud ..................................................................................... 75 6.2.6.3 Las distribuciones de frecuencia fundamental y probabilidades............................................ 76 6.2.6.4 Modelando distribuciones de la frecuencia fundamental....................................................... 76 7. COLOCANDO EN PRÁCTICA LA METODOLOGÍA BAYESIANA..........................80 7.1 PRONUNCIACIÓN ILEGAL DE VOCALES EN EL JAPONÉS ........................... 80 7.2 CÁLCULO PARA LA PROPORCIÓN DE VEROSIMILITUD CON DATOS CONTINUOS .............................................................................................................................. 82 7.2.1 Semejanza ................................................................................................................................. 83 7.2.2 Tipicidad ................................................................................................................................... 84 7.2.3 Una fórmula para la proporción de verosimilitud ..................................................................... 86 7.2.4 Aplicando la fórmula para la proporción de verosimilitud........................................................ 87 7.2.4.1 Muestra de referencia ............................................................................................................ 87 7.2.4.2 Resultados, muestras dubitadas e indubitadas ....................................................................... 89 8. ALGORITMOS DE CLASIFICACIÓN UTILIZADOS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES EN SISTEMAS AUTOMÁTICOS ..............................................................................................................................................91 8.1 ALGORITMOS DE PLANTILLA .............................................................................. 91 8.1.1 Alineamiento temporal dinámico (DTW) ................................................................................. 91 8.1.2 Cuantización vectorial (VQ) ..................................................................................................... 92 8.2 MODELOS ESTOCÁSTICOS..................................................................................... 93 8.2.1 Modelo de mezclas gaussianas (GMM).................................................................................... 93 8.2.1.1 Modelo Universal (UBM)....................................................................................................... 95 8.2.1.2 Adaptación de un modelo al locutor mediante el algoritmo EM ............................................ 95 8.2.1.3 Ajuste de un modelo al locutor utilizando adaptación bayesiana (MAP).............................. 96 8.2.2 Modelos ocultos de Markov (HMM) ........................................................................................ 97 8.3 TÉCNICAS ALTERNATIVAS USADAS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES................................................................................................... 98 8.3.1 Redes neuronales artificiales..................................................................................................... 98 9. TRABAJOS REALIZADOS EN CHILE EN RECONOCIMIENTO DE LOCUTORES CON FINES FORENSES .................................................................................................100 9.1 LA EVIDENCIA DE LA PRUEBA DE VOZ DE CARA A LOS TRIBUNALES CHILENOS ............................................................................................................................... 100 9.1.1 Con respecto al perito ............................................................................................................. 101 9.1.2 Acerca del informe pericial..................................................................................................... 102 9.2 ALGUNOS GRUPOS TRABAJANDO EN CHILE................................................. 102 9.2.1 Sección sonido del Laboratorio de Criminalística de la Policía de Investigaciones de Chile . 103 9.2.2 Miembros pertenecientes a la Universidad de Chile ............................................................... 107 9.2.2.1 Peritajes realizados por Luis Romero Romero ..................................................................... 107 9.2.2.2 Peritajes realizados por Carla Badani Schoneweg................................................................ 107 9.2.3 Trabajos realizados por docentes de la Universidad Austral de Chile .................................... 109 9.2.3.1 Peritajes ................................................................................................................................ 110 9.2.3.2 Investigación en curso .......................................................................................................... 110 9.2.4 Trabajos realizados por personas particulares......................................................................... 110 10. CONCLUSIONES........................................................................................................111 BIBLIOGRAFÍA................................................................................................................114 ANEXOS ............................................................................................................................116 RESUMEN En el presente trabajo se pretende caracterizar la práctica forense en Chile, asociada básicamente al reconocimiento del hablante, desde el punto de vista de la Ingeniería Acústica. Para ello, en primer lugar, se examinarán conceptos generales, antecedentes históricos, conocimientos básicos del lenguaje y características acústicas del habla entre otros elementos relacionados con el campo de estudio, necesarios para la comprensión de la problemática central. En segundo lugar, se describirá la teoría bayesiana aplicada a los sistemas de reconocimiento de locutores, de cara a ser utilizada en trabajos prácticos. Finalmente, se darán a conocer aspectos desarrollados en Chile en los últimos años en el desarrollo de la metodología acústica forense. Con ello se pretende brindar los conocimientos básicos que permitan apoyar y mejorar la práctica forense en Chile. 1 ABSTRACT In the present work it is seek to characterize the forensic practice in Chile, associate basically to the speaker recognition from point of view of the Acoustic Engineering. For it, in first place, general terms will be examined, historical antecedents, basic knowledge of the language characteristic acousticof the speech among other elements related with the study field, necessary for the understanding of the central problem. In second place, the Bayesian theory will be described applied to the systems of speaker recognition, of face to be used in practical works. Finally, they will be given to know aspects developed in Chile in the last years in the development of the forensic acoustic methodology. With it is seek to offer it the basic knowledge that allow to support and to improve the forensic practice in our country. 2 OBJETIVOS General: • Describir la metodología acústica aplicada al reconocimiento de la voz en Chile. Específicos: • Describir la metodología bayesiana aplicada al reconocimiento de locutor en el ámbito forense. • Comparar las ventajas y desventajas de la metodología bayesiana con otros métodos utilizados, especialmente en Chile. • Describir y analizar los diversos factores causantes de problemática en las técnicas, sus soluciones e influencia en los resultados. 3 1. INTRODUCCIÓN A partir de la década de los cincuenta, comienza la génesis de nuevos y diversos experimentos los cuales tienen como objetivo lograr métodos con los cuales reconocer e identificar personas por su voz. Si bien es cierto, este es un problema al cual se comenzó la búsqueda de una solución a partir de la mitad del siglo recién pasado. Existen numerosos relatos, los cuales cuentan acontecimientos concernientes a la identificación de una persona mediante su voz. Incluso en la Biblia existe un relato donde un padre ciego puede reconocer a un hijo mediante su voz. Para todos es familiar reconocer a una persona conocida mediante su voz, un ejemplo de esto es al contestar un teléfono, a veces nos sucede que inmediatamente reconocemos al locutor que está al otro lado del teléfono cuando este emite una o más palabras. Sin embargo, el problema de reconocer personas por la voz se hace mayormente interesante cuando en la década de los setenta comienzan a gestarse crímenes en los cuales se contaba con grabaciones de los delincuentes involucrados en dicho crimen. Al respecto surgen diversas técnicas de carácter científico; este es el caldo de cultivo para empezar a comprender que la invención de una técnica idónea concerniente a resolver el problema es una tarea sumamente complicada. La falta de comprensión en el núcleo del problema hizo que la técnica fuera blanco de muchas críticas y ridiculizaciones en épocas pasadas, las cuales aún en la actualidad tienen eco. Sin duda las barreras del pasado han sido superadas y un entendimiento a fondo del problema es lo que ha llevado a contar hoy con sistemas de identificación de locutores con excelentes resultados. En la actualidad, las técnicas utilizadas en reconocimiento de locutores con fines forenses aparecen ya consagradas en muchos países, y en muchos de los cuales se siguen investigando y desarrollando aspectos que tienen el fin de mejorar el estado de la técnica. Sin embargo, en Chile las técnicas de identificación y verificación forense de locutores parecen aún extrañas y en gran manera desconocidas por muchas personas relacionadas con el campo de su aplicación. En este trabajo se pretende dar a conocer el estado del arte y aspectos importantes vinculados a los métodos utilizados en reconocimiento forense de locutores en la actualidad, desde un punto de vista de la Ingeniería Acústica, y conocer cuáles son los trabajos realizados y por realizar en Chile en esta área. Además, se procurará dar especial 4 énfasis a la metodología bayesiana vinculada al reconocimiento de locutores con fines forenses. Conviene señalar la naturaleza multidisciplinar del campo de estudio tratado y la gran cantidad de datos que se desprenden en este entorno, lo cual hace de esta área un tema muy complejo de estudiar. Es por esta razón que este trabajo pretende establecer pautas y directrices de futuros trabajos en este campo en la Universidad Austral de Chile, y especialmente en el Instituto de Acústica. 5 2. ANTECEDENTES HISTÓRICOS VINCULADOS A LA VERIFICACIÓN E IDENTIFICACIÓN FORENSE DE LOCUTORES 2.1 PRIMEROS ANTECEDENTES CONOCIDOS, RECONOCIMIENTO E IDENTIFICACIÓN AUDITIVA Los simples reconocimientos a nivel perceptivo son la primera referencia que se posee acerca de la materia de interés, el reconocimiento forense de locutores como una prueba válida tomada en cuenta por un tribunal de justicia. En 1660 un tribunal inglés estimó válido un testimonio de este tipo en el caso de un tal William Hullet. Existen además algunos comentarios que dicen que en el período transcurrido entre 1774 y 1780, cuando John Fielding ocupaba el cargo de jefe de los Bow Street Runners1, siendo ciego, consiguió identificar numerosos delincuentes por su voz. En 1881 un tribunal norteamericano consideró admisible la identificación de un perro por su ladrido. El argumento utilizado para la sentencia relataba, que si “si una persona puede ser reconocida por su voz, un perro puede serlo a través de su ladrido”. Un caso más cercano, en el tiempo en el cual se consideró un reconocimiento perceptivo, es en el conocido secuestro Lindberg. En 1935 Charles Lindberg, famoso piloto estadounidense (por ser la primera persona en sobrevolar solo el Océano Atlántico), sufrió el secuestro y asesinato de su hijo. Bruno Hauptmann fue arrestado y acusado por tal acción. Durante el juicio, Lindberg reconoció la voz de Hauptmann como aquella del secuestrador que dos años antes había escuchado personalmente a través del teléfono. Esta identificación, fue considerada válida por el tribunal, y al parecer tuvo un gran peso en la sentencia final, la cual fue de muerte. La gran resonancia del caso y el cuestionamiento que en relación a este tipo de reconocimiento perceptivo a largo plazo se formuló, hicieron del asunto Lindberg una referencia popular aunque primitiva de la técnica de identificación de voz [11]. 2.1.1 Primeros sistemas de análisis cualitativo El primer salto importante en este aspecto tiene antecedentes en los trabajos de Alexander Melville Bell, que en 1867 ideó una forma de representación gráfica de las palabras en función de cómo eran pronunciadas. Este sistema fue bautizado como “visible speech” (habla visible), y fue utilizado tanto por su creador como por su hijo, el famoso 1 Los Bow Street Runners. Así fue llamada la primera fuerza profesional de la policía de Londres. Fue fundada por Henry Fielding en 1749 y originalmente contó con ocho integrantes. 6 Alexander Graham Bell2 para hacer más funcional el aprendizaje del habla en las personas sordas. Los laboratorios Bell situados en Murray Hill, New Jersey, han sido una importantísima referencia en lo que respecta a la técnica de identificación de voz. Una larga serie de ingenieros que han pasado por estos laboratorios han contribuido de manera relevante en el desarrollo de la técnica. Entre otros, pueden citarse a los señores Bell, Potter, Kopp, Green, Kersta, Atal, Rosenberg, Doddington, Presti, etc. En 1947 los doctores Potter, Kopp y Green publicaban un libro titulado “Visible speech” tomando prestado el nombre empleado por Alexander Melville Bell. En este libro se pretendía instruir sobre la interpretación lingüística de los sonidos del habla representados en forma de espectrogramas o sonogramas. Lo que los diferenciaba del señor Bell era la utilización en sus trabajos de una máquina de reciente invención: el espectrógrafo analógico de sonido o sonógrafo. Con ayuda de este instrumento codificaron el habla en formas gráficas, representando el sonido en una referencia tridimensional (frecuencia, amplitud, tiempo) mediante la realización de sucesivos análisis de Fourier a corto plazo en una muestra de voz. Ya a principios de siglo XX comienzan los primeros progresos con espectrógrafosde naturaleza mecánica, como fue el analizador de Heinrici. Durante la segunda guerra mundial se hicieron los avances más significativos con respecto al sonógrafo. En 1941 los laboratorios Bell iniciaron su diseño en un proyecto dirigido por el doctor Ralph Potter. La finalidad prioritaria era el reconocimiento de operadores de radio alemanes para poder detectar la ubicación y desplazamiento de las distintas unidades enemigas. En 1944, los doctores Gray y Koop se encontraban absolutamente confiados en la posibilidad de utilización de sonogramas con fines identificativos. Fue aquí cuando crearon el termino “voiceprint” (huella de voz), tratando de poner su método en igualdad de condiciones con la identificación forense mediante huellas dactilares o “fingerprint”, ya consolidada para entonces. El término utilizado traería mas adelante nefastas consecuencias. Dos circunstancias hicieron caer en el olvido el proyecto originado en los laboratorios Bell: el fin de la guerra y la imposibilidad de registrar en aquellos días grabaciones de voz. Como contrapunto favorable, puede citarse el hecho de que el estudio, en lo que respecta a identificación de locutores, dejó de ser un interés estrictamente militar, dando paso a la posibilidad de avanzar en el tema a otros científicos y estudiosos del habla. 2 Científico e inventor británico nacido en 1847, especializado en transmisión de ondas sonoras y en tecnología aérea. Entre sus muchos inventos, sin duda, el teléfono es el más importante. 7 Como puede verse, el mayor número de antecedentes registrados respecto a la identificación forense de locutores, proviene de Estados Unidos, país que puede considerarse pionero en la técnica. Se sabe de algunos trabajos realizados en la Unión Soviética y en algunos de sus países satélites después de la segunda guerra mundial, aunque muy poco se conoce respecto a los logros de dichos trabajos [11]. 2.2 LAWRENCE KERSTA En torno al año 1960 en Estados Unidos comienza a surgir una nueva moda delictiva, las amenazas telefónicas de bombas a compañías aéreas. Para aquellos días, las grabaciones magnetofónicas de sucesos sonoros eran tan viables como lo son en la actualidad, por lo tanto, lo que fue un impedimento hacia quince años atrás, ya no existía. En estas circunstancias, la policía de Nueva York solicitó ayuda a los laboratorios Bell para capturar a los individuos que realizaban estas llamadas. Un físico que había participado en los experimentos iniciales del sonógrafo fue elegido para cumplir esta tarea, su nombre era Lawrence Kersta. Kersta necesitó dos años para presentar un método de identificación de voz, el cual otorgó una fiabilidad de 99.65%. El método de Kersta, se basaba básicamente en la comparación de los “patterns” (figuras de representación gráfica de la frecuencia y la amplitud en el dominio del tiempo) que aparecen en los sonogramas; un proceso similar al usado para el análisis de huellas dactilares, motivo por el cual probablemente Kersta volvió a utilizar el término “voiceprint” para el sonograma de voz. El convencimiento de Kersta acerca de la infalibilidad de su método era tan grande que llegó a compararlo con el de huellas dactilares en su presentación ante la Acoustical Society of America3 en 1962. Entre los años 1962 y 1966 Kersta colaboró exitosamente con distintos departamentos de policía y agencias federales. En 1966, Kersta abandona los laboratorios Bell para formar su propia compañía “Voiceprint Laboratories, Inc.”. Esta nueva compañía, ofrecía diversos servicios tales como: perito en identificación de voz, procesado de señal, trascripción sobre registros, e incluso producía sonógrafos con fines comerciales en competencia con la firma “Kay Elemetrics Co.”. En la introducción del catálogo de presentación de la compañía, Kersta deja clara su visión acerca de su técnica de identificación de voz: “...de la misma forma en que la identificación dactilar se basa en las características individuales que aparecen en las impresiones de las huellas dactilares de las personas, la identificación por “voiceprint” tiene su fundamento en las características individuales que se ponen de manifiesto en las impresiones espectrográficas de las emisiones habladas de los sujetos”. 3 La Acoustical Society of America (ASA) es una sociedad científica internacional fundada en el año 1928, dedicada a incrementar y difundir el conocimiento de acústica y sus aplicaciones prácticas. 8 Otro servicio que ofrecía la empresa de Kersta, era la de formación de expertos. El primer curso de adiestramiento lo realizó en 1967. Asistieron a éste miembros de la policía científica del estado de Michigan y Oscar Tosi, como asesor de dicho departamento policial, en calidad de evaluador de los procedimientos utilizados por Kersta. Los cursos dictados tenían una duración de dos semanas, que debía ser complementado con otro de dos años, en el cual los estudiantes eran entrenados en la comparación visual de espectrogramas, supervisado por el propio Kersta. Por todas las razones mencionadas, Kersta es considerado el primer perito que testificó ante un tribunal como experto en identificación de voz, aunque cometió errores, algunos muy perjudiciales para la técnica. Kersta continúo participando como perito ante los tribunales. En el caso People vs King en 1968 (sobre incendio y pillaje en un barrio de Los Angeles) durante una entrevista televisiva alguien que no mostraba su cara a la cámara se hacía responsable de los hechos delictivos. Kersta, que actuaba para el fiscal, comparó los registros de habla con muestras de un sospechoso al cual identificó. Siete expertos utilizó la defensa (ingenieros y fonetistas), uno de ellos, el Doctor Peter Ladefoged de la Universidad de California, atacó exitosamente la metodología utilizada por Kersta, poniendo en evidencia las carencias de su método, en el campo de las ciencias del habla. El acusado fue absuelto. Este hecho, representó para Kersta el fin de su carrera como perito y empresario en el ámbito de identificación de locutores, y desencadenó la reinvención de la técnica, que otrora fuera dominada por los ingenieros y físicos acústicos, y que en adelante tendría un carácter multidisciplinar, entrando a participar activamente expertos de las ciencias del habla, que casual, pero injustamente fueron ignorados en un principio. Kersta cometió tres errores fundamentales: • Situó en el mismo plano de infalibilidad la identificación dactilar y la identificación de voz, cuando los objetos de estudio de cada una de estas ciencias forenses presenta una naturaleza opuesta. La huella dactilar es inmutable y perenne, mientras que las emisiones del habla presentan una naturaleza variable. • Usó el análisis sonográfico como método exclusivo, dejando de lado el estudio a nivel fonético, como también el análisis perceptivo/auditivo. • Estaba convencido que cualquier miembro de las fuerzas de seguridad estaba capacitado para desarrollar la técnica de identificación de locutores, tras un entrenamiento en el único criterio de comparación de patterns sonográficos. En 1973 Voiceprint Laboratories Inc. fue a la quiebra, siendo sus derechos comprados por William Hughes, quien fundó “Voice Identification Inc.” con el objetivo 9 principal de seguir con la producción comercial de sonógrafos, aunque de forma ocasional se ofrecían servicios periciales de identificación de voz, ya que parte del personal de la compañía de Kersta, había sido absorbido por la nueva empresa. Voice Identification Inc. continúa en la actualidad. Los errores cometidos por Kersta aún se dejan sentir. Estos errores son especialmente utilizados por personas con poco conocimiento del tema y por algunos inescrupulosos que desean desprestigiar la técnica para conseguir algún propósito.Sin embargo estos motivos no deben ser impedimento para el desarrollo de esta herramienta de indudable valor para el esclarecimiento de algunas actividades delictuales, y que ya en nuestros días ha sido objeto de muchos avances [11]. 2.3 EL SURGIMIENTO DE LA TÉCNICA DE IDENTIFICACIÓN Y VERIFICACIÓN DE LOCUTORES EN ESTADOS UNIDOS Los primeros testimonios frente a un tribunal por parte de expertos se produce en 1966, en los cuales participó Kersta, Sin embargo en 1967 fue la primera vez que se ordenó por parte de un tribunal verificar y regular la admisibilidad de la prueba de identificación forense de locutores. Un juez incluye por primera vez una referencia de aceptación científica conocida como “Frye test o Frye rule”, el cual fue el estándar de admisibilidad utilizado en el declive como experto de Kersta. La referencia “Frye” fue dictada en 1923 y señala que: “...cuando un nuevo principio o descubrimiento científico es utilizado ante los tribunales para demostrar alguna evidencia, éste, debe contar con la general aceptación de la comunidad científica de su entorno.” La insuficiente evaluación respecto al método espectrográfico y la carencia de un marco de referencia meticuloso respecto a su admisibilidad fueron los factores que en los primeros años de la técnica opacaron su fiabilidad. En 1967 para hacer frente a estas circunstancias, el departamento de ciencias del habla y audiología de la Universidad del Estado de Michigan (M.S.U), subvencionado por el Departamento de Justicia de los Estados Unidos, desarrolló un experimento durante tres años. El responsable del proyecto fue el doctor en ciencias físicas Oscar Tosi. En este estudio se efectuaron 34.992 evaluaciones de identificación y eliminación espectrográfica en las cuales fueron incluidas condiciones forenses (ruido, transmisión telefónica, no contemporaneidad de las muestras, etc). Durante este período la policía de Michigan, trabajó simultáneamente en casos reales de identificación de locutores con fines forenses bajo las directrices de Tosi, aunque dichos casos no fueron considerados como evidencia. 10 En 1970 concluyen los estudios realizados por la M.S.U, con resultados altamente favorables para el método espectrográfico de identificación de locutores. Por este motivo, el Departamento de Policía del Estado de Michigan decide crear la primera unidad policial de investigación en identificación de voz (exceptuando el F.B.I.). Al frente de esta unidad es designado el teniente Ernest Nash, el cual fue la persona que trabajó con Tosi en coordinar el análisis de casos forenses reales durante el período de experimentación. Tras los resultados de los estudios de 1970, Oscar Tosi, que en un principio había declarado en contra del método espectrográfico da a conocer un nuevo enfoque metodológico, ésta es la técnica auditiva-espectrográfica, y que fue utilizada ese mismo año con éxito en un caso en Minnesota, donde el tribunal supremo de este estado reconoció como fiable la prueba de identificación de voz, incluso el Doctor Ladefoged que actuaba como perito de la defensa, reconoció la fiabilidad de la metodología propuesta por Tosi, que junto a Nash actuaban como peritos de la fiscalía (recordando que Ladefoged se mostró en contra del método de Kersta). En 1971 con el objetivo de institucionalizar diversos aspectos y conceptos con respecto a la técnica de identificación forense de locutores, Kersta, Tosi y Nash, junto a un asesor legal fundan la I.A.V.I. (Asociación Internacional de Identificación de Voz), la cual se propone entre otros objetivos, la formación y calificación de expertos, fomentar la investigación y establecer un código de ética para la utilización de la técnica. En 1980 la I.A.V.I. se integra al VIAAS (Voice Identification & Acoustic Analysis Subcommitee) de la International Association for Identification (I.A.I.)4. En 1978 Tosi y Greenwald realizaron un nuevo experimento, en el cual estaban contemplados la influencia de diversos factores en la técnica auditiva-espectrográfica como lapso temporal, sexo y entrenamiento del experto. Veintitrés estados federales norteamericanos, algunos canadienses, Italia e Israel, habían admitido en el año 1978 la evidencia de identificación de voz. Durante los últimos años de la década de los setenta, los detractores de la metodología de Kersta fueron sistemáticamente ampliando sus críticas a las metodologías más desarrolladas, estas críticas en muchos casos correspondían a objetivos personales, llegando nuevamente a un punto muerto. La regla Frye exigía que la comunidad científica estuviera completamente de acuerdo al respecto, y obviamente utilizando este recurso muchas cortes decidieron desechar la evidencia de identificación de voz, ya que no se tenia certeza que parte de la comunidad científica era la competente en este campo. 4 La International Association for Identification (I.A.I.) es la más grande organización forense en el mundo. Fue fundada en octubre de 1915 con el nombre inicial de "International Association for Criminal Identification". 11 Mucho antes, en la década de los 50, el F.B.I ya había comenzado sus investigaciones respecto al análisis espectrográfico de manera confidencial, utilizándolo de manera exitosa en algunos casos de investigación interna. Debido al tira y afloja existente a nivel judicial, en 1976, solicitan a la National Academy of Sciences un dictamen aclaratorio respecto de la fiabilidad del método espectrográfico y su utilización en los tribunales de justicia. Este estudio fue llevado a cabo por la Academia Nacional de las Ciencias, desde el punto de vista de un equipo multidisciplinar, que entre sus miembros contó con Cooper, Green, Hamlet, Hogan, Mc Knight, Picket, Tosi y Underwood, al frente de este equipo estaba Douglas L.Hogan del Consejo Nacional de Investigación. Este equipo estaba compuesto de expertos de diversas áreas, abarcando tanto el ámbito legal como científico (Derecho Penal, Leyes de la evidencia en general, Acústica, Electrónica, Ciencias del habla, Patologías, etc.); como chairman de dicha Comisión fue designado el Dr. R.H.Bolt. En 1979 esta comisión expresó sus resultados en un informe titulado "On the Theory and Practice of Voice Identification", en el cual no se hacia alusión a favor o en contra del análisis auditivo-espectrográfico, pero que sí se hacía referencia en que la corte debía ser informada acerca de las limitaciones del método, como también acerca de la calificación de los expertos que realizaban las pericias. Tras conocer el informe entregado por la Comisión Nacional de las Ciencias el F.B.I continuó utilizando el método auditivo-espectrográfico para fines de su propia investigación, o como auxilio a cualquier otra fuerza de seguridad que lo necesitará. En 1986 el Federal Bureau of Investigation (F.B.I.) publicó un estudio que dio a conocer sus conclusiones acerca de su método en casos reales, después de quince años de utilización, el cual arrojó márgenes de error inferiores al 1%. Después de numerosos estudios, entre los que se pueden citar Kersta 1962; Young & Campbell 1967; Stevens et al., 1968; Tosi et al. 1972, 78 y 79; Bolt et al. 1970 y 1973; Hennessy 1970; Endrees et al. 1971; Hazen 1973; Black et al. 1973; Smrkovski 1975 y 1976; Hall 1975; Obrecht 1975; Hollien & Mc Glone 1976 y 77; Reich et al. 1976 y 1979; Rothman 1977; Houlihan, 1979; Greenwald 1978 y 1979, etc, que muestran la fiabilidad de la metodología existente hasta entonces en identificación de voz cabe hacerse la pregunta ¿qué tanta razón tenían los detractores de la técnica? A principios de los años ochenta, ya con el avance realizado e inminente de la informática, aparecen nuevos enfoques, basados en los métodos anteriores, a vislumbrarse como viables. Es aquí donde comienza a hablarse de sistemas automáticos y semiautomáticos,en donde el Dr. Tosi adquiere relevancia con sus trabajos en la Universidad de Michigan [11]. 12 2.4 ANTECEDENTES CONOCIDOS FUERA DE ESTADOS UNIDOS Los primeros antecedentes conocidos fuera de Estados Unidos fueron investigaciones en la ex Unión Soviética poco después de la segunda guerra mundial. Sin embargo, no es hasta finales de los setenta cuando comienza a hacerse un uso en el plano práctico de sus técnicas, en este sentido cabe mencionar entre los primeros interesados en el tema: J. Ramisvili en la U.R.S.S., S. Blasikievicz y Wojciech Majewski en Polonia, H. Habersbrunner en Alemania, Ion Anghelescu en Rumanía y los doctores Masao Onisi y Seiki Miyoshi en Japón. En 1963 un niño de cuatro años es secuestrado en Tokio, las conversaciones telefónicas de su secuestrador fueron grabadas y la policía japonesa solicitó la ayuda de fonetistas, lingüistas e ingenieros acústicos con el fin de identificar la voz del sospechoso. Esta es la primera vez que la identificación forense de locutores es utilizada en Japón. Durante los siguientes años fue utilizada en ayuda de los organismos policiales, y en 1977 es considerada admisible ante los tribunales de justicia. En Europa los antecedentes más antiguos que se tienen provienen de la Unión Soviética. En 1971 el Laboratorio de Fonoscopía del Centro de Criminalística del Ministerio del Interior de la actual Rusia, comenzó oficialmente sus trabajos de investigación en el ámbito de identificación forense de locutores. Aunque muchos antecedentes no son conocidos por reticencias de tipo políticas, se sabe que a partir de los ochenta existían alrededor de cincuenta laboratorios públicos, donde se realizaban trabajos de este tipo. Basándose en el método auditivo-espectrográfico, a principio de los años setenta en Alemania comienzan los primeros trabajos. Posteriormente, el Dr. Ernest Bunge al servicio del Kriminaltechnisches Institut del Bundeskriminalamt o B.K.A. (Policía Federal de Alemania), supervisó un proyecto cuyo fin era la obtención de un método automático de identificación de voz conocido como “AUROS”. Según su creador, este sistema ofrecía excelentes resultados, con un margen de error inferior al 0.5% en condiciones de laboratorio. El sistema fue desestimado, luego, al ser usado bajo condiciones reales, para dar paso a un sistema auditivo-lingüístico. Bajo estas circunstancias, en 1981 es considerada admisible como prueba de cara a los tribunales de justicia alemanes. A principios de los años setenta, comienza su trabajo en esta área la policía Italiana. A partir de la década de los ochenta diversos laboratorios de varios países comienzan su andadura en este campo, con un objetivo policial o de apoyo a la justicia. Entre estos países se pueden citar: Holanda, España y Austria. A partir de la década de los noventa países 13 como: Francia, Bélgica, Finlandia y Lituania, comienzan a realizar trabajos en esta área [11]. 2.5 EL ESTADO DE LA TÉCNICA EN LA ACTUALIDAD 2.5.1 Estados Unidos Anteriormente se habló acerca de la importancia de los aportes que haría Tosi a principio de los años ochenta. El Dr. Tosi por diversos motivos se desliga de la I.A.V.I., y comienza una nueva exploración. Tosi visualizó la importancia de contar con métodos que sustentaran más firmemente el análisis auditivo-espectrográfico. En este sentido, incorpora tres importantes modificaciones a su metodología. En primer lugar desarrolla e incorpora los sistemas automático TOSI I y TOSI III. Basándose en resultados obtenidos en sus trabajos de experimentación en la M.S.U., logra extrapolar mediante su curva P.S.S. (escala de probabilidad subjetiva) los valores de similitud y disimilitud a valores de probabilidad, esto tiene como fin hacer más objetivos los resultados de sus análisis. Y por último, introduce reglas de decisión que reducen el margen de error en las evaluaciones. Lo realmente novedoso en estos cambios es la introducción de distintas disciplinas en la técnica. En 1992 Oscar Tosi incorpora en sus informes el análisis fonético-lingüista, después de darse cuenta de la importancia de este análisis, que le fue dado a conocer por miembros del Laboratorio de Acústica Forense de la Policía Científica Española, tras un curso de formación dictado en la M.S.U por el Dr. Tosi. El Dr. Oscar Tosi fallece en el año 1994, dejando un importante legado, y con la conciencia clara que quedaba mucho por hacer en el ámbito de identificación de voz. Durante los años ochenta y noventa se registra gran actividad en esta área en los Estados Unidos, principalmente en el área de investigación con fines de mejorar los sistemas automáticos. El F.B.I sigue utilizando el método espectrográfico en sus análisis, teniendo como política que ninguno de sus miembros puede acudir a testificar a los tribunales y utilizar el método solo para requerimientos de sus casos o aquellos en los que son necesitados por otros organismos policiales o fuerzas de seguridad. Aunque se sabe de trabajos de última generación que son confidenciales y que no se han dado a conocer detalles a la luz pública. Un ejemplo que vale la pena mencionar es el caso de la captura del conocido traficante Pablo Escobar Gaviria, en el cual participaron agentes norteamericanos que contaban con un sistema automático que podía captar todas las señales de telefonía fija y móvil dentro de un radio que abarcaba la ciudad de Medellín, y que podía discriminar 14 muestras de habla hasta obtener la deseada y dar la ubicación donde se encontraba el locutor. Sin duda este ejemplo nos muestra un desarrollo de la técnica muy avanzado. En el ámbito privado diversos expertos trabajan en el campo de identificación de voz, estos se encuentran agrupados en el Subcomité de Análisis Acústicos e Identificación de Voz (VIAAS) de la International Association for Identification (I.A.I.). En el ámbito legal se han incorporado importantes innovaciones con respecto a la admisibilidad de la evidencia. Hasta el año 1993 fue utilizada la regla Frye que se comentó anteriormente, la cual fue ampliamente criticada por no ser considerada el test adecuado para evaluar la evidencia de identificación de voz. La regla Frye fue establecida para evaluar evidencia de naturaleza muy distinta y en ultimo caso no daba conocimiento acerca de que grupo científico era el mas competente. En 1993 la regla Frye para la admisibilidad de la evidencia es derogada por el Tribunal Supremo de los Estados Unidos y en su reemplazo entra a regir las Reglas Federales como estándar de admisibilidad, concretamente la Regla 702: " Para poder cualificar un conocimiento científico, cualquier conclusión o afirmación emitidas deben deducirse de un método científico. El testimonio referido debe sustentarse en la correspondiente validación (por ejemplo una sólida formación en relación con el área de conocimiento sobre la que se opina). En definitiva, el requisito de que el testimonio de un experto pertenezca al conocimiento científico, establece por sí mismo un estándar de fiabilidad evidenciaria." En la actualidad la mayoría de los estados norteamericanos han admitido la prueba de identificación de voz por el método auditivo-espectrográfico, aunque existen algunos casos donde se ha desestimado la evidencia [11]. 2.5.2 Antecedentes importantes en el resto del mundo La más importante referencia fuera de los Estados Unidos, en cuanto a la identificación forense de locutores, ocurre en Europa, donde la técnica está plenamente consolidada, e incluso disfruta de una situación de vanguardia. La investigación y desarrollo de la técnica está en su mayor parte a cargo de las policías de los diversos países europeos, que han incorporado como evidencia la identificación de voz, sin embargo, también existen antecedentes de actividad en éste tema en universidades, empresas privadas o expertos privados. En los últimos añosla evolución de la técnica ha surgido de modo distinto en cada uno de estos países, y a pesar de esta iniciación distinta y en algunos casos autodidáctica, puede decirse que existe una orientación metodológica común, nos referimos a los llamados métodos combinados. 15 Los métodos combinados es la metodología que ha dado mejores resultados hasta ahora, y responden a encontrar el mejor resultado posible, dada la naturaleza variable de nuestro objeto de estudio. En general, es bastante difícil conocer las metodologías ocupadas por los peritos de las diversas policías de cada país, en algunos casos como en el de la policía chilena es conocido el sistema de análisis automático que poseen, aunque los algoritmos que encierran son parcialmente desconocidos. Si se compara el objeto de estudio, el reconocimiento forense de locutores, con otras ramas de las ciencias forenses, se encontrará una escasa divulgación de estudios científicos del tema, en este aspecto se pueden mencionar algunas asociaciones y laboratorios que han aportado conocimientos al respecto: la I.A.I. (Subcomité de VIAAS) y la I.A.F.P. (International Association of Forensic Phonetics) que aglutinan una buena cantidad de expertos, fuera de los Estados Unidos se tiene: el Instituto Nacional de Investigación de Ciencia Policial de Japón, el laboratorio de análisis y tratamiento de la señal de la Policía Técnica y Científica de Francia y el laboratorio de Acústica Forense de la Comisaría General de Policía Científica de España, el laboratorio de análisis acústicos del Instituto Técnico Criminal del Bundeskriminalamt dirigido desde 1980 a 1999 por el Dr. Hermann J. Künzel, los laboratorios policiales del Centro de Criminalística del M1 del Interior de Rusia, los más antiguos de Europa, el Centro de Tecnología del Habla de San Petersburgo, en el cual a partir del año 1991 se realizan importantes estudios en esta área. Existe conocimiento de trabajos realizados para el desarrollo de la técnica en los cinco continentes. En América Latina existen trabajos realizados por diversas policías, aunque sobre trabajos de investigación poco se sabe, y sólo se tiene conocimiento de algunas universidades que realizaron algún estudio al respecto, sin embargo, estos no fueron prolongados [11]. En el capitulo 9 se abordará el caso chileno, que es el punto de interés de este trabajo, con mayor detalle. 2.6 FUTUROS TRABAJOS Anteriormente se hizo referencia hacia una orientación metodológica común existente en los países europeos, pues bien, este comportamiento se está generalizando en el seno de la Unión Europea. Se espera que en algunos años se logre una estandarización de la metodología y precisamente los trabajos actuales apuntan a ello. Otro punto importante de comentar es la existencia de sistemas automáticos de identificación forense de locutores, que entregan resultados con márgenes de error muy pequeños, los cuales gracias al continuo avance de la informática y a un desarrollo cada vez mayor de la técnica, auguran un futuro prometedor en esta área, incluso se habla de un menor requerimiento de expertos a futuro, por el desplazamiento del hombre por la 16 máquina. Sin embargo, no se debe exagerar acerca de sistemas infalibles como es común encontrar hoy en el mercado, ya que no existe ningún sistema en la actualidad que disfrute de ese privilegio. Entonces, las dos principales directrices de trabajo que se deben trazar serán: trabajar en una solución metodológica de mayor idoneidad y elaborar estándares globales de referencia común, que entreguen a la técnica los mayores índices de objetividad de cara a los tribunales de justicia. Existen en la actualidad numerosas referencias acerca de factores influyentes en el reconocimiento forense de locutores (acústicos, fonéticos, etc.), en este sentido, los trabajos apuntan a entender con más detalle estos factores, que en el caso acústico pueden ser: ruido, interferencia telefónica, etc. Como se puede ver, existen muchos factores para afirmar con certeza de que el futuro de la técnica es prometedor y que se dará un cierre definitivo a un problema que desde los tiempos de Kersta hasta el presente ha sido motivo de debate [11]. 17 3. PRODUCCIÓN DEL HABLA 3.1 PRODUCCIÓN DE LA VOZ HUMANA, FONÉTICA ARTICULATORIA El análisis de la lengua, entendiéndose ésta como el sistema de signos que emplea una comunidad lingüística como instrumento de comunicación, se realiza a tres niveles: • Nivel Fonológico: se estudia las unidades lingüísticas mínimas (fonemas). El conjunto de fonemas se establecen por oposición, es decir, si se cambia un sonido de una palabra y la palabra cambia de significado, al sonido se le considera fonema. En las palabras coco, loco y toco hemos cambiado un fonema y su significado es distinto. • Nivel Morfosintáctico: se estudian las palabras estableciendo su género, número, tiempo y las relaciones entre ellas. • Nivel Semántico: se estudia el significado de las frases y su coherencia. Se profundizará en el nivel fonológico. Dentro de la fonética se encuentra la articulatoria y la acústica. La primera estudia el papel desempeñado por los órganos fonadores para la formación y emisión de los sonidos. La fonética acústica se preocupa de las características de la onda sonora y su percepción. Antes de entrar de lleno en la fonética acústica, objetivo principal de este trabajo, se hará una detención en la fonética articulatoria por su importancia en los estudios tradicionales de la voz. [2]. 3.1.1 Fisiología y funcionalidad del aparato fonador. El aparato fonador se puede dividir en tres grandes partes: las cavidades infraglóticas, cavidad glótica y las cavidades supraglóticas. Estas tres partes cumplen funciones distintas en la fonación, pero todas ellas de gran importancia. En la figura (3.1) se presenta una descripción. 18 Figura 3.1 Aparato fonador. Cavidades Infraglóticas Su función consiste en suministrar la corriente de aire espirada necesaria para producir el sonido. Están compuestas por diafragma, pulmones, bronquios y tráquea. El diafragma es un músculo en forma de cúpula ubicado debajo de los pulmones. Su misión es controlar el despliegue e hinchado o su reducción y vaciado junto con los músculos pectorales, y con ello la respiración. Cuando se contrae el diafragma se ensancha la cavidad toráxica, produciéndose la inspiración de aire. Al relajarse se reduce la cavidad, produciéndose la espiración del aire contenido en los pulmones. Los bronquios y la tráquea son tubos cartilaginosos, cuya función consiste en conducir el aire entre los pulmones con la laringe, por lo tanto, en la fonación son los canales de transmisión del flujo aéreo. Cavidad Glótica Está formada por la laringe. La característica más interesante desde el punto de vista de la fonación, es que en ésta se encuentran las cuerdas vocales, que son las responsables de la vibración básica para generar la voz. Las cuerdas vocales son dos marcados pliegues musculosos, que cuando sale el aire de los pulmones y pasa a través de la cavidad glótica (la glotis es el espacio triangular existente entre las cuerdas vocales), haciéndolas vibrar, la vibración producida puede variar en frecuencia e intensidad según varíe la masa, longitud y tensión de las cuerdas vocales. 19 Figura 3.2 Corte transversal de la laringe. Movimiento del cartílago aritenoides y de los repliegues vocales (líneas continuas o discontinuas). Cavidades Supraglóticas Están conformadas por cuatro cavidades ubicadas arriba de la laringe, éstas son: faríngea, nasal, bucal y labial. Inmediatamente sobre la laringe se encuentra la faringe, de donde arranca la raíz de la lengua. Aparece el primer obstáculo móvil: la úvula, es el apéndice final del paladar blando o velo del paladar. Cuando está unidaa la pared faríngea, la corriente de aire sale exclusivamente por la boca, produciéndose sonidos orales. Si el velo del paladar está caído, también se expulsará aire por la cavidad nasal. La cavidad nasal no posee elementos móviles, por lo tanto, juega un papel pasivo en la producción del habla. La lengua es el órgano de mayor movilidad en la boca, registrando una actividad elevada durante el habla. Se divide en tres partes: raíz, dorso y ápice. Se ha demostrado recientemente que el perfil adoptado por la lengua en cada movimiento es causa de un resonado acústico y, por lo tanto, el timbre del sonido será diferente según la forma, sea ésta cóncava, convexa o plana, o que se sitúe en la zona anterior, central o posterior. Dentro de la cavidad bucal tenemos los dientes y alvéolos. Los dientes son órganos pasivos en la medida que estos se encuentran insertos en los maxilares; los inferiores son móviles, por estar insertos en la mandíbula inferior, siendo ésta activa en la articulación. El paladar es una amplia zona que va desde los alvéolos hasta la úvula. En ella se distingue el paladar duro, situado sobre el hueso palatino y el paladar blando o velo del paladar que acaba en la úvula. Finalmente, están los labios, elementos de bastante movilidad y, que por lo tanto, permite modificar los sonidos. 20 Figura 3.3 Zonas bucales. Se pueden entonces resumir los elementos para la producción del habla en: • Una fuente de energía, proporcionada por el aire a presión que se expulsa en la espiración. • Un órgano vibratorio: las cuerdas vocales. • Una caja de resonancia: las fosas nasales, la cavidad bucal y la faringe. • Un sistema de articulación del sonido: lengua, labios, dientes y úvula. • El proceso para la producción del habla comienza con la espiración del aire en los pulmones, al pasar este a través de las cuerdas vocales las hace vibrar a una frecuencia determinada que depende de la tensión de las mismas. A esta frecuencia se le conoce como frecuencia del fundamental. El tono se encuentra relacionado con la frecuencia del fundamental, si el tono es grave la frecuencia es baja y cuando es agudo la frecuencia es alta. Según como se encuentren articulados los órganos se formará una caja de resonancia distinta, la cual potenciará un conjunto de frecuencias y atenuará el resto. Según esta disposición aparecen características especiales de cada individuo, lo que conforma el timbre. Finalmente sale al exterior la voz [2]. 21 3.2 ALGUNOS CONCEPTOS BÁSICOS DEL LENGUAJE La lengua es un sistema de signos lingüísticos, los cuales permiten la comunicación dentro de una comunidad, es un código de signos. Tiene una naturaleza social, ya que es común a una sociedad. El habla es el acto de seleccionar dichos signos y organizarlos a través de ciertas reglas. Tiene carácter individual, pues cambia de un individuo a otro. Los signos pueden corresponder al lenguaje escrito u oral. El lenguaje es un sistema articulado ya que los sonidos y otros componentes se integran entre sí, éste está formado por signos lingüísticos. El lenguaje tiene modalidades regionales llamadas dialectos. Un signo es algo que reemplaza a otra cosa para comunicarla en un mensaje. Los signos lingüísticos están clasificados en dos clases: significado y significante. El significado es la idea, el concepto mental o contenido a comunicar. El significante es la imagen, ya sea acústica o gráfica que se le asigna. Las palabras son los elementos libres mínimos del lenguaje. La sintaxis es el conjunto de normas tendientes a organizar la coordinación de las palabras en frases u oraciones. En su versión escrita las palabras están formadas por grafemas o letras (unidades gráficas mínimas), mientras en el caso oral, por fonemas. Los fonemas5 son la unidad fónica ideal mínima del lenguaje, los cuales se encuentran materializados a través de los sonidos, aunque de manera no unívoca. Las variantes de los fonemas se denominan alófonos. Los monemas son unidades mínimas con significado, que puede ser gramatical, dando origen a los morfemas, o léxico, representado por los lexemas. Los morfemas tienen relación con gramática, o la forma de organizar o dar estructura a las categorías básicas del lenguaje (género, número, tiempo o persona, etc.), mientras que los lexemas se refieren a significados externos al lenguaje mismo [6]. 3.2.1 Fonología y fonética La Fonología estudia los fonemas, es decir el modelo fónico convencional e ideal del lenguaje. La fonología es el estudio de la lengua en cuanto a su carácter simbólico o de representación mental. Procede detectando regularidades o recurrencias en los sonidos del lenguaje hablado y sus combinaciones, y haciendo abstracción de las pequeñas diferencias 5 Los fonemas son representados entre barras, por ejemplo, /b/. Su realización es un sonido. 22 debidas a la individualidad de cada hablante y de características suprasegmentales como la entonación, el acento (tónico, es decir por aumento de la intensidad y agógico, por aumento de la duración), etc. Cada uno de los sonidos abstractos así identificados es un fonema. Uno de los objetivos de la fonología es acotar al máximo la cantidad de fonemas requeridos para representar cada idioma de una manera suficientemente precisa. La fonética estudia los sonidos del habla incluyendo su producción, emisión (procesos físicos y fisiológicos) y articulación involucrados. Ésta estudia experimentalmente los mecanismos de producción y percepción de los sonidos utilizados en el habla a través del análisis acústico, articulatorio y perceptivo. Se ocupa, por consiguiente, de las realizaciones de los fonemas [6]. 3.2.2 Clasificación de los sonidos de la voz humana Los sonidos procedentes de la voz humana pueden clasificarse según varios criterios, los cuales toman en cuentas diversos aspectos, estos son: a) Según su carácter vocálico o consonántico. b) Según su oralidad o nasalidad. c) Según su carácter tonal (sonoro) o no tonal (sordo). d) Según el lugar de articulación. e) Según el modo de articulación. f) Según la posición de los órganos articulatorios. g) Según la duración. A continuación se tratará cada una de estas clasificaciones por separado. 1-Según su carácter vocálico o consonántico Desde un punto de vista mecanoacústico, las vocales son los sonidos emitidos por la sola vibración de las cuerdas vocales sin ningún obstáculo o constricción entre la laringe y las aberturas oral y nasal. Dicha vibración se genera por el principio del oscilador de relajación, donde interviene una fuente de energía constante en la forma de un flujo de aire proveniente de los pulmones. Son siempre sonidos de carácter tonal (cuasiperiódicos), y por consiguiente de espectro discreto. Las consonantes, por el contrario, se emiten interponiendo algún obstáculo formado por los elementos articulatorios. Los sonidos correspondientes a las consonantes pueden ser tonales o no dependiendo de si las cuerdas vocales están vibrando o no. Funcionalmente, en el castellano las vocales pueden constituir palabras completas, no así las consonantes. 23 2- Según su oralidad o nasalidad Los fonemas en los que el aire pasa por la cavidad nasal se denominan nasales, en tanto que aquéllos en los que sale por la boca se denominan orales. La diferencia principal está en el tipo de resonador principal por encima de la laringe (cavidad nasal y oral, respectivamente). En castellano son nasales sólo las consonantes “m”, “n”, “ñ”. 3- Según su carácter tonal (sonoro) o no tonal (sordo) Los fonemas en los que participa la vibración de las cuerdas vocales se denominan tonales o, también, sonoros. La tonalidad lleva implícito un espectro cuasi periódico6. Como se puntualizó anteriormente, todas las vocales son tonales, pero existen variasconsonantes que también lo son: “b”, “d”, “m”, etc. Aquellos fonemas producidos sin vibraciones glotales se denominan sordos. Varios de ellos son el resultado de la turbulencia causada por el aire pasando a gran velocidad por un espacio reducido, como las consonantes “s”, “z”, “j”, “f”. 4- Según el lugar y modo de articulación (consonantes) La articulación es el proceso mediante el cual alguna parte del aparato fonatorio interpone un obstáculo para la circulación del flujo de aire. Las características de la articulación permitirán clasificar las consonantes. Los órganos articulatorios son los labios, los dientes, las diferentes partes del paladar (alvéolo, paladar duro, paladar blando o velo), la lengua y la glotis. Salvo la glotis, que puede articular por sí misma, el resto de los órganos articula por oposición con otro. Según el lugar o punto de articulación se tienen fonemas: Bilabiales: Oposición de ambos labios. Labiodentales: Oposición de los dientes superiores con el labio inferior. Linguodentales: Oposición de la punta de la lengua con los dientes superiores. Alveolares: Oposición de la punta de la lengua con la región alveolar. Palatales: Oposición de la lengua con el paladar duro. Velares: Oposición de la parte posterior de la lengua con el paladar blando. Glotales: Articulación en la propia glotis. A su vez, para cada punto de articulación ésta puede efectuarse de diferentes modos, dando lugar a fonemas: 6 Las vocales tendrán una naturaleza cuasi periódica, sólo si el locutor se esfuerza en emitir un sonido sin inflexiones. La entonación implica una variación de la frecuencia. 24 Oclusivos: La salida del aire se cierra momentáneamente por completo. Fricativos: El aire sale atravesando un espacio estrecho. Africados: Oclusión seguida por fricación. Laterales: La lengua obstruye el centro de la boca y el aire sale por los lados. Vibrantes: La lengua vibra cerrando el paso del aire intermitentemente. Aproximantes: La obstrucción muy estrecha que no llega a producir turbulencia. Los fonemas oclusivos (correspondientes a las consonantes “b” inicial o postnasal, “c”, “k”, “d”, “g” inicial, postnasal o postlateral, “p”, “t”) también se denominan a veces explosivos, debido a la liberación repentina de la presión presente inmediatamente antes de su emisión. Pueden ser sordos o sonoros, al igual que los fricativos (“b” postvocálica, postlateral y postvibrante, “g” postvocálica y post vibrante, “f”, “j”, “h” aspirada, “s”, “y”, “z”). Sólo existe un fonema africado en castellano, correspondiente a la “ch”. Los laterales (“l”, “ll”) a veces se denominan líquidos, y son siempre sonoros. Los dos fonemas vibrantes del castellano (consonantes “r”, “rr”) difieren en que en uno de ellos (“r”) se ejecuta una sola vibración y es intervocálico, mientras que en el otro (“rr”) es una sucesión de dos o tres vibraciones de la lengua. Finalmente, los fonemas aproximantes (la “i” y la “u” cerradas que aparecen en algunos diptongos) son a veces denominados semivocales, pues en realidad suenan como vocales. Pero exhiben una diferencia muy importante: son de corta duración y no son prolongables. Tabla 3.1 Clasificación de las consonantes de la lengua castellana según el lugar y el modo de articulación y la sonoridad. Modo de articulación Oral Nasal Oclusiva Fricativa Africada Lateral Vibrante Aproximante Lugar de articulación So rd a So no ra So rd a So no ra So rd a So no ra So no ra So no ra Sonora Bilabial p b, v b, v w m Labiodental f Linguodental z d Alveolar t d s y ch l r, rr n Palatal (y) (ch) ll i ñ Velar k g j g Glotal h 25 En la tabla (3.1) se indican las consonantes clasificadas según el lugar y el modo de articulación, la sonoridad y la oro-nasalidad. En algunos casos una misma consonante aparece en dos categorías diferentes, correspondiente a las diferencias observadas. 5- Según la posición de los órganos articulatorios (vocales) En el caso de las vocales, la articulación consiste en la modificación de la acción filtrante de los diversos resonadores, lo cual depende de las posiciones de la lengua (tanto en elevación como en profundidad o avance), de la mandíbula inferior, de los labios y del paladar blando. Estos órganos influyen sobre los formantes, permitiendo su control. Podemos clasificar las vocales según la posición de la lengua como muestra la tabla (3.2). Tabla 3.2 Clasificación de las vocales castellanas según la posición de la lengua. Posición horizontal (avance) verticalPosición Vertical Tipo de vocal Anterior Central Posterior Alta Cerrada i u Media Media e o Baja Abierta a Otra cualidad controlable es la labialización, es decir el hecho de que se haga participar activamente los labios. Las vocales labializadas, también definidas como redondeadas, son las que redondean los labios hacia adelante, incrementando la longitud efectiva del tracto vocal. La única vocal labializada en el castellano es la “u”. En otros idiomas, como el francés, el portugués, el catalán y el polaco, así como en lenguas no europeas como el guaraní o el hindi, existe también el matiz de oralidad o nasalidad. En las vocales orales el velo (paladar blando) sube, obturando la nasofaringe, lo cual impide que el aire fluya parcialmente por la cavidad nasal. En las vocales nasalizadas (u oronasales) el velo baja, liberando el paso del aire a través de la nasofaringe. Se incorpora así la resonancia nasal. 6- Según la duración La duración de los sonidos, especialmente de las vocales, no tiene importancia a nivel semántico en el castellano, pero sí en el plano expresivo, a través de la agogia, es decir el énfasis o acentuación a través de la duración. En inglés, en cambio, la duración de una vocal puede cambiar completamente el significado de la palabra que la contiene [6]. 26 3.2.3 El alfabeto fonético internacional (A.F.I.) El español es un idioma cuya escritura es eminentemente fonética, ya que salvo pocos casos, hay correspondencia entre grafema y fonema, aunque no es total. No todos los idiomas tienen esta característica. El inglés es un caso quizás extremo, a tal punto que se han creado posibles ortografías alternativas para algunas palabras basándose en la forma en que sus fonemas aparecen escritos en otras palabras. Estas extrañas ortografías y el análisis correspondiente se muestran en la tabla (3.3). Tabla 3.3. Ortografías alternativas de George Bernard Shaw para dos palabras inglesas. Palabra Ortografía alternativa (según Shaw) Fonema Palabra en la que se usa la ortografía alternativa Escritura en el Alfabeto Fonético Internacional GH enough [I´n∧f] O women [´wImIn] fish ghoti TI nation [´neI∫әn] GH hiccough [´hIc∧p] OUGH though [ðәυ] PT pteranodon [tra´nәdon] EIGH neighbour [´neIbә] BT debt [det] potato ghoughpteighbtea u EAU bureau [bjυә´rәυ] Se ha compilado un extenso conjunto de símbolos fonéticos conocido como el Alfabeto Fonético Internacional (International Phonetic Alphabet, IPA) que contiene una gran cantidad de fonemas de los diversos idiomas, y que permite representar de una manera inequívoca los fonemas independientemente del idioma. El subconjunto correspondiente al idioma castellano se indica en la tabla (3.4) [6]. 27 Tabla 3.4 Los fonemas del alfabeto fonético internacional utilizados en la lengua castellana. Fonemas castellanos Sonido Ejemplo Sonido Ejemplo Sonido Ejemplo [p] paso [θ] zorzal, lápiz [ɲ] mañana, ñoño [b] base, vena [s] solo, cosa [d3] yo, Yapeyú [ß] labor, lavar [x] giro, jarabe [j] bien, biólogo [t] tres, canto [t ∫] hecho, Chubut [w] hueso, buitre [d] dama, andar [r] arder, jarabe [ð] cedro, verdad [rr] perro, rojo [a] cama [k] caso, disco [l] loable, fiel [e] espera,ver [g] gula, goma [λ] llanto, calle [i] vine, iris [g] agua, negro [m] mamá, ámbar [o] loro, pos [f] fino, tifón [n] nene, joven [u] burla, huracán 28 4. PROBLEMÁTICA EXISTENTE PARA CREAR UN MÉTODO INFALIBLE PARA VERIFICAR E IDENTIFICAR PERSONAS POR SU VOZ 4.1 INTRODUCCIÓN En esta sección se tratarán los factores más importantes que influyen de manera adversa para crear un sistema infalible de reconocimiento e identificación de locutores. En este contexto se entenderá por variabilidad interlocutor, aquellas diferencias existentes entre personas distintas, y se comprenderá por variabilidad intralocutor aquellas diferencias ocurridas en una muestra de habla que proviene de una misma persona. 4.2 VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR Los primeros trabajos en los que se trató poder identificar a una persona mediante su emisión de voz, dieron como resultado el voiceprint o huella de voz. Sus autores tuvieron la mala idea de poner en un mismo plano de estudio al voiceprint con el fingerprint o huella dactilar, con la errónea percepción de que las emisiones de habla de un sujeto eran invariables y trascendentalmente distintas a las de otros sujetos. Como se comentó en el capitulo 2, pronto el sector de la comunidad científica que prestó atención a este hecho comenzó a cuestionarse la veracidad de los fundamentos en los que descansaba el voiceprint, lo que condujo a la técnica a un tabú y a la ruina de Kersta como experto. Los detractores del voiceprint pudieron darse cuenta de uno de los principales problemas con que ha tropezado la identificación de voz, se trata de la variación interlocutor e intralocutor. Existen factores físicos de los cuales depende una emisión de voz, sin embargo, debe tenerse siempre presente que influyen enormemente en la emisión, las resonancias del tracto vocal. Se debe tener en cuenta, además, que estas resonancias del tracto vocal se encuentran gobernadas por características psicofisiológicas del locutor, lo que hace imposible producir dos emisiones idénticas. En ausencia de la variabilidad intralocutor e interlocutor, existe además variabilidad a consecuencia de factores ajenos a las resonancias del tracto vocal, circunstancias producidas por emisión, transmisión y grabación. Todas estas barreras son las que debe conocer el experto forense en su labor, y minimizar la distorsión que aporta a sus resultados. 29 Carlos Delgado [11] presenta una excelente referencia acerca de las causas fundamentales de la variabilidad en la señal de voz, las que pueden clasificarse en dos grandes grupos, éstas se presentan a continuación: • Circunstancias que dependen de la naturaleza del habla y del sujeto emisor. • Circunstancias no dependientes a la naturaleza del habla y al sujeto emisor. 4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto emisor 4.2.1.1 Variaciones no relacionadas con el plano expresivo Contemporaneidad o no contemporaneidad de las muestras Es apreciable al oído de cualquier persona el cambio que ocurre en la voz de un sujeto a medida que transcurre el tiempo, la voz de una persona que tiene 10 años, es muy diferente cuando la misma tiene 16 años y mas aún cuando tiene 30 años, o sea, esta variabilidad será mayor, mientras mayor sea el tamaño del intervalo temporal. El primer estudio del que se tiene referencia en este ámbito es el realizado por la doctora McGehee (1937), en el cual experimentó el reconocimiento perceptivo en memoria a largo plazo. Según los resultados de la doctora McGehee, existía un deterioro en el reconocimiento exitoso de un 17% transcurrido un día después de haber escuchado la voz, y un 87% pasado 5 meses de haber escuchado una voz. Otras experiencias vividas por Tosi y sus colaboradores (1972) encontraron que el decaimiento en un reconocimiento exitoso era de aproximadamente 10% después de un mes de haber escuchado la voz, aunque reconocieron que esta correspondencia no se podía extrapolar linealmente. Otro experimento realizado por Endress, Bambach y Flosser (1971) arrojaron conclusiones sobre descensos en la frecuencia fundamental (número de vibraciones por segundo de las cuerdas vocales) en individuos en lapsos de 29 años. Posteriormente, algunos experimentos arrojaron resultados acerca del cambio de en función de la edad y el sexo. 0F 0F Hoy en día existen muchos avances en el desarrollo del tema, y en las características que moldean la voz de una persona en el tiempo, pudiendo resumir estos conocimientos de la siguiente forma: la madurez de se alcanza alrededor de los 15 años; este parámetro parece estar relacionado con la muda definitiva, que en el caso de los varones se presenta 0F 30 entre los 13 y 14 años, mientras en las mujeres ocurre entre los 14 y 15 años. En los varones se aprecia un descenso gradual del valor de dicho parámetro hasta la edad de 40 años, volviendo éste a incrementarse entre los 60 y 80 años. En el caso de las mujeres este decrecimiento ocurre en su mayoría antes de los 15 años, mientras un 43% ocurre después de dicha edad. Algunos estudios puntualizan que los cambios más relevantes respecto al tono fundamental en la mujer se encuentran determinados por el advenimiento de la menstruación, así como también ocurren descensos en después de la menopausia. Al parecer, en la mujer la disminución en la producción de estrógenos produce un descontrol en el sistema fonatorio que trae consigo un inminente cambio en la frecuencia fundamental. 0F En opinión de muchos expertos, estos cambios no son relevantes desde el punto de vista identificativo, ya que ocurren de manera paulatina y muy lentamente. Todos estos procesos experimentados tanto en hombres como mujeres no alteran en modo significativo los componentes fundamentales del habla, salvo el caso de ciertas parafonías (pubertad, vejez, etc.), y alcanzada la estabilidad de la voz (en torno a los 20 años en el hombre y 18 en la mujer) estos parámetros no se alteran hasta edades muy avanzadas. Sin embargo, se tiene que tomar en cuenta un cambio gradual y paulatino en los componentes del habla en este intervalo. Cambios en los procesos y órganos de la fonación Estos pueden agruparse en tres grupos: • Anatómico: Cambios en la dentadura, dislalias protésicas, tumoraciones, etc. • Fisiológico: Catarros, procesos inflamatorios, menstruación, menopausia, irritaciones, etc. • Psicológico/Neurológico: Temblor temporal, disfonías de origen psicogénico, cambios emocionales, efecto Lombard, etc. Cambios producidos por agentes químicos exógenos Este tipo de cambio puede ser producido por el consumo de medicamentos, cigarrillos, alcohol, drogas, etc. Estas sustancias pueden influir de alguna de las formas vistas en el apartado anterior. Por ejemplo, podemos citar el consumo de anticonceptivos en las mujeres, produce un mayor volumen de progesterona en el cuerpo, lo cual causa un aumento en el tamaño de los pliegues glotales. El resultado es un descenso hacia los graves [11]. 31 4.2.1.2 Variaciones relacionadas con el plano expresivo Modificaciones de rangos fonatorios y articulatorios estándar Relacionadas con variaciones sensibles de componentes fundamentales como el tono o la intensidad, grados de tensión y relajación en la articulación, grados de nasalización y oralidad, sonoridad y ensordecimiento, apertura y oclusión, velarización y palatalización, fricatización, bemolización, etc. Alteraciones elocutivas de elementos fonéticos simples En donde estarían incluidas las múltiples realizaciones alofónicas de cada fonema o grupo fónico y sus efectos asociados de ataque, extinción, transición y coarticulación. Alteraciones elocutivas relativas al tiempo y carácter suprasegmental o melódico- expresivo Reseñaríamos aquí todas aquellas variaciones relacionadas con la entonación
Compartir