bmfcic392d

•

SIN SIGLA

Joseleo

22/4/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Percepción Acústica

241 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Universidad Austral de Chile
Facultad de Ciencias de la Ingeniería
Escuela de Ingeniería Civil Acústica

Profesor Patrocinante:
Dr. Jorge Sommerhoff H.
Instituto de Acústica.
Universidad Austral de Chile.

“DESCRIPCIÓN DE LOS MÉTODOS UTILIZADOS EN
RECONOCIMIENTO FORENSE DE LOCUTORES Y SU
IMPLEMENTACIÓN EN CHILE.”

Tesis presentada como parte de los requisitos
para optar al título profesional de Ingeniero
Civil Acústico

PABLO ALEJANDRO CELIS HERRERA
Valdivia – Chile
2009

“Este trabajo de titilación está dedicado a mi
madre, María Alicia Herrera Astete”

INDICE

RESUMEN.............................................................................................................................1
ABSTRACT............................................................................................................................2
OBJETIVOS ..........................................................................................................................3
1. INTRODUCCIÓN..............................................................................................................4
2. ANTECEDENTES HISTÓRICOS VINCULADOS A LA VERIFICACIÓN E
IDENTIFICACIÓN FORENSE DE LOCUTORES............................................................6
2.1 PRIMEROS ANTECEDENTES CONOCIDOS, RECONOCIMIENTO E
IDENTIFICACIÓN AUDITIVA................................................................................................. 6
2.1.1 Primeros sistemas de análisis cualitativo .................................................................................... 6
2.2 LAWRENCE KERSTA .................................................................................................. 8
2.3 EL SURGIMIENTO DE LA TÉCNICA DE IDENTIFICACIÓN Y
VERIFICACIÓN DE LOCUTORES EN ESTADOS UNIDOS............................................. 10
2.4 ANTECEDENTES CONOCIDOS FUERA DE ESTADOS UNIDOS..................... 13
2.5 EL ESTADO DE LA TÉCNICA EN LA ACTUALIDAD......................................... 14
2.5.1 Estados Unidos.......................................................................................................................... 14
2.5.2 Antecedentes importantes en el resto del mundo ...................................................................... 15
2.6 FUTUROS TRABAJOS................................................................................................ 16
3. PRODUCCIÓN DEL HABLA ........................................................................................18
3.1 PRODUCCIÓN DE LA VOZ HUMANA, FONÉTICA ARTICULATORIA ........ 18
3.1.1 Fisiología y funcionalidad del aparato fonador......................................................................... 18
3.2 ALGUNOS CONCEPTOS BÁSICOS DEL LENGUAJE ......................................... 22
3.2.1 Fonología y fonética ................................................................................................................. 22
3.2.2 Clasificación de los sonidos de la voz humana. ........................................................................ 23
3.2.3 El alfabeto fonético internacional (A.F.I.) ................................................................................ 27
4. PROBLEMÁTICA EXISTENTE PARA CREAR UN MÉTODO INFALIBLE PARA
VERIFICAR E IDENTIFICAR PERSONAS POR SU VOZ............................................29
4.1 INTRODUCCIÓN ......................................................................................................... 29
4.2 VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR.................................... 29
4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto emisor............................ 30
4.2.1.1 Variaciones no relacionadas con el plano expresivo .............................................................. 30
4.2.1.2 Variaciones relacionadas con el plano expresivo .................................................................. 32
4.2.2 Circunstancias ajenas a la naturaleza del habla y del sujeto emisor.......................................... 33
5. EXPRESIÓN DE RESULTADOS E INFERENCIAS BAYESIANAS.........................35
5.1 INFERENCIA BAYESIANA ....................................................................................... 35

5.1.1 Antecedentes históricos............................................................................................................. 35
5.1.2 La interpretación de la metodología bayesiana y las cortes ..................................................... 36
5.2 LA PROPORCIÓN DE VEROSIMILITUD (LR) ..................................................... 36
5.2.1 Combinación de LRs................................................................................................................. 38
5.2.2 Escalas verbales para la proporción de verosimilitud ............................................................... 39
5.2.3 Escala logarítmica para la proporción de verosimilitud ............................................................ 40
5.3 PROBABILIDAD A PRIORI....................................................................................... 41
5.4 HIPÓTESIS DE DEFENSA.......................................................................................... 42
6. CARACTERÍSTICAS ACÚSTICAS IMPORTANTES DEL HABLA DESDE EL
PUNTO DE VISTA FORENSE ..........................................................................................43
6.1 FUENTE Y FILTRO ACÚSTICO DEL TRACTO VOCAL .................................... 43
6.1.1 Fuente acústica en el tracto vocal.............................................................................................. 43
6.1.2 Filtro del tracto vocal ................................................................................................................ 45
6.2 CARACTERÍSTICAS DEL HABLA UTILIZADAS EN RECONOCIMIENTO
FORENSE DE LOCUTORES................................................................................................... 49
6.2.1 Los formantes............................................................................................................................ 49
6.2.1.1 Determinando las frecuencias centrales de formantes para una schwa................................... 50
6.2.1.2 Función de área....................................................................................................................... 51
6.2.1.3 Comportamiento de los formantes de las vocales en el español ............................................ 51
6.2.1.4 Variación intralocutor e interlocutor en formantes del español ............................................. 53
6.2.1.5 Visualización de una schwa................................................................................................... 53
6.2.1.6 Significado forense para la longitud del tracto vocal y las frecuencias formantes ................ 54
6.2.2 Frecuencia fundamental ............................................................................................................ 55
6.2.2.1 Determinación de la frecuencia fundamental según masa y longitud de las cuerdas vocales. 56
6.2.2.2 Un ejemplo de la frecuencia fundamental en la palabra hija .................................................. 57
6.2.2.3 Significado forense de la frecuencia fundamental .................................................................. 58
6.2.3 Formantes de alta frecuencia..................................................................................................... 58
6.2.3.1 El significado forensede los formantes de alta frecuencia..................................................... 59
6.2.4 El espectro a largo plazo ........................................................................................................... 60
6.2.4.1 Significado forense del LTAS ................................................................................................ 61
6.2.5 El cepstrum ............................................................................................................................... 62
6.2.5.1 Análisis técnico del cepstrum ................................................................................................. 64
6.2.5.2 Coeficientes cepstrales de Mel (MFCC)................................................................................. 65
6.2.5.3 Parámetros derivados.............................................................................................................. 67
6.2.5.4 Importancia forense del cepstrum........................................................................................... 68
6.2.6 Distribuciones de la frecuencia fundamental a largo plazo....................................................... 69
6.2.6.1 Parámetros estadísticos importantes en distribuciones a largo plazo...................................... 71
6.2.6.2 La frecuencia fundamental y la salud ..................................................................................... 75
6.2.6.3 Las distribuciones de frecuencia fundamental y probabilidades............................................ 76
6.2.6.4 Modelando distribuciones de la frecuencia fundamental....................................................... 76
7. COLOCANDO EN PRÁCTICA LA METODOLOGÍA BAYESIANA..........................80
7.1 PRONUNCIACIÓN ILEGAL DE VOCALES EN EL JAPONÉS ........................... 80
7.2 CÁLCULO PARA LA PROPORCIÓN DE VEROSIMILITUD CON DATOS
CONTINUOS .............................................................................................................................. 82
7.2.1 Semejanza ................................................................................................................................. 83

7.2.2 Tipicidad ................................................................................................................................... 84
7.2.3 Una fórmula para la proporción de verosimilitud ..................................................................... 86
7.2.4 Aplicando la fórmula para la proporción de verosimilitud........................................................ 87
7.2.4.1 Muestra de referencia ............................................................................................................ 87
7.2.4.2 Resultados, muestras dubitadas e indubitadas ....................................................................... 89
8. ALGORITMOS DE CLASIFICACIÓN UTILIZADOS PARA EL
RECONOCIMIENTO FORENSE DE LOCUTORES EN SISTEMAS AUTOMÁTICOS
..............................................................................................................................................91
8.1 ALGORITMOS DE PLANTILLA .............................................................................. 91
8.1.1 Alineamiento temporal dinámico (DTW) ................................................................................. 91
8.1.2 Cuantización vectorial (VQ) ..................................................................................................... 92
8.2 MODELOS ESTOCÁSTICOS..................................................................................... 93
8.2.1 Modelo de mezclas gaussianas (GMM).................................................................................... 93
8.2.1.1 Modelo Universal (UBM)....................................................................................................... 95
8.2.1.2 Adaptación de un modelo al locutor mediante el algoritmo EM ............................................ 95
8.2.1.3 Ajuste de un modelo al locutor utilizando adaptación bayesiana (MAP).............................. 96
8.2.2 Modelos ocultos de Markov (HMM) ........................................................................................ 97
8.3 TÉCNICAS ALTERNATIVAS USADAS PARA EL RECONOCIMIENTO
FORENSE DE LOCUTORES................................................................................................... 98
8.3.1 Redes neuronales artificiales..................................................................................................... 98
9. TRABAJOS REALIZADOS EN CHILE EN RECONOCIMIENTO DE LOCUTORES
CON FINES FORENSES .................................................................................................100
9.1 LA EVIDENCIA DE LA PRUEBA DE VOZ DE CARA A LOS TRIBUNALES
CHILENOS ............................................................................................................................... 100
9.1.1 Con respecto al perito ............................................................................................................. 101
9.1.2 Acerca del informe pericial..................................................................................................... 102
9.2 ALGUNOS GRUPOS TRABAJANDO EN CHILE................................................. 102
9.2.1 Sección sonido del Laboratorio de Criminalística de la Policía de Investigaciones de Chile . 103
9.2.2 Miembros pertenecientes a la Universidad de Chile ............................................................... 107
9.2.2.1 Peritajes realizados por Luis Romero Romero ..................................................................... 107
9.2.2.2 Peritajes realizados por Carla Badani Schoneweg................................................................ 107
9.2.3 Trabajos realizados por docentes de la Universidad Austral de Chile .................................... 109
9.2.3.1 Peritajes ................................................................................................................................ 110
9.2.3.2 Investigación en curso .......................................................................................................... 110
9.2.4 Trabajos realizados por personas particulares......................................................................... 110
10. CONCLUSIONES........................................................................................................111
BIBLIOGRAFÍA................................................................................................................114
ANEXOS ............................................................................................................................116

RESUMEN

En el presente trabajo se pretende caracterizar la práctica forense en Chile, asociada
básicamente al reconocimiento del hablante, desde el punto de vista de la Ingeniería
Acústica. Para ello, en primer lugar, se examinarán conceptos generales, antecedentes
históricos, conocimientos básicos del lenguaje y características acústicas del habla entre
otros elementos relacionados con el campo de estudio, necesarios para la comprensión de la
problemática central. En segundo lugar, se describirá la teoría bayesiana aplicada a los
sistemas de reconocimiento de locutores, de cara a ser utilizada en trabajos prácticos.
Finalmente, se darán a conocer aspectos desarrollados en Chile en los últimos años en el
desarrollo de la metodología acústica forense. Con ello se pretende brindar los
conocimientos básicos que permitan apoyar y mejorar la práctica forense en Chile.

ABSTRACT

In the present work it is seek to characterize the forensic practice in Chile, associate
basically to the speaker recognition from point of view of the Acoustic Engineering. For it,
in first place, general terms will be examined, historical antecedents, basic knowledge of
the language characteristic acousticof the speech among other elements related with the
study field, necessary for the understanding of the central problem. In second place, the
Bayesian theory will be described applied to the systems of speaker recognition, of face to
be used in practical works. Finally, they will be given to know aspects developed in Chile
in the last years in the development of the forensic acoustic methodology. With it is seek to
offer it the basic knowledge that allow to support and to improve the forensic practice in
our country.

OBJETIVOS

General:

• Describir la metodología acústica aplicada al reconocimiento de la voz en Chile.

Específicos:

• Describir la metodología bayesiana aplicada al reconocimiento de locutor en el
ámbito forense.

• Comparar las ventajas y desventajas de la metodología bayesiana con otros métodos
utilizados, especialmente en Chile.

• Describir y analizar los diversos factores causantes de problemática en las técnicas,
sus soluciones e influencia en los resultados.

1. INTRODUCCIÓN

A partir de la década de los cincuenta, comienza la génesis de nuevos y diversos
experimentos los cuales tienen como objetivo lograr métodos con los cuales reconocer e
identificar personas por su voz.

Si bien es cierto, este es un problema al cual se comenzó la búsqueda de una
solución a partir de la mitad del siglo recién pasado. Existen numerosos relatos, los cuales
cuentan acontecimientos concernientes a la identificación de una persona mediante su voz.
Incluso en la Biblia existe un relato donde un padre ciego puede reconocer a un hijo
mediante su voz.

Para todos es familiar reconocer a una persona conocida mediante su voz, un
ejemplo de esto es al contestar un teléfono, a veces nos sucede que inmediatamente
reconocemos al locutor que está al otro lado del teléfono cuando este emite una o más
palabras.

Sin embargo, el problema de reconocer personas por la voz se hace mayormente
interesante cuando en la década de los setenta comienzan a gestarse crímenes en los cuales
se contaba con grabaciones de los delincuentes involucrados en dicho crimen. Al respecto
surgen diversas técnicas de carácter científico; este es el caldo de cultivo para empezar a
comprender que la invención de una técnica idónea concerniente a resolver el problema es
una tarea sumamente complicada.

La falta de comprensión en el núcleo del problema hizo que la técnica fuera blanco
de muchas críticas y ridiculizaciones en épocas pasadas, las cuales aún en la actualidad
tienen eco. Sin duda las barreras del pasado han sido superadas y un entendimiento a fondo
del problema es lo que ha llevado a contar hoy con sistemas de identificación de locutores
con excelentes resultados.

En la actualidad, las técnicas utilizadas en reconocimiento de locutores con fines
forenses aparecen ya consagradas en muchos países, y en muchos de los cuales se siguen
investigando y desarrollando aspectos que tienen el fin de mejorar el estado de la técnica.
Sin embargo, en Chile las técnicas de identificación y verificación forense de locutores
parecen aún extrañas y en gran manera desconocidas por muchas personas relacionadas con
el campo de su aplicación.

En este trabajo se pretende dar a conocer el estado del arte y aspectos importantes
vinculados a los métodos utilizados en reconocimiento forense de locutores en la
actualidad, desde un punto de vista de la Ingeniería Acústica, y conocer cuáles son los
trabajos realizados y por realizar en Chile en esta área. Además, se procurará dar especial
4

énfasis a la metodología bayesiana vinculada al reconocimiento de locutores con fines
forenses.

Conviene señalar la naturaleza multidisciplinar del campo de estudio tratado y la
gran cantidad de datos que se desprenden en este entorno, lo cual hace de esta área un tema
muy complejo de estudiar. Es por esta razón que este trabajo pretende establecer pautas y
directrices de futuros trabajos en este campo en la Universidad Austral de Chile, y
especialmente en el Instituto de Acústica.

2. ANTECEDENTES HISTÓRICOS VINCULADOS A LA
VERIFICACIÓN E IDENTIFICACIÓN FORENSE DE
LOCUTORES

2.1 PRIMEROS ANTECEDENTES CONOCIDOS,
RECONOCIMIENTO E IDENTIFICACIÓN AUDITIVA

Los simples reconocimientos a nivel perceptivo son la primera referencia que se
posee acerca de la materia de interés, el reconocimiento forense de locutores como una
prueba válida tomada en cuenta por un tribunal de justicia.

En 1660 un tribunal inglés estimó válido un testimonio de este tipo en el caso de un
tal William Hullet. Existen además algunos comentarios que dicen que en el período
transcurrido entre 1774 y 1780, cuando John Fielding ocupaba el cargo de jefe de los Bow
Street Runners1, siendo ciego, consiguió identificar numerosos delincuentes por su voz. En
1881 un tribunal norteamericano consideró admisible la identificación de un perro por su
ladrido. El argumento utilizado para la sentencia relataba, que si “si una persona puede ser
reconocida por su voz, un perro puede serlo a través de su ladrido”.

Un caso más cercano, en el tiempo en el cual se consideró un reconocimiento
perceptivo, es en el conocido secuestro Lindberg. En 1935 Charles Lindberg, famoso piloto
estadounidense (por ser la primera persona en sobrevolar solo el Océano Atlántico), sufrió
el secuestro y asesinato de su hijo. Bruno Hauptmann fue arrestado y acusado por tal
acción. Durante el juicio, Lindberg reconoció la voz de Hauptmann como aquella del
secuestrador que dos años antes había escuchado personalmente a través del teléfono. Esta
identificación, fue considerada válida por el tribunal, y al parecer tuvo un gran peso en la
sentencia final, la cual fue de muerte. La gran resonancia del caso y el cuestionamiento que
en relación a este tipo de reconocimiento perceptivo a largo plazo se formuló, hicieron del
asunto Lindberg una referencia popular aunque primitiva de la técnica de identificación de
voz [11].

2.1.1 Primeros sistemas de análisis cualitativo

El primer salto importante en este aspecto tiene antecedentes en los trabajos de
Alexander Melville Bell, que en 1867 ideó una forma de representación gráfica de las
palabras en función de cómo eran pronunciadas. Este sistema fue bautizado como “visible
speech” (habla visible), y fue utilizado tanto por su creador como por su hijo, el famoso

1 Los Bow Street Runners. Así fue llamada la primera fuerza profesional de la policía de Londres. Fue
fundada por Henry Fielding en 1749 y originalmente contó con ocho integrantes.

Alexander Graham Bell2 para hacer más funcional el aprendizaje del habla en las personas
sordas.

Los laboratorios Bell situados en Murray Hill, New Jersey, han sido una
importantísima referencia en lo que respecta a la técnica de identificación de voz. Una larga
serie de ingenieros que han pasado por estos laboratorios han contribuido de manera
relevante en el desarrollo de la técnica. Entre otros, pueden citarse a los señores Bell,
Potter, Kopp, Green, Kersta, Atal, Rosenberg, Doddington, Presti, etc.

En 1947 los doctores Potter, Kopp y Green publicaban un libro titulado “Visible
speech” tomando prestado el nombre empleado por Alexander Melville Bell. En este libro
se pretendía instruir sobre la interpretación lingüística de los sonidos del habla
representados en forma de espectrogramas o sonogramas. Lo que los diferenciaba del señor
Bell era la utilización en sus trabajos de una máquina de reciente invención: el
espectrógrafo analógico de sonido o sonógrafo. Con ayuda de este instrumento codificaron
el habla en formas gráficas, representando el sonido en una referencia tridimensional
(frecuencia, amplitud, tiempo) mediante la realización de sucesivos análisis de Fourier a
corto plazo en una muestra de voz.

Ya a principios de siglo XX comienzan los primeros progresos con espectrógrafosde naturaleza mecánica, como fue el analizador de Heinrici.

Durante la segunda guerra mundial se hicieron los avances más significativos con
respecto al sonógrafo. En 1941 los laboratorios Bell iniciaron su diseño en un proyecto
dirigido por el doctor Ralph Potter. La finalidad prioritaria era el reconocimiento de
operadores de radio alemanes para poder detectar la ubicación y desplazamiento de las
distintas unidades enemigas.

En 1944, los doctores Gray y Koop se encontraban absolutamente confiados en la
posibilidad de utilización de sonogramas con fines identificativos. Fue aquí cuando crearon
el termino “voiceprint” (huella de voz), tratando de poner su método en igualdad de
condiciones con la identificación forense mediante huellas dactilares o “fingerprint”, ya
consolidada para entonces. El término utilizado traería mas adelante nefastas
consecuencias.

Dos circunstancias hicieron caer en el olvido el proyecto originado en los
laboratorios Bell: el fin de la guerra y la imposibilidad de registrar en aquellos días
grabaciones de voz. Como contrapunto favorable, puede citarse el hecho de que el estudio,
en lo que respecta a identificación de locutores, dejó de ser un interés estrictamente militar,
dando paso a la posibilidad de avanzar en el tema a otros científicos y estudiosos del habla.

2 Científico e inventor británico nacido en 1847, especializado en transmisión de ondas sonoras y en
tecnología aérea. Entre sus muchos inventos, sin duda, el teléfono es el más importante.
7

Como puede verse, el mayor número de antecedentes registrados respecto a la
identificación forense de locutores, proviene de Estados Unidos, país que puede
considerarse pionero en la técnica. Se sabe de algunos trabajos realizados en la Unión
Soviética y en algunos de sus países satélites después de la segunda guerra mundial, aunque
muy poco se conoce respecto a los logros de dichos trabajos [11].

2.2 LAWRENCE KERSTA

En torno al año 1960 en Estados Unidos comienza a surgir una nueva moda
delictiva, las amenazas telefónicas de bombas a compañías aéreas. Para aquellos días, las
grabaciones magnetofónicas de sucesos sonoros eran tan viables como lo son en la
actualidad, por lo tanto, lo que fue un impedimento hacia quince años atrás, ya no existía.

En estas circunstancias, la policía de Nueva York solicitó ayuda a los laboratorios
Bell para capturar a los individuos que realizaban estas llamadas. Un físico que había
participado en los experimentos iniciales del sonógrafo fue elegido para cumplir esta tarea,
su nombre era Lawrence Kersta. Kersta necesitó dos años para presentar un método de
identificación de voz, el cual otorgó una fiabilidad de 99.65%.

El método de Kersta, se basaba básicamente en la comparación de los “patterns”
(figuras de representación gráfica de la frecuencia y la amplitud en el dominio del tiempo)
que aparecen en los sonogramas; un proceso similar al usado para el análisis de huellas
dactilares, motivo por el cual probablemente Kersta volvió a utilizar el término
“voiceprint” para el sonograma de voz.

El convencimiento de Kersta acerca de la infalibilidad de su método era tan grande
que llegó a compararlo con el de huellas dactilares en su presentación ante la Acoustical
Society of America3 en 1962. Entre los años 1962 y 1966 Kersta colaboró exitosamente
con distintos departamentos de policía y agencias federales.

En 1966, Kersta abandona los laboratorios Bell para formar su propia compañía
“Voiceprint Laboratories, Inc.”. Esta nueva compañía, ofrecía diversos servicios tales
como: perito en identificación de voz, procesado de señal, trascripción sobre registros, e
incluso producía sonógrafos con fines comerciales en competencia con la firma “Kay
Elemetrics Co.”. En la introducción del catálogo de presentación de la compañía, Kersta
deja clara su visión acerca de su técnica de identificación de voz: “...de la misma forma en
que la identificación dactilar se basa en las características individuales que aparecen en
las impresiones de las huellas dactilares de las personas, la identificación por “voiceprint”
tiene su fundamento en las características individuales que se ponen de manifiesto en las
impresiones espectrográficas de las emisiones habladas de los sujetos”.

3 La Acoustical Society of America (ASA) es una sociedad científica internacional fundada en el año 1928,
dedicada a incrementar y difundir el conocimiento de acústica y sus aplicaciones prácticas.
8

Otro servicio que ofrecía la empresa de Kersta, era la de formación de expertos. El
primer curso de adiestramiento lo realizó en 1967. Asistieron a éste miembros de la policía
científica del estado de Michigan y Oscar Tosi, como asesor de dicho departamento
policial, en calidad de evaluador de los procedimientos utilizados por Kersta. Los cursos
dictados tenían una duración de dos semanas, que debía ser complementado con otro de dos
años, en el cual los estudiantes eran entrenados en la comparación visual de
espectrogramas, supervisado por el propio Kersta.

Por todas las razones mencionadas, Kersta es considerado el primer perito que
testificó ante un tribunal como experto en identificación de voz, aunque cometió errores,
algunos muy perjudiciales para la técnica.

Kersta continúo participando como perito ante los tribunales. En el caso People vs
King en 1968 (sobre incendio y pillaje en un barrio de Los Angeles) durante una entrevista
televisiva alguien que no mostraba su cara a la cámara se hacía responsable de los hechos
delictivos. Kersta, que actuaba para el fiscal, comparó los registros de habla con muestras
de un sospechoso al cual identificó. Siete expertos utilizó la defensa (ingenieros y
fonetistas), uno de ellos, el Doctor Peter Ladefoged de la Universidad de California, atacó
exitosamente la metodología utilizada por Kersta, poniendo en evidencia las carencias de su
método, en el campo de las ciencias del habla. El acusado fue absuelto.

Este hecho, representó para Kersta el fin de su carrera como perito y empresario en
el ámbito de identificación de locutores, y desencadenó la reinvención de la técnica, que
otrora fuera dominada por los ingenieros y físicos acústicos, y que en adelante tendría un
carácter multidisciplinar, entrando a participar activamente expertos de las ciencias del
habla, que casual, pero injustamente fueron ignorados en un principio. Kersta cometió tres
errores fundamentales:

• Situó en el mismo plano de infalibilidad la identificación dactilar y la identificación
de voz, cuando los objetos de estudio de cada una de estas ciencias forenses
presenta una naturaleza opuesta. La huella dactilar es inmutable y perenne, mientras
que las emisiones del habla presentan una naturaleza variable.

• Usó el análisis sonográfico como método exclusivo, dejando de lado el estudio a
nivel fonético, como también el análisis perceptivo/auditivo.

• Estaba convencido que cualquier miembro de las fuerzas de seguridad estaba
capacitado para desarrollar la técnica de identificación de locutores, tras un
entrenamiento en el único criterio de comparación de patterns sonográficos.

En 1973 Voiceprint Laboratories Inc. fue a la quiebra, siendo sus derechos
comprados por William Hughes, quien fundó “Voice Identification Inc.” con el objetivo
9

principal de seguir con la producción comercial de sonógrafos, aunque de forma ocasional
se ofrecían servicios periciales de identificación de voz, ya que parte del personal de la
compañía de Kersta, había sido absorbido por la nueva empresa. Voice Identification Inc.
continúa en la actualidad.

Los errores cometidos por Kersta aún se dejan sentir. Estos errores son
especialmente utilizados por personas con poco conocimiento del tema y por algunos
inescrupulosos que desean desprestigiar la técnica para conseguir algún propósito.Sin
embargo estos motivos no deben ser impedimento para el desarrollo de esta herramienta de
indudable valor para el esclarecimiento de algunas actividades delictuales, y que ya en
nuestros días ha sido objeto de muchos avances [11].

2.3 EL SURGIMIENTO DE LA TÉCNICA DE IDENTIFICACIÓN Y
VERIFICACIÓN DE LOCUTORES EN ESTADOS UNIDOS

Los primeros testimonios frente a un tribunal por parte de expertos se produce en
1966, en los cuales participó Kersta, Sin embargo en 1967 fue la primera vez que se ordenó
por parte de un tribunal verificar y regular la admisibilidad de la prueba de identificación
forense de locutores. Un juez incluye por primera vez una referencia de aceptación
científica conocida como “Frye test o Frye rule”, el cual fue el estándar de admisibilidad
utilizado en el declive como experto de Kersta.

La referencia “Frye” fue dictada en 1923 y señala que: “...cuando un nuevo
principio o descubrimiento científico es utilizado ante los tribunales para demostrar
alguna evidencia, éste, debe contar con la general aceptación de la comunidad científica
de su entorno.”

La insuficiente evaluación respecto al método espectrográfico y la carencia de un
marco de referencia meticuloso respecto a su admisibilidad fueron los factores que en los
primeros años de la técnica opacaron su fiabilidad. En 1967 para hacer frente a estas
circunstancias, el departamento de ciencias del habla y audiología de la Universidad del
Estado de Michigan (M.S.U), subvencionado por el Departamento de Justicia de los
Estados Unidos, desarrolló un experimento durante tres años. El responsable del proyecto
fue el doctor en ciencias físicas Oscar Tosi. En este estudio se efectuaron 34.992
evaluaciones de identificación y eliminación espectrográfica en las cuales fueron incluidas
condiciones forenses (ruido, transmisión telefónica, no contemporaneidad de las muestras,
etc).

Durante este período la policía de Michigan, trabajó simultáneamente en casos
reales de identificación de locutores con fines forenses bajo las directrices de Tosi, aunque
dichos casos no fueron considerados como evidencia.

En 1970 concluyen los estudios realizados por la M.S.U, con resultados altamente
favorables para el método espectrográfico de identificación de locutores. Por este motivo, el
Departamento de Policía del Estado de Michigan decide crear la primera unidad policial de
investigación en identificación de voz (exceptuando el F.B.I.). Al frente de esta unidad es
designado el teniente Ernest Nash, el cual fue la persona que trabajó con Tosi en coordinar
el análisis de casos forenses reales durante el período de experimentación.

Tras los resultados de los estudios de 1970, Oscar Tosi, que en un principio había
declarado en contra del método espectrográfico da a conocer un nuevo enfoque
metodológico, ésta es la técnica auditiva-espectrográfica, y que fue utilizada ese mismo año
con éxito en un caso en Minnesota, donde el tribunal supremo de este estado reconoció
como fiable la prueba de identificación de voz, incluso el Doctor Ladefoged que actuaba
como perito de la defensa, reconoció la fiabilidad de la metodología propuesta por Tosi,
que junto a Nash actuaban como peritos de la fiscalía (recordando que Ladefoged se mostró
en contra del método de Kersta).

En 1971 con el objetivo de institucionalizar diversos aspectos y conceptos con
respecto a la técnica de identificación forense de locutores, Kersta, Tosi y Nash, junto a un
asesor legal fundan la I.A.V.I. (Asociación Internacional de Identificación de Voz), la cual
se propone entre otros objetivos, la formación y calificación de expertos, fomentar la
investigación y establecer un código de ética para la utilización de la técnica. En 1980 la
I.A.V.I. se integra al VIAAS (Voice Identification & Acoustic Analysis Subcommitee) de
la International Association for Identification (I.A.I.)4.

En 1978 Tosi y Greenwald realizaron un nuevo experimento, en el cual estaban
contemplados la influencia de diversos factores en la técnica auditiva-espectrográfica como
lapso temporal, sexo y entrenamiento del experto.

Veintitrés estados federales norteamericanos, algunos canadienses, Italia e Israel,
habían admitido en el año 1978 la evidencia de identificación de voz.

Durante los últimos años de la década de los setenta, los detractores de la
metodología de Kersta fueron sistemáticamente ampliando sus críticas a las metodologías
más desarrolladas, estas críticas en muchos casos correspondían a objetivos personales,
llegando nuevamente a un punto muerto. La regla Frye exigía que la comunidad científica
estuviera completamente de acuerdo al respecto, y obviamente utilizando este recurso
muchas cortes decidieron desechar la evidencia de identificación de voz, ya que no se tenia
certeza que parte de la comunidad científica era la competente en este campo.

4 La International Association for Identification (I.A.I.) es la más grande organización forense en el mundo.
Fue fundada en octubre de 1915 con el nombre inicial de "International Association for Criminal
Identification".
11

Mucho antes, en la década de los 50, el F.B.I ya había comenzado sus
investigaciones respecto al análisis espectrográfico de manera confidencial, utilizándolo de
manera exitosa en algunos casos de investigación interna. Debido al tira y afloja existente a
nivel judicial, en 1976, solicitan a la National Academy of Sciences un dictamen aclaratorio
respecto de la fiabilidad del método espectrográfico y su utilización en los tribunales de
justicia.

Este estudio fue llevado a cabo por la Academia Nacional de las Ciencias, desde el
punto de vista de un equipo multidisciplinar, que entre sus miembros contó con Cooper,
Green, Hamlet, Hogan, Mc Knight, Picket, Tosi y Underwood, al frente de este equipo
estaba Douglas L.Hogan del Consejo Nacional de Investigación. Este equipo estaba
compuesto de expertos de diversas áreas, abarcando tanto el ámbito legal como científico
(Derecho Penal, Leyes de la evidencia en general, Acústica, Electrónica, Ciencias del
habla, Patologías, etc.); como chairman de dicha Comisión fue designado el Dr. R.H.Bolt.

En 1979 esta comisión expresó sus resultados en un informe titulado "On the
Theory and Practice of Voice Identification", en el cual no se hacia alusión a favor o en
contra del análisis auditivo-espectrográfico, pero que sí se hacía referencia en que la corte
debía ser informada acerca de las limitaciones del método, como también acerca de la
calificación de los expertos que realizaban las pericias.

Tras conocer el informe entregado por la Comisión Nacional de las Ciencias el F.B.I
continuó utilizando el método auditivo-espectrográfico para fines de su propia
investigación, o como auxilio a cualquier otra fuerza de seguridad que lo necesitará.

En 1986 el Federal Bureau of Investigation (F.B.I.) publicó un estudio que dio a
conocer sus conclusiones acerca de su método en casos reales, después de quince años de
utilización, el cual arrojó márgenes de error inferiores al 1%.

Después de numerosos estudios, entre los que se pueden citar Kersta 1962; Young
& Campbell 1967; Stevens et al., 1968; Tosi et al. 1972, 78 y 79; Bolt et al. 1970 y 1973;
Hennessy 1970; Endrees et al. 1971; Hazen 1973; Black et al. 1973; Smrkovski 1975 y
1976; Hall 1975; Obrecht 1975; Hollien & Mc Glone 1976 y 77; Reich et al. 1976 y 1979;
Rothman 1977; Houlihan, 1979; Greenwald 1978 y 1979, etc, que muestran la fiabilidad de
la metodología existente hasta entonces en identificación de voz cabe hacerse la pregunta
¿qué tanta razón tenían los detractores de la técnica?

A principios de los años ochenta, ya con el avance realizado e inminente de la
informática, aparecen nuevos enfoques, basados en los métodos anteriores, a vislumbrarse
como viables. Es aquí donde comienza a hablarse de sistemas automáticos y
semiautomáticos,en donde el Dr. Tosi adquiere relevancia con sus trabajos en la
Universidad de Michigan [11].
12

2.4 ANTECEDENTES CONOCIDOS FUERA DE ESTADOS
UNIDOS

Los primeros antecedentes conocidos fuera de Estados Unidos fueron
investigaciones en la ex Unión Soviética poco después de la segunda guerra mundial. Sin
embargo, no es hasta finales de los setenta cuando comienza a hacerse un uso en el plano
práctico de sus técnicas, en este sentido cabe mencionar entre los primeros interesados en el
tema: J. Ramisvili en la U.R.S.S., S. Blasikievicz y Wojciech Majewski en Polonia, H.
Habersbrunner en Alemania, Ion Anghelescu en Rumanía y los doctores Masao Onisi y
Seiki Miyoshi en Japón.

En 1963 un niño de cuatro años es secuestrado en Tokio, las conversaciones
telefónicas de su secuestrador fueron grabadas y la policía japonesa solicitó la ayuda de
fonetistas, lingüistas e ingenieros acústicos con el fin de identificar la voz del sospechoso.
Esta es la primera vez que la identificación forense de locutores es utilizada en Japón.

Durante los siguientes años fue utilizada en ayuda de los organismos policiales, y en
1977 es considerada admisible ante los tribunales de justicia.

En Europa los antecedentes más antiguos que se tienen provienen de la Unión
Soviética. En 1971 el Laboratorio de Fonoscopía del Centro de Criminalística del
Ministerio del Interior de la actual Rusia, comenzó oficialmente sus trabajos de
investigación en el ámbito de identificación forense de locutores. Aunque muchos
antecedentes no son conocidos por reticencias de tipo políticas, se sabe que a partir de los
ochenta existían alrededor de cincuenta laboratorios públicos, donde se realizaban trabajos
de este tipo.

Basándose en el método auditivo-espectrográfico, a principio de los años setenta en
Alemania comienzan los primeros trabajos. Posteriormente, el Dr. Ernest Bunge al servicio
del Kriminaltechnisches Institut del Bundeskriminalamt o B.K.A. (Policía Federal de
Alemania), supervisó un proyecto cuyo fin era la obtención de un método automático de
identificación de voz conocido como “AUROS”. Según su creador, este sistema ofrecía
excelentes resultados, con un margen de error inferior al 0.5% en condiciones de
laboratorio. El sistema fue desestimado, luego, al ser usado bajo condiciones reales, para
dar paso a un sistema auditivo-lingüístico. Bajo estas circunstancias, en 1981 es
considerada admisible como prueba de cara a los tribunales de justicia alemanes.

A principios de los años setenta, comienza su trabajo en esta área la policía Italiana.
A partir de la década de los ochenta diversos laboratorios de varios países comienzan su
andadura en este campo, con un objetivo policial o de apoyo a la justicia. Entre estos países
se pueden citar: Holanda, España y Austria. A partir de la década de los noventa países
13

como: Francia, Bélgica, Finlandia y Lituania, comienzan a realizar trabajos en esta área
[11].

2.5 EL ESTADO DE LA TÉCNICA EN LA ACTUALIDAD

2.5.1 Estados Unidos

Anteriormente se habló acerca de la importancia de los aportes que haría Tosi a
principio de los años ochenta. El Dr. Tosi por diversos motivos se desliga de la I.A.V.I., y
comienza una nueva exploración. Tosi visualizó la importancia de contar con métodos que
sustentaran más firmemente el análisis auditivo-espectrográfico. En este sentido, incorpora
tres importantes modificaciones a su metodología. En primer lugar desarrolla e incorpora
los sistemas automático TOSI I y TOSI III. Basándose en resultados obtenidos en sus
trabajos de experimentación en la M.S.U., logra extrapolar mediante su curva P.S.S. (escala
de probabilidad subjetiva) los valores de similitud y disimilitud a valores de probabilidad,
esto tiene como fin hacer más objetivos los resultados de sus análisis. Y por último,
introduce reglas de decisión que reducen el margen de error en las evaluaciones. Lo
realmente novedoso en estos cambios es la introducción de distintas disciplinas en la
técnica.

En 1992 Oscar Tosi incorpora en sus informes el análisis fonético-lingüista, después
de darse cuenta de la importancia de este análisis, que le fue dado a conocer por miembros
del Laboratorio de Acústica Forense de la Policía Científica Española, tras un curso de
formación dictado en la M.S.U por el Dr. Tosi.

El Dr. Oscar Tosi fallece en el año 1994, dejando un importante legado, y con la
conciencia clara que quedaba mucho por hacer en el ámbito de identificación de voz.

Durante los años ochenta y noventa se registra gran actividad en esta área en los
Estados Unidos, principalmente en el área de investigación con fines de mejorar los
sistemas automáticos.

El F.B.I sigue utilizando el método espectrográfico en sus análisis, teniendo como
política que ninguno de sus miembros puede acudir a testificar a los tribunales y utilizar el
método solo para requerimientos de sus casos o aquellos en los que son necesitados por
otros organismos policiales o fuerzas de seguridad. Aunque se sabe de trabajos de última
generación que son confidenciales y que no se han dado a conocer detalles a la luz pública.

Un ejemplo que vale la pena mencionar es el caso de la captura del conocido
traficante Pablo Escobar Gaviria, en el cual participaron agentes norteamericanos que
contaban con un sistema automático que podía captar todas las señales de telefonía fija y
móvil dentro de un radio que abarcaba la ciudad de Medellín, y que podía discriminar
14

muestras de habla hasta obtener la deseada y dar la ubicación donde se encontraba el
locutor. Sin duda este ejemplo nos muestra un desarrollo de la técnica muy avanzado.

En el ámbito privado diversos expertos trabajan en el campo de identificación de
voz, estos se encuentran agrupados en el Subcomité de Análisis Acústicos e Identificación
de Voz (VIAAS) de la International Association for Identification (I.A.I.).

En el ámbito legal se han incorporado importantes innovaciones con respecto a la
admisibilidad de la evidencia. Hasta el año 1993 fue utilizada la regla Frye que se comentó
anteriormente, la cual fue ampliamente criticada por no ser considerada el test adecuado
para evaluar la evidencia de identificación de voz. La regla Frye fue establecida para
evaluar evidencia de naturaleza muy distinta y en ultimo caso no daba conocimiento acerca
de que grupo científico era el mas competente. En 1993 la regla Frye para la admisibilidad
de la evidencia es derogada por el Tribunal Supremo de los Estados Unidos y en su
reemplazo entra a regir las Reglas Federales como estándar de admisibilidad,
concretamente la Regla 702: " Para poder cualificar un conocimiento científico, cualquier
conclusión o afirmación emitidas deben deducirse de un método científico. El testimonio
referido debe sustentarse en la correspondiente validación (por ejemplo una sólida
formación en relación con el área de conocimiento sobre la que se opina). En definitiva, el
requisito de que el testimonio de un experto pertenezca al conocimiento científico,
establece por sí mismo un estándar de fiabilidad evidenciaria."

En la actualidad la mayoría de los estados norteamericanos han admitido la prueba
de identificación de voz por el método auditivo-espectrográfico, aunque existen algunos
casos donde se ha desestimado la evidencia [11].

2.5.2 Antecedentes importantes en el resto del mundo

La más importante referencia fuera de los Estados Unidos, en cuanto a la
identificación forense de locutores, ocurre en Europa, donde la técnica está plenamente
consolidada, e incluso disfruta de una situación de vanguardia.

La investigación y desarrollo de la técnica está en su mayor parte a cargo de las
policías de los diversos países europeos, que han incorporado como evidencia la
identificación de voz, sin embargo, también existen antecedentes de actividad en éste tema
en universidades, empresas privadas o expertos privados.

En los últimos añosla evolución de la técnica ha surgido de modo distinto en cada
uno de estos países, y a pesar de esta iniciación distinta y en algunos casos autodidáctica,
puede decirse que existe una orientación metodológica común, nos referimos a los llamados
métodos combinados.

Los métodos combinados es la metodología que ha dado mejores resultados hasta
ahora, y responden a encontrar el mejor resultado posible, dada la naturaleza variable de
nuestro objeto de estudio. En general, es bastante difícil conocer las metodologías ocupadas
por los peritos de las diversas policías de cada país, en algunos casos como en el de la
policía chilena es conocido el sistema de análisis automático que poseen, aunque los
algoritmos que encierran son parcialmente desconocidos.

Si se compara el objeto de estudio, el reconocimiento forense de locutores, con otras
ramas de las ciencias forenses, se encontrará una escasa divulgación de estudios científicos
del tema, en este aspecto se pueden mencionar algunas asociaciones y laboratorios que han
aportado conocimientos al respecto: la I.A.I. (Subcomité de VIAAS) y la I.A.F.P.
(International Association of Forensic Phonetics) que aglutinan una buena cantidad de
expertos, fuera de los Estados Unidos se tiene: el Instituto Nacional de Investigación de
Ciencia Policial de Japón, el laboratorio de análisis y tratamiento de la señal de la Policía
Técnica y Científica de Francia y el laboratorio de Acústica Forense de la Comisaría
General de Policía Científica de España, el laboratorio de análisis acústicos del Instituto
Técnico Criminal del Bundeskriminalamt dirigido desde 1980 a 1999 por el Dr. Hermann J.
Künzel, los laboratorios policiales del Centro de Criminalística del M1 del Interior de
Rusia, los más antiguos de Europa, el Centro de Tecnología del Habla de San Petersburgo,
en el cual a partir del año 1991 se realizan importantes estudios en esta área.

Existe conocimiento de trabajos realizados para el desarrollo de la técnica en los
cinco continentes. En América Latina existen trabajos realizados por diversas policías,
aunque sobre trabajos de investigación poco se sabe, y sólo se tiene conocimiento de
algunas universidades que realizaron algún estudio al respecto, sin embargo, estos no
fueron prolongados [11].

En el capitulo 9 se abordará el caso chileno, que es el punto de interés de este
trabajo, con mayor detalle.

2.6 FUTUROS TRABAJOS

Anteriormente se hizo referencia hacia una orientación metodológica común
existente en los países europeos, pues bien, este comportamiento se está generalizando en el
seno de la Unión Europea. Se espera que en algunos años se logre una estandarización de la
metodología y precisamente los trabajos actuales apuntan a ello.

Otro punto importante de comentar es la existencia de sistemas automáticos de
identificación forense de locutores, que entregan resultados con márgenes de error muy
pequeños, los cuales gracias al continuo avance de la informática y a un desarrollo cada vez
mayor de la técnica, auguran un futuro prometedor en esta área, incluso se habla de un
menor requerimiento de expertos a futuro, por el desplazamiento del hombre por la
16

máquina. Sin embargo, no se debe exagerar acerca de sistemas infalibles como es común
encontrar hoy en el mercado, ya que no existe ningún sistema en la actualidad que disfrute
de ese privilegio. Entonces, las dos principales directrices de trabajo que se deben trazar
serán: trabajar en una solución metodológica de mayor idoneidad y elaborar estándares
globales de referencia común, que entreguen a la técnica los mayores índices de objetividad
de cara a los tribunales de justicia.

Existen en la actualidad numerosas referencias acerca de factores influyentes en el
reconocimiento forense de locutores (acústicos, fonéticos, etc.), en este sentido, los trabajos
apuntan a entender con más detalle estos factores, que en el caso acústico pueden ser: ruido,
interferencia telefónica, etc.

Como se puede ver, existen muchos factores para afirmar con certeza de que el
futuro de la técnica es prometedor y que se dará un cierre definitivo a un problema que
desde los tiempos de Kersta hasta el presente ha sido motivo de debate [11].

3. PRODUCCIÓN DEL HABLA

3.1 PRODUCCIÓN DE LA VOZ HUMANA, FONÉTICA
ARTICULATORIA

El análisis de la lengua, entendiéndose ésta como el sistema de signos que emplea
una comunidad lingüística como instrumento de comunicación, se realiza a tres niveles:

• Nivel Fonológico: se estudia las unidades lingüísticas mínimas (fonemas). El
conjunto de fonemas se establecen por oposición, es decir, si se cambia un sonido
de una palabra y la palabra cambia de significado, al sonido se le considera fonema.
En las palabras coco, loco y toco hemos cambiado un fonema y su significado es
distinto.

• Nivel Morfosintáctico: se estudian las palabras estableciendo su género, número,
tiempo y las relaciones entre ellas.

• Nivel Semántico: se estudia el significado de las frases y su coherencia.

Se profundizará en el nivel fonológico. Dentro de la fonética se encuentra la
articulatoria y la acústica. La primera estudia el papel desempeñado por los órganos
fonadores para la formación y emisión de los sonidos. La fonética acústica se preocupa de
las características de la onda sonora y su percepción.

Antes de entrar de lleno en la fonética acústica, objetivo principal de este trabajo, se
hará una detención en la fonética articulatoria por su importancia en los estudios
tradicionales de la voz. [2].

3.1.1 Fisiología y funcionalidad del aparato fonador.

El aparato fonador se puede dividir en tres grandes partes: las cavidades
infraglóticas, cavidad glótica y las cavidades supraglóticas. Estas tres partes cumplen
funciones distintas en la fonación, pero todas ellas de gran importancia. En la figura (3.1) se
presenta una descripción.
18

Figura 3.1 Aparato fonador.

Cavidades Infraglóticas

Su función consiste en suministrar la corriente de aire espirada necesaria para
producir el sonido. Están compuestas por diafragma, pulmones, bronquios y tráquea. El
diafragma es un músculo en forma de cúpula ubicado debajo de los pulmones. Su misión es
controlar el despliegue e hinchado o su reducción y vaciado junto con los músculos
pectorales, y con ello la respiración.

Cuando se contrae el diafragma se ensancha la cavidad toráxica, produciéndose la
inspiración de aire. Al relajarse se reduce la cavidad, produciéndose la espiración del aire
contenido en los pulmones.

Los bronquios y la tráquea son tubos cartilaginosos, cuya función consiste en
conducir el aire entre los pulmones con la laringe, por lo tanto, en la fonación son los
canales de transmisión del flujo aéreo.

Cavidad Glótica

Está formada por la laringe. La característica más interesante desde el punto de vista
de la fonación, es que en ésta se encuentran las cuerdas vocales, que son las responsables
de la vibración básica para generar la voz. Las cuerdas vocales son dos marcados pliegues
musculosos, que cuando sale el aire de los pulmones y pasa a través de la cavidad glótica
(la glotis es el espacio triangular existente entre las cuerdas vocales), haciéndolas vibrar, la
vibración producida puede variar en frecuencia e intensidad según varíe la masa, longitud y
tensión de las cuerdas vocales.
19

Figura 3.2 Corte transversal de la laringe. Movimiento del cartílago aritenoides y de los repliegues
vocales (líneas continuas o discontinuas).

Cavidades Supraglóticas

Están conformadas por cuatro cavidades ubicadas arriba de la laringe, éstas son:
faríngea, nasal, bucal y labial.

Inmediatamente sobre la laringe se encuentra la faringe, de donde arranca la raíz de
la lengua. Aparece el primer obstáculo móvil: la úvula, es el apéndice final del paladar
blando o velo del paladar. Cuando está unidaa la pared faríngea, la corriente de aire sale
exclusivamente por la boca, produciéndose sonidos orales. Si el velo del paladar está caído,
también se expulsará aire por la cavidad nasal. La cavidad nasal no posee elementos
móviles, por lo tanto, juega un papel pasivo en la producción del habla.

La lengua es el órgano de mayor movilidad en la boca, registrando una actividad
elevada durante el habla. Se divide en tres partes: raíz, dorso y ápice. Se ha demostrado
recientemente que el perfil adoptado por la lengua en cada movimiento es causa de un
resonado acústico y, por lo tanto, el timbre del sonido será diferente según la forma, sea
ésta cóncava, convexa o plana, o que se sitúe en la zona anterior, central o posterior.

Dentro de la cavidad bucal tenemos los dientes y alvéolos. Los dientes son órganos
pasivos en la medida que estos se encuentran insertos en los maxilares; los inferiores son
móviles, por estar insertos en la mandíbula inferior, siendo ésta activa en la articulación. El
paladar es una amplia zona que va desde los alvéolos hasta la úvula. En ella se distingue el
paladar duro, situado sobre el hueso palatino y el paladar blando o velo del paladar que
acaba en la úvula.

Finalmente, están los labios, elementos de bastante movilidad y, que por lo tanto,
permite modificar los sonidos.

Figura 3.3 Zonas bucales.

Se pueden entonces resumir los elementos para la producción del habla en:

• Una fuente de energía, proporcionada por el aire a presión que se expulsa en la
espiración.

• Un órgano vibratorio: las cuerdas vocales.

• Una caja de resonancia: las fosas nasales, la cavidad bucal y la faringe.

• Un sistema de articulación del sonido: lengua, labios, dientes y úvula.

• El proceso para la producción del habla comienza con la espiración del aire en los
pulmones, al pasar este a través de las cuerdas vocales las hace vibrar a una
frecuencia determinada que depende de la tensión de las mismas. A esta frecuencia
se le conoce como frecuencia del fundamental. El tono se encuentra relacionado con
la frecuencia del fundamental, si el tono es grave la frecuencia es baja y cuando es
agudo la frecuencia es alta. Según como se encuentren articulados los órganos se
formará una caja de resonancia distinta, la cual potenciará un conjunto de
frecuencias y atenuará el resto.

Según esta disposición aparecen características especiales de cada individuo, lo que
conforma el timbre. Finalmente sale al exterior la voz [2].

3.2 ALGUNOS CONCEPTOS BÁSICOS DEL LENGUAJE

La lengua es un sistema de signos lingüísticos, los cuales permiten la comunicación
dentro de una comunidad, es un código de signos. Tiene una naturaleza social, ya que es
común a una sociedad.

El habla es el acto de seleccionar dichos signos y organizarlos a través de ciertas
reglas. Tiene carácter individual, pues cambia de un individuo a otro. Los signos pueden
corresponder al lenguaje escrito u oral.

El lenguaje es un sistema articulado ya que los sonidos y otros componentes se
integran entre sí, éste está formado por signos lingüísticos. El lenguaje tiene modalidades
regionales llamadas dialectos.

Un signo es algo que reemplaza a otra cosa para comunicarla en un mensaje. Los
signos lingüísticos están clasificados en dos clases: significado y significante. El
significado es la idea, el concepto mental o contenido a comunicar. El significante es la
imagen, ya sea acústica o gráfica que se le asigna.

Las palabras son los elementos libres mínimos del lenguaje. La sintaxis es el
conjunto de normas tendientes a organizar la coordinación de las palabras en frases u
oraciones. En su versión escrita las palabras están formadas por grafemas o letras (unidades
gráficas mínimas), mientras en el caso oral, por fonemas.

Los fonemas5 son la unidad fónica ideal mínima del lenguaje, los cuales se
encuentran materializados a través de los sonidos, aunque de manera no unívoca. Las
variantes de los fonemas se denominan alófonos.

Los monemas son unidades mínimas con significado, que puede ser gramatical,
dando origen a los morfemas, o léxico, representado por los lexemas. Los morfemas tienen
relación con gramática, o la forma de organizar o dar estructura a las categorías básicas del
lenguaje (género, número, tiempo o persona, etc.), mientras que los lexemas se refieren a
significados externos al lenguaje mismo [6].

3.2.1 Fonología y fonética

La Fonología estudia los fonemas, es decir el modelo fónico convencional e ideal
del lenguaje. La fonología es el estudio de la lengua en cuanto a su carácter simbólico o de
representación mental. Procede detectando regularidades o recurrencias en los sonidos del
lenguaje hablado y sus combinaciones, y haciendo abstracción de las pequeñas diferencias

5 Los fonemas son representados entre barras, por ejemplo, /b/. Su realización es un sonido.
22

debidas a la individualidad de cada hablante y de características suprasegmentales como la
entonación, el acento (tónico, es decir por aumento de la intensidad y agógico, por aumento
de la duración), etc. Cada uno de los sonidos abstractos así identificados es un fonema.

Uno de los objetivos de la fonología es acotar al máximo la cantidad de fonemas
requeridos para representar cada idioma de una manera suficientemente precisa.

La fonética estudia los sonidos del habla incluyendo su producción, emisión
(procesos físicos y fisiológicos) y articulación involucrados. Ésta estudia
experimentalmente los mecanismos de producción y percepción de los sonidos utilizados
en el habla a través del análisis acústico, articulatorio y perceptivo. Se ocupa, por
consiguiente, de las realizaciones de los fonemas [6].

3.2.2 Clasificación de los sonidos de la voz humana

Los sonidos procedentes de la voz humana pueden clasificarse según varios
criterios, los cuales toman en cuentas diversos aspectos, estos son:

a) Según su carácter vocálico o consonántico.
b) Según su oralidad o nasalidad.
c) Según su carácter tonal (sonoro) o no tonal (sordo).
d) Según el lugar de articulación.
e) Según el modo de articulación.
f) Según la posición de los órganos articulatorios.
g) Según la duración.

A continuación se tratará cada una de estas clasificaciones por separado.

1-Según su carácter vocálico o consonántico

Desde un punto de vista mecanoacústico, las vocales son los sonidos emitidos por la
sola vibración de las cuerdas vocales sin ningún obstáculo o constricción entre la laringe y
las aberturas oral y nasal. Dicha vibración se genera por el principio del oscilador de
relajación, donde interviene una fuente de energía constante en la forma de un flujo de aire
proveniente de los pulmones. Son siempre sonidos de carácter tonal (cuasiperiódicos), y por
consiguiente de espectro discreto. Las consonantes, por el contrario, se emiten
interponiendo algún obstáculo formado por los elementos articulatorios. Los sonidos
correspondientes a las consonantes pueden ser tonales o no dependiendo de si las cuerdas
vocales están vibrando o no. Funcionalmente, en el castellano las vocales pueden constituir
palabras completas, no así las consonantes.

2- Según su oralidad o nasalidad

Los fonemas en los que el aire pasa por la cavidad nasal se denominan nasales, en
tanto que aquéllos en los que sale por la boca se denominan orales. La diferencia principal
está en el tipo de resonador principal por encima de la laringe (cavidad nasal y oral,
respectivamente). En castellano son nasales sólo las consonantes “m”, “n”, “ñ”.

3- Según su carácter tonal (sonoro) o no tonal (sordo)

Los fonemas en los que participa la vibración de las cuerdas vocales se denominan
tonales o, también, sonoros. La tonalidad lleva implícito un espectro cuasi periódico6.

Como se puntualizó anteriormente, todas las vocales son tonales, pero existen variasconsonantes que también lo son: “b”, “d”, “m”, etc. Aquellos fonemas producidos sin
vibraciones glotales se denominan sordos. Varios de ellos son el resultado de la turbulencia
causada por el aire pasando a gran velocidad por un espacio reducido, como las
consonantes “s”, “z”, “j”, “f”.

4- Según el lugar y modo de articulación (consonantes)

La articulación es el proceso mediante el cual alguna parte del aparato fonatorio
interpone un obstáculo para la circulación del flujo de aire. Las características de la
articulación permitirán clasificar las consonantes. Los órganos articulatorios son los labios,
los dientes, las diferentes partes del paladar (alvéolo, paladar duro, paladar blando o velo),
la lengua y la glotis. Salvo la glotis, que puede articular por sí misma, el resto de los
órganos articula por oposición con otro. Según el lugar o punto de articulación se tienen
fonemas:

Bilabiales: Oposición de ambos labios.
Labiodentales: Oposición de los dientes superiores con el labio inferior.
Linguodentales: Oposición de la punta de la lengua con los dientes superiores.
Alveolares: Oposición de la punta de la lengua con la región alveolar.
Palatales: Oposición de la lengua con el paladar duro.
Velares: Oposición de la parte posterior de la lengua con el paladar blando.
Glotales: Articulación en la propia glotis.

A su vez, para cada punto de articulación ésta puede efectuarse de diferentes modos,
dando lugar a fonemas:

6 Las vocales tendrán una naturaleza cuasi periódica, sólo si el locutor se esfuerza en emitir un sonido sin
inflexiones. La entonación implica una variación de la frecuencia.
24

Oclusivos: La salida del aire se cierra momentáneamente por completo.
Fricativos: El aire sale atravesando un espacio estrecho.
Africados: Oclusión seguida por fricación.
Laterales: La lengua obstruye el centro de la boca y el aire sale por los lados.
Vibrantes: La lengua vibra cerrando el paso del aire intermitentemente.
Aproximantes: La obstrucción muy estrecha que no llega a producir turbulencia.

Los fonemas oclusivos (correspondientes a las consonantes “b” inicial o postnasal,
“c”, “k”, “d”, “g” inicial, postnasal o postlateral, “p”, “t”) también se denominan a veces
explosivos, debido a la liberación repentina de la presión presente inmediatamente antes de
su emisión. Pueden ser sordos o sonoros, al igual que los fricativos (“b” postvocálica,
postlateral y postvibrante, “g” postvocálica y post vibrante, “f”, “j”, “h” aspirada, “s”, “y”,
“z”). Sólo existe un fonema africado en castellano, correspondiente a la “ch”. Los laterales
(“l”, “ll”) a veces se denominan líquidos, y son siempre sonoros. Los dos fonemas vibrantes
del castellano (consonantes “r”, “rr”) difieren en que en uno de ellos (“r”) se ejecuta una
sola vibración y es intervocálico, mientras que en el otro (“rr”) es una sucesión de dos o tres
vibraciones de la lengua. Finalmente, los fonemas aproximantes (la “i” y la “u” cerradas
que aparecen en algunos diptongos) son a veces denominados semivocales, pues en
realidad suenan como vocales. Pero exhiben una diferencia muy importante: son de corta
duración y no son prolongables.

Tabla 3.1 Clasificación de las consonantes de la lengua castellana según el lugar y el modo de articulación y
la sonoridad.
Modo de articulación
Oral Nasal
Oclusiva Fricativa Africada Lateral Vibrante Aproximante
Lugar de
articulación

So
rd
a
So
no
ra

So
no
ra

So
no
ra
Sonora
Bilabial p b, v b, v w m
Labiodental f
Linguodental z d
Alveolar t d s y ch l r, rr n
Palatal (y) (ch) ll i ñ
Velar k g j g
Glotal h

En la tabla (3.1) se indican las consonantes clasificadas según el lugar y el modo de
articulación, la sonoridad y la oro-nasalidad. En algunos casos una misma consonante
aparece en dos categorías diferentes, correspondiente a las diferencias observadas.

5- Según la posición de los órganos articulatorios (vocales)

En el caso de las vocales, la articulación consiste en la modificación de la acción
filtrante de los diversos resonadores, lo cual depende de las posiciones de la lengua (tanto
en elevación como en profundidad o avance), de la mandíbula inferior, de los labios y del
paladar blando. Estos órganos influyen sobre los formantes, permitiendo su control.

Podemos clasificar las vocales según la posición de la lengua como muestra la tabla
(3.2).

Tabla 3.2 Clasificación de las vocales castellanas según la posición de la lengua.

Posición horizontal (avance) verticalPosición Vertical Tipo de vocal
Anterior Central Posterior
Alta Cerrada i u
Media Media e o
Baja Abierta a

Otra cualidad controlable es la labialización, es decir el hecho de que se haga
participar activamente los labios. Las vocales labializadas, también definidas como
redondeadas, son las que redondean los labios hacia adelante, incrementando la longitud
efectiva del tracto vocal. La única vocal labializada en el castellano es la “u”.

En otros idiomas, como el francés, el portugués, el catalán y el polaco, así como en
lenguas no europeas como el guaraní o el hindi, existe también el matiz de oralidad o
nasalidad. En las vocales orales el velo (paladar blando) sube, obturando la nasofaringe, lo
cual impide que el aire fluya parcialmente por la cavidad nasal. En las vocales nasalizadas
(u oronasales) el velo baja, liberando el paso del aire a través de la nasofaringe. Se
incorpora así la resonancia nasal.

6- Según la duración

La duración de los sonidos, especialmente de las vocales, no tiene importancia a
nivel semántico en el castellano, pero sí en el plano expresivo, a través de la agogia, es
decir el énfasis o acentuación a través de la duración. En inglés, en cambio, la duración de
una vocal puede cambiar completamente el significado de la palabra que la contiene [6].
26

3.2.3 El alfabeto fonético internacional (A.F.I.)

El español es un idioma cuya escritura es eminentemente fonética, ya que salvo
pocos casos, hay correspondencia entre grafema y fonema, aunque no es total. No todos los
idiomas tienen esta característica. El inglés es un caso quizás extremo, a tal punto que se
han creado posibles ortografías alternativas para algunas palabras basándose en la forma en
que sus fonemas aparecen escritos en otras palabras. Estas extrañas ortografías y el análisis
correspondiente se muestran en la tabla (3.3).

Tabla 3.3. Ortografías alternativas de George Bernard Shaw para dos palabras inglesas.

Palabra
Ortografía
alternativa
(según Shaw)
Fonema
Palabra en la que
se usa la
ortografía
alternativa
Escritura en el
Alfabeto Fonético
Internacional
GH enough [I´n∧f]
O women [´wImIn] fish ghoti
TI nation [´neI∫әn]
GH hiccough [´hIc∧p]
OUGH though [ðәυ]
PT pteranodon [tra´nәdon]
EIGH neighbour [´neIbә]
BT debt [det]
potato
ghoughpteighbtea
u

EAU bureau [bjυә´rәυ]

Se ha compilado un extenso conjunto de símbolos fonéticos conocido como el
Alfabeto Fonético Internacional (International Phonetic Alphabet, IPA) que contiene una
gran cantidad de fonemas de los diversos idiomas, y que permite representar de una manera
inequívoca los fonemas independientemente del idioma. El subconjunto correspondiente al
idioma castellano se indica en la tabla (3.4) [6].

Tabla 3.4 Los fonemas del alfabeto fonético internacional utilizados en la lengua castellana.

Fonemas castellanos
Sonido Ejemplo Sonido Ejemplo Sonido Ejemplo
[p] paso [θ] zorzal, lápiz [ɲ] mañana, ñoño
[b] base, vena [s] solo, cosa [d3] yo, Yapeyú
[ß] labor, lavar [x] giro, jarabe [j] bien, biólogo
[t] tres, canto [t ∫] hecho, Chubut [w] hueso, buitre
[d] dama, andar [r] arder, jarabe
[ð] cedro, verdad [rr] perro, rojo [a] cama
[k] caso, disco [l] loable, fiel [e] espera,ver
[g] gula, goma [λ] llanto, calle [i] vine, iris
[g] agua, negro [m] mamá, ámbar [o] loro, pos
[f] fino, tifón [n] nene, joven [u] burla, huracán

4. PROBLEMÁTICA EXISTENTE PARA CREAR UN
MÉTODO INFALIBLE PARA VERIFICAR E IDENTIFICAR
PERSONAS POR SU VOZ

4.1 INTRODUCCIÓN

En esta sección se tratarán los factores más importantes que influyen de manera
adversa para crear un sistema infalible de reconocimiento e identificación de locutores. En
este contexto se entenderá por variabilidad interlocutor, aquellas diferencias existentes
entre personas distintas, y se comprenderá por variabilidad intralocutor aquellas
diferencias ocurridas en una muestra de habla que proviene de una misma persona.

4.2 VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR

Los primeros trabajos en los que se trató poder identificar a una persona mediante su
emisión de voz, dieron como resultado el voiceprint o huella de voz. Sus autores tuvieron la
mala idea de poner en un mismo plano de estudio al voiceprint con el fingerprint o huella
dactilar, con la errónea percepción de que las emisiones de habla de un sujeto eran
invariables y trascendentalmente distintas a las de otros sujetos. Como se comentó en el
capitulo 2, pronto el sector de la comunidad científica que prestó atención a este hecho
comenzó a cuestionarse la veracidad de los fundamentos en los que descansaba el
voiceprint, lo que condujo a la técnica a un tabú y a la ruina de Kersta como experto. Los
detractores del voiceprint pudieron darse cuenta de uno de los principales problemas con
que ha tropezado la identificación de voz, se trata de la variación interlocutor e
intralocutor.

Existen factores físicos de los cuales depende una emisión de voz, sin embargo,
debe tenerse siempre presente que influyen enormemente en la emisión, las resonancias del
tracto vocal. Se debe tener en cuenta, además, que estas resonancias del tracto vocal se
encuentran gobernadas por características psicofisiológicas del locutor, lo que hace
imposible producir dos emisiones idénticas.

En ausencia de la variabilidad intralocutor e interlocutor, existe además
variabilidad a consecuencia de factores ajenos a las resonancias del tracto vocal,
circunstancias producidas por emisión, transmisión y grabación. Todas estas barreras son
las que debe conocer el experto forense en su labor, y minimizar la distorsión que aporta a
sus resultados.

Carlos Delgado [11] presenta una excelente referencia acerca de las causas
fundamentales de la variabilidad en la señal de voz, las que pueden clasificarse en dos
grandes grupos, éstas se presentan a continuación:

• Circunstancias que dependen de la naturaleza del habla y del sujeto emisor.
• Circunstancias no dependientes a la naturaleza del habla y al sujeto emisor.

4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto
emisor

4.2.1.1 Variaciones no relacionadas con el plano expresivo

Contemporaneidad o no contemporaneidad de las muestras

Es apreciable al oído de cualquier persona el cambio que ocurre en la voz de un
sujeto a medida que transcurre el tiempo, la voz de una persona que tiene 10 años, es muy
diferente cuando la misma tiene 16 años y mas aún cuando tiene 30 años, o sea, esta
variabilidad será mayor, mientras mayor sea el tamaño del intervalo temporal.

El primer estudio del que se tiene referencia en este ámbito es el realizado por la
doctora McGehee (1937), en el cual experimentó el reconocimiento perceptivo en memoria
a largo plazo. Según los resultados de la doctora McGehee, existía un deterioro en el
reconocimiento exitoso de un 17% transcurrido un día después de haber escuchado la voz,
y un 87% pasado 5 meses de haber escuchado una voz.

Otras experiencias vividas por Tosi y sus colaboradores (1972) encontraron que el
decaimiento en un reconocimiento exitoso era de aproximadamente 10% después de un
mes de haber escuchado la voz, aunque reconocieron que esta correspondencia no se podía
extrapolar linealmente.

Otro experimento realizado por Endress, Bambach y Flosser (1971) arrojaron
conclusiones sobre descensos en la frecuencia fundamental (número de vibraciones por
segundo de las cuerdas vocales) en individuos en lapsos de 29 años. Posteriormente,
algunos experimentos arrojaron resultados acerca del cambio de en función de la edad y
el sexo.
0F
0F

Hoy en día existen muchos avances en el desarrollo del tema, y en las características
que moldean la voz de una persona en el tiempo, pudiendo resumir estos conocimientos de
la siguiente forma: la madurez de se alcanza alrededor de los 15 años; este parámetro
parece estar relacionado con la muda definitiva, que en el caso de los varones se presenta
0F
30

entre los 13 y 14 años, mientras en las mujeres ocurre entre los 14 y 15 años. En los
varones se aprecia un descenso gradual del valor de dicho parámetro hasta la edad de 40
años, volviendo éste a incrementarse entre los 60 y 80 años.

En el caso de las mujeres este decrecimiento ocurre en su mayoría antes de los 15
años, mientras un 43% ocurre después de dicha edad. Algunos estudios puntualizan que los
cambios más relevantes respecto al tono fundamental en la mujer se encuentran
determinados por el advenimiento de la menstruación, así como también ocurren descensos
en después de la menopausia. Al parecer, en la mujer la disminución en la producción
de estrógenos produce un descontrol en el sistema fonatorio que trae consigo un inminente
cambio en la frecuencia fundamental.
0F

En opinión de muchos expertos, estos cambios no son relevantes desde el punto de
vista identificativo, ya que ocurren de manera paulatina y muy lentamente.

Todos estos procesos experimentados tanto en hombres como mujeres no alteran en
modo significativo los componentes fundamentales del habla, salvo el caso de ciertas
parafonías (pubertad, vejez, etc.), y alcanzada la estabilidad de la voz (en torno a los 20
años en el hombre y 18 en la mujer) estos parámetros no se alteran hasta edades muy
avanzadas. Sin embargo, se tiene que tomar en cuenta un cambio gradual y paulatino en los
componentes del habla en este intervalo.

Cambios en los procesos y órganos de la fonación

Estos pueden agruparse en tres grupos:

• Anatómico: Cambios en la dentadura, dislalias protésicas, tumoraciones, etc.

• Fisiológico: Catarros, procesos inflamatorios, menstruación, menopausia,
irritaciones, etc.

• Psicológico/Neurológico: Temblor temporal, disfonías de origen psicogénico,
cambios emocionales, efecto Lombard, etc.

Cambios producidos por agentes químicos exógenos

Este tipo de cambio puede ser producido por el consumo de medicamentos,
cigarrillos, alcohol, drogas, etc. Estas sustancias pueden influir de alguna de las formas
vistas en el apartado anterior. Por ejemplo, podemos citar el consumo de anticonceptivos en
las mujeres, produce un mayor volumen de progesterona en el cuerpo, lo cual causa un
aumento en el tamaño de los pliegues glotales. El resultado es un descenso hacia los graves
[11].
31

4.2.1.2 Variaciones relacionadas con el plano expresivo

Modificaciones de rangos fonatorios y articulatorios estándar

Relacionadas con variaciones sensibles de componentes fundamentales como el
tono o la intensidad, grados de tensión y relajación en la articulación, grados de
nasalización y oralidad, sonoridad y ensordecimiento, apertura y oclusión, velarización y
palatalización, fricatización, bemolización, etc.

Alteraciones elocutivas de elementos fonéticos simples

En donde estarían incluidas las múltiples realizaciones alofónicas de cada fonema o
grupo fónico y sus efectos asociados de ataque, extinción, transición y coarticulación.

Alteraciones elocutivas relativas al tiempo y carácter suprasegmental o melódico-
expresivo

Reseñaríamos aquí todas aquellas variaciones relacionadas con la entonación