Logo Studenta

DETERMINACION DEL GRADO DE IMPRECISION DE CONSONAN pdf

¡Estudia con miles de materiales!

Vista previa del material en texto

DETERMINACIÓN DEL GRADO DE IMPRECISIÓN DE 
CONSONANTES EXPLOSIVAS EMPLEANDO NIVELES DE 
ENERGÍA Y SONORIDAD 
 
C. Ferrer, E. González 
 
Centro de Estudios de Electrónica y Tecnologías de la Información (CEETI) 
Universidad Central “Marta Abreu” de Las Villas, Carretera a Camajuaní, Km 5½, SC, VC, Cuba. 
e-mail: cferrer@ceeti.uclv.edu.cu 
 
RESUMEN 
En este trabajo se presenta un método totalmente 
automático para la cuantificación del grado de imprecisión 
con que se pronuncian las consonantes explosivas en 
grabaciones de pacientes disártricos. El método se basa en 
la obtención de la combinación lineal de dos índices 
propuestos por los autores como indicadores de sonoridad 
y energía previas a la liberación de la oclusión en 
consonantes explosivas sordas. La combinación lineal 
obtenida es el resultado de la regresión lineal de las 
valoraciones subjetivas de dos jueces en función de los dos 
índices mencionados. Los resultados de correlación entre 
las valoraciones subjetivas y la combinación lineal son 
satisfactorios, comparables a los reportados en la literatura 
entre índices objetivos y valoraciones subjetivas. 
 
Palabras clave: procesamiento de voz, consonantes 
imprecisas, disartrias, valoraciones subjetivas. 
 
1. INTRODUCCIÓN 
La imprecisión en la pronunciación de las consonantes 
es uno de los rasgos subjetivos empleados en la 
metodología de diagnóstico diferencial de disartrias 
desarrollada por Darley, Aronson y Brown (DAB) en las 
Clínicas Mayo a mediados de los años 60 [2][3]. Dicha 
metodología se basa en la escucha, por parte de un panel de 
especialistas, de tres ejercicios efectuados por el paciente. 
El panel emite valoraciones subjetivas de 38 rasgos 
acústicos y determina la presencia de agrupaciones 
distintivas (clusters) de rasgos por disartria. Los resultados 
de estos estudios y de trabajos relacionados estrechamente 
con ellos, se consideran aun hoy las bases del diagnóstico 
diferencial clínico de las disartrias [5]. A pesar de esto, la 
metodología mencionada presenta el inconveniente de su 
subjetividad, lo que trae consigo dependencias de la 
experiencia de los especialistas evaluadores, de su estado 
anímico en el momento de emitir los criterios, etc. 
Por otra parte, los especialistas que trabajan con 
enfermedades del habla emplean cada vez con mayor 
frecuencia en la práctica clínica métodos objetivos que 
documenten la presencia de determinadas características 
perceptibles subjetivamente [6]. Ejemplos de rasgos de este 
tipo ampliamente abordados en la literatura son el jadeo, la 
aspereza y la ronquera [4] [7]. 
El hecho de que el rasgo de las consonantes imprecisas 
resultara significativo en todas las disartrias analizadas en la 
metodología DAB hace deseable la obtención de un índice 
para su cuantificación objetiva. El índice no tendría un alto 
valor separador para el diagnóstico diferencial, pero sí para 
el seguimiento y la documentación de la evolución de los 
pacientes sin reparar en el tipo de disartria que presentan. 
En la literatura consultada no se reportan intentos de 
cuantificar el grado de imprecisión en las consonantes a 
partir del procesamiento digital de la señal acústica, sólo 
algunos índices relacionados con el porcentaje de 
pronunciaciones percibidas como correctas para baterías de 
palabras de prueba [8]. 
En este trabajo se propone un método para la 
cuantificación del grado de imprecisión con que se perciben 
las consonantes oclusivas sordas P, T y K, que muestra una 
aceptable correlación con las valoraciones subjetivas del 
rasgo “Consonantes Imprecisas” de la metodología DAB. 
 
2. MATERIALES Y MÉTODOS 
Se contó con las grabaciones del tutorial de diagnóstico 
de disartrias de las Clínicas Mayo [1], donde aparece la 
realización de los tres ejercicios de la metodología por parte 
de los pacientes. Estos ejercicios consisten en la fonación 
de una vocal sostenida (“a”), la repetición de los 
monosílabos “Pa” “Ta” y “Ka” y la lectura de un párrafo 
estándar. Para la obtención de un índice de Consonantes 
Imprecisas pueden emplearse los dos últimos. En este 
trabajo se decidió emplear las grabaciones de la repetición 
de los monosílabos por las razones de complejidad que 
involucra la detección de las consonantes en el habla fluida 
y la variedad de consonantes a considerar en el párrafo. El 
ejercicio del “Pa”-“Ta”-“Ka” resulta más atractivo para el 
desarrollo de un índice por la mayor facilidad en la 
detección del lugar de las consonantes, siempre al inicio de 
las sílabas. Además, el ejercicio en cuestión presenta la 
mayor complejidad articulatoria en cuanto a las consonantes 
al involucrar a las oclusivas-sordas, que requieren la 
oclusión total del tracto vocal y la rápida apertura de la 
misma en corto tiempo. Entre las grabaciones del tutorial se 
encuentran 57 del ejercicio de repetición de monosílabos, 
que fueron digitalizadas a 22050 Hz de frecuencia de 
muestreo con 16 bits de resolución para ser empleadas en 
este trabajo. Dos jueces emitieron valoraciones subjetivas 
de imprecisión en las consonantes, dos veces para cada una 
de las grabaciones, que les fueron presentadas de forma 
aleatoria. Las valoraciones subjetivas se emitieron en una 
escala de 0 a 6, con 0 representando el mínimo de 
perceptibilidad (ausencia del rasgo) y 6 el máximo de 
severidad del mismo. 
xiomara
Memorias V Congreso de la Sociedad Cubana de Bioingeniería, Habana 2003, Junio 10 al 13 de 2003
xiomara
959-212-095-1 © 2003, Sociedad Cubana de Bioingeniería, artículo T_0061
 
∑
∑
++
+
−
−−==
aron
ron
ron
aron
TTT
TT
TT
TTT
a
b
tE
tE
A
A
CIE
)(
)(
Efectuando un análisis de las distorsiones más comunes 
escuchadas en las grabaciones de los pacientes disártricos 
se aprecia que el fenómeno que más ocurre es la conversión 
de las oclusivas sordas en sonoras o fricativas, manteniendo 
el lugar de la oclusión. El conjunto de estas sustituciones se 
muestra en la Tabla I 
 
 Labial Palatal Velar 
Oclusiva Sorda (Original) Pa Ta Ka 
Oclusiva Sonora Ba Da Ga 
Nasal (Sonora) Ma Na - 
Fricativa (Sorda) Fa Sa Ja 
Tabla I: Sustituciones de consonantes presentes en el 
ejercicio de repetición de monosílabos. 
El índice propuesto debe tener en cuenta factores que 
diferencien las consonantes originales (PTK) de las 
sustituciones más frecuentes. En este sentido se consideró 
como un factor común a todas las sustituciones la presencia 
de energía sonora antes de la liberación de la oclusión, en 
contraposición al silencio que se encuentra en las explosivas 
sordas. A partir de esta consideración se decidió emplear la 
relación entre las amplitudes antes y después del instante de 
liberación de la oclusión como uno de los indicadores de 
imprecisión en las consonantes, denotado CIE en la 
ecuación (1): 
 
 
(1) 
 
 
 
donde Ab y Aa son áreas bajo la curva envolvente de la 
amplitud de la señal de voz antes y después de la explosión, 
respectivamente. E(t) es la envolvente de la amplitud de la 
señal de voz, Ton es el lugar de comienzo de la explosión, Tr 
es un tiempo de margen antes y después del punto Ton, y Ta 
es el tiempo en que se calculan las áreas bajo la curva. 
Puede suponerse que CIE tienda a cero en sílabas de los 
sujetos normales y esté cercano a uno en las de los 
patológicos. 
Figura 1: Valores empleados en el cálculo de la 
influencia de la energía en la imprecisión de la 
consonante de una sílaba. 
Para obtener la envolvente E(t) de la señal de voz se 
filtró el valor absoluto de esta con una ventana de Hanning 
de 18 milisegundos de duración. El instante Ton se 
determinó como el punto de mayor pendiente dentro del 
intervalo monótono creciente más largo previo al máximo 
de intensidad de la sílaba. Los valores de Tr y Ta fueron de 
10 y 20 milisegundos, respectivamente. 
El promedio de los valores de CIE para todas las sílabas 
de la grabación correspondiente al paciente se denomina 
CIEp y es el valor empleado como indicador de imprecisión 
en las consonantes del mismo.Otro factor relativamente frecuente en las sustituciones 
es la presencia de sonoridad previa a la liberación de la 
oclusión, que está ausente sólo en las fricativas. De aquí que 
se decidiera emplear una medida de la sonoridad previa a la 
explosión como otro factor con influencia en la imprecisión 
de las consonantes. A este fin se empleó el valor del pico 
correspondiente al período fundamental dentro de la señal 
de autocorrelación del segmento previo al Ton. La duración 
del segmento empleado es de 40 milisegundos, con un 
tiempo de guarda de 10 milisegundos como en el caso del 
CIE. El valor del pico de autocorrelación se buscó en el 
intervalo de los 2 a los 20 milisegundos, equivalente a 
buscar de los 500 a los 50 Hz de período fundamental. Para 
cada sílaba este valor hallado se denota CIS, y el promedio 
de los CIS de la grabación de un paciente se denomina 
CISp. 
 
3. RESULTADOS 
La correspondencia de los valores de CIEp y CISp con 
las valoraciones subjetivas (VS) de imprecisión en las 
consonantes se exploró de forma individual y combinada, 
para determinar entre ellos el mejor predictor de las VS. El 
análisis de dicha correspondencia sigue el procedimiento 
reportado en [4] para la validación de un índice para la 
cuantificación del jadeo. A este fin se hallaron los 
coeficientes de correlación que se muestran en la Tabla II. 
En la misma se representa con J1 el vector de los 
promedios por paciente de las dos valoraciones subjetivas 
del primer juez, excepto en la correlación J1/J1, donde se 
muestra la correlación entre la primera y la segunda 
valoración. Por J2 se entiende lo mismo, pero para el 
segundo juez, mientras VS es el promedio de las cuatro 
valoraciones subjetivas por paciente. CIEp y CISp son los 
índices descritos en este trabajo obtenidos para cada 
paciente, y RL es el valor de la regresión lineal de VS en 
función de CIEp y CISp, o sea, el valor pronosticado de VS 
como combinación lineal de CIEp y CISp. 
 
 J1 J2 VS CIEp CISp RL 
J1 .8794 .7574 .9396 .5639 .593 .6731 
J2 .7992 .9346 .535 .4619 .5831 
VS - .5866 .5642 .6711 
CIEp - .4715 .874 
CISp - .8406 
RL - 
Tabla II: Coeficientes de correlación entre los diferentes 
indicadores de consonantes imprecisas 
Los valores que presentan un mayor interés son las 
correlaciones de los índices objetivos (CIEp, CISp y RL) 
con el promedio de las valoraciones subjetivas VS, 
indicadoras del valor predictivo de los índices, así como la 
correlación entre J1 y J2, muestra de la consistencia de las 
valoraciones subjetivas entre jueces. Los histogramas de 
10000 realizaciones aleatorias de estas correlaciones se 
muestran en la Figura 2: 
 
Ta 
Ta Tr Tr 
Ab 
 
Ton E(t) 
Aa 
 
Figura 2: Histogramas del coeficiente de correlación. 
“o” línea continua: CISp/VS, “*” discontinua: CIEp/VS, 
“x” continua: RL/VS, “+” discontinua: J1/J2 
 
La expresión para la regresión lineal de VS en función 
de CIEp y CISp a partir de los coeficientes obtenidos se 
muestra en la expresión (2): 
 
(2) 
 
4. DISCUSIÓN 
Los resultados obtenidos muestran que la combinación 
lineal de los índices relacionados con la energía y la 
sonoridad está más correlacionada con la percepción 
subjetiva de consonantes imprecisas que cualquiera de ellos 
por separado. Esto parece indicar que ambos índices 
reflejan influencias complementarias en la percepción 
subjetiva de las consonantes imprecisas. A esta conjetura 
también contribuye el hecho de que la correlación entre 
ambos es inferior a la de cualquiera de ellos con las 
valoraciones subjetivas. 
El valor de correlación entre la combinación lineal y las 
VS (0.67) es comparable, aunque ligeramente inferior, al 
obtenido entre especialistas (0.75) en este trabajo, y está en 
el orden de los reportados como indicativos de 
correspondencia objetivo / subjetiva en la literatura. En [4] 
se reporta una correlación de 0.71 entre especialistas para 
valoraciones de jadeo, mientras la correlación entre 
especialistas fue de 0.73. En [9] se hace un estudio de la 
correspondencia de las VS de aspereza de varios 
especialistas y las correlaciones oscilaron entre 0.32 y 0.9, 
con un valor medio de 0.71. El histograma de la correlación 
RL / VS , aunque más ancho que el de J1 / J2, muestra que 
el máximo se alcanza en realidad algo por encima de 0.7, 
por lo que la diferencia con la obtenida entre especialistas se 
hace aún menos significativa. 
 
5. CONCLUSIONES 
La combinación lineal de los índices propuestos como 
medidas objetivas de sonorización y energía previa a la 
oclusión en consonantes explosivas sordas (CISp y CIEp) 
muestra una correlación con las valoraciones subjetivas de 
Consonantes Imprecisas comparable a las reportadas en la 
literatura como indicativas de correspondencia entre índices 
objetivos y valoraciones subjetivas. Dicho valor de 
correlación resultó además superior al obtenido para cada 
uno de los índices por separado. 
Se propone el empleo de la combinación lineal obtenida 
como un índice objetivo de imprecisión en las consonantes, 
de utilidad en el seguimiento de pacientes con trastornos 
motores del habla 
 
REFERENCIAS 
[1] Aronson, A.E. “Dysarthria: Differential Diagnosis”. Mentor 
Seminars. Rochester. Michigan. (4 cassettes). 1993. 
[2] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Clusters of deviant 
speech dimensions in the dysarthria”. Journal of Speech & Hearing 
Research. 12, pp 462-496, 1969. 
[3] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Differential diagnostic 
patterns of dysarthria”. Journal of Speech & Hearing Research. 12, 
pp 246-269, 1969. 
[4] Fukazawa, T.; El-Assuooty, A. & Honjo, I. “A new index for 
evaluation of the turbulent noise in pathological voice”. Journal of 
the Acoustical Society of America. Vol. 83, No 3. pp 1189-1193. 
March. 1988. 
[5] Yorkston, K.M.; Beukelman, D.R. & Bell, K. “Clinical 
Management of Dysarthric Speakers”. PRO-ED. Austin. Texas. 
1987. 
[6] Baken, R.J. “Clinical Measurement of Speech and Voice”. Singular 
Publishing Group, Inc. San Diego. 1996. 
[7] Kojima, H.; Gould, W.J.; Lambiase, A. & Isshiki, N. “Computer 
analysis of hoarseness”. Acta Oto-Laryngologica. Vol 89. pp 531- 
541. 1980. 
[8] House, A. S. et al, “Articulation-Testing Method: Consonantal 
Differentiation with a Closed-Response Set” J. Acoust. Soc. Am. 
Vol 37 (1), pp 158-166. 1965 
[9] Rabinov C. R., Kreiman J. “Comparing Reliability of Perceptual 
Ratings of Roughness and acoustic Measures of Jitter”. Journal of 
Speech & Hearing Research. 38, pp 26-32, 1995 
 
 
 
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
200
400
600
800
1000
1200
1400
1600
1800
2000
5133.053.2345.4 −+= CIEpCISpVS

Continuar navegando