DETERMINACION DEL GRADO DE IMPRECISION DE CONSONAN pdf

Español

•

Exatas

0

Zuly janeth Mosquera caicedo

8/9/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Español

25.742 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

DETERMINACIÓN DEL GRADO DE IMPRECISIÓN DE
CONSONANTES EXPLOSIVAS EMPLEANDO NIVELES DE
ENERGÍA Y SONORIDAD

C. Ferrer, E. González

Centro de Estudios de Electrónica y Tecnologías de la Información (CEETI)
Universidad Central “Marta Abreu” de Las Villas, Carretera a Camajuaní, Km 5½, SC, VC, Cuba.
e-mail: cferrer@ceeti.uclv.edu.cu

RESUMEN
En este trabajo se presenta un método totalmente
automático para la cuantificación del grado de imprecisión
con que se pronuncian las consonantes explosivas en
grabaciones de pacientes disártricos. El método se basa en
la obtención de la combinación lineal de dos índices
propuestos por los autores como indicadores de sonoridad
y energía previas a la liberación de la oclusión en
consonantes explosivas sordas. La combinación lineal
obtenida es el resultado de la regresión lineal de las
valoraciones subjetivas de dos jueces en función de los dos
índices mencionados. Los resultados de correlación entre
las valoraciones subjetivas y la combinación lineal son
satisfactorios, comparables a los reportados en la literatura
entre índices objetivos y valoraciones subjetivas.

Palabras clave: procesamiento de voz, consonantes
imprecisas, disartrias, valoraciones subjetivas.

1. INTRODUCCIÓN
La imprecisión en la pronunciación de las consonantes
es uno de los rasgos subjetivos empleados en la
metodología de diagnóstico diferencial de disartrias
desarrollada por Darley, Aronson y Brown (DAB) en las
Clínicas Mayo a mediados de los años 60 [2][3]. Dicha
metodología se basa en la escucha, por parte de un panel de
especialistas, de tres ejercicios efectuados por el paciente.
El panel emite valoraciones subjetivas de 38 rasgos
acústicos y determina la presencia de agrupaciones
distintivas (clusters) de rasgos por disartria. Los resultados
de estos estudios y de trabajos relacionados estrechamente
con ellos, se consideran aun hoy las bases del diagnóstico
diferencial clínico de las disartrias [5]. A pesar de esto, la
metodología mencionada presenta el inconveniente de su
subjetividad, lo que trae consigo dependencias de la
experiencia de los especialistas evaluadores, de su estado
anímico en el momento de emitir los criterios, etc.
Por otra parte, los especialistas que trabajan con
enfermedades del habla emplean cada vez con mayor
frecuencia en la práctica clínica métodos objetivos que
documenten la presencia de determinadas características
perceptibles subjetivamente [6]. Ejemplos de rasgos de este
tipo ampliamente abordados en la literatura son el jadeo, la
aspereza y la ronquera [4] [7].
El hecho de que el rasgo de las consonantes imprecisas
resultara significativo en todas las disartrias analizadas en la
metodología DAB hace deseable la obtención de un índice
para su cuantificación objetiva. El índice no tendría un alto
valor separador para el diagnóstico diferencial, pero sí para
el seguimiento y la documentación de la evolución de los
pacientes sin reparar en el tipo de disartria que presentan.
En la literatura consultada no se reportan intentos de
cuantificar el grado de imprecisión en las consonantes a
partir del procesamiento digital de la señal acústica, sólo
algunos índices relacionados con el porcentaje de
pronunciaciones percibidas como correctas para baterías de
palabras de prueba [8].
En este trabajo se propone un método para la
cuantificación del grado de imprecisión con que se perciben
las consonantes oclusivas sordas P, T y K, que muestra una
aceptable correlación con las valoraciones subjetivas del
rasgo “Consonantes Imprecisas” de la metodología DAB.

2. MATERIALES Y MÉTODOS
Se contó con las grabaciones del tutorial de diagnóstico
de disartrias de las Clínicas Mayo [1], donde aparece la
realización de los tres ejercicios de la metodología por parte
de los pacientes. Estos ejercicios consisten en la fonación
de una vocal sostenida (“a”), la repetición de los
monosílabos “Pa” “Ta” y “Ka” y la lectura de un párrafo
estándar. Para la obtención de un índice de Consonantes
Imprecisas pueden emplearse los dos últimos. En este
trabajo se decidió emplear las grabaciones de la repetición
de los monosílabos por las razones de complejidad que
involucra la detección de las consonantes en el habla fluida
y la variedad de consonantes a considerar en el párrafo. El
ejercicio del “Pa”-“Ta”-“Ka” resulta más atractivo para el
desarrollo de un índice por la mayor facilidad en la
detección del lugar de las consonantes, siempre al inicio de
las sílabas. Además, el ejercicio en cuestión presenta la
mayor complejidad articulatoria en cuanto a las consonantes
al involucrar a las oclusivas-sordas, que requieren la
oclusión total del tracto vocal y la rápida apertura de la
misma en corto tiempo. Entre las grabaciones del tutorial se
encuentran 57 del ejercicio de repetición de monosílabos,
que fueron digitalizadas a 22050 Hz de frecuencia de
muestreo con 16 bits de resolución para ser empleadas en
este trabajo. Dos jueces emitieron valoraciones subjetivas
de imprecisión en las consonantes, dos veces para cada una
de las grabaciones, que les fueron presentadas de forma
aleatoria. Las valoraciones subjetivas se emitieron en una
escala de 0 a 6, con 0 representando el mínimo de
perceptibilidad (ausencia del rasgo) y 6 el máximo de
severidad del mismo.
xiomara
Memorias V Congreso de la Sociedad Cubana de Bioingeniería, Habana 2003, Junio 10 al 13 de 2003
xiomara
959-212-095-1 © 2003, Sociedad Cubana de Bioingeniería, artículo T_0061

∑
∑
++
+
−
−−==
aron
ron
ron
aron
TTT
TT
TT
TTT
a
b
tE
tE
A
A
CIE
)(
)(
Efectuando un análisis de las distorsiones más comunes
escuchadas en las grabaciones de los pacientes disártricos
se aprecia que el fenómeno que más ocurre es la conversión
de las oclusivas sordas en sonoras o fricativas, manteniendo
el lugar de la oclusión. El conjunto de estas sustituciones se
muestra en la Tabla I

Labial Palatal Velar
Oclusiva Sorda (Original) Pa Ta Ka
Oclusiva Sonora Ba Da Ga
Nasal (Sonora) Ma Na -
Fricativa (Sorda) Fa Sa Ja
Tabla I: Sustituciones de consonantes presentes en el
ejercicio de repetición de monosílabos.
El índice propuesto debe tener en cuenta factores que
diferencien las consonantes originales (PTK) de las
sustituciones más frecuentes. En este sentido se consideró
como un factor común a todas las sustituciones la presencia
de energía sonora antes de la liberación de la oclusión, en
contraposición al silencio que se encuentra en las explosivas
sordas. A partir de esta consideración se decidió emplear la
relación entre las amplitudes antes y después del instante de
liberación de la oclusión como uno de los indicadores de
imprecisión en las consonantes, denotado CIE en la
ecuación (1):

(1)

donde Ab y Aa son áreas bajo la curva envolvente de la
amplitud de la señal de voz antes y después de la explosión,
respectivamente. E(t) es la envolvente de la amplitud de la
señal de voz, Ton es el lugar de comienzo de la explosión, Tr
es un tiempo de margen antes y después del punto Ton, y Ta
es el tiempo en que se calculan las áreas bajo la curva.
Puede suponerse que CIE tienda a cero en sílabas de los
sujetos normales y esté cercano a uno en las de los
patológicos.
Figura 1: Valores empleados en el cálculo de la
influencia de la energía en la imprecisión de la
consonante de una sílaba.
Para obtener la envolvente E(t) de la señal de voz se
filtró el valor absoluto de esta con una ventana de Hanning
de 18 milisegundos de duración. El instante Ton se
determinó como el punto de mayor pendiente dentro del
intervalo monótono creciente más largo previo al máximo
de intensidad de la sílaba. Los valores de Tr y Ta fueron de
10 y 20 milisegundos, respectivamente.
El promedio de los valores de CIE para todas las sílabas
de la grabación correspondiente al paciente se denomina
CIEp y es el valor empleado como indicador de imprecisión
en las consonantes del mismo.Otro factor relativamente frecuente en las sustituciones
es la presencia de sonoridad previa a la liberación de la
oclusión, que está ausente sólo en las fricativas. De aquí que
se decidiera emplear una medida de la sonoridad previa a la
explosión como otro factor con influencia en la imprecisión
de las consonantes. A este fin se empleó el valor del pico
correspondiente al período fundamental dentro de la señal
de autocorrelación del segmento previo al Ton. La duración
del segmento empleado es de 40 milisegundos, con un
tiempo de guarda de 10 milisegundos como en el caso del
CIE. El valor del pico de autocorrelación se buscó en el
intervalo de los 2 a los 20 milisegundos, equivalente a
buscar de los 500 a los 50 Hz de período fundamental. Para
cada sílaba este valor hallado se denota CIS, y el promedio
de los CIS de la grabación de un paciente se denomina
CISp.

3. RESULTADOS
La correspondencia de los valores de CIEp y CISp con
las valoraciones subjetivas (VS) de imprecisión en las
consonantes se exploró de forma individual y combinada,
para determinar entre ellos el mejor predictor de las VS. El
análisis de dicha correspondencia sigue el procedimiento
reportado en [4] para la validación de un índice para la
cuantificación del jadeo. A este fin se hallaron los
coeficientes de correlación que se muestran en la Tabla II.
En la misma se representa con J1 el vector de los
promedios por paciente de las dos valoraciones subjetivas
del primer juez, excepto en la correlación J1/J1, donde se
muestra la correlación entre la primera y la segunda
valoración. Por J2 se entiende lo mismo, pero para el
segundo juez, mientras VS es el promedio de las cuatro
valoraciones subjetivas por paciente. CIEp y CISp son los
índices descritos en este trabajo obtenidos para cada
paciente, y RL es el valor de la regresión lineal de VS en
función de CIEp y CISp, o sea, el valor pronosticado de VS
como combinación lineal de CIEp y CISp.

J1 J2 VS CIEp CISp RL
J1 .8794 .7574 .9396 .5639 .593 .6731
J2 .7992 .9346 .535 .4619 .5831
VS - .5866 .5642 .6711
CIEp - .4715 .874
CISp - .8406
RL -
Tabla II: Coeficientes de correlación entre los diferentes
indicadores de consonantes imprecisas
Los valores que presentan un mayor interés son las
correlaciones de los índices objetivos (CIEp, CISp y RL)
con el promedio de las valoraciones subjetivas VS,
indicadoras del valor predictivo de los índices, así como la
correlación entre J1 y J2, muestra de la consistencia de las
valoraciones subjetivas entre jueces. Los histogramas de
10000 realizaciones aleatorias de estas correlaciones se
muestran en la Figura 2:

Ta
Ta Tr Tr
Ab

Ton E(t)
Aa

Figura 2: Histogramas del coeficiente de correlación.
“o” línea continua: CISp/VS, “*” discontinua: CIEp/VS,
“x” continua: RL/VS, “+” discontinua: J1/J2

La expresión para la regresión lineal de VS en función
de CIEp y CISp a partir de los coeficientes obtenidos se
muestra en la expresión (2):

(2)

4. DISCUSIÓN
Los resultados obtenidos muestran que la combinación
lineal de los índices relacionados con la energía y la
sonoridad está más correlacionada con la percepción
subjetiva de consonantes imprecisas que cualquiera de ellos
por separado. Esto parece indicar que ambos índices
reflejan influencias complementarias en la percepción
subjetiva de las consonantes imprecisas. A esta conjetura
también contribuye el hecho de que la correlación entre
ambos es inferior a la de cualquiera de ellos con las
valoraciones subjetivas.
El valor de correlación entre la combinación lineal y las
VS (0.67) es comparable, aunque ligeramente inferior, al
obtenido entre especialistas (0.75) en este trabajo, y está en
el orden de los reportados como indicativos de
correspondencia objetivo / subjetiva en la literatura. En [4]
se reporta una correlación de 0.71 entre especialistas para
valoraciones de jadeo, mientras la correlación entre
especialistas fue de 0.73. En [9] se hace un estudio de la
correspondencia de las VS de aspereza de varios
especialistas y las correlaciones oscilaron entre 0.32 y 0.9,
con un valor medio de 0.71. El histograma de la correlación
RL / VS , aunque más ancho que el de J1 / J2, muestra que
el máximo se alcanza en realidad algo por encima de 0.7,
por lo que la diferencia con la obtenida entre especialistas se
hace aún menos significativa.

5. CONCLUSIONES
La combinación lineal de los índices propuestos como
medidas objetivas de sonorización y energía previa a la
oclusión en consonantes explosivas sordas (CISp y CIEp)
muestra una correlación con las valoraciones subjetivas de
Consonantes Imprecisas comparable a las reportadas en la
literatura como indicativas de correspondencia entre índices
objetivos y valoraciones subjetivas. Dicho valor de
correlación resultó además superior al obtenido para cada
uno de los índices por separado.
Se propone el empleo de la combinación lineal obtenida
como un índice objetivo de imprecisión en las consonantes,
de utilidad en el seguimiento de pacientes con trastornos
motores del habla

REFERENCIAS
[1] Aronson, A.E. “Dysarthria: Differential Diagnosis”. Mentor
Seminars. Rochester. Michigan. (4 cassettes). 1993.
[2] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Clusters of deviant
speech dimensions in the dysarthria”. Journal of Speech & Hearing
Research. 12, pp 462-496, 1969.
[3] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Differential diagnostic
patterns of dysarthria”. Journal of Speech & Hearing Research. 12,
pp 246-269, 1969.
[4] Fukazawa, T.; El-Assuooty, A. & Honjo, I. “A new index for
evaluation of the turbulent noise in pathological voice”. Journal of
the Acoustical Society of America. Vol. 83, No 3. pp 1189-1193.
March. 1988.
[5] Yorkston, K.M.; Beukelman, D.R. & Bell, K. “Clinical
Management of Dysarthric Speakers”. PRO-ED. Austin. Texas.
1987.
[6] Baken, R.J. “Clinical Measurement of Speech and Voice”. Singular
Publishing Group, Inc. San Diego. 1996.
[7] Kojima, H.; Gould, W.J.; Lambiase, A. & Isshiki, N. “Computer
analysis of hoarseness”. Acta Oto-Laryngologica. Vol 89. pp 531-
541. 1980.
[8] House, A. S. et al, “Articulation-Testing Method: Consonantal
Differentiation with a Closed-Response Set” J. Acoust. Soc. Am.
Vol 37 (1), pp 158-166. 1965
[9] Rabinov C. R., Kreiman J. “Comparing Reliability of Perceptual
Ratings of Roughness and acoustic Measures of Jitter”. Journal of
Speech & Hearing Research. 38, pp 26-32, 1995

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
200
400
600
800
1000
1200
1400
1600
1800
2000
5133.053.2345.4 −+= CIEpCISpVS