Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
DETERMINACIÓN DEL GRADO DE IMPRECISIÓN DE CONSONANTES EXPLOSIVAS EMPLEANDO NIVELES DE ENERGÍA Y SONORIDAD C. Ferrer, E. González Centro de Estudios de Electrónica y Tecnologías de la Información (CEETI) Universidad Central “Marta Abreu” de Las Villas, Carretera a Camajuaní, Km 5½, SC, VC, Cuba. e-mail: cferrer@ceeti.uclv.edu.cu RESUMEN En este trabajo se presenta un método totalmente automático para la cuantificación del grado de imprecisión con que se pronuncian las consonantes explosivas en grabaciones de pacientes disártricos. El método se basa en la obtención de la combinación lineal de dos índices propuestos por los autores como indicadores de sonoridad y energía previas a la liberación de la oclusión en consonantes explosivas sordas. La combinación lineal obtenida es el resultado de la regresión lineal de las valoraciones subjetivas de dos jueces en función de los dos índices mencionados. Los resultados de correlación entre las valoraciones subjetivas y la combinación lineal son satisfactorios, comparables a los reportados en la literatura entre índices objetivos y valoraciones subjetivas. Palabras clave: procesamiento de voz, consonantes imprecisas, disartrias, valoraciones subjetivas. 1. INTRODUCCIÓN La imprecisión en la pronunciación de las consonantes es uno de los rasgos subjetivos empleados en la metodología de diagnóstico diferencial de disartrias desarrollada por Darley, Aronson y Brown (DAB) en las Clínicas Mayo a mediados de los años 60 [2][3]. Dicha metodología se basa en la escucha, por parte de un panel de especialistas, de tres ejercicios efectuados por el paciente. El panel emite valoraciones subjetivas de 38 rasgos acústicos y determina la presencia de agrupaciones distintivas (clusters) de rasgos por disartria. Los resultados de estos estudios y de trabajos relacionados estrechamente con ellos, se consideran aun hoy las bases del diagnóstico diferencial clínico de las disartrias [5]. A pesar de esto, la metodología mencionada presenta el inconveniente de su subjetividad, lo que trae consigo dependencias de la experiencia de los especialistas evaluadores, de su estado anímico en el momento de emitir los criterios, etc. Por otra parte, los especialistas que trabajan con enfermedades del habla emplean cada vez con mayor frecuencia en la práctica clínica métodos objetivos que documenten la presencia de determinadas características perceptibles subjetivamente [6]. Ejemplos de rasgos de este tipo ampliamente abordados en la literatura son el jadeo, la aspereza y la ronquera [4] [7]. El hecho de que el rasgo de las consonantes imprecisas resultara significativo en todas las disartrias analizadas en la metodología DAB hace deseable la obtención de un índice para su cuantificación objetiva. El índice no tendría un alto valor separador para el diagnóstico diferencial, pero sí para el seguimiento y la documentación de la evolución de los pacientes sin reparar en el tipo de disartria que presentan. En la literatura consultada no se reportan intentos de cuantificar el grado de imprecisión en las consonantes a partir del procesamiento digital de la señal acústica, sólo algunos índices relacionados con el porcentaje de pronunciaciones percibidas como correctas para baterías de palabras de prueba [8]. En este trabajo se propone un método para la cuantificación del grado de imprecisión con que se perciben las consonantes oclusivas sordas P, T y K, que muestra una aceptable correlación con las valoraciones subjetivas del rasgo “Consonantes Imprecisas” de la metodología DAB. 2. MATERIALES Y MÉTODOS Se contó con las grabaciones del tutorial de diagnóstico de disartrias de las Clínicas Mayo [1], donde aparece la realización de los tres ejercicios de la metodología por parte de los pacientes. Estos ejercicios consisten en la fonación de una vocal sostenida (“a”), la repetición de los monosílabos “Pa” “Ta” y “Ka” y la lectura de un párrafo estándar. Para la obtención de un índice de Consonantes Imprecisas pueden emplearse los dos últimos. En este trabajo se decidió emplear las grabaciones de la repetición de los monosílabos por las razones de complejidad que involucra la detección de las consonantes en el habla fluida y la variedad de consonantes a considerar en el párrafo. El ejercicio del “Pa”-“Ta”-“Ka” resulta más atractivo para el desarrollo de un índice por la mayor facilidad en la detección del lugar de las consonantes, siempre al inicio de las sílabas. Además, el ejercicio en cuestión presenta la mayor complejidad articulatoria en cuanto a las consonantes al involucrar a las oclusivas-sordas, que requieren la oclusión total del tracto vocal y la rápida apertura de la misma en corto tiempo. Entre las grabaciones del tutorial se encuentran 57 del ejercicio de repetición de monosílabos, que fueron digitalizadas a 22050 Hz de frecuencia de muestreo con 16 bits de resolución para ser empleadas en este trabajo. Dos jueces emitieron valoraciones subjetivas de imprecisión en las consonantes, dos veces para cada una de las grabaciones, que les fueron presentadas de forma aleatoria. Las valoraciones subjetivas se emitieron en una escala de 0 a 6, con 0 representando el mínimo de perceptibilidad (ausencia del rasgo) y 6 el máximo de severidad del mismo. xiomara Memorias V Congreso de la Sociedad Cubana de Bioingeniería, Habana 2003, Junio 10 al 13 de 2003 xiomara 959-212-095-1 © 2003, Sociedad Cubana de Bioingeniería, artículo T_0061 ∑ ∑ ++ + − −−== aron ron ron aron TTT TT TT TTT a b tE tE A A CIE )( )( Efectuando un análisis de las distorsiones más comunes escuchadas en las grabaciones de los pacientes disártricos se aprecia que el fenómeno que más ocurre es la conversión de las oclusivas sordas en sonoras o fricativas, manteniendo el lugar de la oclusión. El conjunto de estas sustituciones se muestra en la Tabla I Labial Palatal Velar Oclusiva Sorda (Original) Pa Ta Ka Oclusiva Sonora Ba Da Ga Nasal (Sonora) Ma Na - Fricativa (Sorda) Fa Sa Ja Tabla I: Sustituciones de consonantes presentes en el ejercicio de repetición de monosílabos. El índice propuesto debe tener en cuenta factores que diferencien las consonantes originales (PTK) de las sustituciones más frecuentes. En este sentido se consideró como un factor común a todas las sustituciones la presencia de energía sonora antes de la liberación de la oclusión, en contraposición al silencio que se encuentra en las explosivas sordas. A partir de esta consideración se decidió emplear la relación entre las amplitudes antes y después del instante de liberación de la oclusión como uno de los indicadores de imprecisión en las consonantes, denotado CIE en la ecuación (1): (1) donde Ab y Aa son áreas bajo la curva envolvente de la amplitud de la señal de voz antes y después de la explosión, respectivamente. E(t) es la envolvente de la amplitud de la señal de voz, Ton es el lugar de comienzo de la explosión, Tr es un tiempo de margen antes y después del punto Ton, y Ta es el tiempo en que se calculan las áreas bajo la curva. Puede suponerse que CIE tienda a cero en sílabas de los sujetos normales y esté cercano a uno en las de los patológicos. Figura 1: Valores empleados en el cálculo de la influencia de la energía en la imprecisión de la consonante de una sílaba. Para obtener la envolvente E(t) de la señal de voz se filtró el valor absoluto de esta con una ventana de Hanning de 18 milisegundos de duración. El instante Ton se determinó como el punto de mayor pendiente dentro del intervalo monótono creciente más largo previo al máximo de intensidad de la sílaba. Los valores de Tr y Ta fueron de 10 y 20 milisegundos, respectivamente. El promedio de los valores de CIE para todas las sílabas de la grabación correspondiente al paciente se denomina CIEp y es el valor empleado como indicador de imprecisión en las consonantes del mismo.Otro factor relativamente frecuente en las sustituciones es la presencia de sonoridad previa a la liberación de la oclusión, que está ausente sólo en las fricativas. De aquí que se decidiera emplear una medida de la sonoridad previa a la explosión como otro factor con influencia en la imprecisión de las consonantes. A este fin se empleó el valor del pico correspondiente al período fundamental dentro de la señal de autocorrelación del segmento previo al Ton. La duración del segmento empleado es de 40 milisegundos, con un tiempo de guarda de 10 milisegundos como en el caso del CIE. El valor del pico de autocorrelación se buscó en el intervalo de los 2 a los 20 milisegundos, equivalente a buscar de los 500 a los 50 Hz de período fundamental. Para cada sílaba este valor hallado se denota CIS, y el promedio de los CIS de la grabación de un paciente se denomina CISp. 3. RESULTADOS La correspondencia de los valores de CIEp y CISp con las valoraciones subjetivas (VS) de imprecisión en las consonantes se exploró de forma individual y combinada, para determinar entre ellos el mejor predictor de las VS. El análisis de dicha correspondencia sigue el procedimiento reportado en [4] para la validación de un índice para la cuantificación del jadeo. A este fin se hallaron los coeficientes de correlación que se muestran en la Tabla II. En la misma se representa con J1 el vector de los promedios por paciente de las dos valoraciones subjetivas del primer juez, excepto en la correlación J1/J1, donde se muestra la correlación entre la primera y la segunda valoración. Por J2 se entiende lo mismo, pero para el segundo juez, mientras VS es el promedio de las cuatro valoraciones subjetivas por paciente. CIEp y CISp son los índices descritos en este trabajo obtenidos para cada paciente, y RL es el valor de la regresión lineal de VS en función de CIEp y CISp, o sea, el valor pronosticado de VS como combinación lineal de CIEp y CISp. J1 J2 VS CIEp CISp RL J1 .8794 .7574 .9396 .5639 .593 .6731 J2 .7992 .9346 .535 .4619 .5831 VS - .5866 .5642 .6711 CIEp - .4715 .874 CISp - .8406 RL - Tabla II: Coeficientes de correlación entre los diferentes indicadores de consonantes imprecisas Los valores que presentan un mayor interés son las correlaciones de los índices objetivos (CIEp, CISp y RL) con el promedio de las valoraciones subjetivas VS, indicadoras del valor predictivo de los índices, así como la correlación entre J1 y J2, muestra de la consistencia de las valoraciones subjetivas entre jueces. Los histogramas de 10000 realizaciones aleatorias de estas correlaciones se muestran en la Figura 2: Ta Ta Tr Tr Ab Ton E(t) Aa Figura 2: Histogramas del coeficiente de correlación. “o” línea continua: CISp/VS, “*” discontinua: CIEp/VS, “x” continua: RL/VS, “+” discontinua: J1/J2 La expresión para la regresión lineal de VS en función de CIEp y CISp a partir de los coeficientes obtenidos se muestra en la expresión (2): (2) 4. DISCUSIÓN Los resultados obtenidos muestran que la combinación lineal de los índices relacionados con la energía y la sonoridad está más correlacionada con la percepción subjetiva de consonantes imprecisas que cualquiera de ellos por separado. Esto parece indicar que ambos índices reflejan influencias complementarias en la percepción subjetiva de las consonantes imprecisas. A esta conjetura también contribuye el hecho de que la correlación entre ambos es inferior a la de cualquiera de ellos con las valoraciones subjetivas. El valor de correlación entre la combinación lineal y las VS (0.67) es comparable, aunque ligeramente inferior, al obtenido entre especialistas (0.75) en este trabajo, y está en el orden de los reportados como indicativos de correspondencia objetivo / subjetiva en la literatura. En [4] se reporta una correlación de 0.71 entre especialistas para valoraciones de jadeo, mientras la correlación entre especialistas fue de 0.73. En [9] se hace un estudio de la correspondencia de las VS de aspereza de varios especialistas y las correlaciones oscilaron entre 0.32 y 0.9, con un valor medio de 0.71. El histograma de la correlación RL / VS , aunque más ancho que el de J1 / J2, muestra que el máximo se alcanza en realidad algo por encima de 0.7, por lo que la diferencia con la obtenida entre especialistas se hace aún menos significativa. 5. CONCLUSIONES La combinación lineal de los índices propuestos como medidas objetivas de sonorización y energía previa a la oclusión en consonantes explosivas sordas (CISp y CIEp) muestra una correlación con las valoraciones subjetivas de Consonantes Imprecisas comparable a las reportadas en la literatura como indicativas de correspondencia entre índices objetivos y valoraciones subjetivas. Dicho valor de correlación resultó además superior al obtenido para cada uno de los índices por separado. Se propone el empleo de la combinación lineal obtenida como un índice objetivo de imprecisión en las consonantes, de utilidad en el seguimiento de pacientes con trastornos motores del habla REFERENCIAS [1] Aronson, A.E. “Dysarthria: Differential Diagnosis”. Mentor Seminars. Rochester. Michigan. (4 cassettes). 1993. [2] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Clusters of deviant speech dimensions in the dysarthria”. Journal of Speech & Hearing Research. 12, pp 462-496, 1969. [3] Darley, F.L.; Aronson, A.E. & Brown, J.R. “Differential diagnostic patterns of dysarthria”. Journal of Speech & Hearing Research. 12, pp 246-269, 1969. [4] Fukazawa, T.; El-Assuooty, A. & Honjo, I. “A new index for evaluation of the turbulent noise in pathological voice”. Journal of the Acoustical Society of America. Vol. 83, No 3. pp 1189-1193. March. 1988. [5] Yorkston, K.M.; Beukelman, D.R. & Bell, K. “Clinical Management of Dysarthric Speakers”. PRO-ED. Austin. Texas. 1987. [6] Baken, R.J. “Clinical Measurement of Speech and Voice”. Singular Publishing Group, Inc. San Diego. 1996. [7] Kojima, H.; Gould, W.J.; Lambiase, A. & Isshiki, N. “Computer analysis of hoarseness”. Acta Oto-Laryngologica. Vol 89. pp 531- 541. 1980. [8] House, A. S. et al, “Articulation-Testing Method: Consonantal Differentiation with a Closed-Response Set” J. Acoust. Soc. Am. Vol 37 (1), pp 158-166. 1965 [9] Rabinov C. R., Kreiman J. “Comparing Reliability of Perceptual Ratings of Roughness and acoustic Measures of Jitter”. Journal of Speech & Hearing Research. 38, pp 26-32, 1995 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 5133.053.2345.4 −+= CIEpCISpVS
Compartir