Sprachverarbeitung (Medizin)

In der Medizin werden Methoden der automatischen Sprachverarbeitung zur objektiven Beurteilung von Sprech- und Stimmstörungen (Dysphonie) eingesetzt. Im Gegensatz zu herkömmlichen invasiven Methoden ist für die automatische Sprachverarbeitung (Spracherkennung) kein invasiver Vorgang nötig. Daher eignen sich diese Methoden auch für Kinder und ältere Menschen, da mit der Untersuchung kein Risiko verbunden ist.

Im Wesentlichen gibt es zwei Herangehensweisen an die automatische Untersuchung durch ein Sprachverarbeitungssystem: Die Untersuchung von gehaltenen Lauten (oft Vokale, wie z. B. ein langes "A") und die Untersuchung von gelesener Sprache.

Untersuchung von gehaltenen Vokalen

Die Untersuchung von gehaltenen Lauten ist schon seit längerem bekannt. Als Vertreter sind hier zu nennen:

Dysphonia Severity Index (DSI) zur Messung der Stimmqualität^[1]
Teager Energy Profile zur Bewertung von Hypernasalität in Vokalen^[2]
Jitter und Shimmer zur Bewertung der Rauhigkeit

Als Nachteil der Methoden wird of genannt, dass ein einzelner Vokal die Sprache nicht repräsentativ darstellen kann. Der DSI versucht hier Abhilfe zu schaffen, indem verschiedene Phonationsparadigmen (maximale Phonationsdauer, höchste erzeugte Frequenz, kleinste Tonintensität und Jitter) zu einer Maßzahl verrechnet werden.

Untersuchung von gelesener Sprache

Diese herangehensweise ist eine neue Methode, die erst durch das Voranschreiten der Spracherkennungstechnik möglich wurde. Dabei wird einem Patienten ein bekannter Text wie z.B. Die Sonne und der Wind vorgelegt, den er in ein PC-Microfon vorlesen muss. Der Spracherkenner ermittelt dann die gesprochene Wortkette und kann verschiedene Analysen vornehmen, mit denen sich z.B. die Verständlichkeit ermitteln lässt.

Automatische Verständlichkeitsanalyse mittels Spracherkennung^[3]

Quellen

↑ F.Wuyts, M. D. Bodt, G. Molenberghs, M. Remacle, L. Heylen, B. Millet, K. V. Lierde, J. Raes, and P. V. Heyning. “The Dysphonia Severity Index: An Objective Measure of Vocal Quality Based on a Multiparameter Approach”. Journal of Speech, Language, and Hearing Research, Vol. 43, pp. 796–809, 2000.
↑ D. Cairns, J. Hansen, and J. Riski. “A Noninvasive Technique for Detecting Hypernasal Speech using a nonlinear Operator”. IEEE Transactions on Biomedical Engineering, Vol. 43, No. 1, pp. 35–45, 1996.
↑ A. Maier, E. Nöth, A. Batliner, E. Nkenke, and M. Schuster. “Fully Automatic Assessment of Speech of Children with Cleft Lip and Palate”. Informatica, Vol. 30, No. 4, pp. 477–482, 2006.

[1] F.Wuyts, M. D. Bodt, G. Molenberghs, M. Remacle, L. Heylen, B. Millet, K. V. Lierde, J. Raes, and P. V. Heyning. “The Dysphonia Severity Index: An Objective Measure of Vocal Quality Based on a Multiparameter Approach”. Journal of Speech, Language, and Hearing Research, Vol. 43, pp. 796–809, 2000.

[2] D. Cairns, J. Hansen, and J. Riski. “A Noninvasive Technique for Detecting Hypernasal Speech using a nonlinear Operator”. IEEE Transactions on Biomedical Engineering, Vol. 43, No. 1, pp. 35–45, 1996.

[3] A. Maier, E. Nöth, A. Batliner, E. Nkenke, and M. Schuster. “Fully Automatic Assessment of Speech of Children with Cleft Lip and Palate”. Informatica, Vol. 30, No. 4, pp. 477–482, 2006.

[1]

[2]

[3]