Autor Thema: Hör' 'mal, wer da spricht – Sprachausgabe am Computer  (Gelesen 4179 mal)

0 Mitglieder und 1 Gast betrachten dieses Thema.

Geri

  • Global Moderator
  • Super - User
  • *****
  • Beiträge: 674
  • Geschlecht: Männlich

Einen Computer zum Sprechen zu bringen, das haben die Entwickler schon seit den Anfängen des Computers versucht. Erst in den letzten Jahren sind da aber tatsächlich Fortschritte zu verzeichnen. Denn nach wie vor gehört die Nachbildung der menschlichen Sprache zu den anspruchvollsten Aufgaben überhaupt, vor die sich Computer-Techniker gestellt sehen.

Der Mensch als Basis

Die Stimme eines Sprachausgabe-Programms am Computer basiert heute immer auf menschlichen Stimmen. Professionelle Sprecher haben in einem Tonstudio bestimmte Texte gesprochen und aufgezeichnet. Die Aufnahmen sind zum Teil sehr umfangreich – bis zu 20 Stunden Material ist für eine gute und später natürlich klingende Stimme keine Seltenheit. Das ist die Basis für die Sprachausgabe.

Stundenlanges Sprechen

„Unit Selection“, übersetzt also etwa „Auswahl von Bausteinen“, nennen die Wissenschaftler das Verfahren der Sprachsynthese, also der Herstellung künstlicher Stimmen. Dabei gibt es, vereinfacht gesagt, zwei Arbeitsschritte. Der erste ist die so genannte Textanalyse. Die Aufnahmen, die von einem menschlichen Sprecher in stundenlanger Arbeit im Studio entstanden sind, müssen zuerst in so genannte "Phoneme", also einzelne Sprachlaute, zerlegt werden.

Zerlegung in Laute

Dann folgt der zweite Arbeitsschritt, die so genannte "linguistische Beschreibung". In dieser Beschreibung steckt die meiste Arbeit  bei der Herstellung einer künstlichen Stimme. Denn jeder einzelne Laut liegt nach der Zerlegung in einer Vielzahl von Varianten vor: Kam der Laut am Ende eines Wortes, in einer Frage, in Zusammenhang mit einem anderen oder isoliert vor? Das Sprachausgabesystem muss später dazu in der Lage sein, selbstständig die am besten passenden Versionen der einzelnen Laute auszusuchen, um daraus wieder menschlich klingende Sprache zu machen. Und damit das gut gelingt, ist es wichtig, möglichst gutes Ausgangsmaterial zu haben, aus dem sich die einzelnen Laute herausfischen lassen. Dazu gehört auch, dass die Texte zum späteren Einsatzzweck passen.

Neutrale Stimme

Die Texte werden also sorgfältig ausgewählt, so dass von jedem Baustein mehrere Exemplare vorhanden sind. Wenn eine Stimme entstehen soll, die möglichst neutral, ähnlich einem Nachrichten-Sprecher klingen soll, dann genügt es, sechs Stunden lang ausgewählte Zeitungstexte vorlesen zu lassen. Wenn es aber zum Beispiel um eine Stimme geht, die später etwa in einem Dialogsystem für Hotel- oder Flugbuchungen zum Einsatz kommen soll, dann sollten auch solche Dialogabschnitte vorgelesen werden. Je ähnlicher der aufgenommene Text dem Zusammenhang kommt, in dem die Stimme später eingesetzt werden soll, desto besser klingt sie.

Webseiten vorlesen

Gibt es denn auch einen praktischen Nutzen von Sprachausgabe-Systemen?
Den gibt es. Immer mehr Betreiber von Webseiten integrieren zum Beispiel eine Vorlese-Funktion in ihre Angebote. Auf diese Weise kann man jeden beliebigen Text auf der Seite zum Klingen bringen, ohne dass eine spezielle Software auf dem eigenen Computer installiert sein müsste.
Aber auch dann, wenn man häufiger lange Texte lesen muss, zum Beispiel aus beruflichen Gründen, ist es bequemer und deutlich weniger anstrengend, sich den Text vorlesen zu lassen anstatt ihn entweder mühsam am Bildschirm lesen zu müssen oder ihn sogar auszudrucken. Denn Sprachausgabesysteme lesen alles vor, was in digitaler Form vorhanden
ist: Briefe, Protokolle, Berichte, ja sogar ganze Bücher, wenn diese in elektronischer Form als Datei vorliegen.

Sprechende Software

Sprachausgabesysteme gibt es für PCs und für Macs und in unterschiedlichen Preiskategorien. Die teureren Systeme – sie kosten um die 500 Euro – eignen sich sogar zum professionellen Vertonen von Firmenvideos oder für die Herstellung von Telefonansagen. Hier einige
Beispiele:

Voice Reader Home (Hersteller: Linguatec, € 50,-) speichert gesprochene Texte als WAV- und MP3-Datei, Sprachdateien dürfen nur privat genutzt werden. (Windows)

Voice Reader Studio (Hersteller: Linguatec, € 500,-) speichert gesprochene Texte als WAV- und MP3-Datei, Stimmen lassen sich einstellen und verändern, Sprachdateien dürfen auch veröffentlicht werden. (Windows)

Ghost Reader (Hersteller: Application Systems, € 55,-) speichert gesprochene Texte in den Formaten WAV, MP3, AAC, AIFF, Apple Lossless, liest auf Wunsch auch Text automatisch vor, der sich unter dem Mauszeiger befindet. (Mac OS)

Heise Online mit integrierter Sprachausgabe: Headline der Meldung anklicken, auf der Meldungsseite auf Lautsprecher-Icon neben Headline klicken http://www.heise.de/newsticker/

Online-Sprachausgabe mit der Stimme von George W. Bush http://www.idyacy.com/cgi-bin/bushomatic.cgi

Online-Sprachausgabe mit verschiedenen Stimmen von AT&T http://www.research.att.com/~ttsweb/tts/demo.php