Im Anfang war das Wort. Aber hilft das gesprochene Wort auch beim Umgang mit dem Kollegen Computer? Wir haben Spracherkennungssoftware geprüft und Brauchbares gefunden.

Abschlussbesprechung im Prüfinstitut: Der Leiter fordert die Spracherkennungssoftware mit dem vielleicht schwersten Satz her­aus: „Ich spreche jetzt ohne Punkt und Komma – Punkt.“ Das Wort „Punkt“ nach der kurzen Sprechpause ist ein Satzzeichen, die Worte „Punkt und Komma“ soll das Programm als Worte schreiben. In den Wochen der Prüfung war das nie gelungen. Die Spracherkennungsprogramme warfen stur Satzzeichen aus. Doch nun sahen wir – Premiere – diesen Satz völlig korrekt auf dem Monitor. Das Programm hatte gelernt, es war ein Stück weiter gekommen. Oder aber der Sprecher. Der Mensch ist weit flexibler als die Technik. Er passt seine Sprechweise den Macken der Spracherkennungssoftware an. Er spricht sauberer und mit deutlichen Pausen vor Steuerbefehlen für Satzzeichen, Zeilenumbrüche und dergleichen. Ähnlich wie bei einer guten Partnerschaft lernen auch hier beide Seiten, sich aufeinander einzustellen.

Die zwei Siegertypen

Das Fazit unserer Prüfingenieure: Nach der unvermeidlichen Übungsphase, durchaus als „Tal der Tränen“ zu bezeichnen, sind die Programme linguatec Voice Pro 10 USB-Edition (beste Erkennungsrate) und IBM Via Voice 10 (nicht ganz so lernfähig wie linguatec) gut brauchbar. Die anderen Programme halten in der Leistung und manchmal auch in der Ausstattung nicht ganz mit den genannten Siegertypen mit. Über alle Prüfpunkte hinweg ist vor allem der Rückstand von VoiceOffice deutlich. Obwohl im Programmkern eng mit IBMs Via Voice verwandt, ist es keine gute Hilfe. Weniger wegen der Erkennungsleistung, die auch nicht überzeugt. Vor allem jedoch wegen seiner Bedienungsmacken. Mal funktioniert der Hilfe-Button nicht (Anklicken bringt nichts), mal ist ein Korrekturfenster (zum Lernen eines nicht erkannten Wortes) viel zu klein, um den Begriff einzutippen. Die Tabelle gibt einen Überblick.

Vier Programme haben eine „gute“ Spracherkennung. Sie helfen allen:

  • die diktieren und beide Hände frei haben müssen – Mediziner beispielsweise;
  • die viel mit Standardtexten arbeiten – wie Rechtsanwälte und Steuerberater;
  • die behindert sind und mit Maus und Tastatur nicht gut umgehen können.
  • die schreibfaul sind.

Obwohl die geprüften sechs Programme auf zwei Grundmodulen basieren (Dragon hat ein eigenes Spracherkennungsmodul, alle andere nutzen Versionen von IBMs ViaVoice), richten sie sich doch an verschiedene Zielgruppen: IBMs Via-Voice und linguatec Voice Pro bieten die beste Spracherkennung. Für den professionellen Einsatz ist noch wichtig: Kann ein Fachwortschatz geladen und können Audiodateien vom Diktiergerät eingespeist werden? Wie lernfähig ist das Programm? Und wie resistent ist es gegenüber Hintergrundgeräuschen?

Erkennen, navigieren, lernen

In der Summe der Eigenschaften reduziert sich die Auswahl auf IBM ViaVoice Pro 10 und linguatec Voice Pro 10. Das Paket linguatec gibt es derzeit als spezielles Angebot für Mediziner mit einer Fachwortsammlung zu zehn medizinischen Fachgebieten. Es kostet knapp 400 Euro.

Mancher ist jedoch mehr auf die Programmsteuerung (Navigieren) durch Spracheingabe angewiesen und kann mit etwas schlechterer Spracherkennung beim Diktieren leben. Wir prüften das mit Word, mit dem Internet Explorer und dem Mail-Progamm „Pegasus“. Die Dragon-Programme schnitten am besten ab.

Doch vor dem Erfolg muss viel Fleiß und Zeit investiert werden. Zuerst ist ein vorgegebener Text zu sprechen, damit das Spracherkennungsprogramm die ihm bekannten Wörter mit unserer Aussprache verbinden kann. Das dauert bis zu 15 Minuten. Wenig hilfreich war das zusätzlich von den Programmen angebotene unspezifische Training. Dazu wird ein weiterer Text gesprochen. Der war zwar lustig (bei IBM ein kritischer Exkurs über Computer und ihre Macken), doch die Erkennungsrate stieg nicht: Eine halbe Stunde und jede Menge Wasser zum „Ölen“ der trockenen Kehle waren nutzlos vertan. Weit hilfreicher fanden wir die anderen Lernoptionen:

  • Der Korrekturmodus, bei dem ein nicht erkanntes Wort eingetippt und gegebenenfalls noch einmal gesprochen wird. Das halbierte die Fehlerrate etwa und dauerte selbst zu Anfang bei einem längeren Geschäftsbrief kaum mehr als eine Viertelstunde zusätzlich. Danach sank der Aufwand spürbar.
  • Der Buchstabiermodus, bei dem ein falsch erkanntes Wort Buchstabe für Buchstabe vorgesprochen und später stets korrekt erkannt wird.
  • Die Dokumentenanalyse („an den Schreibstil anpassen“ oder „Vokabularanalyse“ genannt). Dabei durchforstet das Programm ein oder mehrere Dokumente. Es wirft Wörter aus, die sein Wortschatz nicht enthält (die werden ihm dann vorgesprochen) und stellt sich auf die vom Benutzer häufig verwendeten Wortgruppen und seinen Satzbau ein.

Vor Stilblüten nicht gefeit

Trotz aller Lernerfolge bei der Software und ihrem Besitzer – ein völlig fehlerfreies Erkennen des gesprochenen Wortes und 100 Prozent korrektes Schreiben sind nicht zu erwarten. Zu Erkennungsfehlern gesellen sich überraschende Rechtschreib- und viele Grammatikfehler. Tückisch sind vermeintlich richtige, tatsächlich jedoch falsch erkannte Wörter. Das Programm macht darauf nicht aufmerksam. Es schreibt einfach vor sich hin. Aus „Kulturrevolution“ wurde beispielsweise „Kultur Null Nation“. Je lyrischer der Text, desto mehr Stilblüten gab es (ganz schlimm beim Vortrag des Gedichts „Der Erlkönig“). Und als wir vorlasen, dass „Mediziner nun ein Recht auf Ruhe haben“, postulierte das Programm ein „Recht auf Ohren“.

Dieser Artikel ist hilfreich. 2238 Nutzer finden das hilfreich.