"Können wir doch", behauptet Manfred Pinkal, Experte für Computerlinguistik von der Universität des Saarlandes. Um sofort einzuschränken: "Kommt allerdings darauf an, was man sagt - und was man dann als Antwort erwartet." Auf der Cebit präsentiert Pinkal einen BMW, der eine Reihe von Kunststücken auf Zuruf beherrscht, etwa die Titelwahl im MP3-Player oder das Heraussuchen von günstig gelegenen Hotels. Auch Microsofts neues Windows lässt sich per Sprachbefehl zum Surfen bringen.
Vom freien Dialog mit dem Rechner sind wir nach Einschätzung von Pinkal allerdings noch Jahre entfernt. Diktiersoftware, wie Dragon Naturally Speaking vom Hersteller Nuance, sei aber auf dem richtigen Weg, sagt Ronny Egeler vom Fraunhofer Institut für Produktionstechnik und Automatisierung. Auf Basis einer Datenbank von mehreren Hunderttausend Wörtern kann das Programm gesprochenen Text verlässlich wiedererkennen. Auf Grundlage der vorhergehenden zwei Wörter berechnet die Software die Wahrscheinlichkeit, mit der ein bestimmtes drittes Wort folgen wird. Je mehr Kontext, desto einfacher wird die Berechnung, sagt Pinkal.
Trotzdem: Vor der Unterscheidung von "Ich möchte ans Meer" und "Ich möchte eins mehr" muss auch die beste Spracherkennung noch kapitulieren, meint Egeler. Ziehe man noch Dialekte, Slang- oder Trendwörter und Fremdsprachen mit hinzu, könne man erahnen, welche Mammutaufgabe eine Spracherkennung stemmen müsste, um perfekt zu funktionieren. Zudem dürfen keine Hintergrundgeräusche beim Dialog mit dem Rechner stören.
Langsam und deutlich sprechen
Wenn Menschen sich keine Mühe geben, dem Computer langsam und deutlich Befehle zu erteilen, ist die Trefferquote daher noch zu niedrig, sagt auch Jackson Bond von 8hertz Technologies. Sein Unternehmen hat sich vor allem auf Suchfunktionen spezialisiert, etwa Fahrplanauskünfte und automatische Telefonvermittlung.
In Zukunft werde der Computer in jedem Fall zunehmend mehr Sprache verstehen können, sagt Pinkal. Er sehe aber keine reine Sprachsteuerung, sondern eine Kombination aus verschiedenen Eingabemöglichkeiten. "Was kommen wird, ist die zusätzliche Interpretation von Mimik und Gestik", ist er sich sicher. Pinkal selbst redet lieber nicht mit seinem Computer: "Auf meiner Tastatur bin ich bisher immer noch schneller als jede Spracherkennung."
Hör mir zu
Vieldeutigkeit ist für die Spracherkennung die größte Barriere. Die Erkennung vorher trainierter Befehle ist für die Software eine einfache Aufgabe - viele Nutzer akzeptieren diese Art der Steuerung allerdings nicht.