Am Puls der Sprachsynthese: Zu Gast im Nuance Sprachlabor

28. Januar 2016
132 Views

Sprachbiometrie gewinnt in Contactcentern stetig an Bedeutung. Viele Unternehmen haben die virtuellen Assistenten und automatisierten Identifikations- und Authentifizierungsprozesse für ihren Kundendienst entdeckt. Wir haben uns ein Bild gemacht und das R&D Sprachlabor von Nuance am Media Campus in Zürich besucht.

Rund 30 Mitarbeiter sind hier im Nuance Labor für Sprachsynthese untergebracht. Das Spin-off der ETH gehört seit 2010 zu Nuance. Die Intenieure treibt die Frage an, wie Sprachsynthese bei einfachen und repetitiven Themen unterstützen kann, beispielsweise beim Suchen und Finden von Informationen: „Wie ein perfekter Butler, der alles weiss, die Vorlieben und die Agenda kennt und im Griff hat“, schwärmt Johan Wouters, Director TTS Data Development bei Nuance. Die Automobilindustrie ist der klare Treiber für die Themen Sprachausgabe und Spracherkennung. Nuance ist für alle wichtigen Automarken im Einsatz, damit sich die Fahrer mit dem Wesentlichen beschäftigen können: dem Fahren. Aber auch andere Branchen, darunter die Contactcenter-Industrie, haben die Sprachsynthese für sich entdeckt. „Sprache verbindet. Mit ihr entwickeln Objekte Persönlichkeit“, so Wouters, dessen Faszination für die menschliche Stimme ansteckend. Der leidenschaftliche Ingenieur hat Elektronik studiert und hast sich schon in seiner Schulzeit für die Themen Stimme und Sprachen begeistert. Hier in seiner Arbeit am Media Campus kann er beide Disziplinen und seine Kompetenz als Ingenieur miteinander verbinden.

Faszination menschliche Stimme

Hier im Forschungs- und Entwicklungslabor werden nämlich Stimmen entwickelt. „Unsere Arbeit hat viel mit der Faszination für die menschliche Stimme zu tun. Sie soll angenehm, verständlich und schön klingen“, so Wouters, wobei „schön“ eine Frage des Geschmacks ist. Während in Asien hohe, junge Stimmen von den Kunden geschätzt werden sind ist in Deutschland und der Schweiz eher die reiferen professionell klingenden Stimmen, die besser ankommen. Eine Testgruppe evaluiert für die verschiedenen Industrien und Produkte die Stimme, die am besten gefällt.

Während für Automotive aktuell die Navigation und Bedienung im Auto so richtig boomt, sind es im Enterprise-Bereich Daten, Zahlen und Namen, die besonders gut klingen müssen. Aber auch ganze Texte sollen künftig nicht monoton, sondern lebendig und spannend, mit der richtigen Betonung vorgetragen werden können. „Der Long Form Text zum Vorlesen von News und E-Mails ist bei Mercedes bereits im Einsatz. Der Vorteil ist, man kann steuern wann, wo und worüber man informiert werden will.“

Eine weitere Branche, die auf Sprachsynthese setzt, ist die Healthcare-Industrie. „Ärzte diktieren in den Spitälern mit unserer Software, der das Gesundheitsvokabular antrainiert wurde. Die Sprache wird in Text umgewandelt. Der Informationsfluss wird zunehmend automatisiert, damit die Ärzte mehr Zeit mit ihren Patienten und nicht am Rechner verbringen müssen“, erklärt Wouters.

Verbreitung dank Siri und S Voice

Siri hat das Thema Sprachsynthese einer breiten Öffentlichkeit zugänglich gemacht. Aber auch andere Hersteller setzen auf „Natural Language Understanding“, kurz NLU. So brachte Samsung S Voice aus dem Hause Nuance auf den Markt. Besonders spannend sei diese Anwendung, wenn Spracheingabe mit Aktionen verknüpft werden, zum Beispiel wenn das Smartphone nicht nur eine Nummer sucht, sondern auch gleich den gewünschten Call aufsetzt oder einen Tisch im Restaurant reserviert, Flüge bucht oder über touristische Attraktionen informiert – wie ein richtig guter Butler eben.

Sprache statt Apps?

Im Silicon Valley entwickelt Nuance eigene Personal Agents, einheitliche Butler sozusagen, die den Benutzer unabhängig davon ob er im Auto, am Handy oder zu Hause ist, verstehen. „Sprache ist universell. Welche App meine Anfrage umsetzt, ist eigentlich nicht relevant“, so Wouters, der davon ausgeht, dass sich künftig verschiedene Geräte intelligent miteinander austauschen und auseinandersetzen werden.

Nuance hat als unabhängiger Anbieter von Sprachtechnologie mehr als 50 Sprachen und 100 unterschiedliche Stimmen im Portfolio. Die Offenheit in der Zusammenarbeit mit Marken und Firmen trägt dazu bei, dass nicht jedes Unternehmen die Spracherkennung für sich entwickeln muss – was einen viel zu grossen Aufwand bedeuten würde. „Unsere Rolle ist es, die Basis zu schaffen und mit unterschiedlichen Stimmen und Konzepten die Kunden unserer Kunden zu begeistern“, so Johan Wouters.

Und wie siehts aus mit Schweizerdeutsch?

Die Besonderheiten des Schweizer Marktes kannder gebürtige Belgier gut nachvollziehen: „Bei uns ist vieles sehr ähnlich: Kleines Land, viele Sprachen, gute Schokolade – und gute Ingenieure“, lacht Wouters. Da es im Schweizerdeutschen keine standardisierte geschriebene Sprache gibt, konnten bislang auch keine Daten gesammelt werden. Das ist die Herausforderung mit dem Schweizerdeutsch. „Aber mit den Personal Agents wird die geschriebene Sprache an Bedeutung verlieren. Dialekte werden immer wichtiger. Am Ende wird die gute User Experience zählen, das heisst sich möglichst natürlich unterhalten zu können. Diese Entwicklung wird noch lange nicht aufhören“, ist Wouters überzeugt.

Potenzial im Customer Service

Auch im Customer Service erkennt Wouters noch viel Potenzial: „Ich sehe vor allem in den Personal Agents und im Multichannel-Thema spannende Möglichkeiten“, so der smarte Experte. Der persönliche Assistent Nina von Nuance beispielsweise hat die Intelligenz, auf Fragen einzugehen und zu kombinieren, um nützliche Antworten zu liefern. „Multichannel bedeutet, dass der Service nicht nur via Telefon, sondern auch übers Internet, App, Chat usw. zur Verfügung steht. Der Kunde kann frei wählen, wie er sich in Verbindung setzt“, so Wouters. Sein persönlicher Sprachsynthese-Favorit ist übrigens die Mikrowelle: „Ich spreche mit ihr – ‚Heize auf für eine Minute.’ Das ist doch viel einfacher als rumzusuchen!“, so Wouters, der davon überzeugt ist, dass Sprachsynthese ein probater Weg ist, um sich vom Mitbewerb zu unterscheiden.

Die Stimmen ( z. B. aus den Navigationsgeräten) basieren in der Regel auf der Stimme einer bestimmten Person. Diese Person diktiert aber nicht sämtliche Ansagen. Es wäre nahezu unmöglich, hunderttausende von sich ändernden Straßennamen oder Namen von Lokalen aufzunehmen und ständig aktuell zu halten. Stattdessen erstellt man künstliche Stimmen, auch synthetische Stimmen genannt. Dafür nimmt man Aufnahmen von einem Sprecher, zerteilt diese in kleine Spracheinheiten, auch Phoneme genannt, die die Sprache möglichst umfassend abdecken, und kann damit beliebige Texte mit ganz neuen Wörtern oder Namen vorlesen. Ähnlich zu Lego-Bausteinen. In der Regel nimmt man bei Sprachansagen im Navigationsgerät immer wiederkehrende Formulierungen auf, z.B. „Bitte biegen Sie jetzt links ab“ und kombiniert sie mit synthetischen Elementen für dynamisches Vokabular: „Bitte biegen Sie jetzt links ab in die Jülicher Straße“.

Weiterführende Links zum Thema TTS
Forschung & Entwicklung >>
Blogbeitrag zum Thema >>
Einsatz im Mobil-Bereich >>
Einsatz im Kundenservice >>

Autor: Claudia Gabler

Print Friendly, PDF & Email
Sprachbiometrie gewinnt in Contactcentern stetig an Bedeutung. Viele Unternehmen haben die virtuellen Assistenten und automatisierten Identifikations- und Authentifizierungsprozesse für ihren Kundendienst entdeckt. Wir haben uns ein Bild gemacht und das R&D Sprachlabor von Nuance am Media Campus in Zürich besucht. Rund 30 Mitarbeiter sind hier im Nuance Labor für Sprachsynthese untergebracht. Das Spin-off der ETH gehört seit 2010 zu Nuance. Die Intenieure treibt die Frage an, wie Sprachsynthese bei einfachen und repetitiven Themen unterstützen kann, beispielsweise beim Suchen und Finden von Informationen: „Wie ein perfekter Butler, der alles weiss, die Vorlieben und die Agenda kennt und im Griff hat“, schwärmt Johan Wouters, Director TTS Data Development bei Nuance. Die Automobilindustrie ist der klare Treiber für die Themen Sprachausgabe und Spracherkennung. Nuance ist für alle wichtigen Automarken im Einsatz, damit sich die Fahrer mit dem Wesentlichen beschäftigen können: dem Fahren. Aber auch andere Branchen, darunter die Contactcenter-Industrie, haben die Sprachsynthese für sich entdeckt. „Sprache verbindet. Mit ihr entwickeln Objekte Persönlichkeit“, so Wouters, dessen Faszination für die menschliche Stimme ansteckend. Der leidenschaftliche Ingenieur hat Elektronik studiert und hast sich schon in seiner Schulzeit für die Themen Stimme und Sprachen begeistert. Hier in seiner Arbeit am Media Campus kann er beide Disziplinen und seine Kompetenz als Ingenieur miteinander verbinden. Faszination menschliche Stimme Hier im Forschungs- und Entwicklungslabor werden nämlich Stimmen entwickelt. „Unsere Arbeit hat viel mit der Faszination für die menschliche Stimme zu tun. Sie soll angenehm, verständlich und schön klingen“, so Wouters, wobei „schön“ eine Frage des Geschmacks ist. Während in Asien hohe, junge Stimmen von den Kunden geschätzt werden sind ist in Deutschland und der Schweiz eher die reiferen professionell klingenden Stimmen, die besser ankommen. Eine Testgruppe evaluiert für die verschiedenen Industrien und Produkte die Stimme, die am besten gefällt. Während für Automotive aktuell die Navigation und Bedienung im Auto so richtig boomt, sind es im Enterprise-Bereich Daten, Zahlen und Namen, die besonders gut klingen müssen. Aber auch ganze Texte sollen künftig nicht monoton, sondern lebendig und spannend, mit der richtigen Betonung vorgetragen werden können. „Der Long Form Text zum Vorlesen von News und E-Mails ist bei Mercedes bereits im Einsatz. Der Vorteil ist, man kann steuern wann, wo und worüber man informiert werden will." Eine weitere Branche, die auf Sprachsynthese setzt, ist die Healthcare-Industrie. „Ärzte diktieren in den Spitälern mit unserer Software, der das Gesundheitsvokabular antrainiert wurde. Die Sprache wird in Text umgewandelt. Der Informationsfluss wird zunehmend automatisiert, damit die Ärzte mehr Zeit mit ihren Patienten und nicht am Rechner verbringen müssen“, erklärt Wouters. Verbreitung dank Siri und S Voice Siri hat das Thema Sprachsynthese einer breiten Öffentlichkeit zugänglich gemacht. Aber auch andere Hersteller setzen auf „Natural Language Understanding“, kurz NLU. So brachte Samsung S Voice aus dem Hause Nuance auf den Markt. Besonders spannend sei diese Anwendung, wenn Spracheingabe mit Aktionen verknüpft werden, zum Beispiel wenn das Smartphone nicht nur eine Nummer sucht, sondern auch gleich den gewünschten Call aufsetzt oder einen Tisch im Restaurant reserviert, Flüge bucht oder über touristische Attraktionen informiert – wie ein richtig guter Butler…

0

0

Leave A Comment

X