Künstliche Intelligenz

Google Audio Palm: KI spricht mit Nutzerstimme

Über­set­zungs-Apps ermög­lichen Kommu­nika­tion zwischen Menschen, die sich mangels Sprach­kenntnis nicht verstän­digen könnten. Bald wird es wohl auch über­setzte Gespräche mit der eigenen Stimme geben.
Von dpa /

Auf Reisen haben sie schon vielen Menschen aus der Patsche geholfen: Über­set­zungs-Apps. Mit ihrer Hilfe kann man über­setzte Wörter, Sätze und ganze Texte herzeigen oder verschi­cken, bei Bedarf meist auch laut vorlesen lassen, wenn die Verstän­digung sonst nicht klappt.

Dank Künst­licher Intel­ligenz (KI) dürften solche Anwen­dungen bald in einer ganz neuen Qualität verfügbar sein. Und das nicht nur für Reisende, sondern für alle, die beruf­lich oder privat in Spra­chen kommu­nizieren müssen, die sie gar nicht oder nicht gut genug für den jewei­ligen Zweck beherr­schen.

Über­setzer spricht mit der eigenen Stimme

Google arbeitet an einem KI-Modell namens "Audio Palm" Google arbeitet an einem KI-Modell namens "Audio Palm"
Foto: Picture alliance/dpa/Matt Rourke
So hat Google ein neues KI-Modell namens Audio-Palm vorge­stellt, das sowohl Text als auch Sprache erkennen, verar­beiten und erzeugen kann, etwa für Über­set­zungen und sogar mit der eigenen Stimme der jewei­ligen Nutzerin oder des jewei­ligen Nutzers.

Die durchaus eindrucks­vollen Ergeb­nisse ihrer Arbeit demons­trieren die Wissen­schaftler in einem Video, aber auch mit Audio-Vergleichs­bei­spielen in diversen Spra­chen auf der Projekt­seite.

Ein kurzer Sprach­befehl reicht zum Anlernen

Das neue Modell über­treffe "bestehende Systeme für Sprach­über­set­zungs­auf­gaben erheb­lich", sind sich die Forsche­rinnen und Forscher sicher. Und: Schon eine "kurze gespro­chene Auffor­derung" genüge, damit das Modell die eigene Stimme auf diverse andere Spra­chen über­tragen könne.

Bei Audio-Palm handelt es sich um die Zusam­men­füh­rung des KI-Sprach­modells Palm mit dem KI-Audio­gene­rator Audio-LM. Palm kommt etwa auch in Googles Chatbot Bard zum Einsatz. Infor­mationen darüber, ob und wann Audio-Palm beispiels­weise bei Google Trans­late zum Einsatz kommen könnte, gibt es auf der Projekt­seite aber noch nicht.

In einer weiteren Meldung geht es um: Meta: "Menschen­ähn­liche" KI für Bild-Gene­rie­rung.

Mehr zum Thema Künstliche Intelligenz