Diese Website verwendet Funktionen, die Ihr Browser nicht unterstützt. Bitte aktualisieren Sie Ihren Browser auf eine aktuelle Version.
WDR

Text: Jörn Seidel
Redaktion: Thierry Backes, Till Hafermann
Design: Alina Bilkis
Videos und Audios: Jörn Seidel, Alina Bilkis, Ansager & Schnipselmann
Foto: Michael Kaes

Bei der Herstellung der Videos in diesem Beitrag wurden KI-Tools wie im Text beschrieben genutzt. Mehr zum Einsatz von Künstlicher Intelligenz in den Programmangeboten des WDR.

Medien
  • WDR
0:00/0:00

Tony, der KI-Moderator

Wie mithilfe von künstlicher Intelligenz, drei Tools und ein bisschen Geduld Moderator Tony fürs WDR Fernsehen entsteht

Von Jörn Seidel

Tony ist ein sympathischer junger Mann mit dunkelblonden Haaren und braunen Augen. Er trägt einen lachsfarbenen Sweater und einen Dreitagebart. Seine Stimme ist voll, klar und freundlich. Und er hat eine Vorliebe für flachen Humor.

Tony ist Co-Moderator der Sendung „Unser Leben mit KI“ (erste Folge in der Mediathek). Er mag auf den ersten Blick wie ein ganz normaler Mensch aussehen, doch Tony ist nicht echt. Tony wurde mithilfe von künstlicher Intelligenz (KI) erschaffen.

Ungewöhnliches Moderations-Duo: Catherine Vogel und Tony.

Live sind seine Moderationen allerdings nicht. Dafür stehen die technischen Möglichkeiten noch nicht zur Verfügung. Stattdessen werden Tonys Moderationen eingespielt. Das Erstaunliche daran: Tonys Moderationen herzustellen, ist gar nicht kompliziert. Besondere Computerkenntnisse sind nicht vonnöten. Und die KI-Tools, mit denen man Texte, Bilder, Audio-Dateien und Videos erzeugen kann, sind im Internet verfügbar.

Unterstützt von der Produktionsfirma Ansager & Schnipselmann, die die KI-Sendung im Auftrag des WDR produziert, zeigen wir hier, wie Tonys Moderationen entstehen – und wie jede und jeder selbst einen künstlichen Menschen zum Leben erwecken kann.

Der Ton kann über das Lautsprecher-Symbol in der Navigationsleiste wieder deaktiviert werden.

Mit drei KI-Tools zum künstlichen Moderator

Um Tonys Moderationen herzustellen, braucht es diese drei webbasierten KI-Dienste:

Für sie alle muss man sich per E-Mail registrieren. Und je nach Anforderung muss man für die Dienste auch bezahlen, insbesondere für die Video-Produktion. Mit wenig Geld lässt sich aber schon viel erreichen.

So findet Tony zu seinen Worten

Um Texte mithilfe von künstlicher Intelligenz zu erstellen, gibt es einige Chatbots wie ChatGPT, neuroflash, Jasper AI und Google Bard, die auch auf Deutsch gut funktionieren. Über ein Text-Eingabefeld (oder über Mikrofon) tauscht man sich mit diesen „Dialog-Robotern“ aus. Man stellt ihnen eine Frage oder erteilt eine Anweisung. Die Antwort darauf erfolgt binnen Sekunden. Dafür greifen die Dienste auf Websites, Bücher und andere Wissensquellen im Internet zurück.

Die Produktionsfirma hat zunächst einen Dialog mit ChatGPT gestartet. Der Chatbot solle so tun, als ob er selbst Tony sei: ein Fernsehmoderator Anfang 30, der als Sidekick Zuschauern in NRW das Thema KI näherbringen solle. Und er solle Humor haben.

Will die Produktionsfirma nun eine neue Moderation für Tony erstellen, setzt sie den ursprünglichen Dialog mit ChatGPT fort. Denn dort hat sich bereits Tonys Charakter herausgeformt.

Im Laufe des Dialogs hat sich Tony dann ein wenig verselbständigt. Er kommt gern ins Schwätzen, selbst dann, wenn man ihn um Kürze bittet. Und er macht ständig Dad Jokes, flache Witze, die nun einfach zu ihm gehören.

Zwar freue er sich immer auf Tonys Antworten durch den Chatbot, erzählt ein Mitarbeiter von Ansager & Schnipselmann. „Aber manchmal ärgere ich mich auch über ihn, weil er nicht versteht, was ich von ihm will, oder weil er wieder einen Witz mit Bits und Bytes einbaut.“ Die lasse sich Tony einfach nicht verbieten. Kleine Kostprobe:

Wenn ich mal überhitzt bin, kühle ich mich mit einem eiskalten Bit ab.

Die Produktionsfirma muss also ein wenig herumprobieren, damit der Chatbot geeignete Moderationstexte ausspuckt. Und kürzen muss sie am Ende auch. Was aber tippt man in das Eingabefeld des Chatbots, um von Tony den Text für das Video oben zu bekommen? In etwa das:

Das erste Ergebnis des Chatbots: nur teilweise brauchbar. Tony bezeichnet sich darin als „KI-Partner“ statt als Co-Moderator. Er preist seine Entstehungsgeschichte in seinem typischen Humor an: „Spoiler: Es hat mit vielen Bits und Bytes zu tun!“ Bei einem weiteren Versuch bezeichnet er sich als „Star der Bits und Bytes“.

Es bedarf einiger Anläufe und Änderungswünsche, bis der Chatbot eine nutzbare Moderation auswirft. Am Ende aber steht die Erkenntnis: Es ist auch für Laien tatsächlich möglich. Man muss sich nur ein wenig Zeit nehmen.

So bringt man Tony zum Sprechen

Der Moderationstext steht nun also. Jetzt muss Tony ihn nur noch sprechen. Das ist heute mit einer Vielzahl von sogenannten Text-to-Speech-Tools wie ElevenLabs, Verbatik, Listnr AI und PlayHT möglich. Sie verwandeln Text in wenigen Sekunden in Sprache.

Zwar bietet auch das Video-Tool HeyGen, das Tony ein Gesicht geben wird, Stimmen an. Aber die Produktionsfirma war von der Aussprache der deutschen Moderationstexte nicht überzeugt. Daher stammt Tonys Stimme jetzt aus der Bibliothek von ElevenLabs und trägt dort den Namen Charlie.

Tony hätte auch mit Dutzenden anderen Stimmen sprechen können. Hier eine kleine Auswahl:



0:00/0:00



Nach der Wahl der Stimme ist noch Feintuning nötig. Denn wie beim Chatbot empfiehlt es sich auch hier, ein wenig herumzuprobieren, um das Ergebnis zu verbessern. So lässt sich bei ElevenLabs zum Beispiel einstellen, dass die verschiedenen Aussprache-Ergebnisse nicht zu stark voneinander abweichen. Allerdings kann das den Klang der Stimme monoton machen. Auch die Betonung einzelner Wörter lässt sich beeinflussen, indem man sie in Lautsprache oder Großbuchstaben schreibt.

Vieles hängt aber auch vom Zufall ab. Mal betont Tony dieses Wort, mal jenes. Mal klingt er träge und deprimiert, mal heiter und beschwingt.

Irgendwann passt endlich alles – und die Audio-Datei ist erstellt.

So wird Tony ein TV-tauglicher Moderator

Die fertige Audio-Datei lädt man nun in einem Video-Dienst hoch, der mithilfe von KI Avatare sprechen lassen kann. Da gibt es zum Beispiel Synthesia, Pipio und D-ID. Tony wurde mit HeyGen erstellt.

Mit HeyGen lassen sich individuelle Avatare erschaffen, zum Beispiel Doubles von sich selbst. Es geht aber auch einfacher: Zur Verfügung stehen etwa zwei Dutzend öffentliche Avatare in jeweils mehreren Outfits. Sie „wurden von Schauspielern und Models aufgenommen“, heißt es auf der Website von HeyGen.

Vier dieser Avatare hätten Tonys Job sicher auch gerne gehabt, kamen aber nicht zum Zug:

0:00/0:00

Auch diesen vier Avataren liegen übrigens Texte von ChatGPT und Audios von ElevenLabs zugrunde.

Viel Einfluss auf die Videos hat man bei HeyGen nicht. Zwar lässt sich das Videoformat bestimmen und der Hintergrund auswählen. Die Bewegungen der Avatare lassen sich aber nicht verändern. Und so macht Tony im Begrüßungsvideo oben und im Fernsehen seine immer gleichen Handbewegungen und Gesichtsausdrücke.

Trotzdem: Tonys Erscheinung, Sprache und Worte vermögen immer wieder zu verblüffen. Und der Weg dorthin zeigt: Texte, Audios und Videos mit künstlicher Intelligenz zu erstellen, ist nicht schwer.



Zur Sendung

„Unser Leben mit KI – So hilft künstliche Intelligenz im Alltag“ (Moderation: Tony und Catherine Vogel): Mittwoch, 13. Dezember, 22.15 Uhr, im WDR Fernsehen oder in der Mediathek. Weitere Folgen erscheinen in den kommenden Monaten.



Mehr zum Thema KI bei WDR aktuell





Team

Text: Jörn Seidel

Redaktion: Thierry Backes, Till Hafermann

Design: Alina Bilkis

Videos und Audios: Jörn Seidel, Alina Bilkis, Ansager & Schnipselmann

Foto: Michael Kaes



Hinweis

Bei der Herstellung der Videos in diesem Beitrag wurden KI-Tools wie im Text beschrieben genutzt. Mehr zum Einsatz von Künstlicher Intelligenz in den Programmangeboten des WDR.