Alchemie der Zukunft

Welche Rolle spielt die Künstliche Intelligenz künftig im Journalismus? Im besten Fall unterstützen die Technologien, die hinter synthetischen Medien stecken, den journalistischen Arbeitsprozess. | Foto: picture alliance / Zoonar | Alexander Limbach

THEMA | Synthetische Medien

Alchemie der Zukunft

Synthetische Medien als nächste Stufe digitaler Medienproduktion

22. Oktober 2021, Kai Heddergott

Als der englische Fernsehsender Channel 4 in den 1980er Jahren mit dem Video-Clip-Ansager Max Headroom die angeblich „erste computergenerierte TV-Persönlichkeit“ präsentierte, war offensichtlich: Das war eine mediale Kunstfigur, die nicht zuletzt mit ihrem charakteristischen Stottern deutlich machte, dass digital erzeugte Fernsehansager im Zeitalter des analogen Videos noch Zukunftsmusik waren.
Heute, gut 35 Jahre später, sieht die Situation anders aus: Persönlicher Alltag und Medienproduktion sind weitgehend durchdigitalisiert, die nötige Rechenleistung für künstlich erzeugte, digitale Inhalte führen wir in Form unserer Smartphones mit uns, und der Einsatz Künstlicher Intelligenz (KI) hat bei Verlagen und Sendern bereits Einzug gehalten.

„Kollege Roboter“ (siehe JOURNAL 6/19) etabliert sich gerade für die automatisierte Erzeugung klar strukturierter, nachrichtlicher Texte. So hat der Spiegel am Abend der Bundestagswahl und am Tag danach auf Basis der Wahlergebnisse Texte für die einzelnen Wahlkreise automatisch generiert. Doch schon zeichnet sich in Experimenten und ersten Produkten in und für Medienbetriebe die nächste Evolutionsstufe für den digital generierten Journalismus ab: Sogenannte synthetische Medien machen einen Max Headroom tatsächlich möglich. Das wirft Fragen nach ethischen Implikationen und möglichen Auswirkungen auf das Berufsbild Journalismus auf.

Was umfasst der Begriff „synthetische Medien“? Gemeint sind Medienprodukte in Form von Video, Bild und Audio, die unter Rückgriff auf KI und mittels Algorithmen erzeugt werden. Sie zeigen etwas, das es eigentlich nicht gibt beziehungsweise das so nicht geschehen ist, das aber so aussieht oder sich so anhört, als ob real existierende Personen so gehandelt oder gesprochen hätten.

Wie viel Zukunftsmusik steckt 2021 noch darin und wie real sind synthetische Medien bereits? Lassen sich Menschen, etwa beim Präsentieren journalistischer Formate und Inhalte, schon durch ein digitales Abbild ersetzen? Welchen Mehrwert können synthetische Medien für den journalistischen Alltag schaffen und wie weit ist die Praxis?

Eine Welt voller Rechenpower

Heute weisen die Chips der meisten Smartphones und Tablets das Potenzial für KI-Anwendungen auf – oder nutzen sie bereits. So wirbt etwa Apple mit den Machine-Learning-Fähigkeiten der neuesten iPhone-Reihe, die Fotos und Videos quasi schon beim Auslösen der integrierten Kamera optimiere. So gesehen hat die Erzeugung synthetischer Medien in diesem Bereich bereits begonnen: Indem KI die Fotos schön macht, entsteht ein Abbild, das es ohne digitale Unterstützung nicht gäbe. Längst werden solche Aufnahmen auch im journalistischen Verwertungsprozess eingesetzt.

Mit den weit verbreiteten Selfie-Editoren FaceApp und Reface lässt sich das eigene Gesicht schon länger in Bilder und Videos anderer (oft prominenter) Personen integrieren. Die Anwendungen synthetisieren in Sekundenschnelle unterhaltsame Videos, die als virale Clips die sozialen Netzwerke füllen.

Liegt es da nicht nahe, dass auch Medienunternehmen, Filmproduktionen und Agenturen die Möglichkeiten nutzen? Sie verfügen längst über die Mittel, um nicht nur Gesichter auf fremde Körper zu zaubern, sondern synthetische Menschen Wirklichkeit werden zu lassen – zum Beispiel als Moderatorin, Ansager, Nachrichtensprecherin oder Werbefigur.

Im Journalismus schon angekommen

Der WDR kündigte im August an, sich am europaweiten Forschungsprojekt „Open GPT-X“ zu beteiligen: Über drei Jahre und mit einem Projektvolumen von 19 Millionen Euro sollen innovative Anwendungen KI-basierter Sprachmodelle entwickelt werden. Zu den Projektpartnern gehören unter anderem das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, das Forschungszentrum Jülich und die Technische Universität Dresden.

Konkret geht es um zwei Fragen: Welche Anwendungsfälle gibt es für natürlich klingende Sprachassistenten? Und wie kann KI bei der Zusammenfassung von Texten helfen? Bei der Vorstellung des Projekts erklärte WDR-Verwaltungsdirektorin Dr. Katrin Vernau, die Zusammenarbeit im Rahmen einer strategischen Forschungs- und Entwicklungspartnerschaft weise auch neue Wege, wie der WDR innovative Technologien „schnellstmöglich und unmittelbar zum Nutzen für unser Programm mitentwickeln und einsetzen“ könne.

Verantwortlich für solche Zukunftsfragen ist im WDR der sogenannte Innovation Hub, in dem Beschäftigte aus allen Direktionen des Hauses zusammenarbeiten. Im Sommer hat der Hub den Report „Synthetische Medien – Zukünfte der Medienproduktion mit künstlicher Intelligenz“ veröffentlicht. Einen sehr konkreten Versuch mit synthetischen Medien stellte der WDR auf der re:publica 2021 im Frühjahr vor. Drei Stunden aufgezeichneter Moderationen von WDR2-Moderatorin Steffi Neu bildeten dabei die Basis für die Synthetisierung neuer Radioansagen.

Es gehe aber nicht darum, Menschen wie Moderatorin Steffi Neu zu ersetzen, betont WDR-Innovationsmanagerin Christina Schamp. „Vielmehr möchten wir mit dem Versuch erfahren, wo die Grenzen und wo die konkreten Potenziale synthetischer Medien liegen.“ Der Sender möchte auf diesem Feld kompetent mitsprechen können und ausloten, was auf Medienhäuser zukommt – im Guten wie im Schlechten (siehe auch „Achtung, Deepfakes“).

Die echte Stimme hat Gewicht. Medienhäuser wie BBC und WDR experimentieren derzeit damit, aus aufgezeichneten Sprachsampeln neue Ansagen zu synthetisieren. | Foto: Paulo Sousa

Parteitag und Wetter bald synthetisch?

Auf der anderen Seite des Globus gelten klare strategische Prioritäten für den Einsatz synthetischer Medien. Die Volksrepublik China steckt Milliardenbudgets in die Entwicklung von KI-Anwendungen. 2018 startete dort die Entwicklung KI-basierter Nachrichtensprecherinnen und -sprecher. Ein Jahr darauf setzte die chinesische Nachrichtenagentur Xinhua für die Berichterstattung von der Delegiertenversammlung der Kommunistischen Partei eine digital generierte Sprecherin ein, die der echten Fernsehsprecherin Qu Meng nachempfunden war. Ihre Aufgabe, die vorgegebenen staatlichen Verlautbarungen zu verlesen, ließ sich mit KI wohl bewerkstelligen.

Auch die britische BBC experimentierte mit der künstlichen Repräsentanz eines echten Fernsehjournalisten und ließ den Sprecher Matthew Amroliwala einen zwanzigsekündigen Text aufsagen. Auf Basis vorher erstellter Übersetzungen synthetisierte das Londoner KI-Startup Synthesia lippensynchron vorgetragene, fremdsprachige Varianten der Ansage. Das heißt aber nicht, dass virtuell kurzerhand mehrsprachige Nachrichten machbar sind. Im Experiment lagen die Übersetzungen mit Vorlauf vor, und die Videos der neuen Sprachfassungen entstanden nicht vollautomatisiert, sondern wurden kunstfertig modelliert.

Mittlerweile erprobt die BBC auch den alltäglichen Einsatz synthetischer Medien. Zunächst versuchsweise lässt sich auf einer Website eine lokale, synthetisierte Wettervorhersage abrufen, die auf aktuellen Daten des Wetterdienstes für den gewählten Ort basiert. Präsentiert wird die Vorhersage von „echten“ Sprecherinnen und Sprechern, deren zuvor eingesprochene Varianten von Wetterinformationen passend zu einem flüssigen Video kombiniert werden.

Einsatz im Redaktionsalltag

Die synthetisierte Repräsentanz echter Menschen ist nur ein Teil dessen, was synthetische Medien im Journalismus leisten können. Dabei verwischen oft die Grenzen zwischen regelbasierten, automatisch generierten Texten (wie etwa bei der erwähnten Berichterstattung zur Bundestagswahl), Künstlicher Intelligenz und synthetischen Medien. Immer dann, wenn eine Software „aus sich selbst heraus“ einen Bearbeitungsvorschlag macht, ist KI am Werke. In den Fällen, in denen aus einer Datenquelle neue Medienformen generiert werden, spricht man eher von synthetischen Medien.
Wie bestimmte Anwendungen journalistische Produktions- und Publikationsprozesse heute schon unterstützen, zeigen einige Beispiele:

Die Foto- und Video-Bearbeitungs-App Quik des Action-Kamera-Herstellers GoPro schneidet Bildsequenzen auf den Takt der hinterlegten Musik. Dafür reicht es, die einzelnen Clips lose aneinanderzureihen.
Das Programm Descript unterstützt bei der Produktion von Podcasts und Videos, indem es aus dem enthaltenen Audio ein Transkript generiert. Dieses lässt sich bearbeiten und dann wieder in Sprache ausgeben, sodass die editierte Fassung als synthetisiert gesprochener Text in die Ursprungsaufnahme integriert wird.
Tageszeitungen der norddeutschen NOZ/mh:n Mediengruppe setzen seit 2020 Text-to-speech-Lösungen ein, um online veröffentlichte Artikel mit einer synthetisierten Vorlese-Fassung zu ergänzen. Täglich werden so an die 600 Texte fürs Hören aufbereitet.

„Synthetisch“ heißt also in der redaktionellen Arbeit – gezielt eingesetzt – auch „hilfreich“. Entsprechende Anwendungen können die Produktion von Audio und Videos beschleunigen und bieten die Option, Inhalte in anderen Medienformen auszuspielen. Dabei wird der Bedarf der Zielgruppen bisweilen zum Taktgeber: Ein Publikum, das eifrig Podcasts hört, begrüßt wahrscheinlich auch die vorgelesene Version eines längeren Lesestücks.

Wikimedia-Vorstand Christian Humborg, WDR-Innovationsmanagerin Christina Schamp und STUDIO-47-Chefredakteur Sascha Devigne (v.l.). | Fotos: Lena Giovanazzi für Wikimedia Deutschland (CC BY-SA 4.0, via Wikimedia Commons), WDR, STUDIO 47

Automatisierte TV-Nachrichten

Der private Duisburger TV-Sender STUDIO 47 will mit Hilfe der Eigenentwicklung BotCast einen Schritt weiter gehen: Die cloudbasierte Plattform soll in den nächsten beiden Jahren verfügbare Tools und Lösungen kombinieren und in einem integrierten redaktionellen Arbeitsprozess zusammenführen (siehe auch JOURNAL 4/21). Chefredakteur Sascha Devigne verweist auf eine Studie des Nürnberger Instituts für Arbeitsmarkt- und Berufsforschung: Danach lasse sich jeder fünfte Arbeitsschritt in Redaktionen durch digitale Lösungen ersetzen oder zumindest optimieren.

STUDIO 47 hat sich die eigenen Abläufe genau angeschaut: „Tatsächlich wird ja bei der Produktion eines NIF, also einer Nachricht im Film, sehr standardisiert vorgegangen“ erläutert Devigne. „Das Thema ist aktuell zwar immer wieder ein anderes – aber im Grunde lassen sich vier zentrale Schritte identifizieren: Text-Generierung, Spracherzeugung, Editing und Distribution.“ Der BotCast soll mediale Bestandteile wie Text, Bewegtbild und Audio verschlagworten und markieren und so die Produktion beschleunigen, sie perspektivisch auch teilweise automatisieren und damit Freiräume für aufwändigere redaktionelle Aufgaben schaffen.

Dass solche Versprechen kritisch zu sehen sind, weiß Devigne: „Ich kann verstehen, dass man aus gewerkschaftlicher Sicht sehr genau hinschauen wird, wie sich das Thema synthetische Medien mit Blick auf Beschäftigungsverhältnisse entwickelt. Wir sind der Meinung: Man sollte das nicht allein den Großen wie Google überlassen, wir möchten uns mit unserem pragmatischen Ansatz als lokaler Medienanbieter positionieren – auch im Interesse der Kolleginnen und Kollegen.“

Standardtexte synthetisieren

Das Leistungsvermögen von Lösungen für synthetische Medien betrifft Medienschaffende potenziell direkt: „Die Sprachsynthese ist heute schon weit fortgeschritten. Ein Ziel wird es sein, mit dem BotCast Standardtexte wie Verkehrs- oder Wettermeldungen synthetisch zu Audio werden zu lassen – wenn es klappt, auch mit unserer originalen Station Voice, die wir als Grundlage nutzen“, erklärt Devigne. Dabei zielt das Projekt nicht darauf ab, neue technologische Lösungen zu entwickeln, sondern verfügbare, einsatzfähige Anwendungen zielgerichtet zu kombinieren. Denn einen derartigen integrierten Ansatz für die News-Produktion gebe es bislang nicht, hebt Devigne hervor.

Wie die WDR-Innovationsmanagerin Schamp betont auch der Chefredakteur des Privatsenders, dass es nicht darum gehe, Personal überflüssig zu machen, im Gegenteil: Es sei „eine Herausforderung, neues Personal für lokale TV-Nachrichtenangebote zu finden“, sagt Devigne. Das führe zu einer Arbeitsverdichtung, die Instrumente verlange, um die Produktion zu vereinfachen – „und im Effekt auch Arbeitsplätze zu sichern“.

In Lösungen wie dem projektierten BotCast sieht Devigne einen Ansatz dafür, dass hochwertiger TV-Journalismus im Lokalen und Regionalen eine Zukunft hat und damit die heute schon gute Programmqualität gehalten oder verbessert werden kann. „Schließlich haben wir als Journalisten eine gesellschaftliche Aufgabe und wir müssen den Diskurs am Laufen halten – wenn uns künftig dabei Plattformen für die Synthetisierung unserer Angebote helfen, können wir dem besser gerecht werden.“

Manchmal liegen die Herausforderungen allerdings gar nicht so sehr in der komplizierten Technik, wie etwa das Anwendungsfeld „Text-to-speech“ zeigt. So haben die großen Datenquellen für synthetische Sprache ihren Ursprung in englischen Texten und verwenden meist Phoneme aus dem angloamerikanischen Sprachgebrauch. Deutschsprachige Lösungen müssen noch ausgebaut werden.

Anwendungsfelder für synthetische Medien

Personalisierung von Inhalten (automatisch erzeugte, persönliche Ansprache von Ziel-/Ansprachegruppen) und Potenzial für eine „Hyperlokalisierung“.
Erzeugen synthetischer Audio-Inhalte als gesprochener Text (auf Basis existierender Sprachaufnahmen oder komplett künstlich) – ohne dass Sprecherinnen und Sprecher die Aufnahme des neuen Textes selbst vornehmen müssen.
Erzeugen von synthetischem Video mit automatisch übersetztem Text und Integration des neuen Audios in das Ergebnis (Übersetzungen mit der Ursprungsstimme).
Assistenz beim (automatisierten) Video-Schnitt (z.B. computergenerierte Synchronisation von Musik und Schnittfolge der verwendeten Clips).
Verzahnung des Erstellungs- und Bearbeitungsprozesses (Audio-to-text, Text-to-audio/Text-to-speech, Bearbeitung des transkribierten Audios und Erzeugen der Korrektur als Audio).
Erstellen synthetischer Texte auf Basis bereitgestellter Stichworte und Basis-Informationen, die dem gegebenen Kontext gerecht werden.
Lokalisierung von Filmen: Das englische Unternehmen Flawless bietet mit TrueSync ein System an, das lippensynchrone Fassungen von Personenaufnahmen ermöglicht – in mehreren Sprachen. Robert de Niro spricht dann mit seiner deutschen Stimme Christian Brückner – die zum deutschen Text passenden Lippenbewegungen in de Niros Gesicht erzeugt TrueSync./KH

Texte altersgerecht ausgeben

Über die Umwandlung von Text in Audio hinaus bieten synthetische Medien auch Potenziale für eine zielgruppengenaue Anpassung von Inhalten oder Informationsabfragen. Ein solches Anwendungsszenario beschreibt Christian Humborg, Geschäftsführender Vorstand der Wikimedia Deutschland, am Beispiel eines Kindes, das einen Sprachassistenten fragt: „Was ist eine Schlange?“ Der Wikipedia-Artikel würde die wissenschaftliche Auskunft geben, dass Schlangen eine Unterordnung der Schuppenkriechtiere sind. „Damit kann ein Kind wenig anfangen“, meint Humborg. Für das Kind sei die Antwort besser: ‚Eine Schlange ist ein Tier, dass keine Arme und Beine hat und sich kriechend fortbewegt‘. Humborg hält Befürchtungen, dass synthetische Medien die Arbeit von Autorinnen und Autoren beziehungsweise Journalistinnen und Journalisten bedrohen könnten, „für falsch“. Sie könnten sich vielmehr besser auf ihre Kernkompetenzen fokussieren.

Welchen Bezug das Beispiel des Wikipedia-Chefs zu Medienhäusern hat, zeigen Überlegungen des WDR: Im Rahmen des erwähnten Projekts Open GPT-X denkt der Sender über die Entwicklung eines KI-gestützten Sprachassistenten für die „Maus“ nach. Der Ankündigung zufolge soll die geplante App interaktiv und spielerisch Fragen beantworten. Mit ihrer Tonalität im Stil der „Sendung mit der Maus“ dürfte sie dem oben beschriebenen Szenario ziemlich nahe kommen.

Was verbinden wir mit dem Begriff synthetische Medien? Brainstorming-Session bei einem Treffen zum digitalen Wandel im WDR beim Innovation Hub in Köln-Bocklemünd. | Foto: WDR/Annika Fußwinkel

Risikopotenzial

Ob Assistenz-Funktion, individualisierter Inhalt oder virtuelle Nachrichtensprecherin – alle Varianten synthetischer Medien bergen auch ein Risiko. Dabei geht es unter anderem um Fragen der Glaubwürdigkeit, die für Medien zunehmend eine entscheidende Rolle spielen.

Zur Unsicherheit beim Publikum tragen auch sogenannte Deepfakes bei. Das sind Videos oder Sprachaufnahmen, die auf Basis vorhandenen Bild- und Tonmaterials synthetisiert werden und kaum als Fakes zu erkennen sind. Im Ergebnis „sagen“ etwa Prominente, Politikerinnen und Politiker oder andere einflussreiche Funktionsträgerinnen und -träger Dinge, die sie nie wirklich ausgesprochen haben.

Manipuliert und gefälscht wurde schon immer, um politische und gesellschaftliche Debatten zu beeinflussen. Aber der rasant vereinfachte Herstellungsprozess macht synthetische Medien zu einem noch wirkmächtigeren Instrument (Mehr dazu siehe „Achtung, Deepfakes“).

Abbauen oder unterstützen

Auch neben der Frage der gefährdeten Glaubwürdigkeit lohnt für das Tätigkeitsfeld Journalismus ein kritischer Blick – an die erwähnte Nahtstelle zwischen Einsparungspotenzial und Unterstützung redaktioneller Prozesse. Wie bei anderen Digitalisierungsschritten hängt vieles daran, ob Wertschöpfungsketten oder redaktionelle Qualität im Vordergrund stehen.

Und wieder scheinen bestimmte Berufe eher bedroht als andere. Dazu gehören beispielsweise Cutterinnen und Cutter, die durch hochwertige Anwendungen in bestimmten Bereichen weniger gefordert werden. Autorinnen und Autoren setzen dann ihren Sprechtext auf eine automatisiert produzierte Schnittfassung. Sie selbst sind aber potenziell auch gefährdet – weil Anwendungen für Sprachsynthese einen Teil ihres Jobs tangieren.

Produzenten, Medienunternehmen, Gewerkschaften und andere berufsständische Vertretungen müssen sich mit den Potenzialen und Fallstricken synthetischer Medien beschäftigten. Um am Diskurs teilzunehmen, brauchen sie solides Wissen über Funktionsweisen und Grenzen der KI-getriebenen Medienproduktion von morgen. Damit ein Max Headroom genauso Zukunftsvision bleibt wie ein vollständig synthetisierter Journalismus.||

Ein Beitrag aus JOURNAL 5/21, dem Medien- und Mitgliedermagazin des DJV-NRW, erschienen im Oktober 2021.