O-Töne herstellen? Geht jetzt!

Warum mir das neue Audio-Tool von Adobe Angst macht,
es dringend Bewusstsein, Regeln und Sanktionen dafür braucht
und ich eine Wette gestartet habe, die ich gerne verlieren möchte.

Sie ist da: die perfekte Audio-Manipulationsmaschine, mit der man anderen beliebige Worte in den Mund legen kann. Eine Maschine, die gerade mal 20 Minuten Stimmmaterial braucht und schwups! kann sie mit dieser Stimme sprechen. Man muss nur eintippen, was sie sagen soll.

Die Präsentation am 4. November 2016:
Faszinierend.
Erschreckend.
Und mit massiven Folgen für unser Radiohandwerk, wie ich glaube.

Denn ab sofort ist nicht nur jede Moderatorin, jeder Reporter, jede Interviewpartnerin, die mal irgendwo mehr als 20 Minuten Stimme veröffentlicht hat, Manipulationen preis gegeben. Nein. Wir Radiomacher selbst werden uns ab jetzt permanent der Manipulation bezichtigen lassen müssen. Und ein paar von uns werden vermutlich schon bald ihre Jobs verlieren. Doch der Reihe nach.

Werden wir O-Töne bald herstellen?

Was Adobe da präsentiert hat, ist neu, anders und defintiv ein Quantensprung in der Audiobearbeitung. Denn hier wird eben nicht mehr Audio bearbeitet. Es wird hergestellt. Nachgemacht. Simuliert. Synthetisiert. Und zwar so echt, dass es klingt, als habe jemand das so gesagt. Und zwar nicht IRGENDjemand, also nicht irgendeine virtuelle Beifahrerin, die mir im Auto sagt, wo’s lang geht, sondern eine konkrete andere Person. Eine, die mir womöglich aus dem echten Leben schon bekannt ist.

Dieses Tool simuliert also O-Töne, und damit genau das Material mit dem wir Radiojournalisten arbeiten. Das Material, das wir als Beweis und Beleg benutzen. Das Material, das Hörern glaubwürdig vermitteln soll: „Hey, wir waren dabei. Wir haben mit den Menschen gesprochen. Genau so haben sie das gesagt.“ Original-Töne eben! Und die kann man jetzt plötzlich am Rechner erzeugen. Und zwar nicht mehr mit tausenden mühsamen Schnitten und Anpassungen, sondern einfach, indem man den gewünschten Text tippt. Mich gruselt’s.

Werden Hörer unseren O-Tönen noch vertrauen?

Doch viele Kollegen auf facebook wundern sich über mich. Tenor: Ist doch nix Neues. Manipulation gab’s schon immer. Beispiel: Photoshop. Der Bildjournalismus sei davon doch auch nicht untergegangen.

Doch. Ist er. Finde ich. Denn manipulierte Bilder wirken längst da, wo seriöser Bildjournalismus gar nicht mehr hinkommt. Schaut Euch die vielen manipulierten Fotos in Euren SocialMedia-Kanälen doch an. Sie verbreiten sich und entfalten ihre Wirkung ganz unabhängig davon, ob wir sie widerlegen und nicht verwenden. Die Glaubwürdigkeits-, Aufklärungs- und Fake-Debatte geht an vielen schlicht vorbei.

2016-11-09-18_49_25-kommentare

Und Hinweise auf Fakes bleiben oft erschreckend wirkungslos, weil der Beweis der Manipulation so aufwändig und komplex ist, dass er sich immer und immer wieder anzweifeln lässt. Tools, mit denen sich mediale Wirklichkeiten konstruieren lassen, wirken also auch da, wo sie nicht genutzt werden. Weil die, die sie nicht nutzen, plötzlich beweisen müssen, dass sie sie nicht nutzen. Aber wie?

Wer wird unseren Beteuerungen glauben?

Schon klar: Adobe verspricht in der Präsentation ein „Wasserzeichen“ im Audio, an dem man Manipulationen erkennen kann. Aber mal ehrlich: Soll ich künftig jedem Hörer Wasserzeichen in meinen O-Tönen mitliefern? Wer wird das wann wo wie überprüfen können? Und wird das nicht ähnlich wirkungslos bleiben wie die Diskussion über manipulierte Bilder, die dann dennoch weiter verbreitet werden, weil die Manipulateure und Gesinnungsgläubigen das so wollen und befördern?

Ich sehe da mit Schaudern eine Unmenge an MetaMetaMeta-Erklärarbeit auf uns zukommen.

Und die wird um so schwerer, weil ich vermute, dass professionelle Radiomacher solche Tools bald selber nutzen werden. Zwar in der Regel vermutlich nicht, um journalistische Beiträge oder Interviews zu faken. Aber um Geld zu sparen.

Wieviele Sprecher braucht ein Sender künftig noch?

Warum zum Beispiel sollte ein Sender täglich mehrere Nachrichtensprecher beschäftigen und bezahlen, wenn es doch reicht ein paar Stimmpakete á 20 Minuten einzukaufen? Sprechen lässt die dann eine Redakteurin, die Texte in ein System tippt. Auf die Art „moderiert“ sie viele Sendungen gleichzeitig mit verschiedenen Stimmen – hergestellt per Stimmsynthese. Sie verwaltet mehrere Sendungen parallel wie heute schon Facebook-, Twitter-, und Snapchat-Accounts.

Keine Vorteile? Doch: Es ist schnell und effizient, spart Geld und Zeit und Nerven. Denn so ein Stimmpaket kriegt nie die Grippe, fordert keine Lohnerhöhung und droht nicht zum Konkurrenzsender zu wechseln. Wie praktisch.

Die Methode ist also effizienter als Voicetracking schon jetzt. Oder anders ausgedrückt: VoCo von Adobe setzt schlicht eine bereits existierende Automationslogik fort. Erste Tests waren anscheinend auch schon erfolgversprechend:

Wird „Vocoting“ eine anerkannte Radiotechnik?

Deshalb meine Wette mit dem Kollegen Karl Urban:

wette-vocoting

Bis dahin wünsche ich mir vor allem eins: Eine eindeutige Reaktion von Redaktionen, Journalistenverbänden, Rundfunkräten und Landesmedienanstalten. Denn so logisch „Vocoting“ aus Effizienzgründen scheint, so schädlich ist es für unsere Glaubwürdigkeit. Radiomacher müssen sich sobald als möglich klare Regeln, Codices und Sanktionsmöglichkeiten für diese Anwendung verordnen. Der verschärfte Kampf um unsere Audio-Glaubwürdigkeit hat gerade erst begonnen.

PS: Habe eine Umfrage gestartet.

Frage: Gibt es ethische Grenzen für den Einsatz von VoCo im Radio? Welche?

Die Umfrage stellt Szenarien vor und fragt: Was davon ist ethisch vertretbar? Was nicht? Was könnte wie auf HörerInnen wirken?

Freue mich über viele TeilnehmerInnen. Hier.

img_2330Über dieses Blog: Auf www.radio-machen.de schreibt die Hörfunkerin Sandra Müller über alles was Audio ist, kann, faszinierend macht. Das macht sie auch auf Twitter und facebook. Sie freut sich über Gastautoren, die auch über Audio und Radio schreiben. Und Sie freut sich über Einladungen als Referentin, Coach, Seminarleiterin.

4 Antworten auf „O-Töne herstellen? Geht jetzt!“

  1. Tja, man merkt ja jetzt schon in den sozialen Netzwerken, wie weit sich Lügen verbreiten. Selbst wenn diese mit einfachster Recherche zu entlarven wären. Und das hat ja nunmal eine ganz andere Qualität. Konsequenz wird sein, dass man nichts mehr glauben kann, und die meisten trotzdem alles glauben werden.

  2. Das wird sich SICHER durchsetzen, wie die Retusche mit Photoshop auch. Es ist z.B. auch viel günstiger und von besserer Audioqualität, wenn man einen Gast für ein Thema nur noch die Worte in den Mund legen muss, die man gerne hätte und der dann sein Placet gibt. Er muss nicht eingeladen werden, nicht verpflegt, verspricht sich nicht, macht keinen Eklat…und gibt keine unbequemen Antworten. Und für den Gast mag das auch noch einfacher sein, da er nicht reisen muss oder auch nur Zeit für einen O-Ton verplempern.

    Ob das in der Realität aber auch so gut funktioniert wie in einer geübten Produktpräsentation, bleibt abzuwarten.

    Das war auch nur ein kurzer Satz mit wenig Kraft. Ob das bei feuilletonistischen Bandwurmsätzen, Mundarten, Sprachbesonderheiten, etc. ebenso einfach klappt, halte ich für zweifelhaft. Auf welcher Ebene werden die Worte denn manipuliert? Einzelne Laute? Teile von Lauten? Muss das Wort schon einmal gesprochen worden sein? In jeder Beugungsform? Mit jeder Betonung?

    Abwarten und schauen/hören.

    1. Wie komplex VoCo mit fremder Stimme sprechen kann, ist in der Tat noch unklar.
      Klar ist aber: Die Technik dahinter ist komplex. Es werden nicht nur einfach Wörter benutzt, die schon mal gesprochen wurden. Die Wörter werden aus Phonemen neu zusammengesetzt. Eben deshalb kann VoCo schon aus einer 20minütigen Stimmprobe, mit dieser Stimme neue Wörter und Sätze bilden. Falls Du noch was dazu lesen willst: https://www.wired.de/collection/tech/adobes-neues-tool-kann-sprache-imitieren

  3. Faszinierende Technologie einerseits, das muss ich zugeben. Und nur konsequent, nach der (heute schon gut funktionierenden) Analyse auch die Synthese umzusetzen.
    Für Haltestellenansagen in der U-Bahn oder als Ansagedienst am Telefon vielleicht noch mit echtem Nutzen.

    Aber wer dieses „Werkzeug“ fürs Radio einsetzen will, sollte sich im klaren darüber sein, dass das der ultimative Sargnagel wird.
    Wer wird denn noch zuhören, wenn er weiß daß das Programm vollsynthetisch aus der „Maschine“ kommt, quasi ein Imitat?
    Wer glaubt dem gesprochenen Wort noch?

    Der Geist ist wohl annähernd aus der Flasche, bleiben wir aufmerksam!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert