[os-widget path=“/sandram%C3%BCller3/radiomacher-und-das-neue-audio-tool-voco-gibt-es-ethische-grenzen-f%C3%BCr-den-einsatz-welche“ of=“sandram%C3%BCller3″ comments=“false“]
Die Ergebnisse der Umfrage habe ich Ende 2016 hier im Blog veröffentlicht.
Über radio-machen.de: Hier schreibt Hörfunkerin Sandra Müller über alles was Audio ist, kann, faszinierend macht. Das macht sie auch auf Twitter und facebook. Sie freut sich über Gastautoren, die über Audio und Radio schreiben. Und sie freut sich über Einladungen als Referentin, Coach, Seminarleiterin.
Jeder hat die Stimme von Merkel im Ohr. Wenn sie also ein schriftliches autorisiertes und exklusives Statement abgäbe, kann man dass im Radio ja einfach so verlesen oder zitieren. Wozu braucht’s da die ’nachgemachte‘ Stimme von Merkel? Abgesehen davon ist nahezu alles, was die Kanzlerin von sich gibt, über das weltweite Korrespondenten-Netz im Umlauf, also einsetzbar. VoCo-Töne sind also speziell in diesem Beispiel völlig überflüssig
Ich denke auch hier gilt, was generell beim Umgang mit O-Tönen gilt: Ich darf meinen Hörern nichts vorspielen, nicht einen falschen Eindruck erwecken. Auch heute schon kann man Interviews sinnentstellend zusammenschneiden, ohne dass es der Hörer mitbekommen würde. Das ist zurecht ein absolutes No-Go (mal abgesehen von Satire-Formaten). Und genau so sehe ich das bei VoCo. Diese Technik böte doch nur den Vorteil, ein Zitat einsprechen zu lassen, das nicht im O-Ton vorliegt. Aber was ist mit all den Nuancen? Pause, Betonung etc.? Auch die transportieren einen Sinn. Wie soll eine Software diese Informationen verarbeiten, wenn sie nur reinen Text hat? Dann entsteht am Ende der Eindruck einer unaufgeregten Kanzlerin, obwohl sie sich im Original vielleicht wütend geäußert hat? Beim Hörer kommt das aber nicht an. Deshalb sollte ein Zitat dann auch von einer neutralen Stimme eines Sprechers oder eben in indirekter Rede wiedergegeben werden. Den Einruck zu erwecken, das wäre jetzt ein O-Ton – auch wenn die Verwendung von VoCo angemerkt würde – halte ich für sehr gefährlich.
Adobe VoCo – Die (R)Evolution im Wasserglas
Dank des Blogs „Radio machen“ stieß ich auf ein neues PlugIn von Adobe namens „VoCo“, das laut Aussage von Adobe dazu in der Lage ist, mit überschaubarem Aufwand beliebige Texte eines beliebigen Sprechers am Computer mittels Texteingabe als Audioaufnahme generieren zu lassen.
Elektrisiert von dieser Aussage habe ich mich sofort daran begeben, mir ein eigenes – vor allem tontechnisches – Bild von den Möglichkeiten dieses neuen Wunderprogramms zu machen.
In der Präsentation von Adobe wird gesagt, man müsse nur 20 Minuten an Audiomaterial eines Sprechers analysieren, um im Anschluss mit dessen Stimme Texte als Audiofiles generieren zu können. Basis des Algorithmus ist eine Analyse der einzelnen Phoneme, also jener kleinen Lautschnipsel, die aneinandergereiht gesprochene Sprache ergeben. Die Präsentation lässt bei mir einige Fragen offen, die es weiter unten zu stellen gilt.
Das Grundprinzip, das dahintersteckt, ist mir durch andere Audioprodukte nicht unbekannt.
So gibt es zur Generierung pseudogregorianischer Gesänge das PlugIn Cantus und artverwandte Produkte. Hier hat der (Musik-)Produzent die Auswahl über eine überschaubare Anzahl von Silben, die ein Chor in verschiedenen Tonhöhen eingesungen hat. Diese kann man als „gesungene“ Linie in Pseudolatein aneinanderreihen. (Informationen und Tonbeispiele dazu auf der Produktwebsite.
Das Ergebnis klingt durchaus realistisch, doch man darf nicht außer Acht lassen, dass hier die genutzten Phoneme eigens für eine solche Verwendung aufgenommen und tontechnisch optimiert wurden.
Eine weitere mir bekannte Produktreihe, die vergleichbar funktioniert, ist die ursprünglich von Yamaha entwickelte Vocaloidreihe (Informationen und Tonbeispiele zur aktuellsten Version hier).
Diese Reihe geht einen Schritt weiter, man kann, wenn auch mit deutlich höherem Aufwand als in dem VoCo Video gezeigt, freie Texte zu Gesangslinien formen und diese in Songs einbauen. Der dabei eher synthetisch klingende Sound dieses PlugIns ist wohl eher eine Frage des gewollten Stils denn einer technischen Begrenztheit. Gibt man „Vocaloid“ bei Youtube ein, stellt man fest, dass von diesem künstlich generierten Gesang eine gewisse Faszination auszugehen scheint.
Doch kommen wir zurück zu VoCo und analysieren die Präsentation von Adobe.
Zunächst fällt mir auf, dass der dort präsentierte Beispielsatz grundsätzlich schon sehr abgehackt klingt. Für meine Ohren klingt es so, als hätte man die einzelnen Wörter aus einer längeren Aufnahme herausgeschnitten und aneinandergefügt.
Das erste Beispiel in der Anwendung von VoCo beeindruckt höchstens durch die Transformation der Aufnahme mittels Texteingabe. Den kleinen Copy & Paste Vorgang hätte ich genauso an einer „normalen“ Wellenform durchführen können. Die schnelle Doppelung des Wortes „wife“ fällt sofort auf und klingt unnatürlich. Noch dazu kommt es zu einer hörbaren Ungenauigkeit beim neu generierten „wife“. Es klingt, als fehlte am Anfang ein bisschen von dem Wort.
Auch bei dem im zweiten Beispiel neu generierten „dogs“ ist am Anfang ein leichter Knackser zu hören.
Im dritten Beispiel kommt nun die wirkliche Neuerung von VoCo: statt des in der Aufnahme vorhandenen „my wife“ wird bei 3:57 das Wort „Jordan“ generiert.
Für sich genommen klingt das generierte Wort durchaus natürlich, von der gesamten Betonung des Satzes her würde ich einen echten Sprecher den Satz noch einmal einsprechen lassen, weil der „Bogen“ bei der Betonung dieses Satzes in meinen Ohren nicht wirklich stimmt.
Bei 4:40 wird der Satz nun künstlich zu „I kissed Jordan three times“ ergänzt. Interessanterweise klingt der generierte Teil des Satzes hier runder als der erste Teil. Dennoch höre ich zwischen „Jordan“ und „three times“ einen kleinen Bruch heraus, der zugegebenermaßen schon etwas trainierteres Hören erfordert. Es ist eher die plötzliche Absenkung der Stimmhöhe, die mir hier auffällt.
Wie angedeutet lässt die Präsentation von Adobe einige Fragen offen.
Es wird gesagt, dass man ungefähr 20 Minuten von Stimmaufnahmen einer Person braucht, um mit der Stimme dieser Person freie Texte zu generieren. Anders als in den oben genannten Produkten ist hier nicht die Rede von speziell im Tonstudio angefertigten und für diese Anwendung optimierten Aufnahmen.
– Wie kann man da aber sicherstellen, dass die Phoneme, die man für die Sprachsynthese braucht, in der Aufnahme auch wirklich vorhanden sind?
– Wie werden die Charakteristika der entsprechenden Stimme von den Charakteristika der Aufnahmekette unterschieden? (Zur Erinnerung: Mikrofone und Mikrofonvorverstärker tragen erheblich zum Klang einer Aufnahme bei,).
– Funktioniert der Algorithmus nur mit der englischen Sprache oder beherrscht er schon das „Phonemalphabet“ anderer Sprachen? Und vor allem:
– Wie klingt denn nun ein längerer Text, der mit VoCo generiert wurde? Hier bleibt uns Adobe ein Beispiel schuldig, und ich vermute, aus gutem Grund.
Die menschliche Sprache ist mehr als eine Aneinanderreihung von Phonemen. Ich kann mir gut vorstellen, dass ein Algorithmus gewisse Parameter, wie ein Hochgehen der Stimme bei einer Frage oder ein Heruntergehen der Stimme bei einem Satzende anhand der Interpunktion erkennen kann. Aber Sprache transportiert eben mehr als das.
Wenn ich Sprecher aufnehme, kommt es häufig vor, dass wir ein und denselben Satz mit unterschiedlicher Betonung aufnehmen. Allein dadurch kann man den gesamten Subtext der Aussage variieren.
Über die Sprachmelodie werden auch Emotionen mitgeteilt. Die Präsentation von Adobe verschweigt, wie man derartige Parameter in VoCo mitberücksichtigen kann.
Ich wage die These, dass dies verschwiegen wird, weil es nicht funktioniert. Dies stünde dem Ansatz einer einfachen Bedienung mittels Texteingabe diametral entgegen. Ich halte es durchaus für möglich, dass ein künstlich generierter Text mit gezielter Intonation technisch derzeit noch nicht möglich ist bzw. dass der Aufwand, einen Text derart zu generieren ungleichhöher wäre als die Aufnahme eines professionellen Sprechers.
Ich denke, derzeit könnte man VoCo gebrauchen, um etwa (wie jüngst in Berlin geschehen) die Stationsansagen von Bussen und Bahnen durch einen Prominenten „einsprechen“ zu lassen.
Hier wäre es spannend, ob Programme wie VoCo dazu führen werden, dass neben dem Recht auf das eigene Bild auch das Recht auf die eigene Stimme zu einer neuen juristischen Kategorie heranwachsen wird.
Für einen täglichen Einsatz von VoCo im Radiobetrieb sehe ich in erster Linie den Verkehrsfunk als Möglichkeit. Gegebenenfalls wäre auch ein Einsatz als „Nachrichtensprecher“ denkbar, ich kann anhand des gezeigten Materials nicht beurteilen, ob das Ergebnis davon eine neutrale Stimme (was durchaus gewünscht sein könnte) oder doch eher ein künstlicher, roboterhafter Klang, etwa wie bei Navigationssystemen wäre.
Aufgrund fehlender Möglichkeiten, die Stimme gezielt zu modulieren oder die Betonung von Sätzen zu steuern glaube und – im Sinne der Erhaltung meiner eigenen Existenzgrundlage – hoffe ich, dass VoCo bis auf weiteres kein Ersatz für professionelle Sprecher und Tontechniker sein wird.
Zumindest im Englischen hängt die Sprachmelodie an der Syntax mit dran. Man bewaffne einen Sprachwissenschaftler (Ende 2. Semester sollte reichen) mit einem Bleistift, einem Blatt Papier und einem englischen Satz und er malt eine Baumstruktur auf, aus der ziemlich direkt die Melodie abgeleitet werden kann. Diese Analyse wird dann von Computerlinguisten nachgebaut und automatisiert.
So weit, so schlecht: Es ist sprachwissenschaftlich nicht trivial, wie genau die Satzmelodie an der Syntax hängt. Und dann ist die automatisch analysierte Syntax oft fehleranfällig. Oft gibt es schlicht mehrere Analysemöglichkeiten, aus denen die richtige nur gewählt werden kann, wenn man die Bedeutung versteht. Man kann sich nun leicht vorstellen, dass „Bedeutung“ und „verstehen“ zwei komplett andere Baustellen sind, als der Stall der Sau, die als „künstliche Intelligenz” gerade durchs Mediendorf getrieben wird.
Diese Themen werden in der Computerlinguistik durchaus erforscht, gelehrt etc und man weiß auch schon richtig viel.
Aber das in ein Produkt wie Voco einzubauen, ist auch nicht gerade trivial. Es ist in etwa wie der Schritt von Benz‘ Verbrennungsmotor zum selbstfahrenden Auto.
Selbst wenn auch heute noch „kein Recht auf die eigene Stimme“ existiert, kann sich Jedermann bei einer mißbräuchlichen Zusammenstellung (oder technischen Modulation) seiner Aussagen durch alle Instanzen klagen. Ausgang ist zwar ungewiss aber auf jeden Fall auch für Redaktionen mit erheblichen (Personal)Kosten verbunden.
Ich denke nicht, dass kleine oder große Sender riskieren ihren „Leumund“ zu beschädigen.
Ich hoffe, dass ich Recht habe! Leider ist unsere Welt nicht besonders vernunftgeprägt.