Transkribieren leicht gemacht.

Wie künstliche Intelligenz das Radiomachen verändert.

Thomas Reintjes hat immer gestaunt über Kollegen, die ihre Interviews transkribieren. Ihm war das zu aufwändig. Er selbst transkribierte meist nur die Töne, die er tatsächlich benutzte. Statt mit Text arbeitete er fast ausschließlich mit Audio-Clips. Bei komplexen Projekten hatte er deshalb manchmal Mühe, den Überblick zu behalten – so ganz ohne Volltextsuche für sein Archiv.

via GIPHY

Doch jetzt zeichnen sich Lösungen ab, die Text- und Audio-Arbeit miteinander verbinden, und dabei vieles einfacher und effizienter machen.

In den vergangenen Monaten jedenfalls hat Thomas Reintjes einige neue Programme und Angebote ausprobiert und ist überzeugt: „Diese Werkzeuge werden die Art und Weise wie wir Radio machen verändern.“

Über den Autor Thomas Reintjes:

Macht Radio über Wissenschaft und Technik, Menschen und Geschichten. Er lebt und arbeitet als Freelancer in New York. Weil er das Zehnfingersystem nicht beherrscht, lässt er lieber den Computer für sich tippen.

Künstliche Intelligenz hilft mir seit August 2016 dabei, aus Interviews Radiobeiträge zu machen. Silicon-Valley-Firmen wie Google und Wit.ai haben Algorithmen entwickelt, die gelernt haben natürliche Sprache zu verstehen.

Diese Unternehmen hatten dabei wohl kaum im Sinn, Radiomachern einen Dienst zu erweisen. Sie wollen eher Sprachsteuerungen in Telefonen, Computern, Autos und an Hotlines verbessern oder Filme automatisch untertiteln. Doch die Audio-Magier von Auphonic, einem österreichischen Service zum automatischen Aufhübschen von Sprachaufnahmen, machen diese Spracherkennungsalgorithmen jedem zugänglich.

Ich musste das sofort ausprobieren, habe mir Accounts bei Google und Wit.ai angelegt, diese mit meinem Auphonic-Account verknüpft und schließlich einen Ausschnitt aus einem Interview hochgeladen. Schätzungsweise eine Minute später konnte ich das Transkript herunterladen. Zum besseren Vergleich habe ich folgende Tabelle angelegt:

Ich war ziemlich beeindruckt von der Qualität. Aber richtige Begeisterung kam auf, als ich auch einen deutschen O-Ton hochlud:

Auch wenn die Transkription nicht perfekt ist, ist sie doch eine sehr gute Ausgangsbasis. Für viele Anwendungsfälle wie etwa ein durchsuchbares Archiv muss das Transkript ja auch nicht perfekt sein.

Auphonic scheint den Schwerpunkt auf die Verwendung der Transkripte als Untertitel zu legen. Auf der Seite finden sich interessante Beispiele mit Playern, die Untertitel unterstützen. Das ist gut für die Barrierefreiheit und die Auffindbarkeit von Audioinhalten im Netz. Aber als Radiomacher interessiert mich vor allem, wie Transkripte mir die Arbeit in der Produktion erleichtern können.

Dazu lohnt sich ein Blick auf Trint: Die Qualität der Transkription ist vergleichbar mit der von Auphonic bzw. Google und Wit.ai – wahrscheinlich greift auch Trint auf einen dieser Dienste zurück, um die Texte zu erstellen. Das Besondere an Trint ist jedoch, wie sich die Transkripte danach bearbeiten lassen. Dazu verknüpft die Seite Text und Audio auf intuitive Weise miteinander.

Beim Klick in den Text wird genau diese Stelle im Audio abgespielt. Man kann den Text korrigieren und interessante Stellen farblich markieren. Und genau das mache ich inzwischen oft, anstatt Clips aus dem Audio zu schneiden.

Später, beim Schreiben des Manuskripts, kopiere ich Textstellen aus Trint in meinen Texteditor. Beim Kopieren wird automatisch der jeweilige Timecode mit eingefügt, sowie die Länge der Passage und der Name des jeweiligen Sprechers. Hier ein aus Trint kopierter Satz:

Max Mustermann: [00:00:23] Das ist das Einfachste einfach alle Sachen am Laufen zu halten und zu wissen was der Status dieser verschiedenen Moleküle ist [11.5]

Ich finde Trint überzeugend, weil es die Vorteile des textbasierten Arbeitens mit sich bringt – vor allem, dass man Text viel schneller erfassen kann als Audio – ohne dass der Bezug zum Audio verloren geht.

Einen ähnlichen Text-Editor-Player wie Trint entwickelt übrigens derzeit das deutsche Startup Podigee. Einen ersten Vorgeschmack gibt es hier:

Podigee ist allerdings bisher wie Auphonic näher an der Veröffentlichung als an der Produktion von Audio-Inhalten angesiedelt. Ob für Autoren sinnvolle Features eingebaut werden, ist offen.

Es ist aber zu erwarten, dass kombinierte Text-Audio-Editoren auch als eigenständige Profi-Software veröffentlicht werden oder entsprechende Funktionen in bestehende digitale Audio Workstations integriert werden. Auch hier gibt es einen ersten Eindruck:

Das kalifornische Unternehmen Detour hat für die Produktion seiner App-basierten Stadtführungen (die übrigens sehr empfehlenswert sind!) eine eigene Software entwickelt, die demnächst auch als Produkt angeboten werden soll. Das Programm namens Descript sieht nach einem sehr, sehr nützlichen Werkzeug aus:

Descript erlaubt also das Editieren sowohl im Text wie auch im Audio und reflektiert die Änderungen auf der einen Ebene in der jeweils anderen. Und es erstellt nicht nur Transkriptionen mittels Speech-to-Text, sondern verfügt auch umgekehrt über eine Text-to-Speech-Funktion. So kann die Software geschriebenen Beitragstext vorlesen.

Das alles funktioniert zurzeit nur mit englischen Tönen und Texten, sodass ich es nicht wirklich im Praxiseinsatz testen konnte. Das gleiche gilt für eine Funktion, die das Audio von eingesprochenen Manuskripten wieder mit dem Text-Manuskript verknüpft, sodass man praktisch den kompletten Beitrag in Descript bauen und bearbeiten kann.

Ich kann mir gut vorstellen, dass das nicht nur für Autoren, sondern auch für Redakteure die Arbeit verändern wird. Mir erschien es schon immer merkwürdig, dass Redakteure einen Beitrag nur auf Basis eines Textmanuskripts redigieren. Mit Descript könnten sie viel besser einen Eindruck vom Klang des Beitrags gewinnen, ohne dass dazu zusätzlicher Arbeitsaufwand nötig wäre – im Gegenteil:

Gut, ein gewisser Preis ist natürlich fällig. Während Auphonic zwei Stunden pro Monat gratis anbietet und auch darüber hinaus erschwinglich ist, verlangt Trint nach einem kostenlosen Test bis zu 15 Dollar pro Stunde Audiomaterial.

Immer noch günstig im Vergleich zu händischer Transkription, wobei die Qualität dann aber doch noch nicht dasselbe Level erreicht. Außerdem muss jeder selbst entscheiden, ob er seine Interviews auf amerikanische Server hochladen möchte.

Sämtliche besprochenen Dienste sind noch im Beta-Test. Doch obwohl es manchmal hakt und hier und da was nicht funktioniert, obwohl ich noch das ein oder andere Feature vermisse, bin ich von der neuen Arbeitsweise, die mir diese Werkzeuge in den vergangenen Monaten ermöglicht haben, begeistert.

Ich habe wirklich das Gefühl, mein Material besser auswerten zu können, schnelleren Zugriff zu haben und Geschichten besser erzählen zu können. Die Verschmelzung von Manuskript und Audio, die bisher nur in unseren Köpfen stattfand, wird von diesen Programmen aufgegriffen und greifbar gemacht.

Ich glaube, wenn sie ausgereift sind und dem professionellen Einsatz standhalten, werden diese Tools das Radiomachen fundamental verändern. Arbeitsprozesse jedes einzelnen werden sich ebenso ändern wie Abläufe in der Kollaboration zwischen Autoren und Redaktionen. Und am Ende stehen hoffentlich noch bessere Beiträge und Sendungen.

Über dieses Blog:

Auf www.radio-machen.de schreibt die Hörfunkerin Sandra Müller über alles was Audio ist, kann, faszinierend macht. Das macht sie auch auf Twitter und facebook. Sie freut sich über Gastautoren, die auch Lust haben, über Audio und Radio zu schreiben.

6 Antworten auf „Transkribieren leicht gemacht.“

Jan Eggers sagt:

3. Januar 2017 um 16:38 Uhr

Viereinhalb Stunden O-Töne zu verschriftlichen, deshalb habe ich mich mal frisch hingesetzt und versucht, auf den Spuren von Thomas zu wandeln (zunächst mal mit Auphonic). Meine Erkenntnisse:

(1) Um alles einzurichten, darf man wirklich keinerlei Angst vor Technik haben. Hey, ich gelte in unserer Redaktion als der Nerd vom Dienst, und ich habe bei Google eine ganze Weile gesucht und mich bei jedem Klick gefragt: habe ich da jetzt aus Versehen einen teuren Service-Vertrag abgeschlossen? Einrichtungszeit für Auphonic mit Google als Transkribier-Dienst: etwa eine Dreiviertelstunde.

(2) Das, was rauskommt, nachbearbeiten: da kommt dann doch wieder mein gutes, altes Lieblings-Transkribier-Tool otranscribe.com zum Einsatz, und zwar so: Original-Audio laden, Auphonic-Transkription als Text ins Otranscribe-Editorfenster kopieren, Audio schnell abspielen (mit doppelter bis dreifacher Geschwindigkeit) und dann immer wieder mit Ctrl-J Zeitmarken nachtragen bzw. korrigieren.

(3) Die Zeit- und Nervenersparnis: durchaus relevant. Vom: „Ich lad jetzt mal meine O-Töne hoch und gehe so lang Kaffee trinken“ zwar weit entfernt, aber ich überlege mir sehr, ob ich nicht die paar Euro für den kostenpflichtigen Auphonic-Dienst ausgebe – schon um ein pfiffiges Grazer Startup zu unterstützen, vor allem aber, weil’s echt eine Menge Arbeit spart. Ich schätze, dass man mit dieser Technik und etwas Übung in etwa die Laufzeit eines Audios braucht, um es zu verschriftlichen, damit hätte sich mein Zeitaufwand etwa halbiert.

Aber wie gesagt: die Einstiegshürden sind (noch) nicht ohne, finde ich.

Antworten
1. Thomas sagt:
  
  6. Februar 2017 um 19:59 Uhr
  
  Danke für den Kommentar. Genauso ging’s mir bei der Einrichtung von Google für Auphonic auch. Nutzerfreundlich ist das nicht.
  Der Tipp mit oTranscribe ist super. Trotzdem fehlt mir noch eine bessere Verknüpfung des Audios mit den Transkriptionen von Auphonic. Descript kann existierende Texte mit Audios abgleichen und verknüpfen, aber halt nur auf Englisch.
  Deswegen, also wegen Nutzerfreundlichkeit und der Verbindung von Audio und Transkript, benutze ich bisher hauptsächlich Trint.
  
  Antworten
Anja sagt:

6. Februar 2017 um 12:08 Uhr

Hallo Thomas, vielen Dank für diesen Überblick und Vergleich. Das ist sehr hilfreich!

Ich hab neulich auch von einer Kollegin von Trint gehört, es ausprobiert und war gleich ziemlich begeistert: Die Transkription des ersten Files (30 Minuten) dauerte wirklich nur wenige Minuten und war gut genug, um damit zu arbeiten.

Mittlerweile dauert der Prozess doch etwas länger. Zumindest bei mir ist das System ist Trint auch noch etwas buggy, mein Computer schnauft, wenn die Transkription im Browser läuft. Die Seite hängt sich auch immer mal wieder auf, so dass ich nicht an meine Transkripte komme.

Aber das ist halt Beta, und der Support ist super – ich kriege immer schnell eine persönliche Antwort mit Tipps zur Problemlösung.

Ich hab den Support mal gefragt, welche Anbieter sie nutzen, ob die Interviews also auch über Google oder Wit.ai und weitere Server gehen. Zurück kam die Antwort, dass niemand das Transkript sehen kann und dass die Dateien beim Löschen auch wirklich wieder verschwinden. „We use machine generated learning which converts your audio into text thus eliminating the middleman“. Gespeichert wird auf einem Cloudserver von Amazon Web Services in Nordamerika.

Bisher habe ich das Audio-Transkriptionsprogramm F4 bzw. F5 genutzt. Das kann man mit dem Trint-Transkript gut kombinieren, um offline zu arbeiten. Einfach Word-Dokument bei Trint runterladen, dann funktionieren sogar die Zeitmarken bei F4/F5. Eine gute Kombi, die weniger Arbeitsspeicher verbraucht, sobald das Skript fertig ist.

Die Kosten sind bei Trint natürlich eine Sache, wobei der Preis die Zeitersparnis für mich absolut wert ist. Ich werd nach Lektüre deines Posts aber auch die anderen Services und Kombinierbarkeit mit F4/F5 testen. Dann hat man fast alle Vorteile von Trint offline – Text und Audio sind kombiniert und über die Zeitmarken klickbar.

Antworten
Klaus Martin Höfer sagt:

18. März 2017 um 15:18 Uhr

Ich habe gerade eine halbe Stunde Interview auf die Trint-Seite hochgeladen, was bei meiner eher langsamen Verbindung länger gedauert hat als die Bereitstellung der transkribierten Datei. Der Texte muss zwar fürs Manuskript noch überarbeitet werden, aber er ist schon mal sehr gut. Bei meinem üblichen händischen Transkribieren habe ich im ersten Durchlauf auch viele Tipp- und Schreibfehler, vielleicht sogar mehr. Wirklich sehr sehr gut ist auch die Audioline unten auf der Seite. Wermutstropfen: Der hohe Preis. Hat jemand Erfahrung, wie gut die Übertragung nicht genutzter Stunden in den nächsten Monat funktioniert?

Antworten
Gormi sagt:

12. April 2017 um 12:49 Uhr

Das Programm sieht klasse aus. Habe bereits zig Software dieser Art genutzt und war nie restlos überzeugt.

Der Preis ist auch relativ gering. Werde es mal demnächst mal testen.
Danke für den heißen Tipp!

VG
Gormi

Antworten
Pingback: Audio-Dateien automatisch transkribieren | Corporate Learning - Training und Wissensmanagement

Transkribieren leicht gemacht.

Gefällt mir:

Ähnliche Beiträge

6 Antworten auf „Transkribieren leicht gemacht.“

Schreibe einen Kommentar Antworten abbrechen