Der digitale Sekretär

Journalisten im Alltag

Der digitale Sekretär

Geeignete Tools zur Spracherkennung und Transkription

3. April 2018, Evelyn Steinbach

Wer viel schreibt und lange am Computer sitzt, hat auf Dauer oft Schmerzen in Handgelenk, Rücken oder Nacken. Was also tun, um entspannter zu schreiben? Mehr Pausen beim Texten sind eine Lösung, nützliche Software zu verwenden eine andere. Die kann auch beim Übertragen aufgezeichneter Interviews helfen. Das Mitschneiden hat für Print- und Onlinejournalisten den Vorteil, alle Aussagen eines Interviewpartners wortgenau festzu-halten und sich zugleich auf die Interviewführung konzentrieren zu können. Was hilft beim Diktieren, Transkribieren und Texterfassen? Eine Übersicht.

Manuelles Transkribieren

Im Quicktime-, VLC- oder anderem Media-Player können Sie die Aufnahme anhören und parallel das Gesagte in einem Textverarbeitungsprogramm wie Word notieren. Dass man hier zwischen zwei Programmen hin- und herwechseln muss, erweist sich insbesondere auf kleinen Bildschirmen als wenig praktikabel. Seit einigen Jahren gibt es Programme für PC und Mac, mit denen Tonspur und Transkript in einem Fenster bearbeitet werden können.

Ein Klassiker ist das Programm „f4/f5transkript“ für Windows, Linux und Mac. Die Demo-Version kann kostenfrei genutzt werden und beinhaltet fünf Freiminuten pro Transkript. Ein USB-Fußschalter kann den Arbeitsprozess unterstützen. Es geht aber auch ohne, denn das Programm heißt „f4“ (Windows, Linux) bzw. „f5“ (Mac), weil die Funktionstasten F4 bzw. F5 für die Befehle Play, Pause und Zurückspulen genutzt werden.

f4 Transkript: Audiospur und Textdatei auf einer Seite. | Screenshot f4/f5transkript

Zu den wesentlichen Vorteilen von Transkriptionssoftware wie dieser gehört es, dass man die Aufnahme bei gleicher Tonhöhe langsamer abspielen kann – entsprechend der eigenen Schreibgeschwindigkeit. Außerdem spult das Programm bei jeder Transkriptionspause automatisch ein kurzes Stück zurück. So hören Sie beim Fortfahren als Orientierung immer die letzten zwei Worte und bleiben im Schreibfluss. Der Text kann gleich auch strukturiert werden: Die Sprecher lassen sich in der Software vorab anlegen. Memos und Kommentare können spontan ergänzt werden. Eine Standard-Lizenz kostet derzeit 99 Euro für unbegrenzte Laufzeit, Studierende zahlen 22 Euro für sechs Wochen bzw. 33 Euro für sechs Monate.

Einfacher ausgestattet ist das kostenlose Windows-Programm „Listen N Write“. Das Tool arbeitet mit einem normalen Media-Player und einem Texteditor. Kurz automatisch zurückspulen, sobald man die Audioaufnahme stoppt, sowie Markierungen setzen beherrscht das Programm ebenfalls. Die Texte lassen sich anschließend im RTF-Format abspeichern. Wer nicht häufig transkribieren muss oder ein Programm für Einsteiger sucht, findet hier eine gute Lösung.

Online transkribieren

Unabhängig vom Betriebssystem arbeitet das Online-Tool „Transcribe“ mit dem Browser Chrome. Das Programm unterstützt Audiodateien in sämtlichen Formaten sowie MP4-Videoaufnahmen etwa von Youtube. Eine kurze Registrierung, dann kann es losgehen. Die Esc-Taste startet und stoppt den Player. Mit den Funktionstasten F1 bzw. F2 lässt sich die Abspiel-Geschwindigkeit reduzieren bzw. steigern, mit F3 und F4 kann man vor- und zurückspulen. Eine Auto-Loop-Funktion ist ebenfalls integriert (ähnlich wie f4/f5 Transkript). Das fertige Transkript kann direkt als Word-Dokument heruntergeladen werden. Eine Woche ist das Programm kostenfrei zum Test verfügbar, danach ist eine Lizenz von 20 US-Dollar (ca. 18 Euro) fällig.

„Otranscribe“ heißt eine alternative Online-Lösung, die auch für andere Browser geeignet und ohne vorherige Anmeldung nutzbar ist. Zwar kann sie funktional etwas weniger als „Transcribe“. Für die einfache und schnelle Anwendung lässt sich dennoch langsam vor- und zurückspulen sowie die Geschwindigkeit anpassen, um das Schreiben zu vereinfachen.

Automatisch von Audio zu Text

Wer wirklich weniger tippen will, muss Programme nutzen, die gesprochene Sprache von selbst in Text umwandeln. Das bereits vorgestellte Tool „Transcribe“ beinhaltet eine praktische Diktier-Funktion: Hier können Sie das Gesagte selbst nachsprechen, um es von der Software erkennen und direkt in Text ausgeben zu lassen. Das kann zum Beispiel hilfreich sein, wenn der Interviewte nicht deutlich gesprochen hat oder wenn Sie zwischendrin Ihren Schreibarm bzw. die Handgelenke schonen wollen.

Die zu transkribierende Audioaufnahme hört man am besten über Kopfhörer. So wird nur Ihre Stimme beim Diktieren aufgenommen und keine Geräusche aus dem Original-Interview. Das Diktat gelingt erstaunlich gut, wenn man mal davon absieht, dass das Programm noch nicht alle gesprochenen Satzzeichen auf Deutsch kennt, dafür aber Anglizismen.

Ohne vorheriges Nachsprechen funktioniert „Trint“. Mit dem Online-Tool können Sie die Audiodatei hochladen und erhalten in kürzester Zeit einen getippten Text. Allerdings ist die Qualität des Ergebnisses nur so gut wie seine Aufnahme. Undeutliche Sprache und laute Hintergrundgeräusche verhindern, dass das Programm das Gesagte zu 100 Prozent richtig wiedergibt. Daher muss der entstandene Text Wort für Wort auf Fehler überprüft werden. Zudem ist der umgewandelte Text noch frei von Satzzeichen.

Trint kostet 16,20 Euro für eine Stunde Material, für eine Pauschale von 45 Euro erhält man drei Stunden im Monat. Kostenfrei testen kann man das Tool für 30 Minuten Audioaufnahme, nachdem Sie sich angemeldet haben.

Tipp: Wer Programme zur Audiobearbeitung wie zum Beispiel Auphonic nutzt, kann die Aufnahme zuvor von einigen Störgeräuschen befreien. Bei langen Interviews kann sich dieser Aufwand durchaus lohnen.

Für kurze Texte, Notizen und E-Mails kann auch die integrierte Sprachaufzeichnung des Computers nützlich sein, wie etwa Siri, die „Stimme“ von Apple. Allerdings ist auch Siri störanfällig und bricht schnell ab, wenn „sie“ einen nicht versteht oder man nicht flüssig zu ihr spricht.

Tipp: Richtmikrophon

Auch wenn viele Laptops heute mit einem integrierten Mikrofon ausgestattet sind, wird Sprache darüber nur bedingt erkannt. Besser ist ein kleines Richtmikrofon zum Anstecken an der Kleidung im Halsbereich. Dies hat den Vorteil, dass im Gegensatz zu einem Headset nichts im Gesicht bzw. am Kopf stört, wenn man länger am Computer arbeitet.

Aufzeichnen mit Profi-Software

Besser ist es, professionelle Software zu verwenden wie „Dragon Professional Individual“ von Nuance Communications. Die Software kann nicht nur die live eingesprochene Sprache, sondern auch bestehende Audio-Dateien in Text umwandeln – und das erstaunlich gut.

Der Download und die Installation der Software gelingen schnell über die Website des Unternehmens. Bis es aber losgehen kann, braucht es für die Sprachaufzeichnung ein bisschen Übung. Am besten öffnen Sie ein Schreibprogramm wie Word oder einfach den Texteditor und lesen ein paar Sätze laut vor, um zu beobachten, wie das Programm diese Information verarbeitet. Wichtig ist, dass Sie auch jedes Satzzeichen laut vorlesen, denn das Programm enthält keine automatische grammatikalische Korrektur.

Individuelle Sprecherprofile lassen sich bei Dragon anlegen – auch für andere Sprachen. | Screenshot Dragon

Sobald Sie das Prinzip verstanden haben, empfiehlt es sich, die Erkennung zu verbessern. Dazu können Sie das Sprachtraining von Dragon absolvieren und „neues“ Vokabular einüben. So kann anschließend ein eigenes Profil für Ihre Sprache inklusive Besonderheiten wie Dialekt oder Fachausdrücke angelegt werden.

Um längere Texte zu schreiben, sollten Sie sich auch die Befehle im Diktiermodus anschauen. Nicht alle kann man sich auf einmal merken, sodass der Schreibfluss zu Beginn etwas stocken kann. Sie können während der Eingabe immer mal wieder auf das Hilfsfenster blicken, so bekommen Sie allmählich einen Überblick über die wichtigsten Befehle wie zum Beispiel „Großbuchstaben“ schreiben, „Leerschritte setzen“ oder „neuer Absatz“ einfügen.

Übersicht der Befehle: Satzzeichen müssen bei jeder Spracherkennungssoftware diktiert werden. | Screenshot Dragon

Veränderter Arbeitsprozess

Mittlerweile schreibe ich 70 Prozent meiner Mails und etwa 30 Prozent meiner Artikel per Sprachaufzeichnung. Doch 100-prozentig versteht Dragon mich immer noch nicht. Das liegt unter anderem daran, dass öfters Eigennamen, Anglizismen oder auch Satzkonstruktionen verwendet werden, die das Programm noch nicht gespeichert hat. An diesen Stellen greife ich noch manuell ein und korrigiere mit Maus und Tastatur die Wörter. Fehler können auch auftreten, wenn Sie nicht deutlich ins Mikrofon sprechen oder das Sprech-Tempo variieren. Daher sollten Sie parallel zum Sprechen den getippten Text mitlesen. Befinden Sie sich etwas weiter vom Computer entfernt, können Sie sich die Zeilen zwischendrin auch von der integrierten Computerstimme vorlesen lassen.

Ein kleiner Haken könnte der Preis sein: 299 Euro kostet Dragon Professional Individual für Mac 6, die Version für Windows 399 Euro. Die Einsteigervariante für den PC – Dragon Home, v13 – gibt es für 99 Euro. Letztlich aber eine gute berufliche Investition, die man obendrein von der Steuer absetzen kann.

Gesprochenes Wort in Text umwandeln

Unter folgenden URLs sind die besprochenen Programme im Netz zu finden.

f4 & f5transkript: audiotranskription.de
Listen n Write: elefantsoftware.weebly.com/listen-n-write.html
Transcribe: transcribe.wreally.com
Otranscribe: otranscribe.com
Trint: trint.com
Dragon: nuance.de/dragon

Alle Angaben ohne Gewähr.