Warum Text in Videos?

Erstveröffentlichung: tekom-Fachzeitschrift „technische kommunikation”, Heft 04/2020. Co-Autoren: Roland Schmeling (Schmeling + Consultants GmbH, Heidelberg) und Florian Kadelbach (yntro GmbH). Für die Web-Aufbereitung 2026 wurden Tippfehler korrigiert und die Typografie vereinheitlicht; ein abgesetzter Hinweis am Ende ergänzt den normativen Rahmen, der seit 2020 hinzugekommen ist. Der argumentative Kern bleibt unverändert.

Videos über die Verwendung von Produkten sind heute Standard in der Technischen Kommunikation, als Realfilm, als Animation, als Screencast oder eben als Kombination von allem. In der Technischen Kommunikation liegt dabei das Gewicht besonders auf Instruktionsvideos. Sie haben den Zweck, eine Benutzerin oder einen Benutzer anzuleiten, ein Produkt sicher und vollständig bedienen zu können.

Fragen über Fragen

Wer sich mit Instruktionsvideos befasst, steht zunächst vor strategischen Fragen: Welchen Zweck sollen die Videos erfüllen? Sollen sie eine bestehende Technische Dokumentation (teilweise) ersetzen (Substitutionsstrategie) oder zusätzlich eingesetzt werden, beispielsweise zur Kundenbindung (Redundanzstrategie)? Welche Produkte, Zielgruppen, Märkte, Anwendungssituationen und Aufgaben sollen abgedeckt werden? Welches sind die erforderlichen Plattformen für die Bereitstellung der Videos? Welche Qualitätsanforderungen existieren? Wer ist verantwortlich für Erstellung, Freigabe, Publikation und Pflege, und welche Ressourcen sind dafür erforderlich? Welche Standards werden gesetzt, und wie? Und nicht zuletzt: Wie wird die Wiederverwendung organisiert?

Durchaus kontrovers wird immer wieder diskutiert, ob Instruktionsvideos ohne Text und Sprache und damit ohne Übersetzung auskommen. Diese Diskussion möchten wir hier aufgreifen und damit die Beantwortung der strategischen Fragen bei der Einführung von Instruktionsvideos unterstützen.

Eine erste Orientierung

Wie ein Handlungstopic einer Anleitung mit Text und Bild soll ein Instruktionsvideo zu einem bestimmten Handlungsziel führen. Dementsprechend erwarten wir, dass ein Video alle für die Handlung relevanten Informationen enthält und damit vollständig ist. Dies schließt Warnungen oder technische Daten mit ein, Informationen, die gewöhnlich die Textform erfordern. Benötigen Instruktionsvideos also Text, um vollständig zu sein?

Instruktionsvideos können für sich stehen: Stand-alone-Video. Diese Videos haben typischerweise mindestens eine Länge von wenigen Minuten. Eine umfangreichere Anleitung in ein Instruktionsvideo zu verpacken, erfordert entsprechende Navigationsmöglichkeiten innerhalb des Videos. Diese Aufgabe ist nicht unlösbar, gehört aber nicht zum Standard eines Videos.

Instruktionsvideos können allerdings auch in andere digitale Texte und Bilder eingebettet sein und mit ihnen eine hybride Anleitung bilden: Die das Video umgebenden Informationen können das Video beispielsweise in einen Handlungskontext einordnen oder es auffindbar machen. Im Extremfall können die eingebetteten Videos in so kurze Sequenzen geschnitten sein, dass sie jeweils einen Handlungsschritt darstellen und enden, bevor etwa ein Warnhinweis mit Text erforderlich wird. Diesen Ansatz verfolgen Utility-Filme: Die Mini-Videos, die typischerweise einen einzelnen Handlungsschritt abbilden, werden in einen Kontext eingebunden. Dieser verknüpft die Videos, bringt sie beispielsweise in eine handlungslogische Reihenfolge, verzweigt sie oder unterbricht sie mit Textinformationen.

Grenzen bildlicher Darstellung

Jedes Video setzt sich aus vielen Einzelbildern zusammen. Beginnen wir also zunächst beim statischen Bild, um unsere Frage zu beantworten, ob Text in Instruktionsvideos erforderlich ist.

Was Text und Bild leisten und was nicht, ist nicht neu und wird nicht erst mit dem Aufkommen von Instruktionsvideos untersucht: Die Möglichkeiten nonverbaler Anleitungen werden umso intensiver diskutiert, je höher die Übersetzungskosten und die Anforderungen an die Verpackung sind. Dass jedoch „IKEA-Style” nur bei einem begrenzten Teil von Anleitungen funktioniert, ist eine bekannte Tatsache. Nicht zuletzt nutzt IKEA textliche Anleitungen in Fällen, wo die Grenzen bildlicher Darstellung erreicht sind.

Eine Grenze können die Handlungsverben sein. Abbildungen in Anleitungen zeigen zumeist Zustände, Handlungen hingegen werden bevorzugt mit Text beschrieben, da die Sprache mit Verben über ein differenziertes Repertoire zur Beschreibung von Handlungen verfügt. Für eine Reihe von Verben gibt es zwar ikonische Äquivalente, die gut verstanden werden, aber keineswegs für alle benötigten Verben. Dazu ein Beispiel: Ein Bild zeigt eine Schraube, die an der Drehachse ausgerichtet über einem Loch schwebt. Dazwischen steht ein Pfeil, der von der Schraube auf das Loch zeigt. Die meisten Menschen erkennen, dass die Schraube in das Loch eingesetzt oder eingedreht werden soll. Das gilt besonders, wenn das Bild zusammen mit anderen Bildern auf einer Packungsbeilage des Produkts steht, das zur Montage bestimmt ist; hier unterstützt der Kontext das funktionale Verstehen, die Pragmatik. Schwieriger wird die bildliche Darstellung, wenn die Schraube entgegen der Erwartung nicht vollständig festgedreht, sondern nur lose eingedreht werden soll.

Die folgenden Handlungen stellen einen Technischen Illustrator vor größere Herausforderungen:

Der Fahrer soll das Fahrzeug langsam beschleunigen.
Ein Anwender soll prüfen, ob das Blech festsitzt und sich nicht verdrehen lässt.
Die Reinigungskraft soll zusätzlich einen Schaber verwenden, wenn sich Verkrustungen auf der Oberfläche gebildet haben.

Wörter können diese Handlungen problemlos beschreiben, bei Bedarf mit Bildern, die auf die betroffenen Gegenstände referenzieren. Auch ohne die Text-Bild-Koordination ausführlich zu diskutieren, können wir an den Beispielen nachvollziehen, dass der Informationsvermittlung nur mit Bildern Grenzen gesetzt sind. Was heißt das nun für Videos?

Die Möglichkeiten von Video

„Die geistige Leistung beim Lesen von Comics liegt in der Ergänzung der Bildzwischenräume.” — Steffen-Peter Ballstaedt, Professor für angewandte Kommunikationswissenschaft

Ähnliches dürfte auch für Bildanleitungen gelten. Videos haben typischerweise eine Bildwechselfrequenz von 25 Bildern pro Sekunde. Damit verschwinden die Bildzwischenräume bei Videos unter die Wahrnehmungsgrenze. Ist das Medium Video in der Lage, die Grenzen bildlicher Darstellung deutlich zu verschieben, sodass man in diesen Fällen ohne Text auskommt? Hat ein Video gegenüber einer statischen Bildanleitung den entscheidenden Vorteil, Text überflüssig zu machen?

Gründe für Verständnisprobleme

Bei Instruktionsvideos ohne Text oder Sprache stoßen wir auf eine Reihe von Problemen, denen wir im Einzelnen nachgehen möchten.

Fehlende Nomination

Sind Text und Sprache nicht vorhanden, bleiben Gegenstände im Video namenlos. Für das reine Nachahmen wäre dies meist kein Problem, für die nachfolgende Kommunikation hingegen schon. Schließlich werden beim Telefonat mit der Hotline, bei der Ersatzteilbestellung oder der Recherche nach weiterführenden Informationen die Bezeichnungen der Gegenstände benötigt. Wenn ein Instruktionsvideo nicht nur eine klassische Anleitung ergänzen, sondern zumindest teilweise ersetzen soll, müssen relevante Gegenstände benannt werden.

Funktionale Unbestimmtheit

Eine Leistung der Linguistik besteht darin, dass sie auf die Bedeutung des kommunikativen Zwecks für die Verständlichkeit hingewiesen hat. Wozu ein Bild dient, etwa zur Anleitung, zur Abschreckung, zum Wissensaufbau, als Aufforderung zur Meinungsbildung oder einfach zur persönlichen Erbauung, das kann das Bild nicht sagen. Text hingegen schon: Ein „Wenn” läutet eine Bedingung ein, ein „Kann” ist kein „Muss”, und ein als Überschrift gestalteter Text „Pumpe anschließen” läutet eine Abfolge von Schritten mit einem klaren Ziel ein.

Ein Kontext kann die pragmatischen Möglichkeiten eingrenzen: Beispielsweise hat ein Bild in einer Montageanleitung offensichtlich einen anderen kommunikativen Zweck als ein Bild in einem Kunstband oder in einer Fachzeitschrift. Doch der kommunikative Bedarf ist größer, als der Kontext erklären kann. Hier lohnt sich ein Blick in die kommunikativen Funktionen, die das Funktionsdesign für eine klassische Technische Dokumentation identifiziert hat, zum Beispiel:

Zielangabe und Teilziel
Voraussetzung
benötigtes Material
Inventarinformation (Benennungen von Gegenständen)
Handlungsaufforderung
Bedingung
Teilziel
Resultat
Erklärung
Prüfhandlung
Warnhinweis
Verweis auf eine weiterführende Informationsquelle

Teilweise haben diese kommunikativen Funktionen wiederum eine innere Struktur, beispielsweise die Prüfhandlung oder der Warnhinweis. Die Funktionen lassen sich einschließlich ihrer inneren Struktur mit Texten klar differenzieren. Mit rein bildlichen Mitteln sind die Grenzen der Darstellbarkeit jedoch schnell erreicht. Ein Potenzial ist dabei noch nicht ausgeschöpft: Konventionen. So werden zum Beispiel Alternativen in Bildern gelegentlich mit Buchstaben gekennzeichnet („A” und „B” in Abgrenzung von einer nummerierten Bildfolge). Für Videos könnten bestimmte bildliche Darstellungsmittel nach und nach entwickelt werden, um Funktionen zu verdeutlichen, ähnlich wie die Filmindustrie parallele Handlungen durch Split-Screen oder Rückblenden mit Unschärfe oder Schwarz-Weiß darstellt. Nach unserer Ansicht sind daher zukunftsfähige Videoleitfäden nach kommunikativen Funktionen gegliedert.

Mangelnde Abstraktion

Wozu denn abstrahieren, wenn der Anwender ein konkretes Handlungsziel erreichen soll? Hinter einer Handlung einen Zusammenhang und eine Regel zu erkennen, ist eine Abstraktion. Beispiel: Nicht nur bei dieser Elektronik muss eine Benutzerin oder ein Benutzer elektrostatische Aufladung vermeiden, sondern bei jeder Elektronik dieser Art. Wenn ein Ziel des Instruktionsvideos ist, dass ein Servicemitarbeiter kompetenter wird und beim nächsten bauähnlichen Produkt ohne Anleitung auskommt, dann müssen die Handlungen auch begründet werden; der Anwender muss die Regelhaftigkeit erkennen können. Nach allem, was wir wissen, ist dafür Sprache erforderlich.

Logische Beziehungen

Beziehungen zwischen Informationen sind „unsichtbar” und entziehen sich weitgehend einer bildlichen Darstellung. In Bildern findet man Beziehungen oft mit Pfeilen dargestellt. Doch welche Beziehung drückt der Pfeil aus? Zeigt er eine Bewegung? Und wenn ja: Von welchem Gegenstand aus, der Gegenstand am Pfeilfuß, an der Pfeilspitze oder der Gegenstand unter oder über dem Pfeil? Zeigt der Pfeil eine Kraftwirkung, einen Energiestrom oder einen Warenstrom? Oder handelt es sich lediglich um einen Zeigepfeil, der die Aufmerksamkeit steuert?

In der Normung finden wir einige standardisierte Pfeilformen. Aus Sicht der Technischen Redaktion sind sie bestimmt hilfreich, nützen einem Anwender aber wenig, wenn er mit den Standards nicht vertraut ist. Suchen wir also nach Alternativen.

Um in einem Video eine Beziehung zwischen zwei Gegenständen zu verdeutlichen, lässt sich das sogenannte „Gestaltgesetz des gemeinsamen Schicksals” nutzen: Die Gegenstände, die in der Beziehung zueinander stehen, bewegen sich gleichzeitig und synchron, sodass der Betrachter einen Zusammenhang vermutet. Aber auch hier bleibt die Art der Beziehung offen: Wenn-Dann (Bedingung), Ursache-Wirkung (Funktion), Entweder-Oder (Alternative), thematische Hierarchie (Gliederung), begriffliche Hierarchien (zum Beispiel Ober- und Unterbegriff) oder Begründungen (Warum-Beziehungen).

Letztere haben einen wichtigen Einfluss auf die Bildrezeption, beispielsweise auf die Wahrnehmung („das Regal kippt, weil es nicht an der Wand befestigt ist”) und auf die zugemessene Bedeutung („überschüssiges Motoröl abwischen, weil es sich entzünden kann”). Ein Beispiel einer Prüfhandlung: In einem Video bewegt der Protagonist ein Kabel mit Stecker in einer Buchse. Den Grund dafür, nämlich sicherzustellen, dass das Kabel eingerastet ist, zeigt das Video nicht. Auch die Bewegungsrichtung, der Protagonist zieht an dem Kabel, ist im Video nicht klar erkennbar, weil das Kabel wie gewünscht eingerastet ist und sich daher nicht in Zugrichtung bewegt. Ein Betrachter, der weiß, dass man den sicheren Sitz des Kabels prüfen sollte, erkennt die Prüfhandlung vielleicht noch. Der wichtigsten Zielgruppe von Betrachtern aber, denen dieser Schritt nicht vertraut ist, entgeht die Handlung, wenn sie nicht begründet wird.

Zeitliche Abfolgen (Sobald/Nachdem) werden in den zumeist chronologischen Instruktionsvideos nach unseren Erfahrungen weitgehend problemlos verstanden. Auch Teil-von-Beziehungen lassen sich noch gut zeigen. Danach wird es schwieriger; beispielsweise sind begriffliche Hierarchien kaum darstellbar. Das Bild ist immer konkret: Es kann nicht „eine Zange” gezeigt werden, sondern nur „die bestimmte rote Kombizange”. Wenn diese Kombizange allgemein für irgendeine Zange stehen soll, müssen dies Anwender im Normalfall aus ihrem Hintergrund- und Weltwissen erschließen.

Negationen und Warnungen

„Zeige, was man tun soll; zeige nicht, was man nicht tun soll.” Dieses unter Filmern bekannte Paradigma hat seinen Sinn: Während die konkrete Handlungssequenz zum „Nachmachen” eine bewährte Methode ist, muss die Negation zusätzlich wahrgenommen, umgesetzt und beibehalten werden. Ein Beispiel aus eigener Erfahrung: Ein Mitarbeiter eines Technikdienstleisters soll ein Fernsehinterview geben. Der Mitarbeiter wird zuvor gebeten, die Hotline des Unternehmens nicht zu nennen, um eine Überlastung der Hotline zu vermeiden. Im Interview weist der Mitarbeiter prompt auf die Hotline hin (die Szene wurde später herausgeschnitten). Eine Verneinung setzt eine (positive) Vorstellung der negierten Handlung voraus; die Negation ist ein zusätzliches Attribut und kann übersehen oder vergessen werden.

Warnhinweise zeichnen sich nicht nur dadurch aus, dass sie häufig Vermeidungen enthalten, sondern auch durch die Anforderung, die Folgen von Nichtbeachtung klar darzustellen. Übertriebene Darstellungen von Verletzungsfolgen wie in dem Film „Staplerfahrer Klaus” sollten in Instruktionsvideos ausgeschlossen werden. Aber selbst realistische Darstellungen von Verletzungsfolgen sind selten im Sinne eines Herstellers. Das Mittel der Wahl ist die textliche Darstellung von Gefährdungsfolgen. Sie ist klarer und abstrakter.

Viele Instruktionsvideos blenden Sicherheit und Risiken nahezu aus, verpacken es allzu freundlich, bauen lediglich ein paar Symbole fragwürdiger Verständlichkeit ein oder verweisen auf die schriftliche Anleitung. So fehlten in 18 von 19 Videokonzepten, die im Forschungsprojekt „Mobiles Multimediales Funktionsdesign” untersucht wurden, jegliche Warnhinweise. Die damit verbundenen Haftungsrisiken machen diese Ansätze äußerst problematisch. Ganz abgesehen von den Nachteilen für die Benutzer, die neben dem Video eine gedruckte Technische Dokumentation benötigen.

Qualifizierende Informationen

Qualifizierende Informationen beschreiben Eigenschaften von Gegenständen und Handlungen. Einige Arten dieser Informationen lassen sich bildlich besser darstellen als mit Text, etwa das Ausmaß einer Beschädigung: Ist die Bremsscheibe funktionstüchtig oder muss sie gewechselt werden?

Wenn jedoch die Eigenschaften nicht sichtbar sind, stößt das Video an seine Grenzen: Wie viel Kraft darf ich aufwenden, um den Bildschirm des Geräts vom Gehäuse zu entfernen? Ist das Tuch zum Abwischen trocken, feucht oder gar nass? Im Video sind Produkteigenschaften häufig nicht klar zu erkennen. Das nasse Tuch ließe sich noch durch das Nassmachen im Video verdeutlichen, beim Kraftaufwand wird es aber deutlich schwieriger.

Nutzungsbezogene Probleme

Zu den genannten verständlichkeitsorientierten Problemen kommen weitere, die sich auf den Nutzungsprozess von Videos beziehen.

Kontext

Die Betrachtung eines Bildes, das keinen klaren Kontext und Bezug hat, sorgt zwangsläufig für Fragen: Was soll mit dem Bild berücksichtigt werden? Wie soll sich der Betrachter verhalten? Ein Blatt Papier mit einer Bildfolge, das einem Möbelstück zur Selbstmontage beiliegt, ist vermutlich eine Montageanleitung. Ein Video ist digitale Information und kann dem Produkt nicht so einfach beigelegt sein. Der Kontext des Videos muss erst hergestellt werden. Meist spielt dabei Text eine wichtige Rolle. Dieser Text ist normalerweise kein Teil des Videos; es sollte nicht übersehen werden, dass die Zuordnung von Videos zu Nutzungskontexten oft Text und Sprache erfordert, damit ein Video gefunden und verstanden wird.

Unzureichende Auffindbarkeit

Wer schon versucht hat, im Internet nach einem Bild zu suchen, kommt ohne sprachliche Umschreibung nicht weit. Auch die sogenannte Bildersuche dürfte selten zum Ziel führen. Ein Video benötigt Text, zumindest für Metadaten.

Erstellungsbezogene Probleme

Auch wenn bestimmte Inhalte in einem Video und ohne Text darstellbar wären, ist diese Umsetzung oft nicht wirtschaftlich. Das zeigt etwa die nachträgliche Bearbeitung eines Videos.

Effiziente Bearbeitung von Videos

Zu den typischen Aufgaben einer Technischen Redaktion gehört es, bestehende Anleitungen zu aktualisieren. Man kann durchaus davon ausgehen, dass diese Aufgabe häufiger vorkommt als die Neuerstellung einer Technischen Dokumentation. Doch wie sieht dies beim Video aus? Dessen nachträgliche Aktualisierung erfordert beim Realfilm, dass Produkt, Drehort und Protagonist erneut bereitstehen müssen. Die Bearbeitung eines Textes ist deutlich einfacher, selbst wenn eine Übersetzung hinzukommt.

Wenn Text wirtschaftlicher ist

Ein Text kann ein Aspekt der Wirtschaftlichkeit sein. Dazu folgende Überlegung: Bilder können darstellen, was es noch nicht gibt oder was nicht sichtbar ist. Technische Objekte lassen sich beispielsweise mit einer Bruchlinie „öffnen” oder in einer sogenannten Röntgendarstellung zeigen. Ein Schnittbild erklärt, wie tief eine Sackbohrung in das Material geht oder wie ein Klappdübel sich hinter der Wand öffnet. Auch in Instruktionsvideos können derartige Darstellungen genutzt werden, zum Beispiel als Animation oder Standbild. Allerdings können das Erstellen und Einbringen einer entsprechenden Animation aufwändig sein. Mit der Textangabe „Tiefe der Bohrung: 5 mm” ließe sich die Information ebenfalls übermitteln. Wenn das strukturelle und das technische Videokonzept Texteinblendungen vorsieht, eröffnen sich effizientere Möglichkeiten, nützliche Informationen im Video zu platzieren.

Der zusammengeführte Redaktionsprozess

Oft werden Videos mit Hilfe bestehender Anleitungen von Personen erstellt, die nicht zur Technischen Redaktion gehören. Dies führt nicht nur zu unwirtschaftlichen Prozessen, etwa durch doppelte Recherche; in unseren Projekten konnten wir Beispiele inhaltlicher Abweichungen zwischen Technischer Dokumentation und Video feststellen, die ihre Ursache in verteilten Verantwortungen hatten.

Zudem haben wir die Erfahrung gemacht, dass anleitende Realfilme inhaltliche Lücken und Fehler in den bestehenden Technischen Dokumentationen aufdecken. Kein Wunder, da die Videoanleitungen die Handlung „lückenlos” darstellen und der Protagonist sie tatsächlich durchführen muss, ähnlich wie in einem Usability-Test.

Auf der Basis unserer Projekterfahrungen sind wir zu dem Schluss gekommen, dass die Produktion von Instruktionsvideos zur Technischen Redaktion gehören sollte, um Wirtschaftlichkeit und Qualität zu erzielen.

Ein verbreiteter Irrtum

„Wofür Text in Videos? In einem Video sieht man doch, was man machen muss”, sagt mir ein Anbieter von Instruktionsvideos auf einer Konferenz. Er vertrat die Auffassung, dass ein Video weder Text noch Sprache erfordert, um verständlich zu sein. Der Anwender „lernt am Modell”, wie es die sozialkognitive Lerntheorie beschreibt; er imitiert die Handlungen des Protagonisten im Video. Das genüge, so der Anbieter.

Angesichts der genannten Probleme bei text- und sprachfreien Instruktionsvideos ist die These schwer zu halten, dass Bilder (auch die eines Videos) einfach mehr können als Text. Fakt ist, dass Videobilder anderes leisten als Text. Außerdem, dass Text unterstützt, wo Videos nicht ausreichen. Text gegen Bild auszuspielen, ist zu eindimensional für das vielschichtige Thema.

Auf der sicheren Seite

Mit den dargestellten Überlegungen und Ergebnissen haben wir gezeigt, dass ein pauschaler Verzicht auf Text in einem Video erhebliche Probleme für Verständlichkeit und Wirtschaftlichkeit birgt. Im Einzelfall können Instruktionsvideos ohne Text durchaus funktionieren; bei ihrer Konzeption sollte man sich aber nicht darauf verlassen, sondern den Bedarf sorgfältig analysieren. Wer die Möglichkeit, Text in einem Video einzusetzen, sowohl in der Standardisierung als auch in den Prozessen und den Erstellungs- und Bereitstellungswerkzeugen vorsieht, mindert sein Investitionsrisiko und ist auf der sichereren Seite.

Text und Video können prinzipiell auf zwei Arten miteinander verbunden werden:

durch Integration von Text oder Sprache in Videos
durch sequenzielle Abfolge von Text und Videobild im Video

Utility-Filme mit ihren kurzen Videosequenzen nutzen überwiegend die sequenzielle Abfolge und legen teilweise Texte zwischen die einzelnen ansonsten textfreien Mini-Videos; der unmittelbare Bezug zwischen einem Text und einem im Bild sichtbaren Gegenstand erfordert jedoch die Integration von Text. Daher können Utility-Filme die Notwendigkeit von Textintegration im Video zwar verringern, aber nicht aufheben: Auch Utility-Filmer müssen sich mit den Anforderungen an den Text-Bild-Bezug auseinandersetzen.

Instruktionsvideos: Vorteile und Grenzen im Überblick

Vorteile von Instruktionsvideos gegenüber Text-Bild-Anleitungen	Herausforderungen von Instruktionsvideos
Keine Bildzwischenräume, die der Anwender gedanklich füllen muss.	Der Anwender kann nur bedingt das Tempo seiner Informationsaufnahme steuern. Selektives Lesen ist eingeschränkt.
Gute Identifikation und Bezugnahme auf die gezeigten Gegenstände. Gute Verortung bei entsprechenden Kamerafahrten. Verborgenes und (noch) nicht Existierendes kann gezeigt werden.	Keine Abstraktion möglich: Das Bild ist immer konkret.
Aufmerksamkeitssteuerung durch Einstellungsgrößen, Bewegung und Tiefenschärfe möglich.	Wohin der Anwender schaut, kann nicht vollständig festgelegt werden. Texte haben eine klare Syntax und damit eine eindeutige Lesereihenfolge.
Bekannte Gegenstände müssen nicht benannt werden.	Namenlose Dinge: Anwender bleiben sprachlos, was Servicekommunikation, Ersatzteilbestellung und Informationssuche erschwert.
Gut etablierte Symbole können Texte teilweise ersetzen.	Häufig wird die Bekanntheit von Symbolen stark überschätzt.
Einige kommunikative Funktionen können durch Kontext, Konvention und Inhalt erschlossen werden (Bsp.: Bild in einer Montageanleitung wird als Aufforderung verstanden).	Kommunikative Funktionen lassen sich Bildern nicht automatisch ansehen (Bsp.: Soll-Zustand oder Ausgangszustand?).
Teil-von-Beziehungen und zeitliche Abfolgen sind gut darstellbar.	Die meisten sonstigen logischen Beziehungen lassen sich nicht oder bestenfalls symbolisch darstellen (Bedingungen, Verben, Konjunktionen).
Bestimmte Eigenschaften sind gut darstellbar, z. B. Beschädigungen.	Nicht sichtbare Eigenschaften sind im Video kaum darstellbar, z. B. Feuchtigkeit oder Temperatur.
Auditiver Kanal unterstützt den Anwender bei der korrekten Umsetzung einer Handlung.	Ob der Anwender in einer lauten Umgebung den Ton richtig wahrnimmt, kann nicht garantiert werden.

Wissenschaftlicher Hintergrund

Die Forschung zur Instruktion und zu Bildeinsatz und Instruktionsfilmen ist ein wahrer Flickenteppich. Folgende Gebiete haben sich dabei als ergiebige Quellen erwiesen:

Die Semiotik und Linguistik liefern außerordentlich wichtige Beiträge, zumal sie sich zunehmend auch der Bildsprache widmen.

Zahlreiche untereinander verwobene Lerntheorien liefern viele und teilweise hilfreiche Anhaltspunkte.

Die Wahrnehmungspsychologie.

Die Technische Kommunikation bietet Umsetzungsbeispiele und Praxiserfahrungen. Dabei sind insbesondere Usability-Untersuchungen konkreter Umsetzungsbeispiele hilfreich.

Am Ende zählt jedoch nicht die Theorie. Darum haben wir Videos mit und ohne Text in Usability-Tests auf den Prüfstand gestellt. Viele unserer Hypothesen wurden bestätigt.

Was sich seit 2020 verändert hat

Redaktionelle Ergänzung der Web-Version 2026. Der Originalartikel bleibt argumentativ unverändert, dieser Block ordnet die seither erschienenen normativen Anker ein.

Der Artikel stammt aus dem Jahr 2020. Seine Kernargumente, dass Text und Sprache für Verständlichkeit, Sicherheit und Wirtschaftlichkeit von Instruktionsvideos zentral sind, sind heute stärker normativ verankert als 2020:

ISO/IEC/IEEE 26516:2026: Erste internationale Norm speziell für Entwicklung und Produktion von Instruktionsvideos (erschienen 17.02.2026). Sie fordert Text-Elemente in Videos explizit ein („text elements shall be included in videos for instructions, technical data, explanations, designations of products, safety-related information, and references to further information”) und verweist für Sicherheitshinweise auf die IEC/IEEE 82079-1.
IEC/IEEE 82079-1:2019: Medienneutrale Norm für die Erstellung von Nutzungsinformationen. Sie konkretisiert, was Warnhinweise leisten müssen, auch im Video.
BFSG / EAA seit Juni 2025: Das Barrierefreiheitsstärkungsgesetz macht Untertitel und Audiodeskription für viele Anbieter verpflichtend. Der Anwendungsbereich liegt auf Verbraucher-Produkten und -Diensten; B2B-Maschinenhersteller fallen in der Regel nicht direkt darunter, kommen aber über die EN 301 549 und WCAG 2.1 AA auf die gleichen technischen Kriterien.
WCAG 2.1 Level AA: Untertitel für aufgezeichnete Videos sind Pflichtkriterium.

Die Argumentationslinie des Artikels, dass Text kein Ornament ist, sondern Vollständigkeitsbedingung, wird durch diese Normen heute belastbar gestützt.

Literatur zum Weiterlesen

Villiger, Claudia (2019): Anwendung von Designprinzipien im digitalen Nutzungskontext. In: Hennig, Jörg; Tjarks-Sobhani, Marita (Hrsg.): Verständlichkeit als Problem der Technischen Kommunikation. tekom-Schriften zur Technischen Kommunikation, Band 24, S. 174–186.
Schmeling, Roland (2019): Das Präsentationsmedium als Faktor der Verständlichkeit. In: Hennig, Jörg; Tjarks-Sobhani, Marita (Hrsg.): Verständlichkeit als Problem der Technischen Kommunikation. tekom-Schriften zur Technischen Kommunikation, Band 24, S. 99–115.
Villiger, Claudia (2017): Texte und Visualisierungen im digitalen Nutzungskontext der Technischen Kommunikation. In: trans-kom, Band 10, S. 315–333.
Lutz, Benedikt (2017): Modelle für die verständliche Fachkommunikation. In: trans-kom, Band 10, S. 284–314.
Ballstaedt, Steffen-Peter (2005/2006): Visualisierung. Skript des Zertifikatslehrgangs Technical Writing / Technische Dokumentation.
Diekmannshenke, Hajo; Klemm, Michael; Stöckl, Hartmut (Hrsg.) (2011): Bildlinguistik. Berlin.

Häufige Fragen zu Text in Videoanleitungen

Muss eine Videoanleitung Text enthalten, um normkonform zu sein?

Für eigenständige Instruktionsvideos lautet die Antwort: ja. Die ISO/IEC/IEEE 26516:2026 ist die erste internationale Norm für Instruktionsvideos. Sie verlangt Text-Elemente unter anderem für Anweisungen, technische Daten, Erklärungen, Produktbezeichnungen, sicherheitsrelevante Informationen und Querverweise. Für Sicherheitshinweise gilt zusätzlich die IEC/IEEE 82079-1:2019. Untertitel sind über die WCAG 2.1 Level AA und das BFSG seit Juni 2025 ohnehin Pflicht.

Kurze Clips (unter etwa 15 Sekunden), die in einen umgebenden Textkontext eingebettet sind und dort nur eine Bewegung illustrieren, fallen funktional in eine andere Kategorie. Der umgebende Text trägt dort die Narration.

Wann reicht ein Video ohne Text, und wann nicht?

Ein Video ohne Text kann in stark eingegrenzten Szenarien funktionieren: Es muss sehr kurz sein, in einen klaren, ihn erklärenden Text-Kontext eingebettet sein, keine sicherheitsrelevanten Inhalte transportieren und keine logischen Beziehungen oder Negationen vermitteln müssen. Typischer Fall: ein wenige Sekunden langer Bewegungs-Clip in einer HTML-Anleitung, neben dem die Erklärung als Text steht.

Sobald das Video für sich allein steht, länger als rund eine halbe Minute läuft oder Warnungen, Bedingungen, Begründungen oder Produktbezeichnungen enthält, ist eine sprachliche Ebene nicht verzichtbar. Das kann ein Voiceover sein, eine Texteinblendung oder Untertitel.

Wie unterscheiden sich eigenständige Videos von kurzen Clips im Text-Bild-Kontext?

Eigenständige Videos tragen die gesamte Kommunikation: Sie führen den Anwender vom Ausgangs- bis zum Zielzustand, müssen Begründungen, Warnhinweise und Produktbezeichnungen liefern und sind häufig länger als eine Minute. Sie benötigen daher zwingend eine sprachliche Ebene.

Kurze Clips innerhalb einer Text-Bild-Anleitung, oft als Utility-Filme oder Mini-Videos bezeichnet, übernehmen typischerweise nur einen einzelnen Handlungsschritt. Der umgebende Fließtext liefert Ziel, Bedingung, Warnung und Kontext. Der Clip selbst zeigt nur die Bewegung. Hier ist die Textebene zwar weiterhin nötig, sie liegt aber außerhalb des Videos.

Welche Rolle spielen Voiceover und Untertitel für Barrierefreiheit (BFSG, WCAG)?

Voiceover und Untertitel sind seit Juni 2025 nicht mehr nur didaktisch wünschenswert, sondern für viele Anbieter gesetzlich gefordert. Das Barrierefreiheitsstärkungsgesetz (BFSG) und der europäische Accessibility Act (EAA) verlangen barrierefreie digitale Produkte. Die WCAG 2.1 Level AA macht Untertitel für aufgezeichnete Videos zum Pflichtkriterium.

Aus didaktischer Sicht stützt das Modality Principle der Multimedia-Lerntheorie (Mayer) zusätzlich: Bild plus gesprochener Text wird besser verarbeitet als Bild plus geschriebener Text. Untertitel sind dabei eine zuschaltbare Redundanz für Hörbeeinträchtigte und für lärmbelastete Nutzungssituationen, nicht ein Ersatz für das Voiceover.

Warum sollte die Videoproduktion zur Technischen Redaktion gehören?

Wenn Videos außerhalb der Technischen Redaktion entstehen, fällt doppelter Rechercheaufwand an, und Inhalte driften zwischen Textanleitung und Video auseinander. In Projekten ist immer wieder dieselbe Beobachtung dokumentiert: Sobald ein anleitendes Realfilm-Skript geschrieben wird, treten Lücken und Inkonsistenzen in der bestehenden Textanleitung zutage, ähnlich wie in einem Usability-Test.

Wer die Videoproduktion in der Technischen Redaktion verortet, beseitigt die Quelle dieser Drift, gewinnt einen Qualitätssicherungs-Effekt für die Textanleitung mit und reduziert die Wartungskosten beider Formate.