Video- und Audioformate

Dieses Kapitel beschäftigt sich nicht mehr allgemein mit Kompressionstechniken, sondern mit konkreten digitalen Formaten für Video und Audio. Allerdings betrachten wir nur die wichtigsten, denn eine komplette Liste aller aktueller Audio- und Videoformate würde für sich ein ganzes Buch füllen.

Videoformate

Die weltweit wichtigste Organisation, die Videoformate entwickelt und standardisiert, ist die MPEG, was für Moving Picture Experts Group steht (nicht Motion Picture Experts Group, wie oft zu lesen ist). Die MPEG ist eine Arbeitsgruppe der International Organization for Standardization (ISO), die eine ganze Reihe verschiedener Standards zur Codierung von digitalem Video, Audio und den dazugehörigen Ergänzungen (z.B. Containerformate, Interaktivität) erarbeitet.

Hier sind die wichtigsten heutigen Videoformate.

MPEG-2 Video

Seit 1994 existiert die MPEG-2-Norm (ISO/IEC 13818), die ihr Videoformat im Part 2 definiert. Die Kompressionsleistung ist gut genug, um einen normalen Spielfilm in Fernsehauflösung auf einer DVD unterzubringen. Die Video-DVD hat gemeinsam mit dem digitalen Fernsehen dann auch dazu geführt, dass MPEG-2 das wahrscheinlich verbreitetste Videoformat überhaupt ist. Sogar auf der Blu-ray ist MPEG-2 noch erlaubt, kommt aber wegen besserer Alternativen eher selten vor.

MPEG-4 Advanced Simple Profile

MPEG-4 (ISO/IEC 14496) ist der direkte Nachfolger von MPEG-2. Das Advanced Simple Profile (ASP) ist Teil von MPEG-4 Part 2 (Visual), dem älteren der beiden MPEG-4-Videoformate (1998 verabschiedet). Seine große Bekanntheit erlangte ASP durch die beiden Encoder DivX und Xvid, mit denen ein vollständiger Film in halbwegs erträglicher Qualität bis auf eine einzelne CD eingedampft werden kann. Noch mit MPEG-2 wäre das vollständig unmöglich gewesen.

MPEG-4 bitte nicht mit MP4 verwechseln. Das erste ist die Bezeichnung des kompletten Standards, das zweite die Dateiendung des MPEG-4-Containerformats (MPEG-4 Part 14).

MPEG-4 Advanced Video Coding (H.264)

Das neuere MPEG-4-Videoformat (ursprünglich 2003 veröffentlicht) ist eine Gemeinschaftsproduktion von ISO/IEC und ITU. Deshalb hört es auch auf zwei verschiedene Namen: MPEG-4 Part 10 (Advanced Video Coding, AVC) von ISO/IEC-Seite und H.264 aus ITU-Perspektive betrachtet. Im allgemeinen Sprachgebrauch hat sich eher die ITU-Bezeichnung durchgesetzt, wahrscheinlich nicht ganz unbeeinflusst vom Erfolg des x264-Encoders.

H.264 ist deutlich effizienter als ASP. Meiner Erfahrung nach benötigt der gleiche DVD-Film H.264-encodiert im Schnitt und grob Pi-mal-Daumen um die zwei Drittel der Größe einer ASP-Encodierung. Da es aktuell nirgendwo eine bessere Kompressionsleistung gibt, ist H.264 unser bevorzugtes Zielformat.

Die Film- und Fernsehindustrie sieht das ähnlich. H.264 ist das dominante Videoformat der Blu-ray und wird genauso gerne für hochauflösendes digitales Fernsehen eingesetzt.

MPEG-H High Efficiency Video Coding (H.265)

HEVC ist der direkte Nachfolger von AVC. Der Standard wurde Anfang 2013 gemeinsam von ISO/IEC und ITU verabschiedet und hört deshalb genauso wie AVC auf zwei verschiedene Namen: MPEG-H Part 2 und ITU-T H.265.

Jetzt im Herbst 2014 ist die Zukunft von HEVC noch nicht abzusehen. Er verspricht deutliche Kompressionsvorteile gegenüber H.264, allerdings wird die Encoderentwicklung noch einige Zeit brauchen, um das ernsthaft beurteilen zu können. Reden wir in 1–2 Jahren nochmal drüber.

Klar ist jetzt schon, dass die Industrie HEVC im größeren Stil einsetzen wird. Erste Chips zur hardwareunterstützten Wiedergabe zeichnen sich ab. Außerdem wird HEVC eines der unterstützen Videoformate für die hochauflösende 4K-Blu-ray sein.

SMPTE VC-1

VC-1 – hochoffiziell SMPTE ST 421 – ist das einzige Videoformat mit Industriebedeutung, das nicht zur MPEG-Familie gehört, sondern hinter dem eine einzelne Firma steht, nämlich Microsoft. VC-1 encodiert ähnlich effizient wie H.264, konnte sich jedoch gegen die MPEG-Konkurrenz nicht durchsetzen. Zwar gehört es zu den Pflichtformaten der Blu-ray, wird aber im Vergleich zu H.264 nur selten verwendet. Darüber hinaus ist VC-1 in Form von Windows Media Video 9 fester Bestandteil der Windows-Media-Familie.

Und dann waren da noch …

  • MPEG-1 Video (ISO/IEC 11172, Part 2) ist der älteste MPEG-Videoformat, ursprünglich 1993 veröffentlicht. Die bekanntesten Anwendungen sind die Video-CD und frühe Online-Videos. MPEG-1 stellt beim Abspielen nur sehr geringe Anforderungen an die Rechenleistung und ist höchst kompatibel, da praktisch jeder Computer serienmäßig einen MPEG-1-Decoder an Bord hat. Nachteil ist die geringe Kompressionsleistung, d.h. die schlechte Qualität bei kleinen Dateigrößen.
  • Theora ist das offene, patentfreie Format der Xiph.org Foundation. Qualitativ ist es leicht hinter Xvid/DivX anzusiedeln. Als freier Ersatz für Flash-Video im Netz konnte sich Theora nicht durchsetzen, hat aber im Open-Source-Umfeld eine kleine Nische gefunden.
  • VP8 ist der Videoteil von Googles WebM-Projekt. Dazu kommt Vorbis als Audioformat und ein abgespecktes Matroska als Container. Da Firefox, Opera und Chrome von Haus aus WebM-fähig sind und sich Flash zum Glück auf dem absteigenden Ast befindet, könnte VP8 in Zukunft einige Bedeutung als Standardformat für Webvideos erlangen.

Implementierungen der Standards

Die Standards allein bringen uns dem codierten Video noch nicht näher. Das MPEG-Gremium programmiert keine Codecs, sondern definiert nur, wie ein gültiger Videostream der entsprechenden MPEG-Version auszusehen hat. Die SMPTE handhabt das für VC-1 ganz ähnlich. Daraus ergibt sich auch grundsätzlich, welche Methoden beim Encoding angewendet werden können und welche nicht. Die Details der Codierung bleiben dann der Phantasie der Codec-Programmierer überlassen. Alle Tricks sind erlaubt, solange das Endergebnis den Vorgaben des verwendeten Standards entspricht.

Diese Tatsache führt dazu, dass z.B. Xvid und DivX zwei unabhängige Codecs sind, die aber beide Videos nach dem MPEG-4 Advanced Simple Profile erzeugen. Deshalb interessiert sich ein guter Decoder auch nicht dafür, welcher Codec nun das Video erstellt hat, denn das Format des Bitstroms ist bei beiden dasselbe. Probleme können höchstens Decoder bereiten, die MPEG-4 ASP nicht vollständig genug unterstützen; z.B. mehrere B-Frames hintereinander nicht korrekt erkennen. Solche und ähnliche Einschränkungen existieren am Computer nicht, sind allerdings bei Wohnzimmerplayern recht wichtig.

Audioformate

Film-Tonspuren haben meistens mehr als die normalen beiden Stereo-Kanäle. Üblich sind sechs, sieben oder gar acht Kanäle. Einer davon ist oft als zusätzlicher Basskanal ausgelegt, der mit LFE für Low Frequency Effects bezeichnet wird. Die restlichen Kanäle sind deswegen nicht basslos, sondern enthalten die normalen Bässe. Der LFE ist rein für die zusätzlichen Niedrigfrequenzen (i.d.R. ca. 20–120 Hz) zuständig, die die Wände wackeln lassen.

Da er eigentlich kein vollständiger Kanal ist, hat es sich eingebürgert, ihn extra anzugeben. Daher kommt die Schreibweise »x.1«, d.h. x vollständige Kanäle plus Basskanal. Die bekannteste Variante ist 5.1 mit Kanälen für vorne links und rechts, vorne Mitte, hinten links und rechts und LFE.

Audioformate im Vergleich
  Typ Mehrkanal Zielformat
AC-3 verlustbehaftet

Ja

Nein

TrueHD verlustlos

Ja

Nein

DTS verlustbehaftet

Ja

Nein

DTS-HD MA verlustlos

Ja

Nein

MP3 verlustbehaftet

Nein

teils

AAC verlustbehaftet

Ja

Ja

Vorbis verlustbehaftet

Ja

Ja

FLAC verlustlos

Ja

teils

Dolby

Die US-Firma Dolby Laboratories ist einer der beiden Hersteller von Tonformaten für die großflächige kommerzielle Verwendung. Für uns sind hauptsächlich drei Formate interessant, die auf der DVD und Blu-ray vorkommen.

Vergleich der Dolby-Varianten
  typische Konfiguration Beschreibung
AC-3 verlustbehaftet, 5.1 Kanäle, 48 kHz Kurzform für Adaptive Transform Coder 3, auch Dolby Digital. Zentrales Pflichtformat der DVD, meistens mit 192 kbit/s (Stereo), 384 kbit/s oder 448 kbit/s (beide 5.1). Ebenfalls Pflichtformat der Blu-ray mit bis zu 640 kbit/s; gerne verwendet für zusätzlich Audiospuren wie unüblichere Sprachen oder Audiokommentare.
E-AC-3 verlustbehaftet, 7.1 Kanäle, 48 kHz Auch Dolby Digital Plus. Weniger wichtiges optionales Format auf der Blu-ray. Abwärtskompatibel zu AC-3.
TrueHD verlustlos, 8 Kanäle, 48 kHz, 24 bit Weniger wichtiges optionales Format auf der Blu-ray. Ist zur Abwärtskompatibilität mit einer klassischen 5.1-AC-3-Spur verknüpft.

Allen Dolby-Formaten gemein ist ihre Ineffizienz im Vergleich zu modernen Formate wie MP3, AAC, FLAC oder Vorbis. Ausgeglichen wird dieser Nachteil durch äußerst hohe Bitraten, so dass uns DVD und Blu-ray trotzdem mit einwandfreier Tonqualität versorgen.

Digital Theater Systems

Auf der DVD führte DTS noch ein Nischendasein als zusätzliches Audioformat, das hauptsächlich dazu gut war, dem Video wertvolle Bitrate wegzunehmen. Auf der Blu-ray hat es sich zum wichtigsten der Pflichtformate gemausert. Ähnlich wie die Dolbyformate ist auch DTS höchst ineffizient und rettet die Audioqualität größtenteils durch sehr hohe Bitraten. Die schier endlose Diskussion, ob AC-3 oder DTS besser wäre, ist größtenteils Unfug. Beide Encodingverfahren sind technologisch auf demselben Niveau.

Es gibt eine ganze Reihe von DTS-Formaten mit verschiedenen Fähigkeiten. Hier sind die wichtigsten.

Vergleich der DTS-Varianten
  typische Konfiguration Beschreibung
DTS verlustbehaftet, 5.1 Kanäle, 48 kHz Optional auf der DVD, entweder mit 768 kbit/s oder (seltener) mit 1,5 Mbit/s. Am weitesten verbreitetes Pflichtformat der Blu-ray mit 1,5 Mbit/s.
DTS-ES verlustbehaftet, 6.1 Kanäle, 48 kHz ES steht für Extended Surround. Auf der DVD nur vereinzelt anzutreffen. Abwärtskompatibel zum »normalen« DTS.
DTS-HD HR verlustbehaftet, 7.1 Kanäle, 48 kHz, 24 bit HR steht für High Resolution. Optional auf der Blu-ray.
DTS-HD MA verlustlos, 8 Kanäle, 48 kHz, 24 bit MA steht für Master Audio. Am weitesten verbreitetes optionales Audioformat der Blu-ray.

Beide DTS-HD-Formate enthalten als Core eine klassische 5.1-DTS-Spur und sind damit abwärtskompatibel. Deswegen sieht man auf der Blu-ray klassisches DTS in Reinform eher selten. Die primäte Tonspur ist meistens DTS-HD MA einschließlich des Cores, der auch von nicht-MA-fähigen Decodern verarbeitet werden kann.

MPEG-1 Audio Layer 3

Die MPEG entwickelt, wie oben schon erwähnt, nicht nur Video-, sondern auch Audioformate. Das wichtigste kennen wir alle als MP3. Definiert ist es im Part 3 des MPEG-1-Standards; mit MPEG-3, wie viele glauben, hat das rein gar nichts zu tun.

MP3 arbeitet mit verlustbehafteter Kompression und unterstützt Mono- und Stereoton. Zusätzlich existiert seit Herbst 2004 auch eine Spezifikation für Multikanal-Ton (MP3 Surround), die sich in der Praxis jedoch nie durchgesetzt hat. Damit bleibt MP3 auf zwei Kanäle beschränkt und eignet sich nur bedingt als Zielformat für unsere Encodings.

Ebenfalls gab es unter dem Namen mp3PRO einen Versuch, die von HE-AAC (siehe unten) bekannte SBR-Technologie auf MP3 anzuwenden. Leider war mp3PRO auf zu niedrige Bitraten (maximal 96 kbit/s) beschränkt und schnell als Qualitätskiller verschrien.

MPEG-4 Advanced Audio Coding

Aus Sicht der MPEG spezifiziert MPEG-4 Part 3 den direkten Nachfolger von MP3. Am besten kennen wir das Format unter seiner Abkürzung AAC. Allgemein bekannt geworden ist es durch Apple und den iTunes-Store, der AAC im MP4-Container verwendet.

AAC ist eines der beiden sinnvollen verlustbehafteten Zielformate für Multikanal-Ton. Außerdem bietet es einige Funktionen, um zum Preis steigender CPU-Anforderungen beim Abspielen die nötige Bitrate deutlich zu senken. Es gibt im Wesentlichen drei Komplexitätsstufen:

  • Low Complexity (LC) ist das »normale« AAC und entspricht dem auch bei anderen Codecs weit verbreiteten Vorgehen, nahezu den gesamten Frequenzumfang anhand eines psychoakustischen Modells zu encodieren.
  • High Efficiency (HE) (manchmal auch AAC Plus genannt) ergänzt den LC-Modus um eine Technologie namens Spectral Band Replication (SBR). Dabei wird der Bereich hoher Frequenzen vor dem Encoding abgeschnitten und nur einige Zusatzinformationen gespeichert, anhand derer der Decoder beim Abspielen die hohen Frequenzen rekonstruiert. Das führt zu einem geringen Qualitätsverlust, aber auch zu deutlich sinkenden Bitraten.
  • Parametric Stereo (PS) ist wiederum ein Zusatz zu HE und wird oft als HE Version 2 (kurz HEv2, HE2 o.ä.) bezeichnet. Diese Technologie ist speziell auf Stereo-Ton und extrem niedrige Bitraten unterhalb von ca. 50 kbit/s ausgelegt. Im Wesentlichen wird der Ton in Mono mit einigen zusätzlichen Richtungsinformationen encodiert, aus denen das Stereosignal wieder grob rekonstruiert werden kann. PS führt zwar zu spürbarem Qualitätsverlust, eignet sich aber gut, um z.B. Audiokommentare sehr platzsparend zu encodieren.

Vorbis

Xiph.org entwickelt Vorbis als alternatives verlustbehaftetes Audioformat, das komplett frei von patentierten Technologien sein soll und so eventuelle rechtliche Probleme mit den Patentinhabern vermeidet.

Als allein stehende Audiodatei ist Vorbis grundsätzlich in den Ogg-Container verpackt (daher der Doppelname Ogg Vorbis), als Sound eines Videos liegt die Vorbis-Tonspur ohne Ogg-Hülle im Container des gesamten Films.

Vorbis unterstützt natürlich Mono und Stereo, genauso wie Mehrkanal-Ton. Qualitativ spielt Vorbis in der gleichen Liga wie AAC. Das gilt sowieso für Mono und Stereo, und seit der Überarbeitung im Frühjahr 2010 auch für Mehrkanal.

Free Lossless Audio Codec

FLAC gehört wie Vorbis zur Xiph.org-Familie. Es ist zur Zeit das wichtigste verlustlose Audioformat, das v.a. von Musikliebhabern eingesetzt wird, um Audio-CDs in Originalqualität auf dem Computer zu speichern.

Mit der Blu-ray ist auch bei Filmen verlustloser Ton zum Thema geworden. Da die verlustlosen Formate von sowohl Dolby (TrueHD) als auch DTS (Master Audio) lächerlich viel Platz verschwenden, bietet sich FLAC immer dann an, wenn wir den verlustlosen Ton von der Disc beibehalten wollen ohne massig Speicherplatz zu verschleudern.

Und dann waren da noch …

  • MPEG-1 Audio Layer 2 (MP2) ist das Standard-Audioformat für die alte VCD und SVCD. Seine professionelle Anwendung findet es v.a. beim digitalen Fernsehen (DVB). PAL-DVDs dürfen ebenfalls MP2-Ton enthalten, was aber äußerst selten vorkommt.
  • Windows Media Audio (WMA) ist Microsofts Audioformat. Aus unserer Sicht ist es höchstens historisch erwähnenswert. Denn genauso wie Anfang der 2000er Jahre der Videocodec DivX ;-) MS-MPEG4v3 vom ASF-Container befreite und AVI-kompatibel machte, gab es parallel ein AVI-kompatibles WMA, auch als DivX ;-) Audio bezeichnet. Soweit ich das beurteilen kann, wurde das Format aber nur selten eingesetzt und klang dank 64 kbit/s CBR entsprechend gruselig. Für moderne Film-Encodings spielt WMA keine Rolle.
  • Pulse Code Modulation (PCM) ist das Standardformat, um Audio verlustlos und unkomprimiert zu speichern. Die verbreitetste Anwendung ist die Audio-CD. Für die DVD ist PCM zwar erlaubt, spielt wegen seiner enormen Größe aber praktisch keine Rolle; und auch auf der Blu-ray gehört es zu den seltenen Formaten. Am Computer begegnet uns PCM meistens verpackt in eine Wave-Datei mit der Dateiendung .wav.