Brother Johns Encodingwissen

Zum Inhalt springen
Wechseln zu: Inhaltsverzeichnis, Abkürzungsverzeichnis

Die Audiokompression

Genauso wie fürs Bild existieren auch für den Ton sowohl verlustlose als auch verlustbehaftete Kompressionsverfahren. Ebenso verwenden die gängigen Codecs beide Methoden, um die maximal mögliche Kompression zu erzielen.

Da die Details genauso schnell wie beim Bild in die höheren Gefilde von Technik und Mathematik abdriften, soll hier eine kurze Beschreibung der prinzipiellen Methoden genügen. Schließlich wollen wir irgendwann ja auch tatsächlich dem ersten Film an die Gurgel gehen, oder? :-)

Maskierung

Ansatzpunkt sind wieder einmal die beschränkten Fähigkeiten der menschlichen Sinnesorgane. Im Fall der Maskierung geht es darum, dass das Ohr manche Töne nicht wahrnimmt, weil sie von einem ähnlich klingenden und/oder lauteren Ton überlagert werden. Der Audiocodec versucht anhand eines psychoakustischen Modells solche Überlagerungen zu erkennen und nur die Töne zu speichern, die tatsächlich hörbar sind.

Leise Töne

Jedes Audioformat – egal ob analog oder digital – enthält einen gewissen Anteil an Rauschen. Je leiser ein Ton ist, desto geringer unterscheidet er sich von diesem Grundrauschen, bis er schließlich völlig darin untergeht und unhörbar wird. Solche Töne kann der Codec natürlich weglassen, ohne dass es zu hörbaren Qualitätseinbußen kommt.

Hohe Frequenzen

Die auf der DVD übliche Samplingrate erlaubt es, Tonhöhen bis zu ca. 24 kHz zu speichern, was die Hörfähigkeit der meisten Menschen deutlich übersteigt. Kinder hören in der Regel sehr gut (grob bis 20, vielleicht auch 22 kHz). Bis ins Erwachsenenalter sinkt dieser Wert deutlich bis in die Region um 15 - 17 kHz und kann noch deutlich weiter zurückgehen, je näher die Rente rückt. Deswegen können meine Eltern seelenruhig vor ihrem uralten Fernseher sitzen, während ich das Teil durch die geschlossene Tür bis auf den Flur grauenhaft pfeifen höre.

Dazu kommt, dass ein isolierter hoher Ton viel einfacher auszumachen ist als einer, der sich in den vielen anderen Tönen einer Filmtonspur versteckt. Auch hier besteht also Einsparpotenzial.

Kanalgemeinsamkeiten

Eine Tonspur besteht nicht aus einem einzelnen Kanal, sondern in den meisten Fällen entweder aus zwei (Stereo), sechs (5.1) oder sieben (6.1). Zwischen den Kanälen bestehen dabei mehr oder weniger starke Gemeinsamkeiten, die sich für die Kompression ausnutzen lassen (Channel Coupling).

MP3 z. B. tut das unter dem Begriff Joint Stereo. Dabei werden die Daten der Kanäle aufgeteilt in eine gemeinsame und eine unterschiedliche Komponente. Die Gemeinsamkeiten speichert der Codec nur einmal für alle Kanäle, den unterschiedlichen Anteil separat für jeden Kanal. Das Ergebnis ist eine kleinere Datei.

Gerade Joint Stereo ist als Qualitätskiller in Verruf geraten, was weniger an der Methode an sich als an der schlechten Implementierung mancher Codecs liegt. Modernes und anständig programmiertes Channel Coupling, wie es z. B. Lame und AC3 verwenden, arbeitet nahezu oder gar komplett verlustlos.

Neben diesen Standardverfahren verwenden verschiedene Codecs noch andere Methoden, um weiter zu komprimieren. Und natürlich ist dem verlustbehafteten Durchlauf immer zusätzlich ein verlustloser Packer nachgelagert, der die Datei noch eine Ecke weit schrumpft.

Variable und konstante Bitrate

Wie brutal der Audiocodec Details entfernen muss, hängt neben der Komplexität des Audiomaterials entscheidend davon ab, wie viel Speicherplatz wir der Datei gönnen. Üblicherweise wird der als Bitrate in Kilobit pro Sekunde (kbit/s) angegeben. Dabei gibt es drei verschiede Modi.

Im IT-Bereich bereitet die Umrechnung zwischen Kilo, Mega, Giga usw. allgemeines Kopfzerbrechen. Das liegt daran, dass es keinen festgeschriebenen Standard gibt, also prinzipiell jeder rechnen kann, wie er will. Allgmein üblich und weitläufig als richtig akzeptiert ist diese Rechenregel:

Wenn es um Bit geht, dann gilt 1 Megabit = 1000 Kilobit = 1000 Bit. Also immer der Faktor 1000. Wenn es um Byte geht, dann gilt 1 Megabyte = 1024 Kilobyte = 1024 Byte. Also immer der Faktor 1024.

Eine wichtige Ausnahme sollte man dabei immer im Kopf haben. Festplatten- und Rohlinghersteller verwenden für ihre Kapazitätsangaben abweichend vom Üblichen die 1000er-Regel. Auf diese Weise kann man einen DVD-Rohling mit einer Kapazität von 4,7 Gigabyte auszeichnen, obwohl jedes übliche Betriebssystem die Disc nach der 1024er-Regel mit 4,37 Gigabyte erkennt.

< Interframe-Kompression | Seitenanfang | Bestandteile eines Films >