Genauso wie fürs Bild existieren auch für den Ton sowohl verlustlose als auch verlustbehaftete Kompressionsverfahren. Ebenso verwenden die gängigen Codecs beide Methoden, um die maximal mögliche Kompression zu erzielen.
Da die Details genauso schnell wie beim Bild in die höheren Gefilde von Technik und Mathematik abdriften, soll hier eine kurze Beschreibung der prinzipiellen Methoden genügen. Schließlich wollen wir irgendwann ja auch tatsächlich dem ersten Film an die Gurgel gehen, oder? :-)
Ansatzpunkt sind wieder einmal die beschränkten Fähigkeiten der menschlichen Sinnesorgane. Im Fall der Maskierung geht es darum, dass das Ohr manche Töne nicht wahrnimmt, weil sie von einem ähnlich klingenden und/oder lauteren Ton überlagert werden. Der Audiocodec versucht anhand eines psychoakustischen Modells solche Überlagerungen zu erkennen und nur die Töne zu speichern, die tatsächlich hörbar sind.
Jedes Audioformat – egal ob analog oder digital – enthält einen gewissen Anteil an Rauschen. Je leiser ein Ton ist, desto geringer unterscheidet er sich von diesem Grundrauschen, bis er schließlich völlig darin untergeht und unhörbar wird. Solche Töne kann der Codec natürlich weglassen, ohne dass es zu hörbaren Qualitätseinbußen kommt.
Die auf der DVD übliche Samplingrate erlaubt es, Tonhöhen bis zu ca. 24 kHz zu speichern, was die Hörfähigkeit der meisten Menschen deutlich übersteigt. Kinder hören in der Regel sehr gut (grob bis 20, vielleicht auch 22 kHz). Bis ins Erwachsenenalter sinkt dieser Wert deutlich bis in die Region um 15 - 17 kHz und kann noch deutlich weiter zurückgehen, je näher die Rente rückt. Deswegen können meine Eltern seelenruhig vor ihrem uralten Fernseher sitzen, während ich das Teil durch die geschlossene Tür bis auf den Flur grauenhaft pfeifen höre.
Dazu kommt, dass ein isolierter hoher Ton viel einfacher auszumachen ist als einer, der sich in den vielen anderen Tönen einer Filmtonspur versteckt. Auch hier besteht also Einsparpotenzial.
Eine Tonspur besteht nicht aus einem einzelnen Kanal, sondern in den meisten Fällen entweder aus zwei (Stereo) oder sechs (5.1). Zwischen den Kanälen bestehen dabei mehr oder weniger starke Gemeinsamkeiten, die sich für die Kompression ausnutzen lassen (Channel Coupling).
MP3 z.B. tut das unter dem Begriff Joint Stereo. Dabei werden die Daten der Kanäle aufgeteilt in eine gemeinsame und eine unterschiedliche Komponente. Die Gemeinsamkeiten speichert der Codec nur einmal für alle Kanäle, den unterschiedlichen Anteil separat für jeden Kanal. Das Ergebnis ist eine kleinere Datei.
Gerade Joint Stereo ist als Qualitätskiller in Verruf geraten, was weniger an der Methode an sich als an der schlechten Implementierung mancher Codecs liegt. Modernes und anständig programmiertes Channel Coupling, wie es z. B. Lame und AC3 verwenden, arbeitet nahezu oder gar komplett verlustlos.
Neben diesen Standardverfahren verwenden verschiedene Codecs noch andere Methoden, um weiter zu komprimieren. Und natürlich ist dem verlustbehafteten Durchlauf immer zusätzlich ein verlustloser Packer nachgelagert, der die Datei noch eine Ecke weit schrumpft.
Wie brutal der Audiocodec Details entfernen muss, hängt neben der Komplexität des Audiomaterials entscheidend davon ab, wie viel Speicherplatz wir der Datei gönnen. Üblicherweise wird das als Bitrate in Kilobit pro Sekunde (kbit/s) angegeben. Dabei gibt es drei verschiedene Modi.