MPEG Audio

Pour commencer

Je dois corriger une erreur devenue tellement courante que plus personne n’y prête attention. Le MP3 n’existe pas ! En effet ce que l’on appelle MP3 par abus de langage est en réalité du MPEG1 layer 3 ou du MPEG2 layer 3. C’est donc bien le même standard d’encodage multimédia que pour les vidéos, mais sans la partie image (c’est ce que signifie « Layer 3 »)

Les principes

Ceci étant dit, je peux aborder le principe de base d’un codage audio dit destructif (comme le MPEG) est tout simple : Pourquoi enregistrer et chercher à reproduire des sons que l’on ne peut pas entendre ?

Masque temporel

L’oreille humaine à un temps de réaction relativement lent elle détecte mal les variations qualitative ou quantitative du son sur une durée de moins de 30 mS, et assimile plusieurs sons très proches à un seul son complexe.

Pour la même raison, un son faible précédent ou suivant immédiatement un son nettement plus fort n’est pas audible, ce phénomène est d’autant plus marqué que les deux sons utilisent des bandes de fréquences proches ou que la différence de niveau est importante.

masquage%20temporel.jpg

C'est pourquoi la première étape du codage MPEG consiste à découper le message sonore en petites séquence d'environ 25 mS dont le contenu sera traité comme un seul son complexe. La perte d'information est ici tout à fait inaudible pour un humain.

Le contenu de chacun de ces blocs est analysé par une transformation de Fourrier. Cela donne une série de fréquences pures dont la puissance instantanée de chacune a une valeur bien précise pendant la durée du bloc. C'est la même information sous une autre forme mathématique, Il n’y aucune perte d’information.

Bande passante

On supprime dans chaque bloc audio les sons trop graves ou trop aigus, en fonction de l’usage prévu pour le MP3. Ici les pertes peuvent devenir audibles si les limites son mal choisies, il faut donc toujours utiliser les limites extrêmes du système de codage,

La suppression des fréquences en dehors de la bande passante voulue consiste à ignorer tout simplement les valeurs que la transformation de Fourrier leur a attribuées. Ce type de filtre acoustique ne produit aucune altération sur les fréquences conservées (pas de distorsion de phase ni décalage temporel)

Avec les réglages choisis, dans l'exemple du schéma ci-dessous, la bande passante est ici limité de 30 Hz à 15 kHz ce qui est trop peu pour obtenir le maximum de qualité (le maximum possible est de 0Hz à 19,5 kHz pour un échantillonnage de 44,1 kHz)

psychoacoustique%201.jpg

Les zones de couleur délimitent ce qui ne sera pas enregistré

Masque de proximité ou masque fréquentiel

L’encodeur vérifie ensuite pour chaque bloc audio quelles fréquences sont audibles par l’oreille humaine pour ne garder que celle-ci. Pour cela on utilise des modèles psycho-acoustiques standard qui décrivent les performances (ou plutôt les défauts) de l’oreille humaine.

Les zones roses et bleu clair montrent ce que l’on appelle l’effet de masque de proximité ou masque fréquentiel, dans notre exemple, le son vert est trop proche du son rouge, et à cause de son niveau trop faible sera masqué par le son rouge, il ne sera donc pas enregistré.

La zone grise représente le seuil de l’audition humaine pour une oreille parfaite, en clair ce que personne ne peut entendre. Le son orange enregistrée par le micro est donc inaudible et n’a pas besoin d’être enregistré

Pour modifier le niveau de compression il suffit d’augmenter ou de diminuer les seuils de ces masques psycho-acoustiques et ainsi réduire plus ou moins la quantité d'information à enregistrer dans le MP3.

Il est clair que les pertes peuvent devenir audibles si les seuils de suppression sont élevés ! Par contre lorsque le niveau de compression baisse, les pertes deviennent de moins en moins importantes et finissent par devenir absolument inaudibles avec des réglages soigneusement adaptés

Constant Bit rate - CBR

Pour garantir une taille de fichier optimisée ou un flux constant pour une transmission audio il est possible de fixer précisément le débit (Bit rate) du flux audio en kB/s

Si le Bit rate est suffisant pour contenir toutes les informations issues de la transformation de Fourrier, il n’y aura pas de nouvelle perte de qualité sonore. Dans ce cas contraire, l'encodeur sera obligé de négliger les signaux de plus faible valeur, pour cela l’encodeur augmentera le seuil d’audition et la force des masques de proximité pour adapter la quantité d’information à la place disponible.

Pour obtenir une qualité élevée il faut donc choisir un Bit rate le plus haut possible au détriment de la taille des fichiers. A 320 kB/s (le maximum possible), la qualité audio devient équivalente à une compression sans perte de donnée

Variable Bit rate -VBR

Pour améliorer le niveau de compression sans nuire à la qualité, il est possible d’enregistrer le MP3 avec un flux d’information à débit variable (VBR en opposition au CBR pour constant bit rate). En effet le signal sonore peut être à un moment très complexe et nécessiter une grande quantité d’informations pour être encodé avec une grande précision, et l’instant suivant être réduit quasiment à un son pur ou à un silence qui nécessite forcément beaucoup moins d’informations. En ajustant en permanence le débit numérique le procédé VBR (Variable Bit rate) permet de réduire intelligemment la taille du fichier sans réduire la qualité de la musique.

Répartition des blocs d’un fichier MP3 codé avec le VBR en fonction du bit rate

Dans l'exemple ci-dessus Cdex a encodé un passage de musique classique extrêmement complexe, les limites du VBR sont ici de 128 kB/s a 320 kB/s. il est facile de constater grâce à l’analyse réalisée avec EncSpot que 47% des blocs nécessitent un débit de 224 kB/s et que seul 10% nécessitent 320 kB/s. C’est uniquement sur ces 10% qu’il pourrait éventuellement se produire de petites pertes d’information probablement tout à fait inaudible. De tous les fichiers que j’ai testés c’est le seul qui nécessite autant d’échantillons enregistrés au débit maximum de 320 kB/s, sur certains CD de variété il n’y a aucun échantillon utilisant le débit maximum.

Conclusion

Il suffit donc de choisir les bons algorithmes avec les bons réglages (par exemple l’encodeur Lame utilisé par CDeX avec les réglages « extrême » ou « insane »), et le procédé de compression ne supprime quasiment rien. Il devient alors impossible de différentier réellement le CD du fichier MP3 même avec un système audio très performant

Le format MPEG est en fait une formidable boite à outil avec de très nombreux réglages. Vous pouvez au choix comprimer le son pour une communication sur un réseau internet à bas débit et une bande passante même pas digne d'un téléphone analogique, ou bien produire un signal audio d’une qualité tout à fait comparable au meilleur des CD.

La mauvaise réputation du format MP3 vient donc surtout des innombrables fichiers audio disponibles sur internet et souvent encodés par des personnes qui ignorent complètement comment régler leur programme d’encodage pour en obtenir la qualité optimale. Avec les réglages d’origine de leur programme ils ne produisent que des fichiers optimisés pour avoir la plus petite taille possible avec une qualité audio acceptable et des fichiers 9 à 12 fois plus petit que les fichiers originaux. En exigeant le maximum de performance audio le même programme produirait des fichiers 6 à 7 fois plus petit que les fichiers originaux, mais en conserverait la qualité sonore du CD.

Vous trouverez dans le chapitre "Mon système" sur la page "Programmes" de la rubrique PC Home-Cinéma une sélection de programmes gratuits permettant de créer des MP3 de la meilleure qualité possible avec les explications pour les réglages.


Home	Haut	Précédent	Suivant