
MPEG Audio

Pour commencer
Je dois corriger une erreur devenue tellement courante
que plus personne n’y prête attention. Le MP3 n’existe pas ! En effet
ce que l’on appelle MP3 par abus de langage est en réalité du MPEG1
layer 3 ou du MPEG2 layer 3. C’est donc bien le même standard
d’encodage multimédia que pour les vidéos, mais sans la partie image
(c’est ce que signifie « Layer 3 »)
Les principes
Ceci étant dit, je peux aborder le principe de base d’un codage audio
dit destructif (comme le MPEG) est tout simple : Pourquoi
enregistrer et chercher à reproduire des sons que l’on ne peut pas
entendre ?
Masque temporel
L’oreille humaine à un temps de réaction relativement lent elle détecte
mal les variations qualitative ou quantitative du son sur une durée de
moins de 30 mS, et assimile plusieurs sons très proches à un seul son complexe.
Pour la même raison, un son faible précédent ou suivant immédiatement un son nettement plus
fort n’est pas audible, ce phénomène est d’autant plus marqué que les
deux
sons utilisent des bandes de fréquences proches ou que la différence de
niveau est importante.

C'est pourquoi la première étape du codage MPEG consiste à découper
le message sonore en petites séquence d'environ 25 mS dont le contenu
sera traité comme un seul son complexe. La perte d'information est ici tout
à fait inaudible pour un humain.
Le contenu de chacun de ces blocs est analysé par une transformation de
Fourrier. Cela donne une série de fréquences pures dont la puissance
instantanée de chacune a une valeur bien précise pendant
la durée du bloc. C'est la même information sous une autre forme mathématique, Il n’y aucune perte d’information.
Bande passante
On supprime dans chaque bloc audio les sons trop graves ou trop aigus, en fonction de
l’usage prévu pour le MP3. Ici les pertes peuvent devenir audibles si
les limites son mal choisies, il faut donc toujours utiliser les limites
extrêmes du système de codage,
La suppression
des fréquences en dehors de la bande passante voulue consiste à ignorer tout
simplement les valeurs que la transformation de Fourrier leur a attribuées. Ce
type de filtre acoustique ne produit aucune altération sur les fréquences conservées
(pas de distorsion de phase ni décalage temporel)
Avec
les réglages choisis, dans l'exemple du schéma ci-dessous, la bande
passante est ici limité de 30 Hz à 15 kHz ce qui est trop peu pour
obtenir le maximum de qualité (le maximum possible est de 0Hz à 19,5
kHz pour un échantillonnage de 44,1 kHz)

Les zones de couleur délimitent ce qui ne sera pas enregistré
Masque de proximité ou masque fréquentiel
L’encodeur
vérifie ensuite pour chaque bloc audio quelles fréquences sont audibles par
l’oreille humaine pour ne garder que celle-ci. Pour cela on utilise des modèles
psycho-acoustiques standard qui décrivent les performances (ou plutôt les défauts)
de l’oreille humaine.
Les zones roses
et bleu clair montrent ce que l’on appelle l’effet de masque de proximité ou masque
fréquentiel, dans notre exemple, le son vert est trop proche du son rouge, et à
cause de son niveau trop faible sera masqué par le son rouge, il ne sera donc
pas enregistré.
La zone grise
représente le seuil de l’audition humaine pour une oreille parfaite, en clair
ce que personne ne peut entendre. Le son orange enregistrée par le micro est
donc inaudible et n’a pas besoin d’être enregistré
Pour modifier le
niveau de compression il suffit d’augmenter ou de diminuer les seuils de ces
masques psycho-acoustiques et ainsi réduire plus ou moins la quantité
d'information à enregistrer dans le MP3.
Il est clair que les pertes
peuvent devenir audibles si les seuils de suppression sont élevés ! Par
contre lorsque le niveau de compression baisse, les pertes deviennent de moins
en moins importantes et finissent par devenir absolument inaudibles avec des réglages
soigneusement adaptés
Constant Bit rate - CBR
Pour garantir une taille de fichier optimisée ou un
flux constant pour une transmission audio il est possible de fixer
précisément le débit (Bit rate) du flux audio en kB/s
Si
le Bit rate est suffisant pour contenir toutes les informations issues
de la transformation de Fourrier, il n’y aura pas de nouvelle perte de
qualité sonore. Dans ce cas contraire, l'encodeur sera obligé de
négliger les signaux de plus faible valeur, pour cela l’encodeur
augmentera le seuil d’audition et la force des masques de proximité
pour adapter la quantité d’information à la place disponible.
Pour obtenir une qualité élevée il faut donc choisir un Bit rate le
plus haut possible au détriment de la taille des fichiers. A 320 kB/s
(le maximum possible), la qualité audio devient équivalente à une
compression sans perte de donnée
Variable Bit rate -VBR
Pour améliorer le niveau de compression sans nuire à la
qualité, il est possible d’enregistrer le MP3 avec un flux
d’information à débit variable (VBR en opposition au CBR pour constant
bit rate). En effet le signal sonore peut être à un moment très
complexe et nécessiter une grande quantité d’informations pour être
encodé avec une grande précision, et l’instant suivant être réduit
quasiment à un son pur ou à un silence qui nécessite forcément beaucoup
moins d’informations. En ajustant en permanence le débit numérique le
procédé VBR (Variable Bit rate) permet de réduire intelligemment la
taille du fichier sans réduire la qualité de la musique.
Répartition des
blocs d’un fichier MP3 codé avec le VBR en fonction du bit rate
Dans l'exemple
ci-dessus Cdex a encodé un passage de musique classique extrêmement
complexe, les limites du VBR
sont ici de 128 kB/s a 320 kB/s. il est facile de constater grâce à l’analyse réalisée
avec EncSpot
que 47% des blocs nécessitent un débit de 224
kB/s et que seul 10% nécessitent 320 kB/s. C’est uniquement sur ces 10%
qu’il pourrait éventuellement se produire de petites pertes
d’information probablement tout à fait inaudible. De tous les fichiers
que j’ai testés c’est le seul qui nécessite autant d’échantillons
enregistrés au débit maximum de 320 kB/s, sur certains CD de
variété il n’y a aucun échantillon utilisant le débit maximum.
Conclusion
Il suffit donc de
choisir les bons algorithmes avec les bons réglages (par exemple
l’encodeur Lame utilisé par CDeX avec les réglages « extrême » ou «
insane »), et le procédé de compression ne supprime
quasiment rien. Il devient alors impossible de différentier réellement
le CD du fichier MP3 même avec un système audio très performant
Le format MPEG est en fait une formidable boite à outil avec de très
nombreux réglages. Vous pouvez au choix comprimer le son pour une
communication sur un réseau internet à bas débit et une bande passante
même pas digne d'un téléphone analogique, ou bien produire un signal
audio d’une qualité tout à fait comparable au meilleur des CD.
La mauvaise réputation du format MP3 vient donc surtout des
innombrables fichiers audio disponibles sur internet et souvent encodés
par des personnes qui ignorent complètement comment régler leur
programme d’encodage pour en obtenir la qualité optimale. Avec les
réglages d’origine de leur programme ils ne produisent que des fichiers
optimisés pour avoir la plus petite taille possible avec une qualité
audio acceptable et des fichiers 9 à 12 fois plus petit que les
fichiers originaux. En exigeant le maximum de performance audio le même
programme produirait des fichiers 6 à 7 fois plus petit que les
fichiers originaux, mais en conserverait la qualité sonore du CD.
Vous trouverez dans le chapitre "Mon système" sur la page "Programmes"
de la rubrique PC Home-Cinéma une sélection de programmes gratuits
permettant de créer des MP3 de la meilleure qualité possible avec les
explications pour les réglages.

 |
 |
 |
 |
Home
|
Haut
|
Précédent
|
Suivant
|
|