| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La quantité d’information d’un flux vidéo numérique est réellement considérable, même avec un codage couleur YUV en 4 :2 :2 pour une vidéo FullHD en 25 images par seconde elle atteint 103.7 MO (Mēga Octets) par secondes, soit 373 GO par heure d’enregistrement. De tels débits sont quasiment impossibles à transmettre sur les ondes radios et très lourd a stoker. Il a donc fallu inventer des méthodes de compression pour la vidéo.
|
Valeurs mesurées |
Valeurs comprimées |
|||
Bloc |
Coef. |
arrondies | retenues | |
1 |
0.009 |
0.00 |
||
2 |
0.042 |
0.05 |
||
3 |
-0453 |
-0.45 |
-0.45 |
|
4 |
0578 |
0.60 |
0.60 | |
5 |
-0.601 |
-0.60 |
-0.60 | |
6 |
0.025 |
0.60 | 0.60 | |
7 |
0.015 |
0.00 |
||
8 |
-0.005 |
-0.05 |
||
9 |
0.038 |
0.05 |
||
10 |
0.001 |
0.00 |
||
Etc... |
Etc... |
Etc.. | Etc.. | |
63 |
-0.120 |
0.10 |
||
64 |
0.090 |
0.10 |
Le groupe MPEG a été établi en 1988 dans le but de développer des standards internationaux de compression, décompression, traitement et codage d'images animées et de données audio. Depuis, la quasi-totalité des méthodes de compression utilisent les principes décrits ci-dessous.
Développé en 1988, est un standard pour la compression des données
vidéo et deux canaux audio. Il permet le stockage dans une qualité
proche des cassettes VHS). La norme MPEG-1 représente chaque image
comme un ensemble de blocs 16 x 16. Elle permet d'obtenir une
résolution de 352x288 à 25 images par seconde en PAL/SECAM avec un
débit de l'ordre de 1.2 Mbps (exploitable sur un lecteur de CD).
Un standard dédié originalement à la télévision
numérique (HDTV) offrant une qualité élevée à un débit pouvant aller
jusqu'à 40 Mbps, et 5 canaux audio suround. Le MPEG-2 permet de plus
une identification et une protection contre le piratage. Il s'agit du
format utilisé par le DVD vidéo.
Un standard destiné à permettre le codage de données
multimédia sous formes d'objets numériques, afin d'obtenir une plus
grande interactivité, ce qui rend son usage particulièrement adapté au
Web et aux périphériques mobiles. La TNT utilise une version du MP4
spécialement adapte pour obtenir de très bonnes images avec un débit
permettant de diffuser un maximum de chaines sur une fréquence. Le
codage est réalisé sur toutes les chaine du même canal en même temps
afin de permettre à chaque moment de repartir au mieux la bande
passante pour chaque chaine
Pour
commencer le signal vidéo en entrée est converti à la norme 4:2:0 (lire
d'abord la page vidéo numérique)
avec seulement 8 bits (Rapport signal bruit de 48 DB et 16 millions de
couleurs),
Ensuite on part du constat que dans une courte séquence vidéo, la majorité des scènes sont fixes ou bien changent très peu, c'est ce qui s'appelle la redondance temporelle. On imagine aisément que dans un plan fixe ou une cigogne passe dans le paysage, il suffirait d’enregistrer une seule image du paysage plusieurs petites images contenant seulement la cigogne pour obtenir la vidéo
C’est le principe du codage
temporel du format MPEG. Les images sont découpées en blocs de 16x16
pixels (appelés macro blocs), puis l'algorithme compare chaque image
avec une image de référence bloc par bloc pour encoder uniquement les
blocs qui ont changés de façon suffisamment importante. A la lecture
ces blocs seront simplement superposés à l'image de référence conservée
en mémoire.
Imaginons
une vidéo avec un lent panoramique, on pourrait enregistrer la première
image en entier, puis au fur et à mesure du déplacement de la camera
couper un bout et coller de l’autre cote le petit bout d’image qui
manque
Sur
ce principe, chaque macro blocs de 16 x 16 pixels est comparé à ceux
des images précédente ou suivante, le programme détermine de combien de
pixels chaque ploc c’est déplacé et n’enregistre que les informations
de déplacement des blocs (en X et en Y) et les bouts d'image manquant.
Cette technique dite de codage par compensation de mouvement donne un
niveau de compression important, mais induit un petit retard
(puisqu'il faut connaître l'image suivante) et oblige à garder en
mémoire au moins trois images (la précédente, l'actuelle et la
suivante).
Les techniques abordées ci-dessus ne peuvent s’appliquer qu'a de petits suites d'usages. C'est pourquoi la vidéo est donc d’abord décomposé en courte séquence appelée GOP. Ce paquet à une longueur de 4 à 16 images celons le niveau de compression souhaitée et comporte trois sortes d’image :
• Intra coded frames (I Frames, codage Intégral)
C’est la première image de chaque GOP,
elle est codée dans sa totalité au
format JPG pour servir de référence aux images suivantes. Ces images
sont
indispensables à la cohésion du film puisque toutes les autres sont
décrites
par rapport aux images de référence qui les entourent. Pour commencer la lecture
d’une vidéo
a un point quelconque il faut évidemment attendre l’arrivée de la
première
image du type « I Frame ».
• Predictive coded frames (P frames ou codage prédictif)
Lorsque les GOP contiennent plus de 8 images, toutes les trois images une image dite prédictive P frames est définie par différence avec l'image de type I Frames du début ou de la P frames précédente. Ici le codage temporel est privilégie par rapport à la compensation de mouvement
• Bidirectionally
predictive coded
frames (B Frames)
Toutes les autres
images sont des B Frames, elles sont décrites par différence avec
l'image de
type I Frames ou P frames précédente et suivante, cette fois la
compensation de mouvement est privilégie par rapport au le codage
temporel.
C'est la finesse de la recherche et de l’analyse des macro-blocs qui déterminera la vitesse de l'encodage et la qualité de la compression, plus l'algorithme cherche des détails fins à l’intérieur des blocs plus la qualité de la vidéo sera bonne, mais il perdra plus de temps...
![]() |
![]() |
![]() |
![]() |
Home |
Haut |
Précédent |
Suivant |