Traitement des images numériques pour la réduction du ...

15
Traitement des images numériques pour la réduction du débit binaire Jacques Guichard Dominique Nasse Jacques Guichard, X65, ENST 74, est directeur délégué au CNET pour la coordination du domaine des services multimédias. Auparavant, au Centre Paris A, il a été l’un des principaux acteurs à l’origine du visiophone numérique “Visages” dont l’équipe a obtenu le prix CNET en 1989. Dominique Nasse, ECP, ENST 69, est responsable des études de représentation et de codage des signaux audiovisuels au CCETT. Il conduit des recherches sur le traitement et la transmission numérique des images TV et participe à leur normalisation.

Transcript of Traitement des images numériques pour la réduction du ...

Page 1: Traitement des images numériques pour la réduction du ...

Traitement des imagesnumériques pour la réduction du débitbinaire

Jacques GuichardDominique Nasse

Jacques Guichard, X65, ENST 74, est directeur délégué au CNET pour la coordination du domaine des servicesmultimédias. Auparavant, au Centre Paris A, il a été l’un des principaux acteursà l’origine du visiophone numérique“Visages” dont l’équipe a obtenu le prixCNET en 1989.

Dominique Nasse, ECP, ENST 69, est responsable des études de représentationet de codage des signaux audiovisuels au CCETT. Il conduit des recherches sur le traitement et la transmission numérique des images TV et participe à leur normalisation.

Page 2: Traitement des images numériques pour la réduction du ...

Avec la visioconférence, le visiophone ou la télévisionnumérique, les images constituent un facteur d é t e rminant de l’aggiorn a m e n t odes télécommunications.Cette ouverture n’aurait pasété possible sans des progrèsspectaculaires dans le développement de dispositifsspécifiques de c o m p re s s i o nde l’inform a t i o n.

L’image est partout, et nous trouvons toutnaturel qu’elle soit animée et en couleurs.Son omniprésence et son extrême banalisation ne doivent cependant pasfaire oublier son caractère singulier parrapport aux nombreux types de messagesélectroniques que les êtres humainséchangent et diffusent : c’est, et de beaucoup, celui qui représente le plusgros débit unitaire d’information. Quelques ordres de grandeur méritentd’être rappelés : une image de télévision professionnelle traditionnelle conduit à un débit de plus de 200 Mbit/s brut (et environ 160 net), et une image de télévision à haute définition à plus de 1 Gbit/s (la valeur dépend du format).Même une image de visiophone représenteplus de 10 Mbit/s avant compression.

Cependant, les applications du traitementde signal à l’image concernent un domainetrès vaste. On peut citer notamment les opérations de restauration d’image, la reconnaissance de formes et la robotique,l’extraction d’information (à usage souventmilitaire mais aussi civil), toute l’imageriemédicale ainsi que la synthèse d’images.Parmi toutes ces applications, FranceTélécom est naturellement amené à privilégier ce qui concerne la transmissiond’images sur ses réseaux, et particulièrementpour des usages de communication et de diffusion. Les considérations de débittiennent donc un rôle important et la compression de l’information constitue,du fait de la spécificité de l’image déjàévoquée, le problème principal. Il convientde noter toutefois que les techniques desynthèse d’images ont fait l’objet de travauxmportants mais n’ont pas encore débouchésur des services crédibles. La compressionde l’information d’image reste donc l’activité clé.

Les taux de compression obtenus récemment sont à l’origine de l’engouementactuel pour les services d’images. Car lesprogrès accomplis en la matière, maiségalement en codage de canal, rendentpossible la télévision numérique diffuséeou distribuée, et expliquent l’intense activité qui règne en ce moment dans ce domaine. Notons au passage que latélévision numérique n’est que le servicele plus en vue et que toute une gammed’autres services d’images, ayant des finalités et utilisant des supports variés (et désignés de ce fait par “multimédias”),bénéficie également de ces progrès.Après une longue maturation sous le signedu traitement du signal, les techniques decompression du débit des images (on dit,peut-être improprement, de codage de l’image) atteignent, grâce aux progrèsde la technologie qui repoussent l’obstaclede la complexité, un niveau d’efficacité etde coût qui permet de les incorporer dansdes matériels de prix assez faible pourêtre mis à la disposition d’un large public.Dans cet article, on tentera de donnerquelques éléments d’orientation sur lesméthodes généralement mises en œuvreen codage d’image, et on en présenteraplus particulièrement deux que l’on peutconsidérer comme particulièrement importantes.

Traitement des images numériquespour la réduction du débit binaire

Page 3: Traitement des images numériques pour la réduction du ...

Les principalesapproches du codagede l’image

La spécificité de l’image

L’image animée numérisée n’étant qu’un flux de données parmi d’autres, la réduction de son débit peut être tentéepar des méthodes d’usage général de codage entropique. Bien qu’ayant leurintérêt, ces approches sont peu attrayantesdu fait de la quasi-impossibilité d’obtenirune statistique utilisable du contenu des images. Leur efficacité (les logicielsinformatiques de “compactage de fichiers”,par exemple) est généralement limitée. En outre, l’image animée s’accompagnetrès souvent d’une contrainte de “tempsréel” (il faut coder le débit entrant à la vitesse qu’il impose) difficilement compatible avec ce genre d’approche.

On va donc chercher à tirer parti de l’existence de redondances importantesdans les images (une image même animéeest très différente d’un tableau de pointsde valeur aléatoire), pour les réduire soitsans altérer l’information, soit si l’on n’yparvient pas en minimisant la pertinencede l’information endommagée.

Les opérations réversibles...

Les premières expériences de codaged’image avaient un caractère empirique ;on s’est aperçu très tôt que, si la statistiquedes valeurs des points d’image était inutilisable, celle des différences entrepoints adjacents était par contre beaucoupplus régulière, avec une forte concentrationautour de zéro. Cette constatation, quiconstitue le point de départ du codage différentiel, a permis de dégager la notionde prédiction : on va coder, non pasl’image (ou la suite des points d’image incidents), mais la différence entre l’imageet une valeur estimée de cette image,“prédite” à partir d’éléments déjà connus :lors des premiers essais, cette prédictionétait simplement le point précédent de la ligne.

On a, il y a dix à vingt ans, mis en œuvredes stratégies de prédiction adaptativesau contenu de l’image beaucoup plus élaborées et parfois très complexes. Leur efficacité est finalement décevantepar rapport à leur complexité ; par contreune méthode s’est révélée très efficace :la compensation de mouvement. En effet,l’image précédente constitue une bonneprédiction de l’image courante pour les zones fixes, ce qui est fréquent et correspond aux parties les plus détailléespour lesquelles la vision est exigeante. Par contre, cette prédiction est inutilisablelors de mouvement, mais si l’on sait analyser ce mouvement localement, la zone correspondante de l’image précédente convenablement translatéedevient à nouveau une bonne prédiction(encadré 1)*.

* Ce n’est évidemment vrai que dans certaines limitesde vitesse du mouvement. Au-delà, on ne disposeplus d’une estimation fiable et on peut, soit recourirà une prédiction spatiale, soit... se passer de pré-diction (ce qui revient à prendre comme estimationune constante arbitraire). Ce type de prédiction estdite adaptative intra-interimage.

Encadré 1 : la compensation de mouvement

Cette technique consiste à anticiper le déplacement d’un objet à partir de la connais-sance des images antérieures.

Un premier modèle utilise des équations récursives (calculs de gradients) pour déter-miner le déplacement passé. Il faut extrapoler ce déplacement pour obtenir une pré-diction de l’instant présent et ne transmettre que l’erreur de prédiction. Le décodeureffectue le même calcul ; comme dans tous les systèmes récursifs à prédiction, lerésultat peut diverger du fait d’erreurs de transmission.

Une seconde technique cherche à mettre en correspondance les parties en mouve-ment de l’image présente et celles de l’image précédente. Les images sont découpéesen blocs et la compensation de mouvement s’opère en deux temps (voir figure) :

n estimation du mouvement, c’est-à-dire recherche dans l’image précédente du m ê m ebloc dans une zone centrée sur la projection orthogonale du bloc analysé ;

n compensation du mouvement, c’est-à-dire calcul d’un vecteur déplacement dans lebut de faire coïncider la position antérieure du bloc et sa projection orthogonale, à partir de laquelle la prédiction sera faite.

Plus robuste que la précédente, cette méthode nécessite la transmission du vecteur déplacement de chaque bloc, ce qui conduit à réserver une part du débit à ceteffet. En revanche, le décodeur n’a aucun calcul particulier à effectuer.

Page 4: Traitement des images numériques pour la réduction du ...

La pertinence de l’information n’est pasaisée à apprécier dans le domaine directde l’espace et du temps. On a cherché à effectuer des changements de représentation qui permettent de faciliterla séparation de l’information la plus pertinente. Cette approche est celle destransformations, qui remplacent le signald’origine par sa représentation sur unebase de fonctions, généralement par traitement de blocs mono, bi ou tridimensionnels. Le but est de diminuerau niveau des coefficients transformés lacorrélation qui existe entre les valeurs des points d’image. Si la transformation de Hadamard n’a eu qu’un rôle de précurseur, la gloire actuelle de la transformation en cosinus discrète (TCD),à laquelle une place importante seraaccordée ici, ne doit pas faire oublier qu’ily a d’autres représentations, comme lessous-bandes dont il sera aussi questionplus loin.

Enfin, la mise en œuvre d’un codageentropique, si elle est décevante au niveaude l’espace de l’image d’origine, se révèleun outil efficace pour “compacter” l’information avant son envoi en ligne. Les codes utilisés, comme par exempledes codes de Huffmann, permettent dereprésenter avec peu d’éléments binairesles mots les plus fréquents, et de coderdirectement la longueur de longues plageséventuelles de zéros.

...et irréversibles

Les changements de représentation neréduisant pas par eux-mêmes le débit (qu’ilsauraient plutôt tendance à augmenter, car ils accroissent la dynamique dusignal), le principal outil de réduction est la quantification (précision avec laquelle le signal est représenté). Cette opération,associée à une stratégie de choix dessignaux retenus et non retenus, supprime irrémédiablement une partie de l’information ; tout l’art consiste à faire en sorte que l’information éliminée soitnon pertinente dans l’image reconstituée,ce qui s’appuie sur les caractéristiquespsychophysiques de la vision.

On illustrera l’intérêt de la quantificationpar l’exemple du MICD*, qui combine prédiction et quantification (figure 1) :n le prédicteur établit une estimation de la valeur de chaque point d’image commeexposé plus haut ;n l’erreur de prédiction, dont la dynamiqueatteint deux fois celle du signal incident,est quantifiée de façon simplifiée et nonlinéaire par un quantificateur. Le nombrede valeurs possibles étant restreint, unplus petit nombre de bits est nécessairepour les coder, et c’est là que s’effectuela réduction du débit ;n le décodeur, recevant le mot de code(l’erreur de prédiction quantifiée), l’ajoute àla valeur calculée par son propre prédicteuret obtient un résultat qui ne diffère de lavraie valeur que par l’erreur de quantification.

Il y a lieu de noter que le prédicteur ducodeur n’utilise pas les vraies valeurs des points d’image, mais les valeursreconstruites après quantification del’erreur de prédiction, ce qui permet audécodeur de disposer de la même prédiction.

Le système est capable d’une bonne qualité d’image dans la mesure où :n contrairement à la statistique desvaleurs du signal d’image, inutilisable, la statistique de l’erreur de prédictionmontre, comme signalé plus haut, uneforte pointe à zéro, les écarts étant d’autant

plus rares qu’ils sont plus grands ;n la visibilité de l’erreur de quantificationdépend fortement du contexte local del’image : si l’erreur de prédiction estimportante, c’est que l’on est dans unezone à contraste local élevé où une erreurimportante est bien tolérée par l’œil ; c’est pourquoi le quantificateur, s’il doit êtreprécis pour les petites valeurs de l’erreurde prédiction, peut être plus approximatifpour les valeurs importantes.On se rend compte aisément que, le nombrede niveaux de quantification disponiblesétant limité, un compromis doit êtreadopté entre les zones uniformes, sur lesquelles un bruit granulaire apparaît siles petites valeurs de l’erreur de prédictionne sont pas quantifiées assez précisément,et les contours, sur lesquels diverses dégradations (étalement, déplacement...)vont jouer si les valeurs quantifiées ne montentpas assez haut. Par ailleurs, même en compliquant le prédicteur, on ne peut espérerle voir faire face à toutes les situations,notamment aux orientations des contours.L’efficacité d’un système MICD à prédiction,quantification et débit fixe, n’est bonne quepour une réduction modérée du débit : àpartir d’une image MIC à 8 bits par échan-tillon, la qualité n’est plus satisfaisante endessous de 4 bits par échantillon.

Figure 1 - Prédictionet quantification en codage MICD.

*MICD = MIC–Différentiel = Modulation parImpulsion et Codage Différentiel.

Page 5: Traitement des images numériques pour la réduction du ...

L’adaptativité de la quantification en plus de celle de la prédiction permetd’améliorer les performances. Un “bon”quantificateur se doit d’être fin pour lesfaibles valeurs du signal afin d’éviter lebruit granulaire, tout en présentant despaliers suffisamment élevés pour décrireles contours sans traînage : cela nécessite en pratique un nombre élevé de bits. A ce quantificateur “parfait”, onpréfère un jeu de quantificateurs adaptéslocalement au signal : la quantification est alors dite adaptative (figure 2). Même en ne laissant au codeur le choixqu’entre deux ou trois quantificateurs, il est évidemment exclu de dépenser lemoindre élément binaire supplémentairepar point pour signifier ce choix au décodeur. La décision ne doit donc êtreprise qu’en fonction des informationsd’image déjà connues et transmises normalement au décodeur.

Bien que le MICD soit maintenant abandonné lorsqu’une réduction importantedu débit est souhaitée, la quantificationadaptative reste un outil fondamental pourtoutes les approches. Mais il existe aussid’autres procédures effectuant une simplification irréversible de l’informationla moins pertinente. On peut remplacer

tout un segment ou bloc de points d’imagepar une approximation choisie au mieuxdans un catalogue (appelé “dictionnaire”)dont il suffit de transmettre le numérod’article, dit “vecteur”. Ce procédé s’appelle“quantification vectorielle” (on remarqueraque, si le codage et la remise à jour du dictionnaire sont relativement délicats,le décodage est particulièrement simple).Enfin, on mentionnera seulement l’usagede réseaux neuronaux, auxquels on fait “apprendre” des comportements de simplification de l’information, et laconstruction de systèmes dont l’architecture se rapproche de celle de la vision humaine.

Construire un codeur et un décodeur

Différents outils doivent être combinéspour former un codeur et un décodeurpouvant communiquer entre eux par undébit spécifié. Un schéma très utilisé(figure 3) comporte au codeur un systèmede prédiction suivi d’un changement de représentation, d’une réduction irréversible du débit et d’une mise enforme par codage entropique réversible.Pour obtenir un débit spécifié, unemémoire tampon est intercalée avant

la sortie et une régulation vient contrôlerle fonctionnement de la partie qui réduit ledébit, c’est-à-dire généralement en faisantvarier les paramètres de la quantification.

Le décodeur effectue les opérations ensens inverse : décodage entropique, changement de représentation inverse, et reconstruction de l’image à partir de la prédiction. Ce schéma dit “hybride”(mélangeant le différentiel et le changementde représentation, qui ont été les deuxgrands courants historiques en codaged’image) est actuellement, et depuis longtemps, le plus efficace. D’autresapproches (par exemple par analyse-synthèse) potentiellement plus puissantessont bien entendu à l’étude, mais sontencore loin, voire très loin, d’avoir lemême niveau de maturité.

Sur la base de cette structure, on va examiner deux cas particulièrement intéressants de changement de représentation : la transformation en cosinus discrète et la décomposition en sous-bandes.

Figure 2 La quantification adaptative.

Figure 3 Schémas de codage.

Page 6: Traitement des images numériques pour la réduction du ...

Le codage par transformation encosinus discrète (TCD)

La transformation

On a déjà mentionné que la statistiquedirecte des amplitudes des points del’image était inexploitable. Au moyen d’une transformation réversible, on peutespérer aboutir, par un choix judicieux, à un autre mode de représentation danslequel les coefficients soient mieux décorrélés.

Un certain nombre de transformationsmathématiques étaient connues et repertoriées bien avant que n’existent les images numériques. Les premièrestentatives pour employer des transforméesen vue de comprimer des images se sontheurtées à la complexité des calculs à effectuer en temps réel, et au fait que la transformation se contente de changerla représentation sans réduire le débit : un surcroît de calcul est de plus nécessaire dans le domaine transformé pour effectuerla compression. La complexité était d’ailleurstelle que les premiers essais ont été effectuésen fonction de cette seule contrainte : les transformations initialement utiliséesfurent celles de Haar et de Hadamard qui avaient pour principal mérite de ne pasdemander de multiplications câblées...Leur efficacité restait cependant limitée.

Les spécialistes du codage s’accordentactuellement à reconnaître à la transforméeen cosinus discrète (TCD) bien des vertus(figure 4). Connue depuis de nombreusesannées, elle avait jusqu’ici fait reculer les plus audacieux par la complexité de son transformateur. CLI (CompressionLaboratories Inc.) fut la première compagnieà produire, au début des années 80, un codeur d’image à base de TCD pourdes applications de visioconférence dont les performances se sont montrées supérieures à celles des produits concurrents restés fidèles à des techniques

plus classiques (MICD en particulier). Les progrès constants réalisés depuisdans le domaine des circuits à très hauteintégration (VSLI) ont estompé peu à peul’obstacle de la complexité et permettentaujourd’hui de concevoir des codeursd’image à TCD exploitant toutes les propriétés de cette transformée.

La première série de propriétés est denature statistique. Si l’on considère uneimage comme un ensemble d’échantillons,on peut interpréter les points obtenuscomme les valeurs à différents instantsd’un processus aléatoire. Pour toute portiond’image (généralement un rectangle de taille N x M), on peut définir une valeurmoyenne et une fonction de covariance. Il existe une transformation unitaire unique capable de décorréler complètement l’ensemble des variablesaléatoires d’un bloc : c’est la transforméede Karhunen-Loeve. Elle consiste à diagonaliser la matrice de covariancedans le cas de variables à une dimension,ou un tenseur d’ordre 4 dans le cas devariables à deux dimensions (encadré 2).Les fonctions propres sont les fonctionsde base de la transformée.

Cette transformée de Karhunen-Loeve(TKL) possède en outre une seconde propriété intéressante : elle assure lameilleure concentration de l’énergie dansle domaine transformé. Cette propriétéest liée à la décroissance de ses valeurspropres, qui représentent les variances de coefficients transformés, meilleure quepour tout autre opérateur unitaire.

Figure 4 - Le codage par TCD ; cas du mode intra ; le décodeur est symétrique.

Encadré 2 :transformée de Karhunen-Loeve

à une dimension.

Soit une suite de variables aléatoires centrées Xi (i = 0 à N–1) et sa matrice de covariance Gx d’éléments gi j = E( Xi. Xj) .Il existe une transformation unitaire uniqueK, la transformation de Karhunen-Loeve(TKL), qui fait correspondre à la suite devariables aléatoires Xi une nouvelle suitede variables aléatoires complètementdécorrélées Yi (i = 0 à N–1). En termesvectoriels :Y = K.X Gx = E(X.X) Gy = K.Gx.Kt

Gy est une matrice diagonale dont les éléments li sont les valeurs propres de Gx et les variances des Yi : li=E(Y i

2).Les fonctions propres sont les vecteurs-lignes de la matrice K.

De plus, cette transformation fournit la meilleure concentration en énergie. Si l’on suppose que les variances des coefficients transformés d’une transformation unitaire quelconque sont classées en ordre décroissant s02 ≥ s12 ≥ s22 ≥ ... ≥ sN–12 et que les valeurs propres de la matrice de covariance sont classées dans le mêmeordre l0 ≥ l1 ≥ l2 ≥ ... ≥ lN–1, on peutmontrer que pour toute valeur M ≤ N

Lorsque l’on considère le signal d’imagecomme un processus stationnaire au senslarge, il s’avère que la transformation encosinus discrète (TCD) est une bonneapproximation de la TKL.

M –1M –1∑ li ≥ i =0

∑ si2i =0

Page 7: Traitement des images numériques pour la réduction du ...

Alors, pourquoi la TCD ? Transformée de Fourier d’une séquence réelle paire, la TCD est une transformation réelle.Lorsque l’on considère le signal d’imagecomme un processus stationnaire au senslarge, on peut montrer que la TCD est unebonne approximation de la TKL. De plus,elle possède un ensemble de fonctions de base stable (les fonctions cosinus), ce qui n’est pas le cas de la TKL. Enfin, si le transformateur TCD n’est passimple, la diagonalisation de la matrice de covariance propre à la TKL l’est encoremoins et l’interprétation de ses coefficientsen termes de fréquences spatiales est difficile.

La deuxième série de propriétés est liée à des considérations de filtrage. La TCDd’une séquence est la transformée de Fourier discrète d’une séquence de longueur double, rendue paire par uneopération de symétrie fictive ; toutes les opérations de filtrage linéaire seretrouvent à quelques modifications près(encadré 3). En particulier, les coefficientstransformés peuvent s’interpréter entermes de fréquences : le “piqué” de l’image et la texture des objets correspondent à des hautes fréquences,les objets et leur position dans l’image à des fréquences plus basses.

En définitive, la transformée en cosinusdiscrète appliquée au traitement desimages possède les propriétés suivantes :n les coefficients sont bien décorrélésdans le domaine transformé, ce quiconduit à appliquer la TCD sur des blocsd’images à l’intérieur desquels les éléments sont fortement corrélés (entre 4 x 4 et 32 x 32 selon la résolutionde l’image) ;n la transformée est réelle et les fonctionsde base sont les fonctions cosinus ;n les opérations de suppression de coefficients, de modification et de quantification de leurs amplitudes s’apparentent fortement à des opérationsde filtrage linéaire dans du bruit ;n la parité de la transformation réduit les effets de bords (encadré 3).

Les stratégies de codage découlent directement de ces propriétés.

Encadré 3 : transformée en cosinus discrète et filtrage

Soit une suite d’échantillons Xn (n=0 à N –1). Pour en obtenir la transformée de Fourier,on rend la suite périodique infinie par répétition du motif :

..., XN –1, X0, X1, ..., XN –2, XN –1, X0, X1, ..., XN – 1, X0, X1, ...

Le spectre devient également périodique et l’une de ses périodes représente la trans-formée de Fourier discrète.

La décomposition en série de Fourier d’une fonction réelle et paire ne contient que descoefficients réels correspondant aux termes en cosinus de la série. Pour obtenir latransformée en cosinus de la suite Xn, on forme tout d’abord la suite paire :

X0, X1, ..., XN –1, XN – 1, ..., X1, X0.

La TCD est la transformée de Fourier de cette suite paire. A deux dimensions, on obtientla formule :

2 pu (2n+1) pv (2m+1)F (u, v) = ∑ ∑C(u)C(v) Xn, m cos cos=­­NM n m 2N 2M

n, u =0, 1, ... N – 1 m, v = 0, 1, ... M –1

et pour la transformée inverse :

2 pu (2n+1) pv (2m+1)Xn, m = ∑ ∑C(u) C(v) F (u, v) cos cos=­­NM u v 2N 2M

n et m étant les coordonnées dans le domaine spatial, u et v dans le domaine fréquentiel.

C(u), C(v) = 1/=­2 si u, v = 0 C(u), C(v) = 1 dans les autres cas.

Le coefficient 1/=­2 est nécessaire pour rendre orthogonale la matrice de la transfor-mée en cosinus.

Une image étant découpée en blocs de taille N x M, les mêmes opérations de filtrageeffectuées dans le domaine transformé donne lieu à des effets de bord plus faibles dansle cas de la TCD que dans celui de la transformée de Fourier. Cela est dû au fait quela TCD est la transformée de Fourier d’une séquence rendue fictivement paire. Soit parexemple le filtre linéaire dont la gain complexe vaut G(n)= cos2pnt. La multiplicationdes coefficients par G(n) est équivalente à la convolution dans le domaine spatial :

Yi =1

(Xi –1 + 2 Xi +Xi +1).Yi =

4 (Xi –1+ 2 Xi +Xi +1)La périodicité implicite de la séquence, dans le cas de la transformée de Fourier, conduità un mélange des extrémités en bord de séquence :

..., XN –1, X0, X1, ..., XN –2, XN –1, X0, X1, ..., XN – 1, X0, X1, ...

YN –1=1

(XN –2 +2 XN – 1 + X0).YN –1= 4 (XN –2 + 2 XN – 1 +X0)

Dans le cas de la TCD, les effets de bords sont beaucoup plus faibles car le dernierpoint filtré YN –1 ne fera pas intervenir le point X0 mais le point XN –1 de la séquence :

..., X0, X1, ..., XN –2, XN –1, XN – 1, XN – 2, ..., X1, X0, X0, X1, ...

YN – 1=1

(XN –2+2 XN – 1 + XN –1) = 1

(XN – 2 + 3 XN –1).YN –1=4 (XN –2 + 2 XN –1 + XN –1) = 4 (XN –2 + 3 XN –1

Page 8: Traitement des images numériques pour la réduction du ...

La quantification

Les coefficients du plan transformé sonttransmis en ligne les uns après les autresdans un certain ordre, après quantificationde leurs amplitudes. Il s’agit en fait d’unproblème à trois dimensions : transmissiondes adresses des coefficients dans le plan transformé (u,v), et des amplitudesquantifiées Q = F(u,v) (figure 5). Les opérations d’adressage et de quantificationpeuvent être indépendantes ou non.

techniques par zones ou par balayagesont pour but de réduire le nombre d’informations nécessaires pour transmettreles adresses des coefficients non nuls.Des informations supplémentaires indiquent l’élément de la famille qui a étéretenu : pour tenir compte de la propriétéde concentration de l’énergie autour ducoefficient F(0,0), des codes à longueurvariable sont utilisés pour transmettre lesinformations de zone ou de balayage.

L’ensemble de ces techniques est appeléla classification des blocs.

L’opération de quantification est l’une desclés de la réduction de débit. Elle consisteà transmettre de façon plus ou moins précise les amplitudes des coefficients.Ceux-ci seront donc mesurés dans uneéchelle (linéaire ou non) dont la valeur dupas donnera la précision. Une échelle fine,qui conduit à employer beaucoup de bitspar coefficient, sera généralement utiliséelorsque l’image contient peu de parties en mouvement, tandis qu’une échelle plusgrossière se justifiera en cas de fortsmouvements. Mais l’image reconstruite nesera alors qu’une approximation plus oumoins bien tolérée par l’œil de l’observateur.La quantification des coefficients peut être indépendante ou non de leur adressedans le plan transformé. Les stratégies

de quantification élaborées prennent généralement en compte les trois dimensions (les adresses et l’amplitude) :le pas du quantificateur dépend alors de la position du coefficient. Ce pas peutêtre adapté à la valeur maximum de certains coefficients à l’intérieur de la zoneconsidérée. Une fonction de pondérationest appliquée dans certains cas aux coefficients, de façon à réduire le bruitavant ou après quantification, de mêmequ’un seuillage. La quantification peut êtrelinéaire ou non. Les coefficients sont quelquefois normalisés par leur varianceavant quantification.

Codage entropique et régulation du débit

Pour tenir compte de la distribution statistique de l’énergie dans le plan transformé, des codes à longueursvariables sont employés pour transmettreles adresses et les amplitudes des coefficients quantifiés.

La répartition des coefficients dans le plan transformé est utilisée pour effectuerune régulation de débit : les coefficientscorrespondant à des détails (hautes fréquences) sont éventuellement abandonnés et un certain flou apparaît

Figure 5 - Répartition de l’énergie correspondant à un bloc de l’image dans le plan transformé.

Figure 6 Famille de zonesrectangulaires.

Figure 7 Adressage des coefficients parbalayage.

Les techniques d’adressage cherchent à tenir compte de la concentration enmoyenne des coefficients autour de lacomposante continue F(0, 0). Une méthodeclassique utilise une famille de zones rectangulaires qui contiennent tous lescoefficients non nuls (figure 6). D’autresfamilles de zones aux formes plus complexessont également employées. Un critère dechoix détermine quel élément de la famillereprésente le mieux la répartition des coefficients d’un bloc : seuls des coefficients à l’intérieur de la zone retenue sont transmis.

Une autre technique d’adressage consisteà utiliser une famille de balayages et àchoisir celui qui minimise l’adresse du dernier coefficient non nul à transmettre(figure 7). Cette technique, qui sembleplus efficace que la précédente, est aussiplus complexe à mettre en œuvre. Les

Page 9: Traitement des images numériques pour la réduction du ...

alors sur l’image. Le pas de quantification,comme il a été expliqué précédemment,est également utilisé à cet effet, mais son augmentation excessive fait apparaître du bruit sur l’image. La combinaison optimale des processus précédents constitue le savoir-faire del’homme de l’art...

Les algorithmes de codage qui combinentles éléments décrits ci-dessus sont généralement appelées algorithmeshybrides à prédiction-transformation. L’efficacité de la prédiction peut être augmentée par l’emploi de la compensationde mouvement. Dans ce cas, pour que le décodeur puisse calculer la prédiction,les vecteurs déplacements doivent êtreégalement transmis. Deux types de données sont donc émises : les valeursdes vecteurs mouvement pour la prédiction et l’erreur de prédiction codée.L’efficacité globale du codage réside dans l’équilibre entre ces deux typesd’informations.

Les stratégies de codage sont donc très variées et il est souvent difficile de les comparer : il n’existe pas de critèreobjectif satisfaisant de la qualité d’imageet toutes les stratégies sont comparéessubjectivement (encadré 4).

Le codage par décomposition ensous-bandes

Des transforméesaux sous-bandes

On a déjà signalé que l’introduction detransformations performantes a permis au codage d’image d’effectuer un bond en efficacité grâce aux propriétés remarquables de transformations devenant matériellement réalisables. L’efficacité d’une telle approche est liée à :n la concentration de l’énergie aprèstransformation, la plus élevée possible ;n la corrélation entre les coefficientstransformés, la plus faible possible ;n l’acceptabilité (jugée visuellement etsubjectivement) des dégradations causéespar l’omission ou l’altération de certainscoefficients ;n l’adaptation plus ou moins bonne au système visuel humain.

En ce sens, le remplacement de la transformation de Hadamard par la TCD a représenté un gain important sur lesdeux premiers points. On peut cependantnoter que, si la décorrélation est bonne àl’intérieur d’un bloc provenant d’une zonefixe de l’image, elle l’est moins entre lescoefficients de même indice de blocs différents (il ne faudrait pas pour autant endéduire qu’il faut tenter de traiter l’imagecomme un seul bloc !). Lorsque l’oncherche à diminuer le débit, en supprimantde plus en plus d’information, certainseffets parasites (bruits, marquage descontours) se manifestent, puis la structuration en blocs devient visible : l’œil est très critique et détecte à desamplitudes très faibles une telle structurespatialement régulière de relativementgrandes dimensions. Un tel type de dégradation est très éloigné des traitements par lesquels l’œil “simplifie”les images dans la vision, et est de ce faittrès gênant.

Cette observation suggère de chercher un système qui, tout en effectuant uneredistribution de l’énergie pour en améliorerla pertinence, ne générerait pas de discontinuités repérables sur l’image. Touten conservant les propriétés intéressantes

Encadré 4 : l’évaluation de la qualité.

L’évaluation de la qualité des images est un élément clé de la définition de la performance du codage. On admet que les images sontdestinées à être regardées par un spectateur humain et que c’est leur qualité visuelle qui est en jeu. Il serait évidemment souhaitablede disposer d’une méthode objective pour caractériser cette qualité. C’est possible pour certains types de dégradation (le niveau etle spectre du bruit, par exemple), mais dans le cas des dégradations dues au codage c’est pour l’instant hors de portée.

Il est donc nécessaire de mettre en œuvre des évaluations subjectives de qualité, effectuées par des observateurs selon une métho-dologie rigoureuse. On dispose d’une expérience relativement importante développée pour application à la télévision. Il existe bienentendu plusieurs méthodes, qui reposent sur la présentation à un ensemble d’observateurs (dont les intérêts ne sont pas en jeu, etde préférence non spécialistes), dans des conditions spécifiées, d’un ensemble d’images de contenus divers mais soigneusementchoisies et correspondant à une variété de configurations. On sait assez bien évaluer la perte de qualité due au codage-décodagelorsqu’il existe une image de référence (avant codage) et pour des dégradations modérées ; «assez bien» signifie que les résultatssont stables et se recoupent entre différents laboratoires et sessions d’observateurs.

Cependant, la qualité d’image liée à un algorithme de codage donné dépend de plus en plus du contenu de l’image quand le débitdiminue. Il apparaît de ce fait une frange d’images particulièrement critiques, dont l’importance et la représentativité dépendent del’application, rendant la caractérisation de la qualité globale du codage incertaine. Enfin, si la notion de qualité reste bien maîtriséelorsque des éléments de comparaison existent, ce qui est le cas en télévision, elle est plus difficile à définir dans le cas contraire,ce qui est le cas pour de nombreux services de communication ou de consultation en développement ou en projet et dont l’accep-tabilité à ce point de vue est de ce fait difficile à prédire.

Page 10: Traitement des images numériques pour la réduction du ...

de décorrélation de la TCD, on peut supprimer les problèmes d’effets de blocset se rapprocher des mécanismes de lavision en effectuant une analyse globalesur l’image que l’on décompose enbandes de fréquences : c’est l’approche“sous-bandes”, déjà utilisée avec succèsen codage du son.

Le schéma de base

Pour comprendre la décomposition en sous-bandes et le changement dereprésentation de l’information générée,on peut considérer d’abord le cas de deux sous-bandes seulement (figure 8). Le signal d’origine est séparé par filtrageen deux bandes de fréquences de largeurmoitié et, dans chacune, on peut donceffectuer un sous-échantillonnage par 2.On obtient alors une représentation “transformée” qui utilise le même nombred’échantillons par unité de temps. A partirde cette représentation, on peut revenirau signal d’origine par suréchantillonnagepar 2, filtrage correspondant à chaquesous-bande et addition des signaux.Comme dans le cas de la TCD, cette opération ne réduit pas le débit ; le codageproprement dit doit intervenir dans ledomaine “transformée” (voir plus haut).

Bien entendu, le raccordement des différentes bandes ne peut s’effectuer de façon parfaite et, lors du sous-échantillonnage, des repliements de spectrevont se produire, introduisant dans les différentes sous-bandes de l’énergie parasite. Cependant, si les filtres d’analyse et de restitution ont les propriétés adéquates, cette énergie va miraculeusement s’annuler et la reconstruction sera “parfaite”. Il existe plusieurs approches de la reconstructionparfaite, entre lesquelles le choix met en jeu des critères de complexité de réalisation matérielle. Il est commoded’avoir des filtres symétriques et les filtresde synthèse identiques aux filtres d’analyse.

Des bancs de filtres

La décomposition en un plus grandnombre de sous-bandes peut s’effectuersoit par une cascade de séparations endeux sous-bandes selon un arbre binaire,soit par passage dans un “banc” de filtresen parallèle. Une approche consiste à utiliser un filtre passe-bas de référence (dit “prototype”) et à le “moduler” pour créer les filtres passe-bande correspondant à l’analyse et à la synthèsedes différentes sous-bandes (encadré 5).Une famille de solutions conduit à desfiltres à flanc de coupure symétrique maispour lesquels une reconstruction parfaiteexigerait une bande passante bornée, ce qui est impossible pour des filtres àréponse impulsionnelle finie : la réalisationpratique exige un compromis (filtres ditsPQMF pour “pseudo-quadrature mirror

filters”). Une variante, mise au point auCCETT, permet la synthèse de bancs de filtres à réponse impulsionnelle finie(donc physiquement réalisables) et àreconstruction parfaite (dits PRMF pour“perfect reconstruction modulated filters”).

On a présenté jusqu’ici l’application de sous-bandes à un signal à supportéchantillonné unidimensionnel, mais il estclair que, pour profiter des propriétés intéressantes du filtrage par rapport à lavision des images, il faut effectuer unetransformation bidimensionnelle. On faitapparaître de ce fait des domaines de fréquences spatiales en fonction desquels le codage peut être optimisémais aussi qui peuvent servir, grâce à un arrangement judicieux des sous-bandes, à du codage hiérarchique multirésolution : les sous-bandes basses

Figure 8 - Décomposition en deux sous-bandes.

Page 11: Traitement des images numériques pour la réduction du ...

Encadré 5 : bancs de filtres modulés.

1. Cas de deux sous-bandes

Si l’on désigne par X(z) et Y(z) les transformées en z de l’entréeet de la sortie, on montre que :

Y (z) = [F0 (z) G0 (z) + F1 (z) G1 (z)] X (z) (a)Y (z) + [F0 (z) G0 (–z) + F1 (z) G1 (–z)] X (–z)(b)

Le terme (a) correspond à la distorsion d’amplitude du signald’entrée. Le terme (b) correspond à l’énergie parasiteappelée énergie “d’aliasing” introduite par l’opération de sous-échantillonage. Il peut être annulé si le filtre passe-haut est obtenu par “modulation”du filtre passe-bas.

G1 (z) = G0 (–z)

et si les filtres F0 et F1 sont choisis tels que

F0 (z) = G0 (z) (inversion de l’ordre des coefficients de la réponse impulsionnelle)

et F1 (z) = – G0 (-z)

Ces filtres sont connus sous le nom de filtres “QMF” (Quadrature Mirror Filters).Cette famille de solutions permet seulement d’approcher la propriété de reconstruction parfaite (terme a =~ z–D X(z)). Pour avoir une reconstruction parfaite (terme a = z–D X(z)), une autre famille de filtres appelée “CQF” (Conjugate Quadrature Filters) a été introduite, vérifiant les relations :

G1 (z) = z–(L–1) G0 (–z–1) F0 (z) = G1 (–z) F1 (z) = G0 (–z) L est la longueur du filtre.

Dans le cas d’un système à N sous-bandes, on montre que les conditions de reconstruction parfaite (réponse plate dans la bande et annulation des termes parasites) peuvent être réalisées si les différents filtres Gk et Fk sont obtenus à partir d’un filtre “prototype” passe-bas de largeur de bande [0, p/2N] que l’on module par une série de N fréquences porteuses réelles situées au centre des N filtres désirés. Le filtre prototype, à phase linéaire, est symétrique et peut doncêtre le même pour l’analyse et la synthèse ; il en va de mêmepour les filtres Gk et Fk.

Si l’on désigne par f(n) les coefficients du filtre prototype, les différents filtres des sous-bandes ont des coefficients Fk(n) de la forme

Fk(n) = Ck(n).f(n)

où Ck est de la forme cosF et F est une fonction affine de kp/2N qui fait intervenir la longueur du filtre prototype. L’opération de modulation est représentée ci-contre dans le planfréquentiel.

2. Cas de n sous-bandes

Page 12: Traitement des images numériques pour la réduction du ...

* S’il est coûteux mais tout à fait possible, par exemple pour effectuer une conversion de normesde balayage (entre 525 lignes 60 trames/s et 625 lignes 50 trames/s), de calculer un vecteurde mouvement par point d’image, il n’est parcontre possible que de transmettre un champ devecteurs sommaire pour du codage, en raison dufaible débit allouable, d’où l’intérêt d’une analysepar blocs.

seules permettent de décoder une imageà basse résolution, l’adjonction des sous-bandes de fréquences élevées permetd’accéder à une plus haute résolution(codage compatible TVHD-TV, par exemple)(figure 9). Cette décomposition bidimension-nelle peut s’effectuer en séparant les deuxdimensions (par exemple, 8 sous-bandesdans chaque dimension fréquentielle générant 64 sous-bandes au total) ou parla synthèse directe de filtres non séparables.

La grande famille des sous-bandes

La décomposition en sous-bandes correspond à la représentation du signald’origine sur une base de fonctions (généralement orthogonales) et constitueune autre description des “ondelettes”déjà connues et étudiées en codage sonore(et que l’on peut considérer comme dessous-bandes de largeur non constante).Elle est aussi de ce fait proche parente de la transformée de Fourier discrète et de la TCD. On peut, en effet, considérer la suite des coefficients de même indicedes différents blocs TCD comme le résultatde l’application au signal du filtre correspondant à la fonction en cosinustronquée sur la longueur du bloc. Par ailleurs,la TCD a donné lieu à un important travaild’optimisation pour minimiser la complexitédu calcul et plus particulièrement le nombrede multiplications. Ce même critères’applique tout aussi bien à la synthèse debancs de filtres, et le nombre d’opérationsnécessaires peut directement être comparé à celui d’une TCD fournissant

le même nombre de coefficients. A cetégard, la décomposition en sous-bandess’avère comparable en efficacité (un degréde liberté existant sur la forme exacte des filtres) et peut conduire à un nombrede multiplications inférieur (les filtres de type PRMF signalés plus haut étant particulièrement performants).

Réduction du débit et codage hiérarchique

Comme dans le cas de la TCD, il ne s’agitjusque là que d’un changement de représentation et il reste à effectuer lavéritable réduction de débit, ce qui va utiliser les mêmes méthodes que dans lecas de la TCD. Les outils de base sontencore la quantification (on ne transmetde valeurs que dans la mesure où ellessont visuellement significatives et on ne leur donne que la précision de quantification nécessaire) et le codageentropique du résultat, le tout dopé par de la compensation de mouvement. Leschéma d’ensemble est comparable : oncode, dans le domaine des sous-bandes,

la différence entre l’image et une estimation de cette image. Pour faciliter la transmission du résultat des décisions,les traitements et notamment la compensation de mouvement* sont effectués par blocs ; cependant, en ce quiconcerne la quantification, tout se passecomme s’il y avait une boucle indépendantepar sous-bande avec une stratégie dequantification spécifique. Le résultat estsoumis au codage entropique, on ajouteles vecteurs de mouvement et le débit estrégulé par un tampon qui rétroagit sur lastratégie de quantification, comme en TCD.Le décodeur procède de façon analogueau cas de la TCD, la transformationinverse étant remplacée par les filtres desynthèse des sous-bandes (figure 10).

Figure 9 - Multirésolution en sous-bandes.

Figure 10 - Codeur complet sous-bandes.

Page 13: Traitement des images numériques pour la réduction du ...

Ce schéma correspond à un seul niveaude résolution de l’image au décodage,mais, comme signalé plus haut, les sous-bandes se prêtent bien à la mise enœuvre d’un codage hiérarchique. Si l’onreprend l’exemple du codage d’une imageTVHD avec 8 x 8 = 64 sous-bandes, onconçoit bien qu’un décodeur n’utilisant que les 4 x 4 = 16 sous-bandes basse fréquence peut extraire du flux codé une image de résolution spatiale moitiédans chaque dimension. Cependant, un tel décodeur ne pourra interpréter correctement les vecteurs de mouvementfaute de connaître la pleine résolution del’image prédite. On fait alors apparaîtredans le codeur une boucle interne qui travaille sur les 16 sous-bandes basses et dont le résultat décodé est utilisé pourl’élaboration de la prédiction complémentairepour les 48 autres sous-bandes (figure 11).Le surcroît de complexité est reporté aucodeur, le décodeur basse résolution enest exempté et fonctionne convenablement (et c’est évidemment le décodeur basserésolution que l’on souhaite garder le plussimple possible). Cette présentation passesous silence un certain nombre de problèmes, dont le plus important estqu’elle ne tient pas compte de l’entrelacementgénéralement utilisé en télévision qui rendle rapport entre haute et basse résolutionplus complexe qu’un filtrage passe-bas et sous-échantillonnage par 2.

Quelques applications

La visiophonie/v i s i o c o n f é re n c e ( U I T / H . 2 6 1 )

Sur l’accès de base RNIS, les utilisateursdisposent de deux canaux à 64 kbit/s et d’un canal à 16 kbit/s. Compte tenu de la disponibilité croissante des réseauxRNIS dans le monde et de l’efficacité destechniques de compression d’images, ilest tentant d’aborder la visiophonie suivantune approche “bande étroite” : 64 kbit/ssont utilisés pour la transmission de laparole et 64 kbit/s pour celle de l’image.

La visioconférence permet de “rassembler” jusqu’à une douzaine de participants actifs situés en divers lieux.Etant donné que plusieurs personnes peuvent partager le même écran, un débitde 384 kbit/s est souhaitable.

La Recommandation H.261 – algorithme de compression des images à p x 64 kbit/s(p = 1, 32), utilisé pour la visiophonie et la visioconférence – rentre dans la catégoriedes algorithmes hybrides à prédiction-transformation et compensation de mouvement (figure 12). Les principalescaractéristiques sont les suivantes :n représentation interne des images dansun format intermédiaire non entrelacé (dit “common intermediate format” ouCIF), à “mi-chemin” entre les standards625 lignes 50 Hz et 525 lignes 60 Hz ;n prédiction temporelle calculée aprèscompensation du mouvement et filtragesur des blocs 16 x 16 ;n transformée en cosinus appliquée surdes blocs 8 x 8 ;n transmission des adresses des coefficients transformés par un code àlongueur variable à deux dimensions ;n quantification uniforme des coefficientstransformés ;n codage entropique.

Figure 11 - Codeur multirésolution.

Figure 12 - Algorithme de codage H.261.

Page 14: Traitement des images numériques pour la réduction du ...

Le service de visiophonie est complétépar des recommandations concernant lecodage de la parole, la synchronisationdes canaux son et image, la transmissiondes données et les protocoles d’établissement des communications.

Le stockage des imagessur CD-ROM (MPEG1)

Le débit disponible sur un CD-audio, aprèscorrection d’erreurs, est de 1,5 Mbit/s.Les spécialistes de la compression du sonannoncèrent vers 1987 qu’ils seraientbientôt en mesure de reproduire la qualitédu CD-audio à 128 kbit/s en monophonieou à 256 kbit/s en stéréo. Il restait doncenviron 1,2 Mbit/s disponibles qui furentmis à profit pour stocker des données et des images, fixes puis animées (applications CD-I ou CD-vidéo). Lescontraintes de service comme les accèsaléatoires, l’avance rapide ou la marchearrière, conduisirent à aménager les algorithmes connus.

MPEG1 est donc également un algorithmehybride à prédiction-transformation etcompensation de mouvement qui opèresur des images non entrelacées à 30 Hz,25 Hz ou 24 Hz (pour le cinéma). Les principales innovations sont les suivantes :n compensation de mouvement avec calcul du vecteur mouvement au demi-point ;n pondération des coefficients transformésavant quantification ;n prédiction temporelle bidimensionnellepour faire face aux situations de travellinget de zoom (figure 13) ;n insertion régulière d’images non prédites (images intra).

Les algorithmes pour la compression duson et des images sont complétés parune norme système qui définit les liaisonsentre les flux audio, vidéo et données.

Figure 13 - Structure temporelle des imagesdans MPEG.

Figure 14 - Exemple de schéma à deux niveaux.

La télévision numérique

La transmission de programmes de qualité “contribution” représente la première application de télévision numérique qui a donné lieu à un standard(CMTT). Il s’agit une nouvelle fois d’unalgorithme hybride. Le calcul de la compensation de mouvement s’effectueau demi-point sur des blocs de taille 16 x8. Des raffinements ont été introduitsdans la quantification et dans le codageentropique. Le débit est de 34 - 45 bit/s.

Une deuxième application, davantageorientée vers la diffusion, est en cours denormalisation. Il s’agit d’un travail communentre l’ISO et l’UIT. Le standard s’appelleMPEG2 pour l’ISO et H.26x pour l’UIT.

L’algorithme appartient toujours à lafamille des schémas hybrides. Il opèrecette fois-ci sur des images qui peuventêtre entrelacées. Il présente un caractèregénérique dans la mesure où il peut sedécliner en plusieurs “profils” adaptés à des applications particulières.

Le profil dit “principal” contient, en dehorsdes éléments communs à MPEG1 :n une prédiction supplémentaire unidirectionnelle adaptée aux imagesentrelacées, particulièrement utile pour les applications qui ne peuvent tolérer un retard important ;n une grande flexibilité dans les taillesd’images, ce qui permet de l’employerpour des applications allant jusqu’à lahaute définition en 16 : 9 ;n une insertion régulière d’images nonprédites (cf. images intra de MPEG1) destinée cette fois au “zapping”.

Un profil plus élaboré met en œuvre un schéma de compression en couche(figure 14) qui permet de faire face à des environnements très bruités (replimomentané sur une qualité plus faible), ou d’aborder la haute définition de façoncompatible : le signal numérique hautedéfinition contient alors le signal à la définition standard qui peut être décodépar des récepteurs ordinaires.

Page 15: Traitement des images numériques pour la réduction du ...

Conclusion

Cette présentation de quelques aspectsdu codage d’image a tenté de montrerque, sur une base d’outils mathématiquesthéoriques et éventuellement arides, on est amené à construire des systèmesqui y mêlent des aspects expérimentaux,voire empiriques. En fait, malgré le caractère relativement abstrait de certainsdéveloppements, notamment ceux quisont actuellement en cours pour l’explorationde voies nouvelles, le codage d’images ne doit pas perdre contact avec la réalitéphysique : c’est la possibilité d’une réalisationmatérielle, fonctionnant en temps réel, qui donne son sens au schéma abstrait,même si cette possibilité n’est pas immédiatement accessible. La TCD étaitconnue depuis longtemps, mais la voien’en a été définitivement ouverte quelorsqu’un codeur matériel a pu être réalisé.

Avec quelques perfectionnements et optimisations supplémentaires, lesapproches décrites dans cet article restentcelles qui conduisent aux meilleures performances, et ce depuis près d’unedécennie. Cependant, malgré les progrèsimportants déjà effectués, l’accès au niveau de performances supérieur (par exemple division du débit par 3 ou 4avec la même qualité) reste ardu. Oncherche activement la nouvelle approchequi va permettre un gain significatif parrapport à l’utilisation de la TCD et dessous-bandes : il y a des candidats, maisaucun n’est encore suffisamment maîtrisépour être crédible, en plus du saut importantqui devra être consenti en complexité.

Par ailleurs, le codage d’image ne peutêtre validé que lorsqu’il a pu être incorporédans un service complet. Mais le niveaude complexité dépasse celui de la seulecomposante image, même lorsqu’elle estprépondérante, ce qui est par exemple le cas en matière de télévision numérique,car d’autres techniques (en plus du codagedu son) relevant du traitement du s i g n a ljouent également un rôle important : c’esten particulier le cas du codage de canal(présenté dans l’article précédent).

Les travaux en codage d’image sont menésde façon coordonnée entre le CNET Pariset le CCETT : ils portent sur les images de communication au centre Paris A et les images pour services diffusés ouconnectés au CCETT, et mobilisent desmoyens importants.

Ces centres ont joué un rôle très actif dans l’aboutissement de recommandationssur le codage d’image dans les organismesinternationaux compétents : UIT, ISO, ETSI.Ils ont effectué de très nombreuses communications dans des congrès etpublications dans diverses revues scientifiques. Ils participent activement à de nombreux projets européens, dans le cadre général des projets Race, Esprit et Euréka. En reconnaissance de ses travaux sur le visiophone sur RNIS, l’équipedu centre Paris A a reçu, en 1989, le PrixCNET. Enfin, récemment, le CCETT aeffectué au Symposium international deMontreux des démonstrations de diffusionnumérique de télévision qui constituentune première mondiale et pour lesquellesil a reçu la médaille de Montreux.

Enfin, en matière de coopération, il fautsignaler que ces matériels (tant lesdémonstrateurs de télévision numériqueque les visiophones), utilisent dans leurpartie compression d’image, des circuitsintégrés de transformation TCD, résultatsd’une collaboration entre les centres duCNET, la DEST et SGS-Thomson.

Remerciements

Les auteurs souhaitent remercier ici tousceux qui ont contribué de leur travail ou deleurs conseils à la réalisation de cetarticle. Ils signalent qu’en outre certainsaspects en ont été empruntés à un articlequ’ils ont publié en 1986 dans l’Echo desRecherches.