La perception des effets visuels de la compression JPEG
-
Upload
cyrille-robin -
Category
Documents
-
view
217 -
download
1
description
Transcript of La perception des effets visuels de la compression JPEG
Mémoire de fin d’études et recherche appliquée École Nationale Supérieure Louis Lumière
Section Photographie Option Traitement Des Images
Promotion 2008
La réception des effets visuels de la compression JPEG par le grand public
Cyrille Robin Sous la direction d’André Gunthert et Franck Maindon Membres du Jury : Françoise Denoyelle, Pascal Martin, André Gunthert, Franck Maindon et Véronique Dürr
2
Mémoire de fin d’études et recherche appliquée École Nationale Supérieure Louis Lumière
Section Photographie Option Traitement Des Images
Promotion 2008
La réception des effets visuels de la compression JPEG par le grand public
Cyrille Robin Sous la direction d’André Gunthert et Franck Maindon Membres du Jury : Françoise Denoyelle, Pascal Martin, André Gunthert, Franck Maindon et Véronique Dürr
3
Pour leur aide et leur soutien, merci à : Arthur Azoulay, Daniel Barillot, Pierre Bonton, Nicolas Bonnier, Clotilde Boust, Benjamin Bringier, Pierre-Yves Bronsart,
Damien Capitan, Quentin Caffier, René Chaleil, Françoise Denoyelle, William Gaye, Nicolas Granon, André Gunthert, Bruce Lindbloom, Alexandre Lissner, Franck Maindon, Pascal Martin, Christopher Martin-Prud’homme, Guillaume Moreau,
Fannie Outeiro, Ludovic Quintard, Marianne Rapegno, Bérénice Rapegno, Marie-Christine Rapegno, Françoise Robin, Alain Sarlat, Ramid Sheik, Brian Wandell,
Xueimei Zhang, le couple de Hollandais du jardin des Tuileries, les élèves du Lycée Albert Thomas de Roanne, toutes les personnes que j'ai interrogées et, pour m’avoir donné l’idée du sujet : le couple qui a trouvé réussies les photographies du Samsung
i70 à la Fnac de la Défense.
4
Résumé
La compression JPEG est une pratique courante liée à l’usage de
l’informatique dans la photographie. Elle sert à rendre plus facilement
manipulables, stockables et diffusables les images numériques. Pour cela, elle
utilise des méthodes de statistiques qui modifient légèrement l’apparence. Cette
indispensable variation de l’aspect a été conçue pour rester difficilement
détectable à l’œil humain. Malheureusement, utilisée à des taux excessifs, la
compression JPEG peut avoir de graves conséquences sur l’image en se
traduisant par de fortes dégradations visuelles. Ce défaut devient alors très
caractéristique et reconnaissable. Un œil humain ayant régulièrement été
confronté à ce défaut ne peut assurément pas l’analyser de la même manière
qu’un autre. Par ailleurs, le contenu de l’image présentant ce défaut peut
influencer le jugement que l’on apporte sur la qualité de celle-ci.
Ce travail de recherche réunit : les causes de la détérioration visuelle des
photographies numériques, les méthodes qui permettent de mesurer
objectivement cette dégradation, et une analyse du regard que porte aujourd’hui
le grand public sur la photographie numérique. On s’intéresse donc au
bouleversement des mœurs, lié à la démocratisation du numérique et d’Internet,
pour le mettre en relation avec l’évolution du regard sur les images. On travaille
à partir d’écrits théoriques pour donner des pistes de réflexion sur ce sujet, et à
partir de sources scientifiques pour donner des valeurs numériques aux
mécanismes du regard. C’est dans un dialogue entre les sciences expérimentales
pures et les sciences humaines que ce sujet se propose d’exister.
5
Abstract
JPEG compression is a common practice linked to the use of photography
with computing. It is used to make it more easy to manipulate, store and
distribute digital photographs. To this end, it uses statistical methods that change
the appearance ever so slightly.This variation in appearance was been conceived
so that it remains undectectable to the human eye. Unfortunately, used at
excessive rates, JPEG compression can have serious consequences for the
picture resulting in severe visual impairments. This defect becomes very
distinctive and recognizable. A human eye wich has regularly been confronted
with this defect can certainly not analyze a photograph in the same way as an
eye that has not. In addition, the subject of the photo can influence the
judgement that it brings on the quality.
This research brings together : causes of visual deterioration in digital
photographs, methods to measure objectively this degradation, and the analysis
of sight that the general public currently has on digital photography. Therefore,
this subject deals with changes in mentality, linked to the democratization of
digital photography and the Internet, to relate it to the evolution in the way we
look at images. We base our works an theoretical writings to give ideas of
thought on this subject, and base of works on scientific sources to give
numerical values to the mechanisms of sight. Therefore, it is by merging pure
experimental sciences and social studies that this topic becomes relevant.
6
Table des Matières
INTRODUCTION 8
I - FONDEMENTS DE LA PROBLEMATIQUE 11
1 – UN NOUVEAU REGARD SUR L’IMAGE 12 A/ LES NOUVEAUX HORIZONS DE LA PRISE DE VUE FAMILIALE 12 B/ LE RESSENTI DES IMAGES AVEC LA FACILITE DU NUMERIQUE 14 C/ L'EXTENSION DES PROFILS D'UTILISATEURS AVERTIS 18 D/ LE REGARD SUR L’IMAGE IMPRECISE 21 E/ CONCLUSION 27 2 - LE FICHIER IMAGE EN INFORMATIQUE ET LA COMPRESSION 28 A/ LA STRUCTURE DU FICHIER IMAGE 28 B/ LES FORMATS DE COMPRESSION 30 C/ LES METHODES DE CODAGE ET ALGORITHMES DE COMPRESSION 32 D/ LE FORMAT DE COMPRESSION JPEG 33
II - METRIQUES DE QUALITE D’IMAGE 37
1 - LA PSYCHOMETRIE DE LA COULEUR 38 A/ L’IDEE 38 B/ L’APPROCHE COLORIMETRIQUE 39 C/ LA METRIQUE CIE DELTA E (1976) 40 D/ LA METRIQUE CMC L:C 41 E/ LA METRIQUE CIE DELTA E 1994 : 42 F/ LA METRIQUE CIE DELTA E 2000 : 42 2 - L’EVALUATION DE QUALITE D’IMAGE 43 A/ MEAN OPINION SCORE 44 B/ ENJEUX 45 C/ MEAN SQUARE ERROR (MSE) 46 D/ PEAK SIGNAL TO NOISE RATIO (PSNR) 47 E/ LA METRIQUE S-CIELAB 48 F/ LA METRIQUE SSIM 51
III - EXPERIMENTATIONS DES METRIQUES DANS LES USAGES REELS DU JPEG 56
1 - LA COMPRESSION DANS PHOTOSHOP 59 A/ PRESENTATION 59 B/ TESTS DE LA COMPRESSION JPEG DANS ADOBE PHOTOSHOP CS3® 60 2 - LA COMPRESSION AUTOMATISEE EN LIGNE. 67 A/ SANS REECHANTILLONNAGE 68 B/ AVEC REECHANTILLONNAGE 71 3 - L’AFFICHAGE DES IMAGES SUR ECRAN 72 A/ PROTOCOLE 73 B/ CONCLUSION 76
7
IV – ENQUETE SUR LES ELEMENTS CONSTITUTIFS DU JUGEMENT DE QUALITE D’IMAGES COMPRESSEES 78
1- REFLEXION SUR LES IMAGES TESTS 79 A/ LES CHOIX TECHNIQUES DES IMAGES. 79 B/ LE CONTENU DES IMAGES A CHOISIR. 80 2- REFLEXION SUR LE CONDITIONNEMENT 82 A/ L’INTERFACE DE VISUALISATION 83 B/ LE VOCABULAIRE A UTILISER. 84 C/ LA FORME DES QUESTIONNEMENTS 86 3- CATEGORISATION DES OBSERVATEURS 91 A/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’USAGE DE LA PHOTOGRAPHIE NUMERIQUE 91 B/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’INTERET POUR L’ART ET LA PHOTOGRAPHIE. 93 C/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’USAGE D’INTERNET 95 3- RESULTATS ET INTERPRETATIONS 96 A/ L’AFFECT 97 B/ LA LEGITIMITE DU PHOTOGRAPHE ET LA GENE IMMEDIATE 98 C/ CATEGORISATION DES PROFILS 99 D/ L’INFLUENCE DU PROFIL D’UTILISATEUR 100
CONCLUSION 106
BIBLIOGRAPHIE 108
8
Introduction Il y a un an et demi, je travaillais le week-end comme vendeur d’appareils
photographiques numériques dans une très grande enseigne de diffusion de
produits high-tech. J’étais chargé de démontrer la qualité des nouveaux appareils
multifonctions et de vanter leur mérite technologique, ergonomique et qualitatif.
Sur les deux premiers points, il m’arrivait de tomber d’accord avec le fabricant
que je distribuais. Étant encore en formation à l’école Louis Lumière, mon
jugement restait beaucoup plus dubitatif en ce qui concerne le troisième atout : la
qualité des images. Mon jugement d’étudiant en photographie ne faisant pas du
tout légion dans cet environnement commercial, je me gardais bien d’en faire
part à qui que ce soit et beaucoup de clients n’en avaient pas besoin pour faire
leur choix dans cette jungle des prix. Souvent, leur regard, plus tolérant que le
mien sur la qualité, s’arrêtait sur d’autres problématiques comme la couleur de
l’appareil ou le lecteur vidéo intégré. Il n’était pas rare qu’ainsi je me fasse pour
un instant, l’élève d’un amateur visiblement plus averti que moi sur la capacité
de zoom optique d’un modèle antérieur à la gamme présentée. Pour les autres,
moins avertis, le nombre de millions de pixels disponibles sur chacun des
appareils à la vente était souvent la première et unique question.
Dans ce mémoire, je ne souhaite pas critiquer ce nouvel apprentissage
orchestré par les fabricants qui consiste à enseigner au grand public des points de
comparaison simples pour l’aider à consommer sans regretter ; je propose plutôt
d’analyser comment est utilisée l’image aujourd’hui et quels sont les impacts sur
la perception de la qualité subjective des images du réel.
Quel que soit le domaine considéré, le regard d’un professionnel sera
toujours différent de celui d’un amateur, nous ne reviendrons pas sur cette
évidence. Cependant, dans la société occidentale, l’image photographique mérite
que l’on s’attarde sur son cas plus que sur un autre parce qu’elle est dotée de ces
trois attributs particuliers : elle est manipulée par tous, elle figure le réel et elle
est en pleine mutation. La diversité des profils de personnes dans leur rapport à
l’image est immense et complexe, mais un dénominateur commun lie une
majorité des nouvelles photographies visualisées aujourd’hui : le format JPEG.
9
Propulsé aujourd’hui au statut de standard, même si l’on ne peut pas encore faire
de constatations concernant l’universalité de sa pratique, il change les codes de
qualité d’image. Aujourd’hui, une image numérique non validée pour défaut
technique par un professionnel de l’image peut schématiquement présenter une
sous-définition, un défaut de bruit électronique parasite, une mauvaise
répartition des valeurs, ou une compression destructive. Ce dernier paramètre est
intéressant car il est généré après la prise de vue. S’il dégrade souvent l’image,
son utilisation à des taux de compression parfois excessifs, est couramment
observable, bien que nécessitant une intervention du photographe ou d’un
membre de la chaîne d’exploitation des images. Cette spécificité donne
beaucoup d’intérêt à son étude. Ce qui nous conduit à questionner le regard
critique de différents publics sur ce défaut, qui, de surcroît, est omniprésent sur
Internet.
On se propose dans cette étude sur les usages et les effets de la
compression JPEG sur Internet, d’éclaircir dans la première partie, intitulée
« Fondements de la problématique », les bases de ce questionnement. C’est-à-
dire, les pratiques actuelles, leur impact sur le regard des images, et les
impératifs techniques de la compression, afin de détailler les enjeux et intérêts
d’une telle recherche. Pour comprendre les nouveaux profils utilisateurs et les
nouvelles utilisations à prendre en compte par la suite, nous reviendrons sur le
bouleversement des mœurs lié à l’arrivée de la photographie numérique. Dans
cette même partie, nous définirons clairement le défaut dont il est question, et
nous exploiterons quelques exemples courants dans lesquels le regard est
confronté à des images numériques dégradées. Puis, nous développerons les
causes de cette dégradation, selon le point de vue purement technique, et les
alternatives possibles à ce format d’image standard.
Ainsi, nous en arriverons à la deuxième partie, intitulée « Métriques de
qualité d’image », où nous inspecterons toutes les tentatives d’évaluation
objective de la qualité d’image basées sur des principes de comparaison
mathématiques entre image originale et image mesurée. Développées par des
informaticiens et des spécialistes de la couleur, les métriques de différences se
multiplient en utilisant des lois-statistiques ou psychovisuelles. Cette étude sera
10
l’occasion de réunir et expliquer ces nombreuses recherches au sein d’un même
document.
Cette inspection des méthodes sera faite en prévision d’une mise à
l’épreuve des métriques de qualité d’image durant la troisième partie,
« Expérimentations des métriques dans les usages réels du JPEG », qui mettra en
œuvre les méthodes mathématiques pour les faire dialoguer avec notre
problématique des usages habituels de la photographie numérique amateur et
professionnelle. Cela nous permettra d’envisager des mesures fiables sur
différents terrains comme la compression par les logiciels, l’interprétation de
l’affichage et le partage en ligne des photographies.
Enfin, nous utiliserons tous ces éléments pour réaliser une enquête sur la
tolérance et le jugement de la qualité de photographies numériques par
différentes populations expérimentales françaises. Le jugement de la qualité
étant une valeur très difficile à modéliser car faisant intervenir des réactions
psychologiques, des influences culturelles et sentimentales ainsi que des
habitudes d’utilisation, cette étude se portera sur ces influences plus que sur
l’obtention de règles générales.
11
I - Fondements de la problématique
12
1 – Un nouveau regard sur l’image
Avec la popularisation de la prise de vue numérique à presque tous les niveaux
dans les pays développés, le rapport à l’image est bouleversé dans son essence même.
Comme on peut le rappeler pour tout sujet évoluant, on se doit de le considérer pour
l’image : l’enfant qui naît aujourd’hui ne connaîtra pas de points de comparaison avec
le passé. Ce constat évident est particulièrement pertinent aujourd’hui pour le cas de la
photographie, car, bien que le bouleversement des habitudes se soit fait sans aucune
difficulté pour le grand public, une majorité de représentants de la génération
argentique vit aux côtés d’une génération grandissante destinée à remplacer la
première et n’ayant déjà plus conscience de l’avant numérique. Qu’elle soit sociale,
publicitaire ou informative, la nouvelle image est saisie de caractéristiques jusque-là
inexistantes et ceux qui la découvrent ne peuvent agir et regarder de la même manière
que ceux qui sont pour ainsi dire nés avec. Une étude de la conjoncture de la
photographie actuelle dans son environnement doit être faite dans une première partie,
afin de mettre à jour l’évolution du rapport psychologique à l’image.
a/ Les nouveaux horizons de la prise de vue familiale
Dans le cas spécifique de la prise de vue dite familiale, hier, l’appareil
photographique était considéré au même niveau par tous les membres de la famille.
C’était un objet à part, utilisé uniquement pour capturer les plus grands moments de
vie et qu’on ne sortait que pour les occasions particulières. Pour l’anniversaire du petit
dernier, on le chargeait d’une pellicule 24 poses que l’on n’était pas sûr de remplir,
mais peut-être allions-nous avoir sur la fin la place d’y mettre les photographies du
week-end à la campagne qui avait lieu quelques semaines après. L’appareil
photographique était un objet doté d’une fonction obscure, le passage de la réalité aux
images nécessitait un temps d’attente parfois important mais aussi le passage entre les
mains d’un professionnel. Ces deux ingrédients fondamentaux, propres à la prise de
vue sociale au gélatinobromure d’argent1, produisaient un environnement mystérieux
qui contribuait à extirper le client de sa réalité pour un instant : le premier
visionnement des images sorties de la boîte. Le paradoxe qui consiste à payer
quelqu’un pour qu’il vous rende un échantillon de vos propres souvenirs renvoyait
1 Appellation chimique courante du type de film photographique prépondérant durant tout le 20ème siècle.
13
l’acte de cet achat si spécifique dans des « sphères » supérieures aux autres types de
dépenses. L’acquisition des images semblait simple, mais l’ensemble des méthodes et
de la chaîne de fabrication restait mal connu. Les longues étapes de développement,
précurseur immédiat du visionnement de l’image, étaient floues. Cette allégorie de la
boîte noire, élément principal de l’implication des images dans un réel transposé sur
papier, a aujourd’hui quasiment disparue. Par ailleurs, l’appareil est noyé au milieu
d’autres éléments technologiques, il a perdu son statut unique de « boîte à images du
réel ». Si son principe de fonctionnement n’est toujours pas évident pour tous, la
conjoncture technologique actuelle permet cependant de mieux l’appréhender. Il est un
produit de consommation comme un autre et participe à la course de la haute
technologie dans laquelle la banalisation de ses capacités de capture l’a rangé au
même niveau que le lecteur DVD. Avant de l’acheter, certains connaissent par cœur
ses caractéristiques techniques commerciales, et il arrive qu’ils choisissent un appareil
plutôt qu’un autre parce qu’il semble être à la « pointe », parce qu’il fait plus
technologique. On trouve l’appareil numérique partout. Il est dans un téléphone, dans
une webcam, les publicités crient les capacités des zooms et le nombre de pixels pour
que chacun ait ces éléments de référence. Au sein de la même famille, il n’est plus rare
d’avoir plusieurs appareils et de connaître par coeur le nombre de pixels que chacun
est capable d’enregistrer. Alors qu’il avait fallu des dizaines d’années pour que les
notions de sensibilité ISO2 soient globalement acquises par tous, l’échelle du nombre
de photosites présents sur un capteur est devenue quasiment universelle entre 2000 et
2006.
Figure 1 : Publicité en page d'accueil du site Internet de vente en ligne www.cdiscount.com, avril 2008. L'appareil photographique est vanté pour ses caractéristiques technologiques et
présenté aux côtés de matériel d’informatique. 2 Equivalentes à la norme ASA jusqu’en 1986. La sensibilité ISO est l'échelle de mesure de la sensibilité des surfaces sensibles. Les pellicules grand public varient entre 100 et 400 ISO.
14
La prise de vue en amateur n’est donc pas en crise3, mais les images sont issues
d’instants beaucoup plus multiples qu’hier, souvent plus banals et globalement plus
difficiles à trier. D’après Pierre Bourdieu4, la pratique photographique familiale a
« toujours pour fonction expresse d’éterniser les grands moments et les hauts lieux de
la vie familiale ». Cette observation, faite en 1965, n’est aujourd’hui peut-être plus
d’actualité, les instants de vie familiaux ne sont plus les sujets majoritaires et la
pratique collective de l’image s’est élargie au groupe. Face au nombre d’images
générées, beaucoup en arrivent à se demander comment ils pourront les conserver pour
l’avenir. Pour une grande partie de la population, l’acte photographique numérique
n’est toujours pas considéré au même rang que l’argentique. Contrairement à ce
dernier, il n’est pas un rituel. La facilité du déclenchement, mais surtout la possibilité
immédiate de voir son image, de l’effacer et de la remplacer, ont bouleversé la
pratique photographique.
L’existence de toutes ces différences de fond entre la photographie sociale du
20ème siècle et celle du début du 21ème est évidente pour la génération encore vivante
du gélatinobromure d’argent, mais ne restera que difficilement intelligible pour les
suivants. C’est dans une analyse par anticipation des futurs regards sur ces images
empreintes de nouvelles caractéristiques que notre sujet d’étude trouve tout son
intérêt.
b/ Le ressenti des images avec la facilité du numérique
o L’évolution du rapport au temps
Laurent Lavaud à propos de Roland Barthes et de la théorie du ça a été, écrit5 :
« La photographie isole l’instant, elle l’arrache au flux continu du temps. » Cette
citation regroupe une idée générale très courante au sujet de la photographie qui
consiste à vanter sa capacité à figer le temps. Certes, dans la durée, l’image numérique
conserve cette compétence, mais sur l’instant de l’action, le temps infime qui sépare la
prise de vue de l’observation, modifie complètement cette perception. Si
fondamentalement, le temps est toujours suspendu par la photographie, du point de
3 Voir les chiffres de vente d’appareils photographiques dans l’annexe « Etudes statistiques connexes ». 4 Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.59, Paris, Editions de Minuit, 1965. 5 Laurent Lavaud, L’image, p.228, Paris, Flammarion, 1999.
15
vue de l’opérateur, l’image obtenue dans l’immédiat appartient psychologiquement au
même présent que l’action enregistrée et la photographie perd ainsi la distance qui la
séparait des évènements, elle s’en trouve, au moins un peu, dévaluée. Il est vrai
qu’avec la technologie du Polaroid, l’image appartenant au même présent que l’action
envisagée a déjà été expérimentée. Mais plusieurs différences fondamentales séparent
le Polaroid de l’appareil photographique numérique : d’une part, l’image Polaroid
nécessite un temps de développement non négligeable, durant ces quelques minutes,
l’action évolue et les pensées de l’opérateur ont le temps de se détacher de ce qui a
été6. D’autre part, l’image Polaroid est obtenue sur support physique : elle existe dès
le début en tant qu’objet, sa destruction n’est donc pas aussi simplement envisageable
qu’en numérique. Enfin, elle a une valeur financière : ce n’est pas le cas de l’image
numérique, au moins dans la première phase de son existence. Du point de vue
perceptif, ces trois différences ne peuvent pas être négligées. Aujourd’hui, le
photographe analyse son image aussitôt, et l’efface l’instant d’après pour en faire une
autre. L’aspect physique (palpable) n’étant plus obligatoire, l’image s’affiche et
s’observe sans nécessité de préhension ou de manipulation manuelle : dans l’instant où
elle est vue pour la première fois, elle ne fait pas encore partie du monde matériel.
Le nouveau système de visée vient s’ajouter à ce détachement du réel. Dans bien
des cas, la visée ne se fait plus à l’aide d’outils optiques, mais à travers une autre
image, affichée sur un écran. Le même écran, qui, l’instant d’après, servira à visualiser
la photographie obtenue. L’existence de cette image vidéo directe rapproche un peu
plus l’image du temps de sa capture. Dans l’Image, à propos de la temporalité du
direct à la télévision, Laurent Lavaud écrit : « l’identité de présent semble abolir toute
distance entre le regard et son objet. »7 Ce même état de l’image vidéo inscrite dans
un présent est observé avec la visée par écran interposé. Ce rapport entre le présent et
l’image change la perception de celle-ci. On voit donc bien comment, à travers ces
possibilités nouvelles, le rapport entre le temps et l’image photographique est
bouleversé. Par l’écran de visualisation, l’utilisateur peut voir son résultat avant même
la fin de l’action qu’il photographie. Nous ne pouvons pas encore prédire si ce
changement de fond aura une influence sur le jugement de la qualité mais il fallait
6 « La photographie ne dit pas (forcément) ce qui n’est plus, mais seulement et à coup sûr, ce qui a été ». Roland Barthes, La chambre claire. Note sur la photographie, p.133, Paris, Editions de l’Etoile, Gallimard, Le Seuil, 1980. 7 Laurent Lavaud, L’image, p.45, Paris, Flammarion, 1999.
16
néanmoins le citer comme différence essentielle entre la prise de vue numérique et la
prise de vue argentique, et donc comme élément participatif de l’évolution du regard.
o L’évolution du nombre d’images
L’idée banale serait de lier la facilité et la gratuité de capture en numérique avec
le nombre de photographies prises par une personne au cours de sa vie de photographe
amateur. Cette constatation a déjà été faite à maintes reprises : en numérique,
l’absence de limite financière supprime un frein essentiel à la prise de vue
traditionnelle. Même si la prolixité des images a toujours évolué depuis le XIXème
siècle et la simplification des techniques, ce mouvement s’accélère aujourd’hui8. Nous
nous proposons davantage de disserter sur le regard porté sur ces images multiples de
plus en plus faciles à obtenir, que sur les causes du nombre de ces images. Grâce à la
facilité de la capture et la possibilité de revenir à tous moments sur cet acte désormais
gratuit, la réflexion antérieure à la prise de vue nécessite moins d’attention. L’exemple
de la prise de vue avec camphone9 est un bon révélateur de la différence d’intention
que la photographie numérique implique. À travers cet outil, toujours présent dans la
poche, utilisé autant dans les instants de vie ordinaires qu’extraordinaires, le rapport à
la photographie appelle désormais une notion d’enregistrement beaucoup plus
spontanée. Aujourd’hui, on a tendance à réaliser des prises de vue sans intervalles de
temps, afin d’obtenir la meilleure image du même évènement ou bien de tout
enregistrer. L’immortalisation d’un souvenir sur support physique n’est plus la priorité
de l’acte photographique, c’est davantage une capture de l’instant sous quelque forme
que ce soit qui est envisagée. Le choix des images proposées est aujourd’hui tellement
important qu’il noie le jugement dans une multitude d’instants souvent proches dans le
temps. Face à la multiplicité des images produites, il arrive que l’observation a
posteriori de chaque image se résume à quelques secondes. Cette évolution est un
autre des points constitutifs de notre problématique.
8 En 2007, 80% des possesseurs de bridge et 66% des possesseurs de compacts numériques déclarent avoir fait plus de 100 photos au cours des 6 derniers mois. Source baromètre Ipsos de la photographie pour l’Association pour la Promotion de l’Image 2007. Selon la même source, en 2003, 37% des possesseurs de bridge et 21% des possesseurs de compacts numériques faisaient la même déclaration. 9 On appelle camphone un téléphone mobile doté d’une fonction appareil photographie numérique.
17
o L’évolution de la communication par l’image sociale
Après l’instant de la prise de vue, dans la phase d’existence de l’image aboutie,
la photographie sociale a toujours été une forme de communication. Pierre Bourdieu10
a écrit : « Le fait de prendre des photographies, d’en conserver ou de les regarder
peut apporter des satisfactions dans cinq domaines : la protection contre le temps, la
communication avec autrui et l’expression des sentiments, la réalisation de soi-même,
le prestige social, la distraction ou l’évasion. » Ainsi, montrer ses images souvenir à
l’autre permet de lui faire partager sa vie en parlant de soi pour recueillir ce que l’on
veut entendre, et analyser sa propre existence à travers le regard d’autrui. La
photographie sous sa forme courante actuelle conserve cette fonction d’outil de
communication et dans certains cas extrêmes, comme les messages photographiques
téléphoniques, elle n’est plus utilisée que pour cette fonction de communication, aux
dépens de son rôle de souvenir. Ainsi, il arrive désormais que l’on capture un
événement sans aucune volonté d’enregistrement, mais seulement pour évoquer un
propos. Cet usage exclusif d’une photographie par le grand public n’a pas ou peu
connu d’antécédents. Par ailleurs pour les cas plus courants de prise de vue, on envoie
très facilement un groupe de photographies par email alors que l’on offrait rarement
des tirages par courrier. Enfin, les blogs11 pour tous les âges, toutes les catégories
sociales et tous les centres d’intérêt se sont répandus sur Internet et présentent
couramment des images. Ces plateformes de communication aux visages multiples
sont utilisées par un grand nombre d’habitants des pays développés. On partage par ce
biais des instants intimes, des autoportraits mais aussi des images d’expérimentation.
De Myspace à Facebook, de Skyrock Blog à Picasa12, le modèle est proche et le
nombre d’images téléchargées est inimaginable. La possibilité de dialoguer sur ces
images est toujours laissée au visiteur, mais l’acte de voyeurisme a dans beaucoup de
cas, pris le pas sur la communication à double sens. De ce fait, le regard est plus
rapide et se lasse plus facilement.
10 Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.33, Paris, éditions de Minuit, 1965. 11 Blog (viens de web log) : site Internet constitué par la réunion d’écrits et de tout autre contenu fourni dans un ordre chronologique, et classés par ordre antéchronologique. La particularité d’un blog est la nature de son auteur-propriétaire : il s’agit généralement d’un indépendant. On peut apparenter le blog à un journal de bord ou un journal intime. Les contenus sont aussi divers que les œuvres d'un dessinateur, l'opinion d'un journaliste, le carnet de bord d'un photographe ou les vidéos d'une classe de collège. 12 Sont des plateformes Internet permettant la création automatisée de blogs ou de pages personnelles consultables par tous. En janvier 2008, selon le site www.commentcamarche.net, Facebook totalisait à lui tout seul 967 000 inscrits en France, soit 1,5% de la population.
18
c/ L'extension des profils d'utilisateurs avertis
Longtemps mythifié par ses pratiquants aux dépens des non-initiés, on pourrait
presque se permettre d’avancer l’idée que l’usage de l’appareil à visée reflex et du
laboratoire Noir et Blanc a été l’objet de mouvements « sectaires »13 durant la dernière
moitié du 20ème siècle. Le développement des photo-clubs fut un merveilleux moyen
de « communautariser » ces personnes et de renforcer la frontière entre les
photographes et les autres. À ce propos, Robert Castel et Dominique Schnapper14
écrivaient : « Leur premier acte est de rompre avec ce qui liait la photographie à
l’institution familiale. (…) Avant même d’être capable d’une technique savante, les
nouveaux adhérents s’accordent à moquer la photographie traditionnelle ». Il faut
bien dire qu’avant le numérique, on avait parfois l’impression que les photographes se
regroupaient en communauté comme le font les motards. En outre, au sein de la
communauté, chaque membre pouvait se sentir soutenu par les plus expérimentés.
D’après Castel et Schnapper : « Le photo-club offre le moyen de passer d’une pratique
naïve à une pratique savante au sein d’un groupe qui fournit des recettes et des
savoir-faire pour l’approfondissement de l’activité photographique. (…) Le but du
club est de se réunir. »
Aujourd’hui, la démocratisation du numérique exerce une importante influence
sur ces profils d’amateurs chevronnés. Les ventes de matériel numérique de prise de
vue et d’impression photo vont bon train15. L’avènement d’Internet et la possibilité
pour chacun de s’offrir une station de travail informatique dont l’un des usages
possibles mais non exclusifs est la photographie, a simplifié l’accès à cette pratique et
à ces outils. Une multitude d’individus passionnés par l’informatique a pris conscience
des possibilités multimédias de son outil de travail et de la simplicité de l’accès à
l’information par Internet. Le pont qui permettait jusqu’au milieu du XXème siècle un
passage de la peinture à la photographie16 est remplacé par un autre, c’est celui qui lie
13 Pierre Bourdieu écrit : « C’est ainsi que les membres des photo-clubs entendent à la fois s’ennoblir culturellement en tentant d’anoblir la photographie, substitut à leur portée et à leur mesure des arts nobles, et retrouver, dans les disciplines de la secte, ce corps de règles techniques et esthétiques dont ils se sont privés en refusant comme vulgaires celles qui régissent la pratique populaire. » Un art moyen, essais sur les usages sociaux de la photographie, p. 28, Paris, Flammarion, 1965. 14 Sous la direction de Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.145, Paris, Flammarion, 1965. 15 Voir l’annexe « Etudes statistiques connexes ». 16 De nombreux artistes travaillaient effectivement la peinture et la photographie en parallèle. Ainsi, pour exemple célèbre, Man Ray disait : « Je photographie ce que je ne peux pas peindre ; je peins ce que je ne peux
19
l’informatique à la photographie numérique. La frontière entre les photographes et les
gens « normaux » semble plus mince qu’autrefois car l’appareil photo numérique
accuse une logique d’utilisation proche des autres outils technologiques. De plus, avec
le développement du Web 2.017, de nouvelles formes de photo-clubs sont apparues : ils
ressemblent à des forums de discussion où l’on partage ses images et ses questions en
ligne. Il faut noter que si, dans un certain sens, ces plateformes remplacent les
traditionnels photo-clubs, elles ne prétendent quasiment jamais s’intéresser à la
photographie en général, mais uniquement à la photographie numérique. Cette
spécificité est clairement annoncée dès l’entrée sur le site Internet avec la phrase
d’accroche (voir l’exemple de la figure 2). Pourtant, il ne faut pas lire cette formule en
considérant qu’elle ferme la porte aux pratiquants de l’argentique. Bien au contraire,
ce type de slogan se veut rassembleur et le club photo ouvre ainsi ses portes aux
ignares de l’argentique plus qu’il ne les ferme au puriste. Sur le plan national Français,
4 grands forums18 traitant de la photographie numérique regroupent plus de 50 000
membres. D’après la classification de Castel et Schnapper, il existait dans les années
1960, des photo-clubs réservés à une élite et d’autres, au contraire, très populaires. Les
premiers s’intéressant à la photographie pour l’art, les autres restant plus terre-à-terre,
préféraient considérer qu‘« une bonne photographie est une photographie
techniquement bonne. »
Figure 2 : L'en-tête du site Internet www.virusphoto.com. La majorité des sites français basés sur ce modèle précise leur orientation exclusivement numérique.
Si le nombre d’inscrits dans ces clubs virtuels est sans commune mesure avec
l’époque du club photo, ce nouveau photographe amateur, seul devant son ordinateur,
est noyé sous une foule d’images postées chaque jour en quête de reconnaissance, de
pas photographier. » tiré de Pierre-Jean Amar, La photographie, histoire d’un art, note de fin n°133, p.181, Aix-en-Provence, Edisud, 1993. 17 « Web 2.0 » est une expression lancée en 2004 par Tim O’Reilly, fondateur des éditions O’Reilly. Elle désigne à la fois un nom et un adjectif,. On qualifie de Web 2.0 les interfaces permettant aux internautes d'interagir à la fois avec le contenu des pages mais aussi entre eux. 18 www.pixelistes.com (11 000 membres), www.virusphoto.com (16 000 membres), www.parlonsphoto.com (17 000 membres), www.aupetitforum.com (8000 membres) fonctionnent tous selon les mêmes principes. En moyenne, on compte entre 50 et 100 membres connectés sur chaque site à chaque instant durant la journée.
20
critiques et de conseils. Les relations d’échange que l’on observait alors dans les
anciens clubs photos ne sont pas réitérées, le dialogue entre deux personnes, se
limitera souvent à un ou deux messages au travers d’un fil de discussion réunissant
déjà une vingtaine de participants totalement anonymes entre eux. On assiste moins à
une logique visant à tisser des liens amicaux, mais plutôt à une « contribution »
participative de la part de chacun. Il faut cependant nuancer nos propos en soulignant
que l’on remarque sur ces sites Internet l’existence d’un cercle de participants non
anonymes entre eux, beaucoup plus actifs que la majorité. Ainsi l’éducation de la
technique et du regard ne se fait pas selon les mêmes voies qu’autrefois. le résultat
obtenu en sera-t-il différent pour autant ? Assurément oui, les plus remarqués d’entre
eux le sont à travers des images très techniques et la part de création personnelle en est
amoindrie car le jugement peut se faire en un coup d’œil, sans connaître l’identité ou
les antécédents du photographe amateur concerné. L’autre élément responsable de
cette évolution est le nouveau moyen d’accès au traitement de l’image
photographique : le pont entre l’informatique et la photographie ne peut pas donner les
mêmes profils d’artistes que le pont entre la peinture et la photographie autrefois.
Sur le plan international, la répartition n’est pas la même et Flickr.com, la
plateforme développée par Yahoo ! détient le monopole du genre. Flickr affiche 23
millions de membres inscrits dans le monde et 900 000 en France19. Ce site Internet
est devenu un élément d’étude sociologique incontournable, mais son principe
d’échange n’est pas comparable avec les relativement petits forums cités plus haut.
Sur Flickr, l’échange ne se fait pas pour se perfectionner ou dialoguer de points
techniques, sur Flickr, le partage des images est la priorité. Il mélange à la fois des
photographes créatifs, que l’on peut qualifier d’avertis, et des utilisateurs lambda. A
travers Flickr, la communication par l’image est à son paroxysme, pour accélérer et
stimuler la navigation, des tags20 de description stimulent et varient les méthodes
d’exploration des contenus. Pourtant, d’après une étude réalisée en 200621, seulement
4 % des inscrits détenaient 60 % des photographies mises en ligne. Ces utilisateurs
19 Source interview de Kakul Srivastava, directrice du développement de Flickr par Isabelle Boucq (01net.com) en date du 3 mars 2008. 20 Un tag est un mot-clé ou un terme associé à une image. Il participe à sa description et permet une classification des informations basée sur le principe de mots-clés. Dans le mouvement Web 2.0, on utilise souvent les nuages de tags, pour évoquer d’un coup d’œil tous les liens relatifs au contenu considéré. 21 Tiré de Christophe Prieur, Dominique Cardon, Jean-Samuel Beuscart, Nicolas Pissard et Pascal Pons, Université Paris-Diderot, Orange Labs, « The stength of weak cooperation : a case study on Flickr », in Projet de recherche Autograph, Paris, 2006.
21
étant les membres disposant d’un compte « pro », payant, on peut supposer qu’ils
correspondent effectivement à des professionnels mais surtout à des amateurs
suffisamment avertis pour payer l’adhésion et nécessiter les services supplémentaires.
Globalement, ils affichent des profils parallèles aux participants les plus remarqués
des forums évoqués précédemment, ou ils sont des anciens membres de ce type de
forum, qui, il faut le dire, sont en déclin. Flickr est donc un site à part, qui n’est ni
consacré à la photographie semi professionnelle ni consacré à la photographie
familiale.
On trouve donc un nombre incommensurable de photographies sur Internet,
issues de millions de sources différentes. Quoique, un élément en relie la majorité :
leur format de fichier. Sur Flickr, Facebook ou Myspace, qu’elles soient de type
amateur, amateur averti ou professionnel, toutes les images photographiques sont
compressées au format JPEG. C’est ce format qui nous intéresse aujourd’hui,
positionné comme un standard indéniable, mais qui impose pourtant dans bien des cas,
des caractéristiques visuelles évidentes.
d/ Le regard sur l’image imprécise
Le JPEG est un format de compression destructif22 et lorsque celle-ci devient
importante, les dégradations sur l’image peuvent être telles que, pour ceux qui les
discernent, il n’est plus possible de ne pas considérer qu’elles prennent une part
importante au contenu de l’image. Pour considérer l’évolution du regard avec les
nouvelles techniques, nous nous devons de citer les sources principales d’images les
plus dégradées ; elles s’en trouvent être, par ailleurs, les garantes de l’éducation du
regard du grand public. Ainsi, celles qui sont les plus évidentes à mettre en avant sont
les images d’information ou journalistiques, car bien souvent, les photographies
domestiques ne présentent pas de défauts de compression JPEG aussi importants que
certaines de ces images amplement diffusées. Ce paragraphe n’a pas pour ambition
d’accuser une quelconque pratique, ni de critiquer l’usage d’images de mauvaise
qualité, mais de regrouper des exemples clés dans lesquels le regard a pu être
confronté au JPEG ou à des dégradations analogues, et d’en tirer des conclusions sur
l'apprentissage visuel de la compression.
22 voir I/3-La compression d’images.
22
o L’apprentissage visuel de la compression
Dans le reportage et dans l’information, ces dégradations sont parfois causées
par le journalisme citoyen23, et on a coutume d’accuser certains journaux de se
gargariser de fournir des images floues ou mal définies en toute connaissance de
cause, parce qu’ils savent que le défaut sera visible de tous et qu’il permettra de
soutenir la sensation de réalité24. Autrefois, le défaut était le grain ; aujourd’hui, c’est
une pixellisation ou une compression abusive. Si cette présentation d’images
dégradées est effectivement issue d’une volonté du périodique, alors c’est qu’il postule
que son lecteur saura, inconsciemment, lire ce défaut pour classer l’image dans la
catégorie des « scoops ». En effet, quel intérêt y aurait-il à introduire un défaut s’il
n’était pas, visible et donc, inconsciemment, interprétable par le lecteur ?
Figure 3 : Un exemple de compression JPEG sur une image de reportage lors du tsunami de décembre 2004. Gurinder Osan/AP Photo.
L’image de gauche a été trouvée sur le site Internet de ABC News, (http://abcnews.go.com), l’image de droite a été dégradée pour les besoins de la démonstration.
Christian Caujolle écrivait à propos d’une photographie numérique amateur du
tsunami de l’Océan Indien en 2004 qui fit la couverture de Paris Match : « La
présence, visible, du pixel dans la presse n’est jamais que la sanction ou juste la
23 Le journalisme citoyen est l’utilisation des moyens de prise de vue du grand public pour diffuser l’information sur un événement notable. Le journalisme citoyen est considéré comme « jouant un rôle actif dans les processus de récupération, reportage, analyse et dissémination de l'actualité et de l'information». Tiré de Shayne Bowman et Chris Willis, in We media : how audiences are shaping the future of news and information, rapport de l’institut américain de la presse, Reston, Virginie, 2003. 24 « …si des images plus esthétiques ne sont pas envisageables dans ces magazines, ce n'est pas pour la seule question financière, c'est d'avantage parce que le lecteur est plus crédule devant le simple (sans artifices) que devant une image esthétisée…» tiré de Pierre-Yves Bronsart, Le photojournalisme décèderait-il, in Tapage n°15, Paris, 2006.
23
matérialisation d’un état de l’image aujourd’hui. Un état qui relève (…) d’un codage
numérique du réel dans les limites d’un cadre, avec les conséquences, visuelles,
techniques et interprétatives, qui en découlent. »25 À travers ces lignes, Christian
Caujolle évoque principalement le journalisme citoyen dans son opposition et sa
compétition avec le photojournalisme professionnel. Il n’est pas pour nous, le sujet
d’étude proprement dit, mais il est un élément fondateur des images dégradées les plus
couramment visibles aujourd’hui dans les médias. Dans la trame de cette citation, on
lit bien que le défaut technique des images présentées dans les journaux prend part au
discours et que le réel est ainsi travesti par une mauvaise lisibilité de l’image qui,
involontairement, ou non, apporte une autre information maîtrisée, ou non, que le
contenu considéré.
Partons de l’expérience suivante, simple à réaliser qui consiste à entrer les mots
clés « Ingrid Bétancourt » dans l’outil de recherche d’images de Google. Les quelques
images désormais tristement célèbres de cette femme politique, sont toutes empreintes
de défauts visuels. Ici, aucun journalisme citoyen n’est venu troubler la qualité des
images mais les dernières qui ont été largement diffusées sont des captures de vidéos
réalisées par les médias. Le référent réel derrière cette « pixellisation » ou ce « flou »
engendré par la compression, vidéo dans un premier temps26, puis JPEG dans le temps
de la diffusion Internet, est un réel qui se trouve esthétiquement caractérisé selon des
défauts connus et reconnaissables par certains. Sur Internet, chacun ayant repris, à son
compte, ces captures vidéos, on trouve désormais un grand nombre d’exemplaires de
la même scène, très différents colorimétriquement, à des niveaux de compression très
variables et avec des cadrages également changeants. La gêne face à ce défaut de
qualité ne sera effective que chez très peu de personnes, l’image étant proposée dans
chaque environnement sans les alternatives existantes. En revanche, la simple
constatation de ce défaut de qualité est possible pour un public beaucoup plus large.
C’est là que la question finale de notre étude est posée : qui est sensible à ces
nouveaux défauts de l’image ? Revenons sur la dernière preuve de vie diffusée
d’Ingrid Bétancourt (figure 3), en date du 24 octobre 2007 : la scène est dramatique,
inquiétante, la jeune femme est maigre, vue en plongée, son regard triste est baissé.
Chaque Français, adolescent ou adulte, a été exposé au moins une fois à cette image, 25 tiré de Christian Caujolle, Mort et résurrection du photojournalisme, in Le Monde diplomatique, Paris, Mars 2005. 26 La compression vidéo MPEG, qui est la plus courante, se base sur les mêmes algorithmes que le JPEG.
24
par le biais de la télévision, d’Internet ou d’un journal, elle pourrait presque être une
icône de notre sujet d’étude. Elle est compressée et sa compression se voit, elle
aggrave le sujet. Dès lors qu’elle est vue à travers ce filtre, l’image se charge d’une
histoire contemporaine usée et d’une réalité crue et déformée. Cette réinvention de la
réalité trouble le jugement et l’on ne peut décemment plus nier l’impact de la
compression dans le rapport à l’information. Il y a donc une part de l’information qui
est tronquée dans ces images, pas suffisamment définies pour satisfaire l’œil. Le
regard d’un professionnel sur celles-ci sera différent de celui d’un amateur. Pourtant,
dans les deux cas, une reconstitution mentale des éléments perdus par la compression
risque d’être accomplie. Dans quel cadre cette reconstitution est-elle consciemment
opérée et dans quel cadre est-elle la plus importante ?
Figure 4 : Parmi toutes les versions diffusées, deux exemples significatifs des différences observables et de la qualité tolérée par certains acteurs du Web.
Parmi les images que l’on trouve sur Internet, aucune respectant des critères de
qualité standard n’a été diffusée largement au grand public27. Ingrid Bétancourt n’a
donc pas encore été révélée « nette » aux yeux de tous et toutes les images sont
estampillées : numériques. Ainsi, on peut dire que, depuis des mois, personne n’a eu
accès à une image de cette femme représentant la réalité sans le défaut.
Physiologiquement, l’image n’étant pas suffisamment définie pour contenter l’œil, une
part de l’imagination du spectateur doit remplir le manque d’informations fournies par
celle-ci. La question que l’on se pose alors est : Quelle est la part d’imagination
visuelle dont doit faire preuve chaque spectateur pour compléter le manque ou pour
27 Bien qu’on en trouve quelques exemplaires après une recherche approfondie.
25
effacer le voile de la dégradation ? À cette question, on répondra qu’assurément, la
part d’imagination nécessaire à une reconstruction fidèle de la scène est
proportionnelle au niveau de dégradation de celle-ci. Mais là où l’on s’interroge, c’est
qu’elle n’est peut-être pas identique pour tous. Dans ce cas, une deuxième question
pertinente arrive : quel spectateur utilisera le moins son imagination pour visualiser
mentalement la scène ? À cette question, il existe trois réponses possibles : celui qui
n’a aucune culture visuelle de la photographie, son opposé, ou quelqu’un qui
connaîtrait parfaitement le visage à « reconstituer ». On ne peut répondre à cette
question aussi simplement qu’à la première, mais il est évident qu’au moins l’un de
ces trois paramètres a une influence.
Descartes écrit à ce sujet28 : « il faut au moins que nous remarquions qu'il n'y a
aucunes images qui doivent en tout ressembler aux objets qu'elles représentent : car
autrement il n'y aurait point de distinction entre l'objet et son image : mais qu'il suffit
qu'elles leur ressemblent en peu de choses ». Si les images ne ressemblent pas
fondamentalement à leurs modèles, c'est parce que c'est le sujet qui élabore ses
représentations à l'occasion de l'image et surtout qui détermine son degré de croyance
en une ressemblance. Ainsi, l'un verra dans la photographie de l’otage une
reproduction juste (l’image restitue le désarroi) et l'autre décèlera l'écart entre
l'original et la copie. Chacun utilisera donc son imagination en proportion de l'effet de
croyance engendré par l'image, effet de croyance qui témoigne du succès ou non de la
fonction de l'image à se substituer au réel. Cet effet varie selon les individus. Selon
Descartes, l’imagination est donc principalement motivée par des sources subjectives
et les éléments de connaissance objectifs se feront dépasser par la volonté d’exprimer
un concept capable d’excéder la signification première.
Dans la sphère aujourd’hui très explorée de la vidéo sur Internet, les
technologies actuelles causent obligatoirement une dégradation encore plus importante
que l’image fixe. Au sein de la génération grandissante, on trouve des jeunes qui,
n’étant pas équipés de téléviseur, alimentent leur soif d’actualité vivante avec le seul
usage d’Internet et les plateformes de diffusion telles que www.dailymotion.com pour
la France et www.youtube.com29 pour l’international. Ainsi, par exemple, il n’est pas
28 Tiré de La Dioptrique, discours quatrième, 1637. 29 Dailymotion et Youtube sont des plateformes de partage en ligne de vidéos de tous types, amateurs ou professionnels. À l’instar de Flickr pour la photographie, on peut aujourd’hui affirmer que l’impact de ces outils
26
rare qu’après un an de gouvernance du président Sarkozy, certains d’entre eux avouent
n’avoir jamais vu d’image vidéo de lui dénuée d’un fort caractère de compression. Le
voile sur la réalité qui s’en trouve généré ainsi s’efface petit à petit avec l’habitude et
l’acceptation de cette image inexacte est inexorable. C’est seulement lorsqu’une image
parfaitement « nette » du même contenu sera enfin visionnée (à la télévision par
exemple) que la nature travestie de la première référence est dévoilée au grand jour.
Cette projection dans la réalité imposée par la nécessité d’y croire est valable pour tout
contenu diffusé sans éléments de comparaisons sur un temps conséquent. Cette
remarque effectuée amène évidemment à se questionner sur l’accoutumance de tels
défauts et sa conséquence sur le jugement de qualité d’images à venir.
o Là où le voile de la dégradation ne peut plus s’occulter
Dans le regard sur l’image en général, il est tout à fait courant d’entendre la
phrase suivante, preuve d’un amalgame évident : « ce que je vois c’est ça » au lieu de
« ce que je vois c’est une photographie de ça ». Si le filtre de la photographie n’est
plus suffisant pour décoller l’image du réel, un filtre de dégradation très intense pourra
peut-être rendre à l’image sa nature représentative et la détacher à nouveau de son
référent.
C’est ce qu’a expérimenté le photographe allemand Thomas Ruff, dans son
livre, Nudes30, où il publie des images brouillées par des traitements numériques.
Partant de contenus pornographiques rassemblés depuis Internet, il détériore la
structure de l’image jusqu’à la limite du lisible. Ces images sont tellement peu lisibles
qu’elles nécessitent de la part du spectateur, un important travail de reconstruction par
l’imagination. Même si toutes sont issues d’une recherche Internet, ne nous
fourvoyons pas, la problématique de Ruff se porte beaucoup plus sur le rapport entre
le spectateur et le sexe que sur le rapport entre le regard objectif et subjectif d’images
dégradées. Néanmoins, la considération qui nous intéresse dans cet exemple est que, le
spectateur, confronté à un défaut inhabituel et tenté par sa curiosité, se retrouve
confronté à lui-même pour un instant de réflexion intime où il cherche à reconnaître
des éléments connus dans l’image afin de mettre au grand jour la réalité de la scène
derrière le filtre de la photographie. La scène photographiée est bel et bien inscrite est sans précédent depuis la télévision. En 2006, d’après Le Journal du Net en date du 09/08/06, Youtube diffusait déjà plus de 100 millions de vidéos par jour. 30 Thomas Ruff, Nudes, éditions Harry N. Abrams, 2003.
27
dans un passé, mais pourtant, après le passage de Ruff, la lecture de l’image et de ce
qui a été doit traverser un filtre de plus. Instinctivement et sans possibilité de contrôle,
le regard du spectateur examine attentivement ce qu’il croit reconnaître. Ce n’est que
lorsque l’image mentale qu’il produit à partir de la photographie et de son
imagination, lui parvient claire et nette, qu’il prend conscience de ce qu’il a sous les
yeux et qu’il se sent lui-même violé dans cette intimité de l’imagination qui est la
sienne.
Figure 5 : Thomas Ruff, Nudes, 2003.
e/ Conclusion
Après ce bref aperçu psycho-sociologique des nouveaux usages de l’image et de
leur impact sur le regard des photographies, nous en concluons qu’effectivement,
chaque personne accusera un ressenti différent face aux images compressées ou
dégradées. Un amateur passionné qui n’a jamais été sur Internet, ne consulte pas les
nouveaux médias et qui ne photographie pas en numérique, un adolescent qui pratique
une activité intense de partage de photographies et de vidéos numériques sur le Web,
un amateur occasionnel du numérique : chacune de ces personnes présente une
confrontation différente avec l’image dégradée. Des catégories générales parmi la
population pourraient ainsi être dégagées afin d’analyser l’évolution du regard
subjectif sur ces images selon les profils. Avant de s’aventurer dans une telle enquête,
nous devons appréhender techniquement et fondamentalement de quelle image il est
question.
28
2 - Le fichier image en informatique et la compression
Intéressons nous dans des termes plus techniques au fondement de cet usage
d’images numériques, c’est-à-dire la capacité d’enregistrer une image dans un code
numérique, mais aussi le choix d’alléger ce code numérique, bien que cela puisse avoir
des conséquences sur l’apparence de l’image considérée. Donner la description la plus
théorique de la photographie numérique nous permettra également d’envisager tous les
fichiers numériques dont il est fait part dans cette étude et de cerner leurs limites
techniques et leur intérêt tout en abordant les horizons de la recherche dans le domaine
du stockage de l’information visuelle en code électronique. Après quelques rappels de
vocabulaire sur le format de fichiers image, nous verrons dans cette partie comment et
pourquoi l’information photographique est compressée.
a/ La structure du fichier image
Intéressons nous à la structure générale d’un fichier informatique image pour
revenir sur les bases de vocabulaire utilisées tout au long de ce document. Un fichier
est composé d’une suite de codes, décrivant de manière numérique le contenu de
l’image. Couramment, on symbolise ce code en une suite de 0 et de 1. Dans l’ordre de
lecture, on trouve tout d’abord l’en-tête, appelé header, il fournit toutes les
informations descriptives nécessaires de base. Le premier code que l’on peut y lire est
appelé le magic number, il représente le format du fichier31. C’est ce code, et non
l’extension fournie dans le nom du fichier qui donne l’information du format d’image
au système d’exploitation. Dans l’en-tête, on trouve aussi la taille de l’image32, et sa
profondeur de codage33. Des valeurs courantes de profondeur de codage sont les
suivantes :
- 1 bit, correspond à des images binaires donc noir et blanc.
31 Le format d’un fichier en informatique est le type de données écrites et son organisation. Pour chacun d’entre eux, les logiciels et systèmes d’exploitation doivent contenir un code permettant son chargement et dans le cas d’une image, son affichage. Le format d’une image détermine sa qualité, son usage, son poids et son aspect. 32 La taille de l’image est le nombre d’éléments strictement unitaires la constituant en longueur et en largeur. Chaque élément unitaire code pour une couleur uniforme, il est appelé pixel. 33 La profondeur de codage, par analogie avec un cube, est la troisième dimension de l’image. Elle précise la taille d’un pixel, c’est-à-dire, la valeur numérique maximale que peut prendre un pixel.
29
- 8 bits, correspond à des images codées entre 0 et 25534. Elles seront
monochromes ou en couleurs indexées. Dans ce document, on utilisera
souvent le terme, niveaux de gris, pour définir les images monochromes.
- 24 bits, correspond à des images codées sur 3 x 8 bits. Chaque pixel est alors
défini par trois composantes qui correspondent aux niveaux de 3 couleurs
primaires. Pour un pixel, on aura 2563 teintes possibles.
Figure 6 : La même image codée sur 1 bit, 8 bits niveaux de gris puis 24 bits Rouge Vert Bleu
Après l’en-tête, viennent les données images proprement dites. À la manière
d’un tableau, elles codent pour l’intensité lumineuse de chaque pixel. En réalité, dans
le corps du fichier, beaucoup de formats ne contiennent pas de données images brutes
aussi simplement que ça. Un autre code vient s’ajouter à celui qui représente les
valeurs numériques de chaque pixel, c’est un code de compression, dont le principe est
d’alléger l’espace de stockage pour le support informatique. Dans ce cas, l’en-tête du
fichier doit contenir tous les paramètres et données supplémentaires utilisés par le
codeur lors de son enregistrement. Le décodeur lira ces informations et appliquera la
méthode pour déduire à partir du code compressé, les données image affichables. La
structure détaillée des formats compressés peut être extrêmement complexe et nous ne
détaillerons que les méthodes utilisées.
Pour un échange efficace et une bonne diffusion des images numériques,
l’habitude a été prise de faire des copies des fichiers originaux. Deux enjeux sont
essentiels au bon déroulement de ce modèle : le poids des fichiers copies35, et leur
34 En réalité, 1 bit correspondant d’un point de vue purement informatique à un choix entre la valeur 0 et 1, une image de 8 bits offre pour chaque pixel, 28 possibilités. 35 Représente l’espace nécessaire sur le support de stockage de fichiers nécessaires. Cet espace se mesure en octets. Couramment, on regroupe les octets en Kilooctets (1 Kilooctet = 210) puis en Mégaoctets (1 Mégaoctet = 210 Kilooctets).
30
similitude visuelle avec l’original. Alléger le poids numérique d’une photographie en
vue de simplifier son transfert, d’accélérer son affichage ou tout simplement d’alléger
le support de stockage, est une action désormais journalière. Majoritairement effectuée
dès la prise de vue à l’intérieur même de l’appareil, cette étape est très souvent
totalement transparente pour l’utilisateur, on appelle cette action : la compression.
Tous les formats de compression de photographie numérique sont généralement
pensés dans le but d’obtenir le meilleur ratio quantité d’informations/poids de fichier.
Si aujourd’hui le format JPEG a tendance à s’imposer pour toutes les applications
courantes, c’est pour plusieurs raisons, dont l’une des premières est le très bon ratio
quantité d’informations/poids de fichier qui paraissait spectaculaire il y a seulement
une dizaine d’années. De plus, la norme JPEG ISO/IEC IS 10918-1 est arrivée en
199236, donc au moment même de la démocratisation de l’image numérique.
b/ Les formats de compression
Lorsque l’on compresse un fichier image pour en faire une copie de poids
inférieur, il existe deux méthodes, que l’on qualifie de compression avec ou sans
pertes. La première offre des possibilités de gain d’espace disque incomparables, mais
la deuxième assure, lors de l’affichage, une identité parfaite entre la copie et l’original.
o Les formats de compression sans pertes existants sont :
- TGA : désigné aussi TARGA, ce format a été initié pour le logiciel du même
nom par la société True Vision. C’est un des plus anciens formats de
compression d’images, il est basé sur un codage RLE37.
- GIF (Graphic Interchange Format) : en réalité, même s’il est classé dans la
catégorie des formats sans pertes, GIF doit opérer une indexation des
couleurs à partir de l’original. Il fonctionne sur 8 bits uniquement, donc si
l’image originale ne contient pas plus de 256 valeurs différentes utiles, il n’y
a effectivement aucune perte. C’est aussi un format très ancien, mais celui-
ci, contrairement à TGA, est encore beaucoup utilisé. Il fonctionne sur un
36 Sous l’impulsion des comités : International Standard Organization (ISO), Comité Consultatif International sur le Télégraphe et le Téléphone (CCITT) et Jpeg File Interchange Format (JFIF). 37 Run Length Encoding. Voir I/2/c.
31
algorithme LZW38 et a tendance à être concurrencé par PNG, car LZW n’est
pas un algorithme libre de droit.
- PNG (Portable Network Graphiques) : entièrement libre de droit, il a été
conçu par le W3C39 pour devenir une référence en image sur Internet et
supplanter GIF. Sa compression est généralement basée sur l’algorithme
LZ77. Contrairement à GIF, il n’oblige pas l’indexation des couleurs, et en
mode 8 ou 24 bits, il permet une transparence sur 256 niveaux.
- TIFF (Tagged Image File Format) : développé par la société Adobe, c’est le
plus complet des formats en termes d’options d’enregistrement. Il permet
une compression sans pertes avec un choix entre l’algorithme RLE et LZW.
- JPEG (Joint Photographic Expert Group) : aussi surprenant que cela puisse
paraître, il existe un type de format de compression JPEG sans pertes. Il est
très rarement utilisé à l’heure actuelle. La compression sans pertes du JPEG
se base sur les algorithmes DPCM40.
Les formats de compression avec pertes autres que JPEG sont :
- TIFF : peu utilisé, TIFF propose effectivement un format de compression
avec pertes. Il est en réalité basé sur la norme JPEG/JFIF, donc son rendu
visuel est proche de celui d’un JPEG.
- FPX (FlashPix) : proposé en 1996 par 4 sociétés du monde de la
photographie et de l’informatique41, sa structure est complexe. Il stocke
l’image en différentes définitions selon une structure hiérarchique
pyramidale. La plus haute définition étant à la base et la plus faible, de 64 x
64 pixels est au sommet. Chaque niveau constitue le quart du niveau
inférieur et est découpé en tuiles de 64 x 64 pixels. Il permet pour Internet un
38 Cet acronyme vient du nom des inventeurs de l’algorithme qu’il désigne : Lempel, Ziv et Welch. Il est basé sur le LZ78, lui-même basé sur LZ77. Voir le paragraphe sur les codages et algorithmes de compression. 39 Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de normalisation fondé en 1994 pour promouvoir la compatibilité des technologies utilisées sur Internet. Le W3C n'émet pas des normes au sens européen, mais des recommandations à valeur de standards industriels. 40 Differential Pulse Code Modulation. C’est une procédure de conversion analogique-numérique dans laquelle les données sont échantillonnées de telle manière que la différence entre le signal analogique réel et la valeur prédite de chaque échantillon soit encodée en une valeur numérique. 41 Kodak, Hewlett-Packard, Live Picture et Microsoft
32
chargement progressif ou un affichage partiel. S’il n’est pas la référence
aujourd’hui, c’est parce que le poids des images est bien supérieur à des
images JPEG classiques.
- JPEG-2000 : la norme la plus récente développée par le comité JPEG/JFIF
devait remplacer le JPEG et le TIFF. La compression se base sur une analyse
mathématique complexe du signal image appelée la transformation en
ondelettes. Les performances de compression de JPEG 2000 sont bien
meilleures que JPEG mais l’un des intérêts premiers réside en réalité dans la
structure de ses données. Elle permet des modes de décompression
progressive indépendante du mode de compression et de nombreux
paramétrages. Malheureusement, on peut supposer que JPEG-2000 ne
deviendra jamais un format standard aussi répandu que JPEG car son
utilisation est soumise à des brevets de propriété intellectuelle.
c/ Les méthodes de codage et algorithmes de compression
On ne peut pas effectuer une recherche sur la perception des défauts de la
compression sans étudier les fondements techniques et mathématiques de la
compression, c’est-à-dire les algorithmes de base. Ce sujet étant très vaste et
nécessitant de fortes connaissances en mathématiques et informatique, nous nous
limiterons aux fondements principaux.
o Le codage RLE (Run Length Encoding)
Il fonctionne sur une utilisation des plages uniformes des images. Il est plus
efficace pour les images synthétisées que les photographies. On divise l’image en
paquets de taille variable répétant la même valeur et on note dans le code l’événement
de probabilité Pi, qui correspond à la ième suite de valeurs répétées, et le nombre de
répétitions de cet événement. À partir de la suite de valeurs suivante :
50/50/50/50/52/52/52/50/50/50/48/48/50/49/49/49
La méthode RLE donnerait la séquence suivante :
P0(50,4) P1(52,3) P2(50,3) P3(48,2) P4(50,1) P5(49,3)
33
o Les algorithmes LZ*
Tous les algorithmes disponibles sous l’appellation LZ* découlent du premier
d’entre eux, le LZ77. Ces techniques de codage incorporent dans le code une part de la
structure des données. On les appelle codages par dictionnaire ou codages par
substitution de facteurs. Dans ces techniques, l’algorithme construit une liste de
motifs, le dictionnaire. Un motif étant une suite de valeurs numériques répétée
plusieurs fois dans l’image, lorsqu’un motif est lu pour la deuxième fois, la valeur
enregistrée dans le fichier compressé n’est pas le motif lui-même, mais un pointage
vers le dernier emplacement trouvé pour ce motif. On comprend aisément que
l’efficacité de ce codage par dictionnaire réside dans un bon rapport entre la taille du
dictionnaire et la taille des séquences clés indexées. Ce type de compression sans
pertes est aussi utilisé dans certains utilitaires généraux de compression comme
Winzip®.
d/ Le format de compression JPEG
Il est réputé pour son bon traitement des données complexes spatialement et
spectralement, c’est pourquoi on l’utilise pour les photographies et non pas pour les
images de synthèse. Il ne traite que des images en tons continus42, accepte différentes
profondeurs de codage, mais ne supporte pas la transparence. Notons que la norme ne
recommande pas d’utiliser le JPEG pour des images RVB, mais pour des images
YCbCr43.
La technique de compression est à diviser en deux parties :
- une partie non destructive basée sur une combinaison entre les algorithmes
DPCM et RLE.
- une partie destructive qui se base sur une quantification de coefficient
obtenue après l’application d’une Transformée en Cosinus Discrète (DCT)
sur des blocs de 8x8 pixels.
42 C’est un abus de langage qui fait opposition avec les couleurs indexées. Comme tout signal numérique, les couleurs en tons continus sont en réalité assujetties à des valeurs discrètes. 43 L’espace YCbCr est un espace de codage des couleurs utilisé en vidéo numérique. Y code pour la luminance, Cb pour le bleu et Cr pour le rouge.
34
Pour expliquer les processus complexes qui agissent dans la première partie,
prenons comme exemple une matrice de 8x8, échantillon sous forme d’un bloc
JPEG d’une image 8 bits (tableau 1).
100 155 131 116 151 135 131 211
120 135 127 88 155 131 155 179
120 135 151 100 179 116 155 167
120 155 151 108 191 112 155 179
135 151 135 120 197 112 179 179
120 151 155 151 151 116 179 179
135 151 167 167 151 151 167 171
120 151 179 151 151 131 155 167
Tableau 1
L’algorithme soustrait d’abord le nombre 128 à chaque valeur de la matrice ce
qui permet de conserver une plus grande dynamique pour prévenir des modifications
qui vont être engendrées par le processus. La DCT décompose la matrice originale sur
des bases de fonctions propres, c’est-à-dire définies par leurs matrices. Sur la matrice
DCT (i,j), les axes représentent les fréquences du signal en deux dimensions.
!
DCT(i, j) =1
4CiC j I(x,y)cos
2x +1( )i"16
#
$ %
&
' ( cos
(2y +1) j"
16
#
$ %
&
' (
y= 0
7
)x= 0
7
)
Équation 1 : La formule de calcul de la DCT pour un bloc d’image 8*8 bidimensionnel.
I(x,y) représente les emplacements de chaque pixel un à un considérés. Ci et Cj sont des constantes telles que :
!
i, j = 0" Ci,C j =1 2
i, j # 0" Ci,C j =1
$ % &
' &
Lire la formule de la DCT nous permet de remarquer que pour la calculer en
chaque point, il est indispensable de parcourir toutes les valeurs de la matrice
considérée. Ce qui revient à dire que pour une image de 1024x768, on aurait 786 432
termes à sommer pour chaque cellule d’un tableau de mêmes dimensions. Ce calcul
très lourd n’est pas envisageable car il ralentirait considérablement l’affichage des
images JPEG. Par ailleurs, la formule nécessite des matrices carrées. Elle est
irréalisable avec un tableau dont la longueur n’est pas égale à la largeur. C’est pour
35
ces deux raisons que l’algorithme prend soin de découper l’image en blocs carrés de
8x8 pixels avant d’effectuer la DCT. Lors du décodage de l’image, l’algorithme utilise
une autre formule : la DCT inverse44. Si la reconstitution de l’image se faisait
maintenant, il n’y aurait, en théorie, aucune modification dans les valeurs des pixels,
ces deux formules étant strictement réversibles.
145 -84 34 -69 42 -32 -3 8
-45 -28 28 19 10 -4 5 0
15 27 -8 -15 -9 0 8 -4
9 -14 15 -11 5 8 -12 -13
1 1 3 -11 7 -12 -4 0
18 4 -17 -10 4 -10 7 -6
-5 1 -7 -10 1 -1 -3 4
3 1 1 5 2 7 2 -1
Tableau 2 : Matrice résultante de la DCT appliquée au tableau 1.
Comme il est montré en exemple dans le tableau 2, la DCT organise l’ordre des
coefficients en fonction de leur valeur absolue. De cette manière, elle sépare les plus
fortes valeurs absolues des plus faibles. En lisant les valeurs de gauche à droite et de
haut en bas, on remarque que celles-ci décroissent jusqu’au minimum dans le coin
inférieur droit. Une forte valeur absolue dans la matrice DCT représente une basse
fréquence de l’image et vice-versa. Des études ont montré que l’œil était moins
sensible à des stimuli dans les hautes fréquences que dans les basses. Cette
particularité va être utilisée dans le processus compressif suivant45. Il s’agit
maintenant de diviser tous les coefficients de la matrice DCT par un pas de
quantification dont la valeur varie avec la position du coefficient considéré. De cette
manière, les valeurs supprimées seront les valeurs inutiles à la vision. En parcourant la
matrice de gauche à droite et de haut en bas, la valeur du diviseur va augmenter en
répondant à cette formule :
44
!
IDCT(x,y) =1
4CiC jDCT(i, j)cos
2x +1( )i"16
#
$ %
&
' ( cos
(2y +1) j"
16
#
$ %
&
' (
y= 0
7
)x= 0
7
)
45 La DCT n’allège en aucun cas le poids de l’image, bien au contraire, les valeurs entières ayant été transformées en valeurs réelles, elles sont plus lourdes à coder.
36
!
P(i, j) =1+ (1+ i + j) "Q
Équation 2 : le pas de quantification (diviseur) en fonction du coefficient de la matrice DCT considéré. Q est une constante qui correspond au facteur qualité.
La formule de P(i,j) sera stockée dans l’en-tête du fichier pour le décodeur. La
matrice obtenue contiendra un nombre important de valeurs répétées et de 0.
L’algorithme n’a plus qu’à coder ces valeurs avec une des méthodes sans pertes citées
plus haut : RLE ou LZ*. Ce bloc, traité indépendamment de ses voisins, aura au bout
du compte uniformisé les pixels qui participaient à des valeurs de haute fréquence.
Chaque bloc étant traité comme ceci, l’image s’en retrouve partout légèrement
modifiée. Le choix du facteur Q utilisé dans la formule du pas de quantification est
capital et décisif pour l’importance des pertes tolérées. Car si l’on parle ici des hautes
fréquences peu importantes pour l’œil, il faut rappeler qu’une image compressée avec
cette méthode à de fort taux, peut s’avérer très différente de l’original.
Malheureusement, chaque logiciel qui compresse en utilisant la norme JPEG utilise
des variantes de la méthode abordée ici. Une communication de la part des fabricants
de logiciels à propos des valeurs des facteurs Q qu’ils utilisent, quand bien même elle
serait effective, ne suffirait pas à établir une échelle universelle entre les logiciels.
On comprend donc bien les enjeux de cette compression qui, au moment où les
échanges d’images numériques sont les plus nombreux, semble la solution parfaite
pour accélérer les transferts à tous les niveaux, mais aussi pour limiter le remplissage
des espaces de stockage physiques. Les gains d’espace sont tels que si la compression
est intelligemment faite, le même disque dur pourrait stocker 5 fois plus d’images qui
répondraient à des critères de qualité semblables. Malheureusement, si au contraire,
cette compression est mal gérée ou tout simplement, abusive, il y a de forts risques
pour qu’une dégradation soit observée et modifie l’apparence. Ce changement
d’aspect visuellement remarquable est très évolutif et peut être étalé sur des échelles
psychométriques. Nous désirons étudier ces échelles pour, le cas échéant, être en
mesure de quantifier objectivement la dégradation sur les images photographiques.
37
II - Métriques de qualité d’image
38
1 - La psychométrie de la couleur
Comme nous venons de le voir, la compression avec pertes implique des
différences, parfois visibles, entre une image originale et sa version compressée. Pour
une certaine quantité de pixels, variable avec le taux de compression et la méthode
utilisée, il y a des différences de couleur entre les deux versions de la même image.
L’utilisation du terme « perte » dans la définition de la compression JPEG est donc
aussi bien assimilable à une notion de différence. En effet, dans l’affichage sur
moniteur d’une image après sa décompression, le nombre d’éléments unitaires46
affichant l’image reste le même. Les « pertes » évoquées antérieurement ne sont donc
pas à prendre au sens propre du mot car il s’agit plus précisément d’une différence de
couleur.
a/ L’idée
Dans le cadre de notre étude, il serait intéressant de savoir comptabiliser
l’importance de ces différences colorées. Pour se faire, on pourrait concevoir un outil
informatique permettant d’évaluer pour chaque pixel l’écart en couleur avec l’original,
puis en faisant une sommation de tous les pixels différents, on pourrait savoir
précisément à quel niveau est dégradée une image par la compression. Pour espérer un
tel outil réalisable, il convient de s’intéresser aux études antérieures qui ont trait à cette
notion de différence, voire même à cette capacité à modéliser de manière
mathématique les couleurs et leur capacité à être perçues par le système visuel humain.
Dès lors que l’on s’intéresse à des calculs objectifs sur la couleur, l’outil
mathématique devient essentiel. De nombreuses recherches au cours du XXème siècle,
ont été menées pour établir un espace à trois dimensions permettant de symboliser et
de cartographier toutes les couleurs. Un retour sur certains de ces modèles de
représentation est nécessaire afin de choisir une méthode de quantification de la
différence colorée utilisable pour notre propos.
46 Appelés luminophores dans le cas d’un moniteur à tube cathodique (CRT), et incorrectement appelés pixels dans le cas d’un moniteur à cristaux liquides (LCD). Un pixel est un élément d’image d’un point de vue numérique, il contient l’information couleur sous forme d’un code numérique.
39
b/ L’approche colorimétrique
Afin de bien envisager les mesures de différences possibles entre des couleurs, il
faut obligatoirement énoncer les principes objectifs de mesure et de cartographie de la
couleur. Ainsi, on pourra utiliser ces méthodes pour établir des écarts entre les
couleurs observées dans les images dégradées et leurs originaux. Nous n’allons
détailler ici que deux espaces vectoriels capables de donner des coordonnées
objectives aux couleurs ; cependant, il faut bien garder à l’esprit que d’autres modèles
existent47. Le premier, XYZ, sera cité car il est fondateur de tous les autres, le
deuxième, CIELAB, car il est pertinent pour notre étude.
- L’espace CIE 1931 XYZ :
Comme son nom l’indique, cet outil de représentation des couleurs a été établi
en 1931. C’est le premier outil mathématique qui permis de cartographier l’ensemble
des couleurs perçues par l’œil humain. Il fut établi expérimentalement pour prédire
quelles distributions spectrales48 seraient perçues par un observateur standard comme
donnant la même couleur. Pour notre étude, le diagramme n‘est pas utilisable en tant
que tel, car son défaut principal est justement de ne pas être perceptivement uniforme.
C’est-à-dire que deux couleurs A et B peuvent être calculées proches l’une de l’autre
dans cet espace alors qu’un observateur humain qui verrait ces deux couleurs, pourrait
estimer que A est visuellement très différente de B et vice-versa. C’est pourquoi cet
espace sera soumis à de nombreuses révisions.
- Le modèle CIELAB :
La première version de ce modèle date de 1976. Elle est directement basée sur le
diagramme CIE 1931 XYZ. Son principal intérêt réside dans sa capacité à uniformiser
la perception des différences de couleurs. Les 3 composantes L*, a* et b* étant issues
de relations non linéaires afin d'imiter la réponse logarithmique de l'œil aux stimuli
colorés. Pour cette raison, il a fait l’objet des premiers calculs permettant une
évaluation mathématique de l’écart visuel entre deux couleurs. Ainsi nous nous
sommes intéressés de près à cette notion d’écart mathématique, qui représenterait le
47 Un historique sur les espaces colorimétriques est disponible en annexe. 48 Trois composantes primaires : Rouge, Vert et Bleu sont nécessaires à la formation de toutes les couleurs visibles par l’œil humain. On peut faire l’approximation qui consiste à dire qu’il est doté de capteurs sensibles à ces 3 couleurs. La quantité de chacune d’entre elles nécessaire pour donner une couleur est la distribution spectrale.
40
regard objectif sur la différence entre une image et sa version compressée. Plusieurs
formules représentant l’écart objectif entre deux couleurs ont été établies,
parallèlement aux recherches sur les espaces couleurs. On les appelle des métriques de
l’apparence colorée.
c/ La métrique CIE Delta E (1976)
Cette première formule a été énoncée en même temps que le modèle CIE
L*a*b*. Elle correspond directement à la distance euclidienne entre deux points dans
l’espace à 3 dimensions. Dans la théorie, si la valeur obtenue en utilisant cette formule
pour différencier deux couleurs est inférieure à 1, c’est que la différence entre ces
deux couleurs est imperceptible à l’œil humain. On conçoit aisément que ce calcul ait
semblé logique au vu des caractéristiques de l’espace L*a*b* énoncées plus haut et
malgré sa remarquable trivialité. Considérant que l’on cherche à connaître l’écart entre
deux couleurs que l’on baptise 1 et 2 où L*1, a*1 et b*1 sont les coordonnées de la
couleur 1 et L*2, a*2 et b*2 , les coordonnées de la couleur 2, la formule de Delta E
s’écrit ainsi :
!
"E* = (L *1#L *
2)2
+ (a*1#a*
2)2
+ (b*1#b*
2)2
Équation 3 : Formule du CIE Delta E (1976)
En réalité, cette formule est approximative car on ne peut pas considérer que
l’espace L*a*b* soit perceptivement uniforme. Le support de la couleur, qui est un
élément important n’est pas pris en compte dans ce calcul. Par ailleurs, les humains
ont plus de facilités à distinguer les différences dans certaines couleurs que dans
d’autres. Dans les jaunes par exemple, une différence Delta E supérieure à 1 ne sera
pas forcément distinguable alors que la même valeur de Delta E entre deux verts sera
clairement visible. Pour cette raison, la formule sera révisée tout d’abord en 1984 par
le CMC49, puis en 1994 par la CIE50.
49 L’acronyme CMC représente ici Colour Measurement Committee of the Society of Dyes and Colourists of Great Britain qui est un comité se consacrant à la mesure des couleurs de l'organisme professionnel du marché des pigments et coloristes de Grande-Bretagne. 50 L’acronyme CIE représente ici la Commission Internationale de l’Eclairage, qui est un comité scientifique et technologique fondé en 1913. Aujourd’hui, la CIE est une autorité reconnue par l'ISO comme organisme de standardisation international dans les domaines de la couleur, la vision, les technologies de la lumière et de l’image.
41
Figure 7 : Représentation graphique de l'écart entre deux couleurs dans l'espace CIELAB
d/ La métrique CMC l:c
Cette nouvelle mesure de la couleur a été développée sur un autre espace que
l’espace L*a*b* : l’espace LCH qui est la version cylindrique de l’espace CIELUV51.
La métrique CMC l:c était destinée à l’industrie textile. Elle permet un réglage de
clarté et de chroma et intègre un facteur commercial, qui en fonction de la précision
souhaitée par l’industrie, détermine l’acceptabilité de la différence couleur. Si le
facteur commercial est égal à 1, cela signifie que la valeur Delta E CMC est inférieure
à 1, donc indiscernable.
!
"E *CMC
=L *2 #L *1
lSL
$
% &
'
( )
2
+C *2 #C *1
cSC
$
% &
'
( )
2
+h2 # h1SH
$
% &
'
( )
2
avec
SL
=0,511 L *1 <16
0,04975L*1
1+0,001765L*1
L *1 *16
+ , -
. - SC
=0,638C *1
1+ 0,0131C *1+ 0,638 S
H= S
C(FT +1# F)
et
F =C*1
4
C*14 +1900
T =0,56 + 0,2cos(h1 +168°) 164° / h1 / 345°
0,36 + 0,4cos(h1 + 35°) h1 0 164°;345°{ }
+ , .
Équation 4 : Formule du Delta E CMC
51 Un historique sur les espaces colorimétriques est disponible en annexe.
42
e/ La métrique CIE Delta E 1994 :
Dérivée de la métrique CMC l :c, celle-ci devait permettre une extension à la
perception des couleurs sur une surface lisse. Elle est basée sur des tests de tolérance
des couleurs sur des peintures pour automobiles. Considérant que l’on cherche à
connaître l’écart entre deux couleurs baptisées 1 et 2 dont les coordonnées seraient
(L*1 ; C*1 ; h*1) et (L*2 ; C*2 ; h*2) dans l’espace à trois dimensions LCH.
!
"E *94
=L *
2#L *
1
KL
$
% &
'
( )
2
+C *
2#C *
1
1+ K1C *
1
$
% &
'
( )
2
+h2# h
1
1+ K2C *
1
$
% &
'
( )
2
Équation 5 : Formule du CIE Delta E 94
les facteurs K pour les arts graphiques et la photographie sont : KL = 1 K1 = 0,045 K2 = 0,015
Cette formule n’étant toujours pas satisfaisante, notamment pour les couleurs
bleues. La CIE l’a révisé en 2000, avec 5 correctifs.
f/ La métrique CIE Delta E 2000 :
Les correctifs de cette version de la métrique Delta E portent sur un problème
principal : la version 1994 supposait que le terme L* reflétait correctement les
différences perçues en clarté. La version de 2000 ajoute un terme de pondération qui
varie avec la valeur de L* et des compensations pour les couleurs neutres, la clarté, la
chroma et la teinte.
!
"E *00
="L#
SL
$
% &
'
( )
2
+"C#
SC
$
% &
'
( )
2
+"H#
SH
$
% &
'
( )
2
+ RT
"C#
SC
"H#
SH
avec
"L# =L *
1+L *
2
2"C# =
C *1
+C *2
2avec C
1= a*
1
2+b*
1
2et C
2= a*
2
2+b*
2
2
avec
G = 1*"C#7
"C#7 + 2572
$
% & &
'
( ) )
Équation 6 : Formule du CIE Delta E 2000
43
2 - L’évaluation de qualité d’image
À la suite de l’explication sur ces nombreuses métriques qui s’intéressent aux
écarts entre deux couleurs, on pourrait penser qu’il suffirait de concevoir un outil
permettant de calculer de manière automatisée l’écart Delta E 2000 entre chaque pixel
homologue de deux images pour avoir une idée valable sur l’impact visuel de la
compression avec pertes. Mais le cerveau humain réagit différemment en fonction de
la surface de la couleur considérée, en fonction des couleurs à proximité de celle-ci et
en fonction de la fréquence visuelle des couleurs affichées. On conçoit donc à quel
point, quantifier l’écart visuel de toute une image avec sa version originale, peut
devenir complexe. Pourtant, nous souhaitons arriver à un résultat allant dans ce sens à
la fin de cette partie de l’étude. Si chaque couleur est affichée sur des éléments
unitaires de 0,35 mm52 de longueur et si les fréquences de répétitions sont très
variables, comme dans le cas des images photographiques affichées sur écran, alors la
quantification objective d’une dégradation en traitement d’images revient à des
méthodes de traitement du signal. Il faut néanmoins se méfier de ces méthodes, car
chaque modification dans la structure de l’image ou dans la différence colorée ne sera
pas obligatoirement une dégradation pour l'oeil humain. Utiliser les formules de
différence colorée en comparant pixel par pixel l’écart puis en moyennant un écart
global sur l’image reviendrait à considérer que la vision humaine regarde chaque pixel
un à un pour établir la différence. La différence que l’on souhaite quantifier de
manière automatisée et objective se porte sur la dégradation de l’image en terme de
qualité, mais principalement en termes de rendu des détails. Il n’existe aujourd’hui pas
d'algorithme générique capable de prédire si une modification est une dégradation ou
une amélioration mais lorsque l'on parle de compression d’images, a priori, une
modification est toujours une dégradation ou plus exactement une perte de fidélité par
rapport à l'acquisition originale. Se pose alors la question de quantifier ces
modifications au sens perceptif.
52 Si l’on considère un écran de 17 pouces de diagonale avec une définition affichant 1024x768 pixels, on a dans la hauteur : 768/10,8 = 72 pixels/pouce affichés, et dans la largeur 1024/14 = 76 pixels/pouce affichés. Chaque couleur peut donc être affichée sur une surface supérieure ou égale à 0,35 mm x 0,33 mm.
44
a/ Mean Opinion Score
Le Mean Opinion Score est incontestablement considéré comme la méthode la
plus fiable pour mesurer l’importance visuelle de la compression sur des images. Les
créateurs d’algorithmes de compression n’ont malheureusement ni le temps, ni les
moyens de l’utiliser. Néanmoins, dans d’autres domaines visant la réception de la
qualité comme la télévision numérique, c’est une pratique très courante. La recherche
du MOS est simplement le fait de présenter les images dégradées à un grand nombre
de personnes et d’en déduire la valeur acceptée, la limite à ne pas dépasser, en fin de
compte : les marges de manoeuvre. Une règle de statistiques veut qu’avec un nombre
important de résultats, on obtienne, malgré des variations internes, une courbe en
forme de gaussienne qui représente l’éparpillement des réponses autour d’une valeur
intermédiaire. Cette valeur correspond davantage au pic du plus grand nombre de
réponses identiques qu’à la moyenne des réponses obtenues. Son utilisation et la
validation de questions statistiques par son usage ne sont généralement pas à remettre
en cause. Et généralement, cette valeur qui a obtenu le maximum de résultats est
considérée comme étant la bonne réponse. Néanmoins, dans le cadre d’appréciations
visuelles et particulièrement lorsque le phénomène étudié offre des disparités très
diverses quant aux types de personnes exposées, il peut devenir inquiétant de constater
qu’une réponse donnée par la loi du MOS est considérée comme la bonne réponse. Le
sujet de ce mémoire n’est pas de remettre en cause les lois statistiques, il n’est pas non
plus de définir une nouvelle métrique de compression d’image, mais plutôt de
s’intéresser aux différents courants qu’on peut identifier sous la gaussienne, et le cas
échéant, de prévenir une hypothétique dérive de celle-ci. Néanmoins, pour parvenir à
cet objectif, nous avons besoin d’un résultat invariant, affichant une valeur
mathématique fixe et comparable pour des images présentées à des publics différents.
C’est pour cette raison que nous avons besoin d’un système d’évaluation de la qualité
des images qui soit objectif, mathématique et non perceptif comme le sont toutes les
études classiques.
45
b/ Enjeux
En s’intéressant au traitement du signal et aux méthodes de quantification de
distorsions entre images, on trouve différentes formules utilisées régulièrement par les
informaticiens pour tester des algorithmes de compression, parmi eux : la MSE53, le
PSNR54, et les algorithmes de S-CIELAB55 et SSIM56. Certaines de ces méthodes sont
utilisables pour tous les types de signaux, qu’ils soient visuels ou sonores, mais leurs
élaborations sont parfois issues de domaines mathématiques abstraits comme les
probabilités et les statistiques. Notons que S-CIELAB et SSIM sont exclusivement
dédiés aux comparaisons entre images. Néanmoins, notre intérêt s’est porté sur
l’ensemble de ces méthodes et nous les avons toutes testées dans le cadre
d’appréciations visuelles sur des images photographiques. Le but de cette enquête
étant de trouver lequel correspondrait le mieux à nos besoins spécifiques de
comparaison. Il est important de bien cerner nos besoins et de les mettre en parallèle
avec les capacités de ces outils de quantification actuels dans le cadre de notre étude
finale, qui consiste à comparer la sensibilité de différents publics à la dégradation
JPEG sur différentes images. Il convient, pour expliciter nos besoins, de revenir sur
l’un des risques de l’enquête finale. Il ne faudrait pas, au travers d’une interface
offrant une comparaison image dégradée/image originale, éduquer les personnes
interrogées sur la recherche et l’identification du défaut dans l’image, au cours de
l’enquête elle-même. Notre intérêt se porte sur le niveau de distorsion minimal pour
qu’une gêne soit ressentie, à partir de quand l’image n’est plus acceptée. On ne
s’intéresse pas à la reconnaissance du défaut. Pour donner un exemple du niveau de
gêne recherché, on pourrait résumer ainsi : si les personnes interrogées devaient
alimenter un blog ou un site Internet, à partir de quel taux de compression
n’accepteraient-elles plus de mettre en ligne sur celui-ci, des images faites par un
autre57. Les outils qui vont nous permettre dans cette partie de donner une valeur fixe
sur la dégradation des images fonctionnent tous sur le principe de comparaison, image
originale/image compressée, la valeur numérique qu’ils peuvent nous donner est donc
53 Mean Square Error 54 Peak Signal to Noise Ratio 55 Spatial CIELAB 56 Structural Similarity 57 Il semble important de signaler que ce jugement a de grandes chances de différer en fonction de l’auteur de la photographie.
46
à prendre avec précaution et il conviendra de faire dialoguer la méthode de calcul avec
le ressenti d’un jury de professionnel face aux images testées.
c/ Mean Square Error (MSE)
Erreur quadratique moyenne. MSE est un outil de statistiques et de probabilités
qui permet de chiffrer la différence entre une prévision et la quantité estimée. À l'instar
de la variance58, MSE a la même unité de mesure que le carré de la quantité estimée.
Par analogie avec l'écart-type59, en prenant la racine carrée de la MSE, on obtient la
RMSE (Root Mean Squared Error), connue en français sous le nom de moyenne
quadratique. La MSE est calculée en moyennant le carré des différences d’intensités
entre image déformée et image de référence. Dans le cas de la comparaison entre deux
images monocouches, la MSE peut se calculer ainsi :
!
MSE("m,n,#m,n ) =1
m * n("i, j $ #i, j )
2
j=1
n
%i=1
m
%
Équation 7 : L’erreur quadratique moyenne (MSE) entre deux images monocouches nommées θ et ρ. (m, n) : taille en pixel des deux images
Historiquement, une moyenne de la MSE pour chaque couche était faite pour les
images en couleur. On comprend aisément que ce système, s’il est juste d’un point de
vue mathématique, ne prend pas en compte la réponse du système visuel humain à
chaque composante colorée. Dans le cas d’une image en niveaux de gris, le résultat
sera aussi contestable car le facteur de contraste visuel sera oublié. Pour deux images
identiques comparées, la valeur de la MSE est nulle.
58 En statistique et probabilité, la variance est une mesure qui caractérise la dispersion d'un échantillon ou d'une population. C’est la moyenne des carrés des écarts à la moyenne. 59 L’écart type est la racine carrée de la variance.
47
Figure 8 : Image compressée dans Photoshop aux taux 12, 6 et 0.
Les valeurs de MSE par rapport à la photographie originale au format TIFF sont respectivement : MSE 12 = 0,097 ; MSE 6 = 0,64 et MSE 0 = 4,79
d/ Peak Signal to Noise Ratio (PSNR)
En français : pic du rapport signal sur bruit. On ne peut pas aborder cette notion
sans expliquer le rapport signal sur bruit. Le rapport signal sur bruit est un concept
général d'ingénierie électrique. Il est beaucoup utilisé dans le traitement du son mais il
peut-être appliqué à divers domaines comme la biologie, pour des mesures de signaux
cellulaires, par exemple. Mathématiquement défini comme le rapport entre la
puissance d'un signal et la puissance de corruption de ce signal, il permet de comparer
le niveau du signal désiré avec le niveau de bruit de fond. Plus le ratio est élevé, moins
le bruit de fond est gênant, meilleur est le signal. Le PSNR, quant à lui, prend en
compte la puissance maximum possible d’un signal et la puissance du signal de
corruption. Il est régulièrement utilisé pour des quantifications de bruit dans l’image et
la photographie. Il est plus adapté à l’échelle visuelle car il se mesure habituellement
en décibels, ce qui signifie qu’il utilise une échelle d’incrémentation logarithmique,
proche de la réponse psychophysique de l’œil aux stimuli visuels. Dans l’évaluation de
fidélité par compression d’images, son calcul se base sur l’erreur quadratique
moyenne (MSE) définie au paragraphe précédent. Dans le cadre d’une image codée
sur 8 bits en une seule couche, il se calcule ainsi :
!
PSNR = 20log10255
MSE
"
# $
%
& '
Équation 8 : Formule du PSNR pour des images 8 bits monocouche. 60
60 Dans le cadre d’une comparaison entre images n’étant pas codées sur 8 bits, la valeur 255 sera remplacée par la valeur maximale qu’un pixel peut obtenir.
48
Pour les images en couleur, la définition du PSNR reste la même, la MSE sera
calculée comme indiquée dans le paragraphe précédent. Les valeurs typiques d’un
PSNR entre une image compressée et sa version originale sont comprises entre 30 et
50 décibels. La valeur maximale indiquant la plus faible perte d’information. Assez
logiquement, lorsque l’on compare deux images strictement identiques, le PSNR tend
vers l’infini.
Certes ces outils sont simples à utiliser, ont un sens physique clair et sont
mathématiquement très commodes pour optimiser une vitesse de calcul sur des lots
d’images ou dans le cadre d’évaluation de la qualité en vidéo. Par ailleurs, ils
représentent effectivement une différence entre deux images, mais ils semblent oublier
le contenu réel des signaux. Ils simplifient la notion complexe de couleur en une
notion beaucoup plus généraliste : le signal. Nous avons vu au début de ce chapitre61
les nombreux efforts consacrés dans les trois dernières décennies à la modélisation du
système visuel humain et de sa perception des couleurs. Il semble évident qu’un outil
fiable et moderne devrait tirer parti des caractéristiques désormais mieux connues de
notre système de vision. Des études, encore en cours, sont à l’épreuve sur ce sujet.
Revenons maintenant sur les métriques Delta E énoncées au début du chapitre. Le
défaut mis en avant par ces métriques basées uniquement sur la perception colorée par
l’œil humain était l’incapacité de celles-ci (même Delta E 2000) à modéliser les
conditions réelles de visualisations de photographies numériques. Rappelez-vous qu’il
est rare qu’une couleur unique soit affichée sur une grande surface dans le cadre de
photographie numérique. Une métrique, plus récente la S-CIELAB (1997) prétend
résoudre tous ces problèmes en prenant en compte la sensibilité de l’œil aux couleurs
selon la fréquence.
e/ La métrique S-CIELAB
En général, plus la fréquence spatiale des couleurs augmente, plus les
différences de couleur deviennent difficiles à percevoir62. Ce qui signifie que des
différences colorées parfaitement identifiables sur des aplats pourraient passer
inaperçues dans des zones faites de détails. Dans le cadre d’une compression de
61Voir II/1/b et l’annexe « Historique de la colorimétrie ». 62«CIE recommendations on uniform color spaces, colour-difference equations, and psychometric colour Terms», Supplément n° 2 de la Publication CIE n° 15, Colorimétrie (E-1.3.1) 1971.
49
photographie, une différence colorée supérieure au minimum distinguable, serait alors
visible dans un cas, mais pas dans l’autre. Nous avons besoin d’une métrique qui
prend en compte le critère de surface. D’après ses auteurs, la S-CIELAB propose
d’intégrer les caractéristiques spatiales de la couleur affichée à l’écran. Elle reprend
les calculs de delta E mais en ajoutant un pré-traitement prenant en compte la
répartition spatiale des couleurs dans l’image. Avant de donner un résultat sur la
différence visible entre les deux images testées, la métrique S-CIELAB nécessite la
connaissance des paramètres suivants : distance de visionnage des images, résolution
et gamma d’affichage, distribution spectrale de l’écran et fonctions d’absorption
relative de l’œil. Si l’utilisation de tous ces paramètres semble rassurante, il convient
d’analyser leur utilisation. L’innovation dans la conception du S-CIELAB consiste à
appliquer un filtre spatial aux données colorées de l'image afin de simuler
l’estompement naturel du système visuel humain tout en conservant les zones offrant
une grande uniformité. Le calcul d’erreur se fait par le delta E traditionnel. Le
traitement de S-CIELAB se déroule en 4 étapes comme suit :
- Quel que soit l’espace source descriptif de l’image couleur, les valeurs
sont converties en L*a*b*.
- Chaque couleur dans l’espace CIELAB est filtrée par un noyau spatial à
deux dimensions63 dont la taille est déterminée par la sensibilité visuelle
à la zone colorée.
- Ces valeurs filtrées sont réinjectées dans l’espace CIEXYZ en utilisant
les formules CIELAB.
- On choisit l’une des formules delta E traditionnelles pour calculer la
différence globale entre cette image et une autre qui aurait subi le même
traitement.
63 Il s’agît d’une convolution mathématique dont la forme du noyau est :
!
f = k wiEi
i
" avec Ei = ki exp #(x2 + y
2[ ] /$ i
2 .
Le facteur d'échelle k est choisi de telle sorte que, pour chaque couche colorée, le noyau en deux dimensions f somme à un. Les paramètres wi et σi sont liés à l'angle visuel en degrés.
50
Figure 9 Diagramme du traitement S-CIELAB complet sur une image.
Les paramètres de calculs dans le S-CIELAB sont basés sur les résultats des
expériences psychophysiques de Poirson et Wandell64 sur la capacité de l’œil humain
à séparer les couleurs en fonction de la surface de celles-ci. Il apporte un complément
important aux meilleurs calculs de delta E, à travers cette approche de la répartition
spatiale de la couleur observée. Néanmoins, depuis son invention par Xuemei Zhang
et Brian Wandell en 1997, il ne s’est pas imposé comme un mode de calcul
incontournable dans le petit monde de l’évaluation objective de qualité d’images.
Certains le comparent toujours au PSNR et en arrivent à hésiter entre les deux,
pourtant il n’échappe à personne que les deux méthodes sont issues de domaines très
distincts. Depuis 2005, Zhou Wang de l’université de New York et Alan Bovik de
l’université du Texas à Austin, remettent en question les travaux précédents.
64 Allen B. Poirson et Brian A. Wandell, « Appearance of colored patterns : pattern-color separability. » in Journal of the Optical Society of America, volume 10, n°12, p. 2458 à 2470, 1993.
51
f/ La métrique SSIM
Dans la recherche dont il est fait état jusqu’à présent, on peut remarquer que les
résultats que donnent toutes les métriques de qualité d’image ne s‘intéressent pas au
contenu de celles-ci. Entendons nous bien sur ce point, même si S-CIELAB prend en
compte la répartition spatiale des couleurs, elle donnera le même résultat si l’image
considérée est un dessin représentant une scène abstraite ou une photographie bien
réelle. Au cours de son développement, le système visuel d’un individu est longtemps
exposé à des images de l'environnement naturel, et certaines recherches65 ont
démontré qu’il est, de ce fait, plus adapté à extraire rapidement les informations utiles
à la vue d’une image représentant une scène naturelle qu’une image aléatoire. Une
bonne métrique de qualité d’image qui viserait à prédire l'évaluation de la qualité par
l’humain devrait donc s’adapter au contenu des images. L’une des caractéristiques qui
différencie une image réelle d’une succession de pixels aléatoires réside dans sa
structure intrinsèque. Dans une image réelle, à chaque échelle, on trouve des
dépendances entre les différents échantillons de la même image. Ces dépendances
fournissent beaucoup d'informations sur la scène photographiée ou dessinée. La
métrique de qualité d’image SSIM prétend analyser les dépendances de chaque
échantillon d’image, pour en déduire les lignes fortes structurant l’image. La figure 9
montre un exemple dans lequel les métriques classiques se seraient fourvoyées. Des
pixels de valeurs aléatoires ont été ajoutés à deux images obtenues avec les mêmes
pixels réarrangés. La dégradation artificielle de ces deux images est donc quantifiable
de la même manière par les métriques classiques. Pourtant, on comprend aisément
avec cet exemple que la structure du sujet photographié est capitale dans une
évaluation de la qualité.
65 Source : E. P. Simoncelli et B. Olshausen, « Natural image statistics and neural representation, » in Annual Review of Neuroscience, vol. 24, p. 1193-1216, 2001.
52
Figure 10 L’incapacité des métriques classiques à comprendre le contenu d’une image.66
A est l’image originale, C est un réarrangement des mêmes pixels que A. B et D sont des versions dégradées de A et C par le même bruit gaussien. Les métriques classiques donnent
la même valeur de distorsion entre A et B qu’entre C et D.
Par conséquent, une mesure objective de la qualité d’image servant à simuler
l’évaluation subjective sur des images différentes devrait être capable de capter
l'information structurale ou, le sens des changements structurels. Le principe fondateur
de la métrique SSIM est donc que le système visuel humain fonctionne sur un principe
d’extraction de l'information structurale de la scène observée. La mesure de la SSIM
étant une mesure mathématique de la similitude structurelle entre images.
Les auteurs de cette métrique en justifient l’emploi à partir de considérations
mathématiques absolues. D’un point de vue purement formel, considérons une image
A constituée d’un nombre fini de pixels, par exemple 1 million, chacun pouvant être
codé sur 256 niveaux. On sait qu’il existe 1 000 000*256 images réalisables. Plaçons
nous dans un hyperespace théorique dans lequel chacune de ces images est assimilable
à un point. Cet hyperespace est discret et contient 256 millions de valeurs possibles.
On peut alors l’appeler : l’espace image A car il permet la cartographie de l’intégralité
des variantes de l’image A. Toute dégradation de A peut y être assimilée à une
66 Source : Zhou Wang, Alan C. Bovik et Eero P. Simoncelli, « Structural Approaches to Image Quality Assessment », in Handbook of Image and Video Processing, 2ème édition, Academic Press, 2005.
53
transformation vectorielle dont le point d’origine est A et le point d’arrivée est l’image
dégradée. Un grand nombre de vecteurs de même norme pouvant être définis depuis
un point unique, on conçoit que autour de A, il y aura une grande diversité de vecteurs
dont la norme est identique et une métrique classique mesurant la norme ne verrait pas
d’autres différences. Pourtant la qualité visuelle des images obtenues pourra être
radicalement différente.
Figure 11 Représentation plane d’une sphère d'équité MSE autour d'une image A dans l'hyperespace de l’image A.67
B, C, D et E ont toutes la même erreur quadratique moyenne par rapport à l’originale. Elles appartiennent donc à une sphère commune dans l’espace image A. Pourtant, elles sont
visuellement très différentes les unes des autres.
C’est donc dans la direction du vecteur que se joue la différence entre ces
images. La bonne métrique serait celle qui pondère la norme mesurée du vecteur en
fonction de sa direction. La pondération pourrait se faire avec la fonction de sensibilité
au contraste, comme cela est courant dans de nombreux modèles d'évaluation de la
qualité. Mais SSIM base complètement son calcul sur les changements de structure
dans l’image, pour cette raison, il ne nécessite pas d’autre composante que la couche
67 Source : Zhou Wang, Alan C. Bovik et Eero P. Simoncelli, « Structural Approaches to Image Quality Assessment », in Handbook of Image and Video Processing, 2ème édition, Academic Press, 2005.
54
L* d’une image. Le calcul s’effectue indépendamment sur différents échantillons de
l’image qui, une fois réunis, forment l’ensemble de l’image. Chaque échantillon sera
ensuite pondéré en fonction de son importance.
!
SSIM(a,b) =(2µ
aµb
+ c1)(2cov
ab+ c
2)
(µa
2 + µb
2 + c1)("
a
2 +"b
2 + c2)
Équation 9 : Mesure SSIM entre deux échantillons a et b appartenant à des images A et B
avec : µa, la moyenne de a ; µb la moyenne de b ; σ2a la variance de a ; σ2
b la variance de b, ; covab la covariance de b ; c1 = (k1L)2 ; c2=(k2L)2 ; L, la profondeur de codage des images.
Dans cette formule, les constantes C1 et C2 sont introduites pour éviter
l’instabilité de la division lorsque (µa + µb)2 est proche de 0. k1 et k2 doivent être de
faibles quantités. La somme pour la comparaison d’images totale se définit ainsi :
!
SSIM(A,B) =
W j (a j ,b j )SSIM(a j ,b j )j=1
Ns
"
W j (a j ,b j )j=1
Ns
"
Équation 10 : Formule de SSIM
Où Ns est le nombre d’échantillons considérés dans l’image et Wj est le coefficient de pondération donné au jième échantillon.
Notez que dans certains cas, la fonction de pondération est déterminée
uniquement par la localisation spatiale j, alors que le contenu de l'image joue aussi un
rôle. Il a été observé que les différentes textures d’images attirent le regard de
l’homme à des degrés variables. C’est pourquoi des pondérations différentes peuvent
être assignés aussi en fonction de la texture.
La quantification de la dégradation d’une image n’est donc généralement pas
aisée et se cantonner à une seule méthode ou algorithme mènerait inéluctablement à un
résultat peu pertinent car l’on constate lors des tests finaux sur ces méthodes que la
quantification objective caractérise bien l’évolution de cas de compression croissants
sur la même image mais reste difficile à exploiter lorsque les contenus varient
fortement d’une image à une autre. Une appréciation visuelle par des regards
professionnels pourrait donc compléter dans le cas de la constitution d’une base de
données d’images dégradées visuellement au même taux. Rappelons que la réalisation
55
d’une telle base de données est l’un des enjeux de la dernière partie de ce mémoire.
Ces images seraient ensuite présentées à des personnes de profils très différents afin de
voir l’importance de chaque élément constitutif ou parasite du jugement.
Nous avons donc vu en détail quelles étaient les nouvelles mœurs de la pratique
courante de la photographie et leurs implications supposées sur le regard. Nous avons
expliqué comment ces images étaient constituées et nous avons présenté les causes de
leurs défauts. Alors, nous nous sommes questionnés d’un point de vue fondamental
sur la possibilité de quantifier ces défauts visuels avec des outils stables et objectifs. Il
semble que nous soyons à présent en mesure de mélanger ces deux analyses pour
établir une série d’expérimentations critiques à visées quantitatives et comparatives.
Cette analyse se portera sur certains outils logiciels qui manipulent la nouvelle
photographie et dont nous avons déjà cité les noms au cours de la première partie.
56
III - Expérimentations des métriques dans les usages réels du JPEG
57
Les nombreux logiciels et algorithmes de traitements sont les premiers
générateurs de JPEG. Utilisés souvent à tort et à travers par le grand public ou même
par les développeurs, ces moteurs de compression génèrent une nouvelle esthétique de
la photographie sur Internet. À l’aide des métriques détaillées dans la deuxième partie,
on souhaite caractériser ici les différences observables entre les sites Internet qui
compressent les images et un logiciel de traitement professionnel. Mais pour qu’une
boucle de toutes les utilisations du JPEG soit bouclée, nous comparerons aussi les
dispositifs de décompression, nécessaires à l’affichage des images sur écran. Les
réponses à ces questions devraient nous guider pour concevoir un protocole final
pertinent, exact et dont les limites seraient clairement établies. La constitution d’une
liste exhaustive des logiciels responsables de la compression serait inutile et
nécessiterait une étude à part entière, mais l’on peut d’ores et déjà s’intéresser aux
usages actuels de déformation involontaire d’images, en vue d’une rapidité de
transfert, ou d’une « amélioration » de la définition.
Pour mieux comprendre l’enjeu, nous allons envisager un enchaînement d’étapes
et de pratiques courantes sur une image d’exemple. Considérons une image
publicitaire prise par un photographe professionnel à l’aide d’un appareil numérique
de 12 millions de pixels, ce qui est une valeur acceptable dans ce domaine. Le
photographe capture en format raw68, puis il développe l’image en TIFF. Il désire la
mettre en ligne sur Internet, et comme il est au fait des méthodes numériques, il
exécute le programme professionnel de traitement d’images Adobe Photoshop® afin
de rééchantilloner69 l’image à un format inférieur, par exemple 800 x 600 pixels, avec
l’algorithme de son choix, par exemple bicubique plus net. Ensuite, il prépare le
fichier avec l’outil de compression pour le Web afin de générer un JPEG qui satisfera
ses besoins en terme de poids et de qualité d’image. Cette image est a priori exempte
de défauts visibles si les marges de manœuvre en terme de poids sont suffisantes. Dans
notre exemple, 300 ko conviennent à notre photographe pointilleux. Il livre deux
versions de l’image à son client, le fichier TIFF et le fichier JPEG de 300 Ko. Ce
dernier désire alors l’exploiter sur son propre site Internet. Son webmestre lui a
68 Raw est une appellation générique qui désigne le format de prise de vue numérique le plus brut exploitable en sortie d’un appareil de prise de vue numérique. Il ne contient pas de traitement de l’image concernant la balance colorée, mais surtout, il n’applique généralement pas de compression avec pertes. 69 Le rééchantillonnage est le fait de changer artificiellement la définition d’une image. Il s’agit en principe de représenter la même scène exactement en utilisant moins de pixels.
58
préparé un outil d’administration php70 simple lui permettant de télécharger et de
redimensionner des photographies sur le site depuis son ordinateur pour les besoins du
site sans repasser par un logiciel de traitement spécialisé installé en local. Le client
utilise cet outil et choisit d’envoyer au serveur71 de la plateforme Internet l’image déjà
compressée par le photographe car le téléchargement est plus rapide. L’image est alors
redimensionnée par l’outil php pour s’intégrer au site et prend les valeurs suivantes :
450 x 335 pixels en 45 ko. Le client ne se soucie pas de ces valeurs. L’image sera
visionnée par tous les visiteurs selon ces critères de qualité, qui ne correspondent plus
à ceux qui furent validés par son auteur. L’un des visiteurs, appréciera cette image et
désirera l’utiliser72 pour son propre site Internet. Il l’enregistre sur son ordinateur,
mais il considère qu’elle est d’une trop faible dimension et il préfèrerait une image
plus grande. Il ouvre alors un outil de traitement d’images, la rééchantillonne pour
l’agrandir jusqu’à 700 x 520 pixels puis la sauvegarde à nouveau en JPEG de 65 ko, et
la met en ligne sur son site. Une autre personne copiera cette image depuis cette
version, puis désirera à son tour la mettre sur son blog ou sur le profil de son site
communautaire73, le moteur php de ce site la recompressera alors en 500 x 375 pixels
et 52 ko.
Si un tel enchaînement peut paraître un peu caricatural, il n’en reste pas moins
un schéma très courant de traitements contradictoires observables sur Internet. Au
dernier stade, l’image est empreinte d’un caractère tout à fait particulier, auquel
certaines personnes ne sont pas sensibles. Mais pour le professionnel ou une personne
disposant de la référence originale, cette copie semble extrêmement dégradée, voire
peu fidèle. Néanmoins, elle contient en elle une nouvelle esthétique. L’esthétique du
Web. Chaque personne qui a déjà navigué sur Internet à forcément visionné au moins
une image ayant subi un schéma de traitement parallèle à celui-ci. La traçabilité des
fichiers n’étant pas un outil encore universel, cette nouvelle profusion des copies est
incontrôlable et difficile à quantifier. Si de telles pratiques sont courantes, c’est sans
nul doute parce qu’un grand nombre de visiteurs et même d’acteurs du Web ne savent
pas distinguer ce caractère ou ne sont tout au moins pas dérangés par celui-ci. La 70 PHP est l’acronyme récursif d’Hypertext Preprocessor. C’est le langage de programmation libre le plus utilisé actuellement pour produire des pages Web dynamiques calculées à la volée par le serveur http. (pour http, voir l’annotation page 61) 71 Le serveur en informatique est l’ordinateur qui stocke les données que les internautes consultent sur Internet. 72 Pratique totalement illégale néanmoins courante sur Internet. 73 On appelle site communautaire une plateforme Internet à partir de laquelle chaque utilisateur pourra se constituer un espace personnel visible par les autres.
59
connaissance des niveaux de tolérance et de l’accoutumance des publics à ces
dégradations est l’une des ambitions de cette étude. L’effet de l’éducation du regard
qui découle involontairement de ces phénomènes en est une autre. Avant toutes
choses, il convient de détailler par une analyse expérimentale méthodique les
traitements énoncés dans cette introduction.
1 - La compression dans Photoshop
Il y a encore quelques années, la bataille entre les développeurs de logiciels de
traitement d’images professionnels faisait rage. Aujourd’hui, on peut dire sans hésiter
qu’Adobe a remporté le monopole et a réussi à démocratiser son logiciel à un niveau
jamais égalé. C’est ce logiciel qui est utilisé par quasiment tous les professionnels de
la photographie et sa référence de comparaison en termes de compression s’avère tout
à fait pertinente. C’est pourquoi nous allons le tester dans la première partie de ce
chapitre.
a/ Présentation
Si la proportion de photographes amateurs pratiquant le traitement numérique de
l’image de manière intensive reste faible, il n’en est pas moins évident qu’une grande
partie des utilisateurs de Photoshop ne maîtrise pas suffisamment cet outil pour en
connaître les limites et les applications exactes. Aujourd’hui encore, de nombreuses
personnes enregistrent en JPEG sans comprendre l’impact exact de cette action et
quand bien même elles conçoivent les tenants et les aboutissants de ce choix, rares
sont celles qui peuvent émettre un avis exact sur le niveau de « qualité » qu’engendre
chaque valeur des échelles proposées dans l’interface. Comme nous l’avons vu dans le
paragraphe qui traite de la méthode de compression JPEG74, il est difficile d’un
logiciel à l’autre de connaître le facteur qualité utilisé pour chaque taux de
compression. Pourtant, la connaissance d’une échelle équivalente aux différents
logiciels et méthodes serait utile à tous. Dans l’interface d’Adobe Photoshop®, il
existe deux moyens différents de générer des fichiers compressés JPEG :
74 I/2/b
60
la fonction « enregistrer sous » :
Très largement utilisée, elle n’impose pas de limites pour la taille du fichier
d’entrée ou de sortie et permet de nombreux formats d’image différents, parmi
lesquels le JPEG. L’échelle de taux de compression proposée par l’interface se statue
entre 0 et 12. Lorsqu’une image est enregistrée par cette méthode, un aperçu en
miniature est automatiquement intégré au fichier afin de pouvoir afficher une icône du
fichier représentant l’image. Traditionnellement, elle est peu conseillée pour des
images de faible définition dont le poids nécessite d’être minimum, on lui préfère alors
la fonction « enregistrer pour le web ».
la fonction « enregistrer pour le web » :
Elle permet de nombreux paramétrages précis spécifiques à Internet comme la
restriction des couleurs aux couleurs web pour le GIF. Elle ne propose que les formats
GIF, JPEG, PNG 8 et 24 bits. Elle permet de régler le taux de compression par deux
approches différentes : en choisissant un niveau de qualité entre 0 et 100 ou, en entrant
le poids de fichier désiré. Cette méthode ne génère pas d’aperçu à l’image.
De nombreuses questions inhérentes à l’utilisation de ces méthodes sont sans
réponses. Les échelles sont-elles équivalentes en terme de poids ? en terme de
qualité ? L’algorithme utilisé est-il le même ? Est-il utile de prédéfinir un poids de
fichier ? Peut-on compresser à des poids identiques des images différentes en
conservant le même niveau de qualité ?
b/ Tests de la compression JPEG dans Adobe Photoshop CS3®
Considérant que la différence dans les échelles de compression affichées
pourrait impliquer que Photoshop utilise un algorithme de compression différent pour
chacune de ces méthodes, on se propose de générer, à partir de fichiers PNG, des
images compressées aux taux 0, 3, 6, 9 et 12 avec la fonction « enregistrer sous » et les
mêmes images compressées aux taux 0, 25, 50, 75 et 10075 avec la fonction
« enregistrer pour le web ». On calculera les valeurs de MSE, PSNR, SSIM et S-
CIELAB entre les images obtenues et l’originale non compressée. La première image 75 Selon une règle de trois, ces taux de compression correspondent instinctivement pour l’utilisateur à des valeurs relatives identiques. Si l’on choisit ces valeurs, c’est que nous pensons que le développeur du logiciel ayant conçu une interface conviviale devrait prendre en compte cette logique triviale.
61
est un portrait en gros plan, au format 400 x 600 pixels, l’autre est une vue dans les
rues de New York en plein jour au format 500 x 500 pixels. Utiliser des images
différentes nous permettra d’observer le comportement de ces compressions avec des
niveaux de détails différents. Le calcul des métriques se fait à l’aide d’algorithmes76
réalisés pour les besoins de l’expérience dans le logiciel The Mathworks™ Matlab 7.0.
Les résultats sont indiqués dans les tableaux 3 et 4.
Méthode et taux Poids MSE PSNR SSIM S-CIELAB
Enregistrer sous (12/12) 214 ko 0,095 50 0,99 0
Pour le web (100/100) 172 ko 0,095 50 0,99 0
Enregistrer sous (9/12) 86 ko 0,4 44 0,99 9
Pour le web (75/100) 68 ko 0,34 45
0,99 22
Enregistrer sous (6/12) 60 ko 0,82 41 0,97 723
Pour le web (50/100) 32 ko 0,8 41 0,95 824
Enregistrer sous (3/12) 46 ko 1,5 38 0,91 2419
Pour le web (25/100) 19 ko 1,4 39 0,92 2173
Enregistrer sous (0/12) 37 ko 3 35 0,90 3867
Pour le web (0/12) 11 ko 2,5 34 0,89 4858
Tableau 3 : Les métriques calculées pour l’image 1 compressée dans Photoshop selon les deux méthodes.
Figure 12 : L’image 1 compressée aux facteurs de qualités successifs 12, 9, 6, 3 et 0 sur l’échelle 0-12 de la fonction « enregistrer sous » de Photoshop.77
76 Deux facteurs de qualité sont disponibles en annexe. 77 Pour un gain d’espace sur la page, le format des images imprimées n’est pas du tout contractuel. Il se peut que les différences entre elles ne soient pas visibles à l’œil nu.
62
À la lecture du tableau 3, on peut dors et déjà constater que l’usage de plusieurs
métriques différentes sur les mêmes images n’est pas superflu. Comme nous l’avions
abordé en première partie, la complexité de ce sujet et les avancées de la recherche
dans ce domaine étant ce qu’elles sont, aucune métrique ne peut être considérée
comme suffisante ou exacte. L’exactitude de leurs résultats est relative, entre autres,
au défaut considéré, au contenu de l’image et à sa taille. Certaines, comme MSE,
donnent des résultats supérieurs à 0, là où aucun œil humain n’est encore capable de
distinguer une différence. Cela peut s’avérer utile pour une constatation simple de
différence mathématique et moins pour une dégradation objective. Comparativement,
S-CIELAB évolue de manière presque logarithmique et sa capacité à afficher des
résultats proches de 0 pour les compressions minimales prouve son intérêt dans le cas
d’une quantification objective de la sensation visuelle, car à la valeur de compression
12 de Photoshop, il est de bon ton de signaler qu’il est quasiment toujours impossible
de distinguer une quelconque différence avec l’originale. Par ailleurs, la valeur de
SSIM variant peu d’une image à une autre, il semble clair que son résultat ne pourra
être exploitable pour nos tests de compression. Nous ne l’utiliserons plus dans la suite
des études. PNSR semble évoluer de manière tout à fait intuitive d’une version à une
autre, mais sa précision ne permet pas d’estimer une échelle sur des résultats peu
différents. Sa similitude de fait avec MSE nous fera justement lui préférer MSE. Par
ailleurs, S-CIELAB et MSE sont les deux seules à varier dans le même sens que le
poids de fichier pour tous les résultats obtenus.
63
Méthode et taux Poids MSE PSNR SSIM S-CIELAB
Enregistrer sous (12/12) 292 ko 0,006 50 0,99 2
Pour le web (100/100) 280 ko 0 50 0,99 0
Enregistrer sous (9/12) 145 ko 0,64 42 0,99 634
Pour le web (75/100) 120 ko 0,53 43 0,98 423
Enregistrer sous (6/12) 96 ko 1,5 38 0,99 1665
Pour le web (50/100) 56 ko 1,6 38 0,99 1855
Enregistrer sous (3/12) 76 ko 2,9 35 0,93 3683
Pour le web (25/100) 39 ko 2,7 36 0,94 2898
Enregistrer sous (0/12) 56 ko 4,8 33 0,91 6962
Pour le web (0/100) 21 ko 4,6 33 0,95 6418
Tableau 4 : Les métriques calculées pour l’image 2 compressée dans Photoshop selon les deux méthodes.
Figure 13 : L’image 2 compressée aux facteurs de qualité successifs 100, 75, 50, 25 et 0 sur l’échelle 0-100 de la fonction « enregistrer pour le web » de Photoshop.
Nous pouvons tracer à partir de ces deux tableaux, une première courbe
représentant les poids de fichiers obtenus selon les deux méthodes en fonction des
facteurs qualités (figure 14). Si l’échelle 0-100 était juste une échelle de compression
dont les taux sont identiques mais plus paramétrables que l’échelle 0-12, on
observerait pour les valeurs choisies ici, une courbe rouge superposée à la bleue, ainsi
qu’une courbe verte superposée à la jaune.
64
Figure 14 : Dans Photoshop, les deux méthodes de compression JPEG ne sont pas du tout équivalentes.
À la lecture de ces tableaux et graphiques, on constate de manière assez claire
que, à « qualité » comparable, le poids de fichier est différent selon les deux méthodes.
Même les niveaux de compression minimums (12/12 et 100/100) ne donnent pas des
poids de fichiers image identiques, pourtant, les deux images obtenues, sont tout à fait
semblables. Quant à la fidélité avec l’originale non compressée, il se trouve que les
valeurs diffèrent d’une méthode à l’autre pour tous les niveaux de compression, taux
minimal mis à part. On peut se permettre une critique à ce sujet envers Adobe car la
majorité des utilisateurs aura instinctivement tendance à se référer à une règle de trois
pour tenter de comparer les deux échelles de « qualité ». Ici, on constate d’ores et déjà
que le niveau de qualité 9/12 de la fonction « enregistrer sous » ne correspond pas du
tout au niveau de qualité 75/100 de la fonction « enregistrer pour le Web ». Par
ailleurs, selon le contenu de l’image et malgré des taux identiques relatifs, les résultats
sont différents. Ceci s’explique par la différence de structure entre elles. Comme nous
l’expliquions dans le paragraphe78 sur le format de compression JPEG, d’un point de
vue formel, le JPEG parvient plus facilement à compresser des images comportant peu
de détails, car elles sont constituées de plus de motifs répétitifs. Ici, le portrait
78 I/2/b
65
considéré comporte des aplats colorés sur le visage, tandis que le paysage est composé
de nombreux petits détails.
Les poids des images obtenues étant différents, ces premiers résultats ne
permettent qu’une évaluation du niveau de compression en fonction de l’échelle
choisie. Ces résultats ont donc pour réel intérêt de nous informer des échelles utilisées
dans chacune de ces deux fonctions. Il serait tout aussi utile de pouvoir comparer la
rentabilité de la compression selon ces deux méthodes. L’usage des métriques
d’évaluation se révèlerait particulièrement pertinent si, au sein de l’interface
d’enregistrement pour le Web, on pouvait définir des taux de compression offrant des
poids équivalant aux images obtenues avec la première. Une telle option existe, il
s’agit de cocher la case : « optimiser pour la taille du fichier désiré ». Une fois la
compression des images effectuées avec l’objectif de poids de fichiers comparables,
on recalcule les valeurs de MSE, PSNR, SSIM ET S-CIELAB entre l’originale et les
images compressées.
Pour obtenir le tableau 6, on utilise la fonction « enregistrer pour le Web » avec
son option « optimiser pour la taille du fichier désirée. » Les résultats montrent cette
fois-ci une nette amélioration de la fidélité avec la méthode d’enregistrement
spécifique pour le Web79. Il semble que pour des poids de fichiers prédéterminés par
l’utilisateur, l’algorithme adapte mieux sa compression au contenu de l’image et sait
conserver de manière bien plus fidèle les données d’origine. Nous expliquions en
introduction que la raison pour laquelle des recherches étaient toujours en cours sur
des méthodes de compression était l’obtention d’une meilleure relation entre le poids
et la fidélité. On peut désormais grâce à ces résultats et aux métriques d’évaluation,
tracer une courbe comparative de l’évolution de l’erreur quadratique moyenne en
fonction du poids de fichier selon les deux méthodes et les deux images considérées.
79 Une capture d’écran de l’interface d’enregistrement pour le Web de Photoshop CS3 est disponible en annexe avec l’image compressée pour 37 ko selon la fonction « pour le web » ainsi que l’image de 37 ko compressée selon la méthode « enregistrer sous ».
66
Méthode et taux Poids MSE PSNR SSIM S-CIELAB
Enregistrer sous (12/12) 214 ko 0,0954 50 0,99 0
Pour le web (pour 214 ko) ko) 175 ko 0,0965 50 0,99 0
Enregistrer sous (9/12) 86 ko 0,4055 44 0,99 9
Pour le web (pour 86 ko) 82 ko 0,2834 45 0,99 6
Enregistrer sous (6/12) 60 ko 0,8252 41 0,99 723
Pour le web (pour 60 ko) 56 ko 0,4687 43 0,99 66
Enregistrer sous (3/12) 46 ko 1,5456 38 0,99 2419
Pour le web (pour 43 ko) 43 ko 0,6282 42 0,99 177
Enregistrer sous (0/12) 37 ko 3,0334 35 0,97 3867
Pour le web (pour 37 ko) 34 ko 0,8450 40 0,98 882
Tableau 5 : Valeurs des métriques de qualité d'image entre l'originale et des versions compressées à des poids comparables selon les deux méthodes de Photoshop
Figure 15
Les conclusions sur l’utilisation des deux fonctions d’enregistrement JPEG de
Photoshop sont donc simples et catégoriques : le niveau de qualité maximum que
67
permet la fonction « enregistrer pour le Web » est inférieur à celui que permet la
fonction « enregistrer sous ». Néanmoins, cette dernière est à proscrire dans le cas de
fortes compressions d’images. La fonction « enregistrer pour le Web » est beaucoup
plus performante lorsque l’on choisit l’option « optimiser pour la taille du fichier
désiré». Les niveaux de fidélité obtenus en fonction du poids de fichier sont
globalement toujours bien meilleurs avec cette fonction. D’une manière générale, on
se doit de remarquer que la valeur de MSE évolue selon une modélisation
exponentielle avec l’inverse du poids de fichier. Dans les valeurs minimales de poids,
il faudra être très pointilleux et pour gagner quelques kilo octets, on peut changer
radicalement l’image.
2 - La compression automatisée en ligne.
Lorsque l’utilisateur souhaite partager ses photographies sur des sites Internet
communautaires, la plupart du temps, il n’a pas le choix du taux de compression que le
serveur appliquera à ses images. C’est le webmestre qui, le jour du codage du site
Internet dynamique, choisit un facteur qualité et un moteur de compression. Dans
beaucoup de cas, pour les besoins de la maquette du site, l’image est également
rééchantillonnée à la volée. Seuls les professionnels ont généralement conscience de la
présence de ces deux opérations. Pourtant, il existe de nombreuses méthodes de
rééchantillonnage, tout comme il existe de nombreuses méthodes de compression et
leur action sur les images téléchargées peut s’avérer ravageuse. Nous nous proposons
dans cette partie de tester différents sites et algorithmes très couramment utilisés sur
Internet pour traiter les images photographiques du grand public, car ce sont ces
plateformes numériques en ligne, encore plus que Photoshop, qui sont les plus larges
producteurs d’images compressées en JPEG sur Internet. De Facebook à Skyrock
Blog, nombreux sont ces outils automatiques de galeries photographie en ligne dont
nous faisions part en première partie. De l’un à l’autre, tout peut varier, mais,
concernant le traitement des images, on constate trois points communs :
- ils recompressent tous les images envoyées par l’utilisateur.
- ils ne rééchantillonnent que dans le sens de la réduction.
- le plus grand dénominateur commun en termes de taille d’image
maximale acceptée est 500 pixels pour le côté le plus long.
68
a/ Sans rééchantillonnage
Pour des raisons de commodité, nous décidons d’envoyer à chacun de ces
serveurs une image de format carré, et, afin de pouvoir comparer les compressions
effectuées avec celles de Photoshop étudiées dans un paragraphe précédent, nous
choisirons l’image de la ville de New York qui avait été utilisée alors. C’est une image
de 500 pixels de côté, elle ne sera donc pas rééchantillonnée. Les sites Internet dont les
moteurs de compression seront testés sont : Facebook.com, Flickr.com,
Imageshack.us, Myspace.com, Picasa Web Album et Skyrock Blog. On trouve sur
Internet une fonction open source80 du langage de programmation php, intitulée
imagejpeg81. Cette fonction renvoie une image compressée en JPEG à partir d’une
image source compressée ou non compressée. Elle est utilisable par tout développeur
amateur ou professionnel et applicable à divers cas de compression. C’est ce type de
fonction qui est aujourd’hui utilisé par une grande partie des sites Internet
dynamiques. La fonction imagejpeg permet au programmateur de choisir un argument
de qualité, sur une échelle comprise entre 0 et 100. Par défaut, si aucun argument n’est
choisi, c’est la valeur 75 qui est considérée. Nous testerons également cette fonction
en réglant l’argument sur 75 pour les tests comparatifs.
MSE S-CIELAB Poids fichier Facebook 1,867 1457 68
Flickr 0,2678 232 164 imageshack 0,0385 46 280
Myspace 2,38 2061 52 Fonction PHP 2,37 1975 52
Picasa 0 0 292 Skyrock Blog 2,37 1975 52
Image originale 0 0 292
Tableau 6 : Les poids de fichiers obtenus et les métriques de qualité d'image correspondantes pour 7 méthodes automatisées de compression en ligne.
Ce tableau nécessite un peu d’attention car sa lecture nous renseigne de
manière assez évidente sur les similarités entre les sites et nous permet de dresser un
classement pour les traitements destructifs appliqués sur chacun. Nous n’oublierons
pas de considérer ces remarques en parallèle avec l’usage qu’en attendent les
développeurs. Tout d’abord, il semblerait que Skyrock Blog utilise la même fonction 80 L’open source est une licence légale informatique. Lorsqu’un code informatique est open source, les droits d’utilisation sont partagés à l’ensemble de la communauté créative. 81 Depuis la version 3.0.0.16 de PHP.
69
php imagejpeg que nous avons testée et qu’il l’utilise avec la valeur de facteur qualité
par défaut puisque les deux métriques donnent strictement les mêmes valeurs pour les
deux images issues de ces traitements. Nous pouvons soupçonner Myspace d’utiliser
également cette fonction, mais avec un facteur de qualité légèrement différent car les 3
valeurs : poids de fichier, S-CIELAB et MSE sont étrangement proches. En revanche,
il semble que Flickr utilise un algorithme moins destructif, mais fournissant des
fichiers plus lourds que les autres. Cette observation est loin d’être surprenante pour
deux raisons :
- Flickr est le seul site communautaire uniquement axé sur l’image : l’utilisateur
de Flickr ne s’y rend que pour y voir ou laisser des photographies82, contrairement aux
autres où la photographie n’est qu’un outil de communication supplémentaire.
- l’interface de Flickr laisse le visiteur choisir son format d’affichage.
Imageshack.us ne peut pas être classé dans la catégorie des sites
communautaires, c’est un utilitaire en ligne permettant de stocker des photographies
sur le serveur du développeur afin de pouvoir y accéder en ligne depuis une simple
adresse en http83. L’interface est triviale, ne constitue pas de galeries et le site
s’adresse à des amateurs avertis, c’est probablement pour cette raison qu’il n’est que
très peu intervenu sur l’image que nous lui avons envoyée. Facebook, quant à lui, est
plus récent que les deux sites analogues testés : Myspace et Skyrock Blog, c’est
certainement pour cela qu’il utilise un algorithme de compression moins destructif.
Skyrock Blog est le seul site français, et il s’adresse à un public plus jeune que les
autres, principalement lycéen. On peut supposer que « l’amateurisme » relatif du
codage de ce site qui est mis en exergue par cette utilisation d’une fonction open
source brute, découle de ces deux spécificités : pas d’ambitions internationales ni de
publics expérimentés. Si Facebook tolère un poids de fichier légèrement supérieur à
Myspace, c’est sans doutes à cause de son plus jeune âge, car le débit de transfert
moyen dont est équipé le grand public n’a cessé d’augmenter ces dernières années.
Picasa Web Album est la combinaison d’un logiciel de tri d’images en local et d’une
plateforme de partage en ligne. Il n’a visiblement pas compressé notre image lors du
82 Même si depuis peu, on peut également télécharger des vidéos sur Flickr. 83 HTTP est l’acronyme d’HyperText Transfer Protocole. C’est un protocole de communication développé pour Internet.
70
partage en ligne, cela peut s’avérer problématique s’il en faisait de même avec un
fichier très lourd.
Ce premier tableau nous aura simplement permis de comparer les sites Internet
considérés entre eux. Afin de bien saisir l’impact des compressions réalisées en ligne,
il serait intéressant de pouvoir les confronter à une référence. Ainsi, la figure 14 nous
montre l’intégration de ces valeurs dans la courbe du même fichier compressé dans
Photoshop.
Figure 16 : Les fonctions MSE = f (poids de fichier) de Photoshop et les valeurs renvoyées par Facebook, Flickr, Imageshack, Myspace, php et Skyrock Blog
On voit sur cette courbe que le rapport de qualité en fonction du poids est moins
bon pour les sites Internet qu’avec la meilleure des méthodes de Photoshop (courbe
verte). Flickr renvoie exactement le même rapport de qualité d’image que Photoshop.
La gestion de la compression par la fonction « enregistrer sous » de Photoshop s’avère
toujours rester le plus mauvais moyen de compresser une image de 500 x 500 pixels.
Comme nous l’avions pressenti dans le tableau, les trois sites dont l’usage est similaire
(Myspace, Skyrock Blog et Facebook) donnent des résultats très proches de la fonction
php open source imagejpeg lorsqu’elle est laissée sur sa valeur par défaut. Cette valeur
doit donc être considérée par les développeurs comme suffisante pour l’usage très
71
anecdotique de ces images. Chaque point spécifiquement inscrit sur les deux courbes
de Photoshop représente une valeur des facteurs de qualité relative suivants :
0,3,6,9,12, pour la fonction « enregistrer sous » et « 0, 25, 50, 100 » pour la fonction
« enregistrer pour le Web ». Les trois sites communautaires classiques donnent donc
des taux de compression qui sont compris entre les taux 3/12 et 6/12 de la fonction
« enregistrer sous » et entre les taux 25/100 et 50/100 de la fonction « enregistrer pour
le web ». Ces valeurs sont très faibles et rarement utilisées dans les usages de la
photographie professionnelle, donc peu en adéquation avec des recommandations que
l’on pourrait faire à ce sujet.
b/ Avec rééchantillonnage
Les tests effectués ci-dessus permettent une bonne appréciation des taux de
compression choisis par ces sites Internet grand public. Pour les besoins de
l’expérience, ils ont été réalisés avec des fichiers dont la taille en pixels est inférieure
ou égale à la taille maximale acceptée par la maquette du site. En effet, pour les
calculs des métriques de qualité d’image, les deux images comparées doivent
obligatoirement être de taille égale. Malheureusement, dans les usages courants, il est
très rare qu’un utilisateur de ces sites envoie une telle image. La majorité est envoyée
en définition maximale et le serveur a besoin de rééchantillonner jusqu’au format
maximal accepté par la maquette de la page. On se propose maintenant d’envoyer des
fichiers pleine définition et de comparer les images rééchantillonnées par les serveurs
avec les mêmes fichiers rééchantillonnés en local dans Photoshop CS3 selon la
méthode bicubique. Nous considérerons pour cette partie que cette méthode est la
référence de réinterprétation de fichier. Les différences observées pour chaque site
Internet sont classées dans le tableau 8.
Cette fois-ci, on remarque que les résultats sont beaucoup plus variables entre
les sites. Comprenons bien que ce tableau incorpore aussi une étape de compression
car ce traitement est incontournable dès lors que l’on télécharge une image sur l’un de
ces sites. Globalement, les différences sont beaucoup plus importantes, mais la
classification entre les différents annonceurs reste semblable. Myspace accuse le plus
mauvais système de traitements de photographies sur les deux étapes :
rééchantillonnage + compression. Facebook, Skyblog et le code php open source
restent dans des valeurs intermédiaires mais avec des valeurs de MSE beaucoup plus
72
élevées que lors des premiers tests. Flickr reste le meilleur des sites communautaires,
mais ses résultats sont beaucoup plus proches des autres que lorsque l’on envoie une
image à la taille exacte. Imageshack devient l’outil le moins destructif de l’ensemble et
Picasa se révèle être un convertisseur moins qualitatif lorsqu’il doit rééchantilloner
l’image en vue d’une galerie dont la taille maximale de fichiers acceptée est 512 pixels
pour le coté le plus court.84 En rééchantillonnant
MSE S-CIELAB Poids fichier Facebook 3,11 2743 92
Flickr 2,9564 1688 204 imageshack 1,96 879 492
Myspace 4,4293 4115 72 Fonction PHP 3,1033 2102 52
Picasa 2,632 2864 68 Skyblog 3,14 2217 52 Originale 0 0 variable
Tableau 7 : Différences MSE et S-CIELAB pour le même rééchantillonnage entre différents sites Internet et Photoshop.
Il est important de signaler dans ce paragraphe sur le rééchantillonage en ligne,
que Flickr propose une fonction qui laisse entendre au visiteur qu’il peut avoir accès
au fichier original envoyé par le photographe. Si le photographe active cette fonction,
son fichier est donc visible au sein de la galerie en taille réelle. Nous avons testé cette
fonction avec un fichier JPEG de 1200 x 1200 pixels. Il s’avère qu’en effet, aucun
rééchantillonnage n’est appliqué, mais une compression drastique affichant, pour le
fichier testé, une valeur MSE de 1,7 a été mesurée. La recommandation que l’on peut
soumettre à l’issue de ce constat est de ne pas considérer Flickr comme une
sauvegarde en ligne des fichiers originaux.
3 - L’affichage des images sur écran
Si l’on s’intéresse à la sensation visuelle de qualité, ou de fidélité d’une image
lors de son visionnement, il ne faut pas oublier de prendre en compte ce paramètre
capital qui est l’interprétation de la compression et des valeurs colorées des pixels par
les logiciels d’affichage couramment utilisés.
84 À titre indicatif, les tailles de fichiers rééchantillonés considérés sont : Facebook (604 px), Flickr (500 px), Imageshack (640 px), Myspace (600 px), Picasa (512 px), Syrock Blog (500 px).
73
a/ Protocole
Un outil de comparaison simple et efficace est l’outil de captures d’écrans. Il
capture le signal envoyé à l’écran par la carte graphique sans prendre en compte le
profil écran. Ainsi, on obtient l’image lue par le logiciel. En opérant des captures
d’écran lors de l’affichage de la même image à travers plusieurs utilitaires, on pourra
les comparer ensuite à l’aide de nos métriques de comparaisons. Si les valeurs entre
deux images sont nulles, alors les deux affichages sont identiques, sinon, les deux
logiciels interprètent différemment la compression. Nous allons mener cette
expérience sur une image test RVB couramment utilisée dans l’impression numérique
pour sa capacité à intégrer différentes situations de prise de vue. Et nous effectuerons
les opérations de différence entre l’image originale repassée en format TIFF après
compression et l’image capturée à l’écran. L’image choisie mesure 500 x 354 pixels,
ce qui lui permet de tenir en affichage taille réelle dans les divers écrans utilisés pour
lesquels la carte graphique calcule entre 1024 x 768 et 1920 x 1200 pixels. L’image
est compressée en JPEG et n’intègre pas de profil ICC de telle sorte que les résultats
ne varient pas en fonction de la gestion ICC de certains logiciels par rapport à
d’autres.
Figure 17 : L'image compressée en JPEG dont l'affichage sera testé sur différents logiciels est particulièrement complexe afin d'obtenir des valeurs de métriques les plus variables
possibles.
L’affichage se fera en 100% dans chacun des logiciels, sous 3 systèmes
d’exploitation : Mac OS X Tiger, Mac OS X Leopard et Windows XP SP3. A cette
valeur d’affichage : 100 %, les images ne souffrent pas d’un lissage abusif comme on
74
le remarque parfois pour des images trop grandes dont on souhaite faire adapter par la
carte graphique la taille d’affichage à l’écran. Trois cartes graphiques sont testées pour
Mac OS X et trois cartes graphiques pour Windows XP. La version Leopard de Mac
OS X est testée sur le même ordinateur que l’un des Windows XP. Les captures d’écran
sont réalisées avec les utilitaires de capture d’écran de Mac OS X et de Windows XP
puis enregistrées en format TIFF.
Nous les comparons avec deux métriques, MSE et S-CIELAB, afin de nous
assurer d’obtenir des résultats cohérents. Lorsque les deux métriques donnent le même
résultat de différences mathématiques et perceptives avec l’image originale, on peut
considérer que les images capturées sont identiques entre elles.85 Le tableau 9
regroupe tous ces résultats. Le tableau 10 récapitule, à titre indicatif les logiciels et
systèmes d’exploitation capables de gérer les profils ICC incorporés aux fichiers.
85 Si les résultats des calculs paraissent globalement très élevés c’est sans nul doute parce que l’image testée n’est pas une image photographique réelle, mais une composition très complexe comportant des dégradés et des éléments graphiques avec un montage de 4 photographies.
75
A
perçu système
Diaporam
a systèm
e Photoshop C
S3 Firefox 2
Internet E
xplorer 7 Safari 3
Coup
d'œil/Pellicule
Fond d'écran
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
MSE
S-CIELA
B
Mac O
S 10.4 ATI
Radeon 9650 256 M
o 1,3
579 2,2
10667 5,24
38967 1,29
539
1,29
539
1,29
539
Mac O
S 10.4 nV
idia GeForce
FX G
o5200 32Mo
1,29 539
4,44 39632
5,28 14649
1,3 579
1,28 937
1,29 539
Mac O
S 10.5 ATI
Radeon H
D 2600
256 Mo
1,4 3062
1,4 3062
0,68 1317
0,87 1317
1,4 3062
1,4 3062
1,4 3062
Window
s XP A
TI R
adeon HD
2600 256 M
o 1,3
579 1,3
579 3,85
12238 1,3
579 1,3
579 1,3
579 1,3
579 1,3
579
Window
s XP A
TI R
adeon X1300
PRO
256 Mo
1,3 579
1,3 579
3,85 12238
1,3 579
1,3 579
1,3 579
1,3 579
1,3 579
Window
s XP
nVidia G
eforce 8800 G
TS V2
512 Mo
1,3 579
1,3 579
1,18 9066
1,3 579
1,3 579
1,3 579
1,3 579
1,3 579
Tableau 8 : Valeurs des métriques de différences M
SE et S-CIELAB
entre une image originale et son affichage dans divers logiciels.
Gestion des profils IC
C
Aperçu
système
Diaporam
a Systèm
e Photoshop C
S3 Firefox 2
Internet Explorer 7
Safari 3 C
oup d'œ
il/pellicule Fond
d'écran
Mac O
S 10.5 oui
oui oui
non
oui oui
oui W
indows X
P SP3 non
non oui
non non
oui non
non
Tableau 9 : La gestion des profils ICC incorporés par divers logiciels d'usage courant.
b/ Conclusion
En ce qui concerne les valeurs MSE et S-CIELAB obtenues par différence
entre les images affichées puis capturées et l’image source, il est normal qu’aucun
des résultats ne soit nul, car l’image affichée ne peut être identique à l’image
originale. La première constatation est la suivante : sous Windows XP, l’affichage
des images ne dépend ni de la carte graphique ni du logiciel utilisé, sauf pour
Photoshop. Il semble que dans tous les autres cas, c’est le système qui gère la
décompression et l’affichage des couleurs des images JPEG RVB. Les résultats des
deux métriques utilisées étant strictement identiques entre eux, on peut considérer
que les images capturées dans les différents utilitaires d’affichage sous Windows XP
donnent également les mêmes résultats quelle que soit la carte graphique utilisée.
Sous Mac OS X, les résultats sont beaucoup plus variables et l’importance de la
carte graphique est incontestable. Le fait que la quasi-totalité des logiciels testés sous
Mac OS X gère les profils ICC explique peut-être la variabilité qui est acceptée dans
les divers affichages. Par ailleurs, sous Mac OS X, un profil écran est toujours actif,
néanmoins il est difficile d’interpréter une telle variabilité des résultats,
particulièrement, lorsque l’on compare l’aperçu et le diaporama de Mac OS X.
Pourtant, ce n’est pas la méthode de test que l’on peut remettre en cause, car cette
différence est telle (3,15 en valeur MSE) qu’elle s’observe déjà largement à l’œil nu
sans même effectuer de capture d’écran.
Nous avons maintenant éclairci beaucoup de points concernant les
conséquences sur les images des véritables utilisations de la photographie numérique
ainsi pratiquée. Il s’avère donc que sur Internet, l’image est fortement compressée
mais pas de manière équivalente selon les sites considérés. Nous avons aussi résolu
qu’une utilisation mal contrôlée de Photoshop pouvait avoir des conséquences
désastreuses sur des images destinées à un affichage Web rapide, certes, mais fidèle.
Nous connaissons maintenant les interprétations effectuées par les différents logiciels
d’affichage lorsqu’ils doivent décompresser une image et l’afficher en taille réelle.
La variabilité de l’image selon tous ces points de comparaison est telle qu’elle
justifie la pertinence de notre démarche, dans laquelle on s’intéresse au regard du
public, premier utilisateur de ces outils, sur les images dans leur contexte de
visualisation général. Tous ces éléments suffisent donc pour constituer une base de
77
données d’images en vue d’une mesure expérimentale avec des publics aux habitudes
variables. Il s’agira de reprendre des éléments clés de chaque partie théorique pour
les confronter avec une expérimentation pratique sur l’humain.
78
IV – Enquête sur les éléments constitutifs du jugement de qualité d’images compressées
79
Puisque nous avons mis en évidence l’instabilité des systèmes d’affichage et de
réalisation de compression JPEG, puisque nous avons évoqué toutes les nouvelles
utilisations que certains types de personnes affichent, la question fondamentale qui
s’en dégage naturellement est la suivante : que pense le public de tout cela ? Dans
cette partie, nous allons détailler les modalités d’une enquête permettant de dégager
des éléments de réponse quant à la tolérance du public face à des images
compressées à des taux abusifs et destructifs. Dans une telle enquête, tous les détails
doivent être examinés, car nous souhaitons isoler les parasites du jugement les uns
par rapport aux autres de manière à les étudier indépendamment. Du choix des
images présentées, jusqu’à la manière de les visualiser et de les analyser, les données
de réponses seront valables si le maximum de parasites inconsidérés est supprimé.
1- Réflexion sur les images tests
Les images présentées au test sont, en quelque sorte, la matière première de
l’enquête psychoperceptive. L’influence de leur contenu ou de leurs caractéristiques
doit être maîtrisé ou analysé, nous décidons de ne pas l’ignorer. Dans la première
partie de ce chapitre, nous allons détailler les modalités des choix techniques et
esthétiques qui sont faits.
a/ Les choix techniques des images.
Dans une étude sur la perception psychologique de la qualité des
photographies, il convient de rester prudent quant aux images qui sont présentées à la
population expérimentale. Ainsi, pour s’assurer que d’un point de vue technique,
toutes les images choisies correspondent à des critères d’exposition et de netteté sans
défaut majeur, elles sont présentées à un jury expérimenté86 qui valide que leurs
critères de qualité technique soient irréprochables. Enfin, une neutralité de
l’ambiance lumineuse de la scène est assurée par une retoucheuse professionnelle87.
Toutes ces précautions sont prises afin de s’assurer que les réponses recueillies sur la
qualité technique des images, ne sont pas parasitées par un de ces éléments,
intrinsèques à l’image, mais sans lien avec la compression ou une autre question de
la problématique.
86 Il s’agit de trois étudiants en dernière année de l’Ecole Louis Lumière, section Photographie, dont le regard sur la qualité technique s’approche d’un regard professionnel. 87 Floriane Pech, retoucheuse professionnelle travaille au studio 44 à Paris. Elle est diplômée de l’école des Gobelins.
80
Pour évaluer objectivement le niveau de dégradation des images, nous nous
proposons d’utiliser la métrique S-CIELAB qui a été remarquée comme étant la plus
fiable pour notre étude sur le critère du jugement objectif. Comme nous l’avons vu88,
utiliser une métrique aussi mathématique que MSE ou PSNR engendrerait, une
surévaluation du défaut visible de chaque photographie présentée et le but ici, n’est
plus de juger objectivement de la différence mathématique entre l’image originale et
sa copie, mais bien de quantifier visuellement les défauts, selon un outil fiable. Les
images sont toutes dégradées à l’aide de Photoshop avec la fonction « enregistrer
sous » et à partir de fichiers bruts non compressés. Nous utilisons cette fonction avec
un rééchantillonnage abusif et des enregistrements multiples en JPEG afin d’obtenir
des dégradations très élevées. En effet, si l’image risquait de se trouver sans défauts
apparents pour une majorité de personnes, l’étude risquerait de ne pas être
exploitable. Plusieurs mesures de S-CIELAB, entre l’original non compressée et des
versions de niveaux de compression variables sont effectuées. À l’issue de ces
compressions destructives maximales, les photographies dégradées à des niveaux
globalement équivalents sont retenues et présentées à nouveau au jury de regards
expérimentés pour qu’il confirme cette équivalence relative de dégradations entre les
images.
La taille des images affichées correspond à la taille la plus courante sur
Internet. Nous avons vu dans le chapitre précédent89, qu’un dénominateur commun
concernant ce critère, pouvait être dégagé des sites Internet communautaires. Par
ailleurs, la taille de 500 pixels pour le côté le plus long permet d’occuper un espace
moyen dans un écran réglé sur une définition de 1024 x 768 pixels et affichant les
barres d’outils d’un navigateur Internet, en plus de quelques éléments de page Web
tout autour des images. Nos images sont donc dimensionnées à 500 pixels pour le
côté le plus long.
b/ Le contenu des images à choisir.
On choisit d’exploiter deux lots d’images. Le premier serait annoncé au public
expérimental comme étant issu de la production d’un photographe professionnel.
L’autre se verrait attribuer la mention psychologique d’images « amateur » réalisées
88 II/2/d 89 III/2
81
par un couple au fil de ses vacances. Une dizaine d’images de chaque type sont
sélectionnées. Afin de dégager des lois simples sur l’influence de la légitimité du
photographe dans le jugement de la qualité technique, les mêmes questions pour les
deux lots d’images sont posées aux observateurs naïfs90.
Par ailleurs, on souhaite répondre à la question suivante : est-ce que la part de
l’affectif pour le sujet photographié peut troubler le jugement ? Pour cela, les
contenus photographiés doivent êtres très variables. Certains sont choisis par
anticipation sur leur impopularité présumée, tandis que d’autres, au contraire sont
retenus pour leur facilité à séduire le plus grand nombre. Ainsi, l’image crue d’une
femme pendue sur fond rouge risque de facilement être rejetée par le public, tandis
que la représentation d’un bébé rose aux yeux bleus fixant l’objectif, à de fortes
chances d’attendrir. Ces deux images présentant des défauts de compression
visuellement comparables d’après S-CIELAB, si une différence globale du jugement
de la qualité est observée, on pourra la faire dialoguer avec les préférences
personnelles.
À l’exception du portrait, du montage et du pendu, toutes les images de la
sélection professionnelle répondent à des références esthétiques publicitaires ou
commerciales, car parmi la production photographique professionnelle, c’est ce type
d’images qui est le plus largement observé par le grand public. Le tableau 10
présente la liste des 20 images utilisées avec les valeurs S-CIELAB de chacune. Ces
images ont été réalisées de manière à comporter des similitudes proches dans leurs
valeurs de métrique, mais il est difficile d’obtenir une identité parfaite, S-CIELAB
évoluant selon une échelle logarithmique. Dans les valeurs supérieures à 1000, une
différence de 100 sur l’échelle S-CIELAB correspond à une différence de 10 dans les
valeurs proches de la centaine.
90 Le terme naïf appliqué aux observateurs d’une enquête psycho-perceptive, est utilisé en sciences cognitives pour désigner un observateur non averti sur le sujet de l’enquête et non expert dans le domaine considéré. Source : Thèse de doctorat de Clotilde Boust, Contribution à l’amélioration des images numériques par un algorithme fondé sur la démarche d’expert chromiste.
82
Traitement professionnel Traitement amateur
Contenu de l’image S-CIELAB Contenu de l’image S-CIELAB
Portrait d’une femme en studio 1028 Portrait de trois
hommes festifs 1103
Un poisson saute hors de son bocal 989 Une fontaine dans la
nature 1209
Palmier sur une île 1935 Une île avec des palmiers 1532
Une femme pendue 1121 Deux surfeurs assis dans la neige 995
Publicité pour des sous-vêtements 1652 Une maison décorée 1025
Une composition florale zen 882 Une statue 907
Un bébé sous un linge frais 1250 Un phare 899
Un couple souriant au soleil 1045 Un couple dans un
jardin 1310
Un plat de tomates fraîches 1380 Un touriste sur une
place 958
Un paysage déstructuré complexe
918 Un château lointain 1148
Tableau 10 : Liste des images tests91 proposées à la critique des utilisateurs et valeurs S-CIELAB de leur dégradation par rapport à leur version non compressée.
2- Réflexion sur le conditionnement
Lors d’un test comme celui-ci, tout l’environnement qui entoure l’observateur
doit être maîtrisé pour que les réponses ne changent pas d’une personne à une autre,
à cause des conditions d’observation ou d’un parasite au bon déroulement de
l’enquête ; mais aussi, pour que l’observateur ne donne pas des réponses différentes
parce qu’il est dans le contexte d’une expérience. Toute l’interface de visualisation
est donc pensée pour reproduire des conditions normales d’utilisation dans lesquelles
l’observateur se sente en confiance, mais l’approche qui est faite par l’enquêteur
aussi, essaye de ne pas lui dévoiler tout de suite ce sur quoi il doit porter son
attention. Ce qui risquerait d’influencer son jugement à l’encontre du protocole et de
91 Les visuels en version originale et version compressée sont disponibles en annexe.
83
nos objectifs de questionnement : est-ce que oui ou non les personnes détectent un
problème de qualité sur les images et est-ce que cela constitue en soi une gêne.
a/ L’interface de visualisation
Notre sujet s’intéressant à l’acceptabilité des images de mauvaise qualité sur
Internet, les images soumises à la critique sont présentées sur écran au milieu d’un
environnement similaire à un environnement Web classique. Il inclut la présence de
deux publicités par page, le titre du site, les images en miniature et des éléments de
graphisme. L’interface graphique utilisée est celle de Windows XP avec Internet
Explorer 692. On rappelle que sous Windows, Photoshop mis à part quel que soit le
logiciel d’affichage utilisé, nous avions la même valeur de métrique S-CIELAB entre
l’image originale et affichée. On utilise deux environnements Web différents pour les
deux lots d’images de la première expérience, mais ils sont tous les deux sur fond
blanc, afin de les doter de caractéristiques visuelles générales peu différentes entre
elles et relativement standards. Pour la partie professionnelle, nous avons sélectionné
le site du photographe Daniel Barillot pour sa simplicité. Il nous a gentiment donné
l’autorisation de reprendre le graphisme très sobre de son site Internet ainsi que son
nom. Pour la partie amateur, on s’inspirera de l’interface de Flickr, très courante et
relativement sobre, elle aussi. Chaque personne interrogée doit observer les images
pendant un temps semblable. Un diaporama des images est donc déclenché à la main
par l’enquêteur. Ce diaporama est géré par l’outil diaporama de l’explorateur
Windows XP.
L’écran est calibré avec une sonde X-Rite EyeOne Display® et le logiciel X-
Rite EyeOne match® pour respecter une luminosité de 90 candela/m2 et un gamma de
2,2. Il mesure 13 pouces de diagonale et les observateurs doivent se situer à 50 cm.
Cette distance correspond, d’une part à un usage courant pour cette taille d’écran, et
d’autre part à la distance à laquelle est observé le test d’acuité visuel93. La luminosité
ambiante de la pièce est vérifiée avec une cellule photométrique pour rester
inférieure aux valeurs moyennes recommandées par la médecine du travail (300-500
cd/m²) et l’écran est orienté perpendiculairement à la source de lumière principale
92 En Mars 2007, d’après www.xitimonitor.com, 77% des Français équipés d’Internet utilisait ce navigateur. C’est donc son interface graphique qui est familière au plus grand nombre, c’est pour cette raison que nous le choisissons. 93 Voir page suivante.
84
de la pièce. Un test d’acuité visuelle est établi pour chaque observateur. Ce test doit
être validé pour que les réponses de l’observateur soient prises en compte. Une
image de 500 pixels de hauteur (figure 18) est affichée en 100% sur l’écran de
l’expérience, l’observateur doit se cacher un œil et lire tous les chiffres de haute en
bas. Ensuite, il cache l’autre œil et exécute la même opération. S’il rencontre une
difficulté sur un seul des chiffres, le test n’est pas validé94.
Figure 18 : Visuel de l'image test pour l'acuité visuelle. Cette image est au format PNG sans compression destructive.
b/ Le vocabulaire à utiliser.
L’un des enjeux fondamentaux de l’enquête psychoperceptive est d’obtenir des
réponses en adéquation avec les interrogations. Questionner des observateurs naïfs
sur la compression des images peut s’avérer très compliqué, car il n’existe pas encore
de mot simple et intelligible par tous, permettant de définir le défaut de la
compression JPEG. Il s’agit de s’assurer que la personne juge effectivement le critère
que l’on considère et ne donne pas ses réponses en fonction d’un autre. Un tel
quiproquo mènerait inévitablement l’enquête à un échec. Pour cela, nous avons
réalisé une enquête préliminaire à celle-ci, dont le but était uniquement de dégager
les termes les plus couramment utilisés par un autre échantillon d’observateurs naïfs. 94 Source www.bienvoir.com, mars 2008. L’image mesure 291 x 496 pixels. Le plus petit chiffre mesure 8 pixels. Elle est prévue pour être observée à 75 cm d’un écran 14 pouces en 800 x 600 pixels. Dans notre cas, l’écran mesure 13 pouces et la définition est de 1024 x 768, l’observation doit donc se faire à 50 cm.
85
Le protocole de cette pré-enquête est le suivant : on choisit un portrait
répondant aux mêmes caractéristiques que citées précédemment95, que l’on dégrade
au maximum à l’aide de plusieurs logiciels de traitement d’images. On présente avec
un même écran d’ordinateur, sur fond gris, l’image originale et sa version
compressée côte à côte. Vingt personnes, âgées de 21 à 57 ans, sont interrogées
selon trois questions. Le temps maximal d’observation des images pour recueillir les
réponses de l’utilisateur est de 10 secondes. Les questions posées sont les suivantes :
- Observez-vous une différence entre ces deux images ?
- Si oui, comment la définiriez-vous avec une expression ou un mot
simple ?
- Pourriez-vous donner une note entre 0 et 20 sur l’échelle de ce mot
pour chacune des images ?
Le tableau 12 réunit toutes les réponses obtenues. Certaines personnes ayant
utilisé deux termes différents, le total est supérieur à 20. On constate que
majoritairement, la notion sémantique de netteté est mise en cause par les personnes
interrogées. La pixellisation est un terme qui a été utilisé à trois reprises, mais par des
habitués de la photographie numérique. On remarque que la majorité des personnes
ayant pu donner un nom à ce défaut affirme pouvoir également y donner une note
entre 0 et 20. Ce critère nous permet, pour la suite de l’enquête, de demander aux
futurs observateurs de noter ainsi des qualités d’images.
Terme Pas nette Pixellisée Mauvaise Dégradée
Pas de différences
Oui, je pourrai noter ces
différences Nombre de
réponses 11 3 5 3 15
Tableau 11 : les réponses d’utilisateurs données en visualisant la photographie de la figure 19 et le nombre qui affirme pouvoir noter ces différences.
Pour l’enquête finale, il s’agit donc d’adapter le vocabulaire en fonction de la
personne interrogée. Les termes d’opposition « flou/net » seront utilisés de manière
prépondérante et mélangés aux différentes appellations concernant la mauvaise
qualité et la notion de dégradation. Un court échange verbal entre l’enquêteur et
95 1/a de ce même chapitre.
86
l’observateur pourra être envisagé à cet effet. Ainsi, on ne commencera le
questionnaire sur la qualité qu’avec l’assurance d’un discours compris par
l’observateur.
Figure 19 : L'image présentée pour la pré-enquête et sa version dégradée sur fond gris
c/ La forme des questionnements
Une enquête traitant de la qualité d’image peut être envisagée selon de
multiples formes. Habituellement, l’objectif est de définir un niveau de dégradation
ressenti par la majorité des gens. Pour arriver à ce résultat, il arrive que l’on présente
instantanément, la même image dans plusieurs versions à des observateurs standards.
Par comparaison, ils doivent éliminer un à un les exemplaires présentés, du plus
mauvais jusqu’au meilleur. À partir de l’instant où leur ordre de préférence ne
répond plus à une logique, on admet qu’il ne voit plus le défaut.
Dans une enquête visant à classer la préférence des personnes face à des
images-tests, la méthode de comparaison par paire est souvent utilisée. C’est une
méthode de psychophysique classique96 qui a été développée pour minimiser la
subjectivité des observateurs en simplifiant leur tâche. Toutes les images dont on
veut classer l’ordre de préférence sont présentées deux par deux et selon toutes les
combinaisons de couples possibles. À chaque affichage, l’utilisateur choisit l’image
qu’il préfère. On en déduit ensuite à partir de ses réponses, la classification générale
des images les unes par rapport aux autres. À l’issue de ces tests, réalisés sur des
96 Peter G. Engeldrum, Psychometric scaling, a toolkit for imaging systems development, Winchester, Imcotek Press, 2000, 185p.
87
échantillons représentatifs de la population, on réalise généralement des lois
générales sur les goûts ou sur la capacité de distinction.
Mais nous n’envisageons pas tout à fait le même genre de problématiques. Au
contraire, notre étude se porte sur les parasites du jugement et sur l’acceptation des
images présentées lorsqu’elles ne permettent pas de points de comparaison. Par
ailleurs, nous ne voulons pas accepter la notion d’un observateur standard et au
contraire, nous prétendons dégager les différents courants d’observateurs
identifiables afin d’envisager l’évolution du jugement en fonction de l’évolution de
la pratique.
Première expérience : images in situ
La première méthode de questionnement que nous exploitons se déroule donc
en deux parties, l’une retenant l’affect qui lie les images et l’observateur, l’autre,
s’intéressant au ressenti de netteté ou de qualité d’image. L’enquêteur se présente à
l’observateur en tant qu'étudiant faisant une étude de sociologie sur Internet. De cette
manière, il n’attire pas l’attention sur la qualité des photographies, ce qui permet de
s’assurer que l’observateur reste candide, au moins durant la première partie. On
explique que la première partie consiste à visiter le site Internet d'un photographe
professionnel et que l’on souhaite recueillir l’avis personnel des observateurs sur les
photographies. On précise qu’il s’agit de goût totalement personnel et que les
réponses peuvent s’étaler sur ces trois simples propositions : « j'aime/je n’aime pas/je
n’ai pas d’avis ». La visite se fait sous la forme d'un diaporama dont l’enquêteur
règle la cadence à un rythme soutenu (4-5 secondes par image en moyenne) mais
suffisant pour recueillir les impressions du visiteur. On se rapproche ainsi du rythme
moyen d’un diaporama sur Internet97 tout en étant assuré d’une visite comparable
pour chaque observateur. Le deuxième faux site Internet, présentant les
photographies typées amateurs, est visité en suivant la même démarche. Après ces
deux visites, on pose une question simple à l’utilisateur : « Avez-vous remarqué
quelque chose de particulier ou de gênant sur les images de ces sites Internet ? ».
Cette question nous permet de quantifier le nombre de personnes capables de
remarquer d’elles-mêmes des images de très mauvaise qualité, et de différencier ainsi
la sensation de gêne de la capacité de distinction que nous étudierons plus tard.
97 Temps moyen constaté pour les diaporamas de Flickr, dphoto.com, Myspace, Mac OS X et Windows XP.
88
Après avoir ainsi débarrassé l’observateur de son affect pour l’image et noté sa
capacité ou non à remarquer de lui-même, l’extrême dégradation des images, on lui
explique désormais que son goût personnel ayant été retenu, il ne doit plus porter son
attention que sur la qualité des photographies. On veille à utiliser les termes de
netteté et de bonne définition recueillis lors de la pré-enquête et, on vérifie que l’on
s’entend sur le même sujet, en demandant à la personne de reformuler ce que l’on
cherche. Au cours de cette deuxième visite, un peu plus attentive, on demande à
l’observateur de noter ainsi chaque image déjà visualisée selon ces trois critères :
« très nette/moyennement nette/pas nette ». Le temps de visionnement peut être
allongé à 6 secondes par photographie, et l’on passe à l’image suivante dès que la
réponse de l’observateur est clairement affirmée. Pour l’exploitation des données,
des valeurs numériques notées par l’enquêteur correspondent aux réponses données
par l’observateur. Cette échelle est détaillée dans le tableau 13.
Avis personnel Jugement qualitatif Valeur retenue
J’aime bien Bien nette 1
Je n’ai pas d’avis Moyennement nette 0
Je n’aime pas Pas nette -1
Tableau 12
Deuxième expérience : images hors contexte
On choisit pour la deuxième grande partie de l’enquête, une seule image. On
sélectionne celle qui a reçu un accueil le plus neutre en termes d’avis personnels au
cours de la première partie. Il s’agit de la photographie professionnelle du couple au
soleil. C’est un plan moyen, composé d’un double portrait, ce qui permet à l’œil de
juger un élément familier (des visages) mais qui permet aussi à la dégradation de se
porter sur des fins détails ainsi que sur des aplats. Repartant de la version originale
de cette image, on la dégrade selon plusieurs taux, supérieurs à la version présentée
sur le site Internet. Ces versions sont comparées et notées par la métrique S-CIELAB
et le jury expérimenté. Nous nous inspirons maintenant de la méthode de
comparaison par paires, mais à la différence près que nous ne voulons pas connaître
l’ordre de préférence des versions variables de la même image par l’observateur,
mais plutôt sa capacité propre à distinguer le défaut. On présentera donc les images
trois par trois au lieu de deux par deux, afin de compliquer la tâche. En effet, ici, ce
89
sont les observateurs qui sont comparés, c’est leur aptitude à juger la qualité des
images en fonction de leur profil qui nous intéresse. Les trois nouvelles versions
engendrées à partir de l’originale sont notées sur 20 en fonction du résultat de S-
CIELAB et de l’avis des jurys. La version originale se verra logiquement attribuer la
note de 20/20. Elles sont présentées sur quatre diapositives, trois par trois, mais
jamais toutes en même temps. Il y a au minimum un exemplaire de la version du site
Internet sur chaque planche afin d’observer, le cas échéant, une éventuelle évolution
de sa notation au fil de l’enquête.
Figure 20 : La troisième planche du diaporama présenté.
La première planche est composée de trois versions identiques à celle du site
Internet, la dernière planche également. Ces deux éléments nous permettent de
vérifier la sincérité de l’observateur et les parasites psychologiques intervenant au
sein de l’évolution de l’enquête. On ne souhaite pas lui fournir la version parfaite de
l’image dès le début, car cela risquerait de le conduire à juger les autres images en
fonction de celle-ci98. Celle-ci ne sera donc présentée que dans la troisième
diapositive. Entre chaque diapositive, on place une image grise vide, que l’on laisse
afficher durant 5 secondes, pour que l’œil oublie les images qu’il vient de voir.
98 Dans l’usage classique de visites sur Internet, la version parfaite non compressée n’est jamais disponible pour le visiteur.
90
Image S-CIELAB Jury Note retenue A1 1045 9 10 A2 1045 9 10 A3 1045 9 10 B1 2158 7 8 B2 9761 1 2 B3 1045 11 10 C1 1045 10 10 C2 0 20 20 C3 9761 0 2 D1 1045 9 10 D2 1045 9 10 D3 1045 9 10
Tableau 13 : Les notes attribuées aux 12 images par le jury et par S-CIELAB. Des valeurs de S-CIELAB identiques rappellent qu’il s’agit de la même image.
On demande à l’observateur de noter, selon le même critère de netteté/qualité
établi au début, chacune des images de chaque trio entre 0 et 20. Il doit donc fournir
12 notes en tout. Pour l’exploitation des données, sa capacité de distinction sera
jugée en fonction de la différence entre les notes qu’il a fournies et celles qui sont
établies par la méthode objective. Pour pondérer les réponses données par
l’observateur en fonction de son échelle de notation personnelle, on lui pose enfin la
question suivante : « Dans le milieu scolaire, lorsque l’évaluation se fait entre 0 et
20, qu’est-ce qui, pour vous ou votre enfant, correspond à une note valable ou
suffisante ? ».99
99 Cette méthode est conseillée par Hélène Chauchat, docteur en psychologie, in L’enquête en psycho-sociologie, éditions puf, Paris, 1985.
91
3- Catégorisation des observateurs
On désire dégager des profils différents parmi les personnes interrogées. Le
niveau d’habitude de l’image et son utilisation sont les échelles selon lesquelles nous
souhaitons classer les observateurs. Après les constatations faites tout au long de la
recherche, notre démarche décide de se pencher en particulier sur ces trois types de
catégories : amateurs de photographie numérique/amateurs d’art/utilisateurs
d’Internet. Cependant, dans les pratiques, ces domaines ont parfois de bonnes raisons
de se mélanger et toute la difficulté de cette enquête réside dans la recherche de
profils types, voire atypiques, ne mélangeant pas ces trois conditions pour pouvoir
étudier l’influence de chacun d’entre eux. Il faut noter qu’un fervent utilisateur de la
photographie numérique a généralement des habitudes de navigation Internet plus
élevées que la moyenne. Nous essaierons malgré tout de trouver des personnes au
profil rare.
Pour comprendre et caractériser les observateurs sélectionnés, on se propose
d’établir 3 questionnaires qui seront soumis aux observateurs après le recueil de leurs
évaluations sur les images. En opérant ces étapes dans cet ordre, on s’assure une fois
de plus de ne pas éveiller l’attention des observateurs sur le but de notre recherche.
a/ Justifications pour les questions concernant l’usage de la photographie numérique
Lorsque les réponses à ces questions sont de la forme oui/non, une réponse
donne la valeur 1, une réponse non, la valeur 0. Lorsque la réponse est de la forme
non/un peu/assez souvent/très souvent, les valeurs numériques sont 0,1, 2, 3.
- Question 1 : « Possédez-vous un appareil photographique numérique ? » Cette
question, simple et triviale, n’implique pas d’ambiguïté dans son interprétation,
et dès lors qu’une personne y répondra par la négative, elle a de fortes chances
d’être classé parmi les non utilisateurs de photographie numérique.
- Questions 2 et 3 : « Avez-vous un ordinateur capable d'enregistrer et d'afficher
des photographies ? Avez-vous déjà visualisé vos photos sur ordinateur ? » Ces
deux questions nous servent à opérer une différence entre quelqu’un qui n’a
aucune pratique et une personne qui est déjà familiarisée au moins un peu avec
la visualisation d’images numériques sur moniteur informatique.
92
- Question 4 : « Avez-vous déjà retouché des photos sur ordinateur ? » Cette
question est suivie d’une précision sur la fréquence : « un peu ? assez souvent ?
très souvent ?». Cette question est assez fondamentale car elle touche à l’un des
premiers bouleversements du numérique : le traitement de l’image par le grand
public. Le regard d’une personne sensibilisé à la retouche est plus éduqué dans
la recherche de défauts.
- Question 5 : « Avez-vous déjà pris des photos avec un téléphone portable ? ».
Un utilisateur très intéressé par la photographie numérique aura au moins une
fois été tenté par cette expérience et possèdera probablement un tel appareil.
Par ailleurs, la qualité de ces matériels étant actuellement peu valorisée,
l’occasion de photographier avec un téléphone est aussi l’occasion d’être
confronté à des images de mauvaise qualité.
- Questions 6 et 7 : « Etes-vous inscrit à Flickr ou un site qui vous sert à
présenter vos photographies ? Etes-vous inscrit sur un site de tirage sur
Internet ? » Ces deux questions peuvent surprendre à première vue dans cette
catégorie, mais en réalité, elles n’auraient pas leur place dans la catégorie
« habitudes d’Internet ». Comme nous l’évoquions en introduction, un amateur
averti de la photographie numérique utilisera sans doute Internet pour partager
ou tirer ses images. Le contraire n’est pas vrai : un utilisateur très confirmé
d’Internet n’a pas forcément de raisons de partager ou de tirer des
photographies.
- Question 8 : « Possédez-vous Picasa où un logiciel spécifique pour classer vos
photographies ?». La majorité des amateurs avertis ont recours à des outils de
classement, la réponse à cette question met en évidence le degré de
familiarisation.
- Question 9 : « Peut-on dire de vous que vous manipulez plus de photos
numériques que la moyenne ? un peu plus ? beaucoup plus ? vraiment plus ? ».
Cette question simple est intelligible par tous et donne immédiatement 3 points
à l’utilisateur confirmé. Comme la réponse à cette question peut sembler au
premier abord relative au jugement personnel de l’observateur, l’enquêteur
veillera a éclaircir, voir corriger la réponse avec quelques questions rapides et
pour assurer une échelle cohérente entre toutes les personnes interrogées..
93
- Question 10 : « Avez-vous déjà imprimé vos photos numériques vous-même
? » Le regard et le discernement d’un photographe s’éduquent quant il devient
son propre technicien de l’image.
- Question 11 : « Avez-vous un reflex numérique ou souhaitez-vous en acheter
un ? » On emploie ces deux propositions car la vente de reflex numériques est
en telle évolution qu’il ne faudrait pas négliger un utilisateur très acharné
équipé d’un bridge qui souhaiterait passer au format supérieur dans les
semaines à venir.
- Question 12 : « Habitez-vous ou vous déplacez-vous régulièrement dans des
lieux affichant beaucoup de publicités ? » L’éducation de notre regard sur la
photographie numérique se fait aussi avec la présence ou l’absence d’images
professionnelles dans le champ de vision au quotidien.
b/ Justifications pour les questions concernant l’intérêt pour l’art et la photographie.
On ne cherchera pas dans ces questions à définir l’aptitude technique du regard
de l’observateur (la démarche expérimentale est là pour ça), mais il s’agira plutôt
d’évaluer son attachement à l’art ou la photographie.
- Question 1 : « Utilisez-vous un appareil photographique argentique ? ».
Quelqu’un qui utilise encore un appareil argentique peut prouver deux
caractères : soit il s’intéresse de près à la photographie, soit il a une pratique de
la photographie occasionnelle qui n’a pas été prise en compte dans la première
partie des questions. Le cas échant, cette pratique ne peut être négligée et doit
donc être prise en compte ici.
- Question 2 : « Faites-vous des photographies en dehors des évènements
particuliers avec cet appareil ? (anniversaires, mariages, vacances ) » Cette
question nous permet de faire la distinction entre deux personnes qui auraient
répondu oui à la première.
- Question 3 et 4 : « Classez-vous vos photos dans des albums ? » et «Vous
arrive-t-il d’en choisir pour des agrandissements ?». Celui qui trie ses images
en est soucieux. De même, le membre d’une famille qui décide de faire
94
agrandir des photographies se révèle plus sensible à cet art et l’on ne peut
négliger cet acte.
- Question 5 : « Peut-on dire de vous que vous vous intéressez à l’art d’une
manière supérieure à la moyenne des gens ? Un peu ? assez ? vraiment ? ».
Cette question demande une appréciation personnelle qui donnera beaucoup de
points à l’amateur d’art et nous permettra de bien le distinguer.
- Question 6 : « Pensez-vous être influencé par un proche qui s’intéresserait à la
photographie ? ». Si un observateur avait répondu non à la première, il ne faut
pas en négliger pour autant la possible influence familiale ou autre d’une
personne qui montre régulièrement des images et éduque involontairement le
regard de ses proches.
- Question 7 : « Avez-vous déjà remarqué une mauvaise qualité de photo sur
Internet ? ». Cette question sera posée avec la précision suivante : « nous
parlons d’une image dont vous avez pensé avec certitude qu’elle était mauvaise
à cause d’Internet ». Quelqu’un qui est capable de se plaindre de cette qualité
présentera un regard plus pertinent sur la photographie compressée que
quelqu’un n’ayant jamais fait cette constatation. Bien que cette question
apparaisse fondamentale, on ne peut la noter trop différemment des autres, car
au sein de cette catégorie, elle séparerait injustement ceux qui vont sur Internet
de ceux qui n’y vont pas. Rappelons qu’ici nous cherchons à évaluer
l’attachement de l’observateur pour l’art.
- Question 8 : « Avez-vous récemment vu une photo de vous prise par un
professionnel ? ». Le regard sur soi est un des meilleurs moyens de s’éduquer
l’œil car chacun connaît ses particularités physiques avec précision. Par
ailleurs, son habitude de l’art et ses fréquentations auront forcément un impact
sur cette réponse.
- Question 9 : « Visitez-vous régulièrement des expositions de photographies
? ». Cette question vise à dégager clairement les amateurs de photographie
d’art des autres.
95
- Question 10, 11 et 12 : « Avez-vous déjà pris des cours de dessin ? de
peinture ? de photographie ? » Ces trois questions simples, si elles donnent des
réponses positives, prouvent une culture artistique visuelle enseignée.
- Question 13 : « Pourriez-vous me citer votre photographe préféré ? ». Le
niveau de culture en photographie, sera facilement révélé par cette question.
- Question 14 : « Considérez-vous avoir un regard critique sur les arts visuels ? »
Cette question vient contenter un observateur qui n’aurait pu répondre par la
positive aux questions 10, 11, 12 mais dont l’intérêt pour l’art et l’éducation
visuelle sont tout aussi développés.
c/ Justifications pour les questions concernant l’usage d’Internet
- Question 1 : « Avez vous un accès Internet à disposition ? ». À l’instar de la
première question sur l’appareil numérique, elle permet de faire tout de suite la
séparation entre une personne qui ne voit quasiment jamais de JPEG et une
autre.
- Question 2 : « Avez-vous déjà mis vos photos en ligne sur Internet ? » Cette
question permet de définir le niveau d’usage de la photographie sur Internet et
l’habitude de voir ses propres images dans un environnement Web.
- Question 3, 4, 5, 6, 7 et 8 : « Etes-vous inscrit à des sites
communautaires ? Facebook ? Myspace ? Skyrock blog ? Dailymotion ?
Youtube ?» Ces questions sont décisives, plus le nombre de réponses positives
sera important, plus on aura affaire à une personne confrontée visuellement à la
compression d’images.
- Question 9 : « Combien de ces sites Internet connaissez-vous ? ». Cette
question permet de donner des points positifs à quelqu’un qui n’est pas un
suffisamment fervent utilisateur d’Internet pour être inscrit sur tous mais qui y
navigue suffisamment pour les connaître.
- Question 10 : « Allez-vous régulièrement sur l’un de ces sites Internet ? ».
Cette question permet de pondérer les réponses des questions 3,4,5,6,7 et 8.
96
- Question 11 : « Connaissez-vous Picasa ? ». Ce service n’étant pas
extrêmement populaire, mais néanmoins propulsé par Google, la connaissance
de ce nom prouvera une certaine culture du Web, mais n’engage pas de culture
de l’image particulière.
- Question 12 et 13 : « Connaissez vous le mot « podcast » ? en utilisez-vous ? »
Ce mot de vocabulaire est assez courant sur Internet, mais n’a pas d’équivalent
dans le monde réel, une réponse positive à ces deux questions prouve un usage
intensif du Web.
- Question 14 et 15 : « Connaissez vous le mot « blog » ? en utilisez-vous ? ».
Beaucoup plus courant, cette question intermédiaire permet de différencier des
profils peu expérimentés du Web, mais proches entre eux
- Question 16 : « Utilisez-vous des moteurs de recherche d’image, comme
Google image ? un peu ? souvent ? beaucoup ? » L’utilisation d’un tel moteur
de recherche amène souvent à des images compressées à des taux abusifs.
Cette question est primordiale pour détacher les personnes ayant l’habitude de
voir du JPEG des autres.
3- Résultats et interprétations
De nombreuses conclusions sont possibles à l’issue d’un tel test. Résumons les
points que nous voulons mettre en avant et juger comme parasites probables : le
premier point est l’influence de l’affect pour l’image observée. Nous voulons définir
le lien de subjectivité qui peut rapprocher le jugement de la qualité et la préférence
pour le contenu d’une image. Le deuxième point est l’influence que l’expérience
supposée du photographe apporte sur ce jugement. Nous voulons à travers celui-ci
étudier la question suivante : si le photographe est jugé fiable, la tolérance est elle
plus importante que s’il est jugé quelconque. Le troisième point est la capacité des
personnes à remarquer d’elles-mêmes le défaut. Cette question est intéressante car
elle révèle l’influence de l’environnement Internet autour de l’image. Seulement, elle
ne fournit pas de données chiffrées, donc elle est peu exploitable sur des faibles
populations. Le quatrième point est le plus développé : il s’agit de la capacité de
distinction en fonction du profil des personnes interrogées. La population
expérimentale totale est composée de 27 personnes, âgées entre 17 et 76 ans, .
97
a/ L’affect
Les premières données à analyser concernent l’influence de l’affect pour les
images dans le jugement de la qualité. Dans la sélection des images professionnelles,
certaines ont été choisies pour leur facilité à s’attirer les faveurs du public et d’autres
pour l’inverse.
Comme nous l’avions supposé, 60 % des personnes interrogées ont trouvé que
l’image de la femme pendue était déplaisante et 40 % de ceux qui ne l’ont pas aimé
l’ont jugée avec le plus faible critère de netteté/qualité. Parmi toutes les images, c’est
elle qui remporte le plus mauvais score de qualité subjective. En revanche, les quatre
images préférées du public sont aussi les quatre qui sont considérées comme les plus
nets en général. L’image du palmier sur l’île avait été choisie pour plaire au public,
malheureusement elle est la 3ème image la moins aimée du public. Si l’on regarde
attentivement ses résultats S-CIELAB (tableau 11), il s’avère que c’est l’image qui
est largement la plus dégradée. On peut donc supposer que l’affect influence le
jugement mais aussi que la qualité influence l’affect : une image professionnelle qui
ne plaît pas est jugée comme étant de mauvaise qualité et une image de mauvaise
qualité aura plus de difficulté à plaire.
Figure 21 : Le goût pour une image professionnelle compressée en parallèle du jugement de sa qualité. Somme des résultats obtenus sur la population, toutes catégories
confondues.
98
Si ces observations sont sans appel pour le premier lot d’images, la conclusion
est beaucoup plus difficile à tirer pour le deuxième. On voit dans l’histogramme de la
figure 21 que l’évaluation qualitative semble moins facilement variable pour des
images « à la portée de tous ». Une légère influence est tout de même notable,
puisque l’image la moins appréciée (les surfeurs) reste celle qui est considérée
comme la moins bonne. En revanche, la « Place », qui est la deuxième image la
moins aimée du public, est jugée aussi « nette » que les autres. On ne peut donc pas
tirer la même conclusion sur l’influence de l’affect mais l’on peut signaler qu’il y a
de fortes chances pour que, lorsque le public est confronté à des images qu’il
considère être capable de réaliser, il les juge plus facilement selon les critères et
parvient à rester indépendant de son goût personnel.
Figure 22 : Le goût pour une image d’amateur compressée en parallèle du jugement de sa qualité. Somme des résultats obtenus sur la population, toutes catégories confondues.
b/ La légitimité du photographe et la gêne immédiate
Si l’on établit la somme de toutes les réponses données sur la qualité technique
des images du « site professionnel » et toutes les réponses données depuis le « site
amateur », on obtient 108 pour le premier et 97 pour le deuxième. Ce qui revient à
une note globale de 8,3/20 pour le premier et 7,5/20 pour le deuxième. On ne peut
99
donc pas considérer avec ces résultats que la légitimité du photographe intervient
pour décider globalement l’observateur sur la qualité d’un lot d’image. Il semble a
priori que les observateurs fassent preuve de plus d’indulgence le photographe
professionnel, mais la différence de notes et la taille de la population expérimentale
ne sont pas suffisantes pour affirmer clairement cette conclusion.
On s’intéresse maintenant au nombre de personnes ayant spontanément détecté
les défauts à la suite de la première question : « Avez-vous remarqué quelque chose
de particulier ou de gênant sur ces sites Internet ? ». 23% des personnes
interrogées100 se sont plaintes d’un défaut de « pixellisation », ou de « petits carrés »
sur les images. Il faut préciser un élément à cela : pour les autres, l’enquêteur a
décidé de préciser la question d’origine en orientant vers la notion de qualité
d’image. Aucun n’a répondu qu’il y avait un défaut à ce niveau. Il semblerait donc
que la gêne se fasse spontanément ou ne se fasse pas. Il y aurait donc adéquation
entre la connaissance du problème et son identification.
c/ Catégorisation des profils
Les questions posées aux publics pour définir ses usages nous ont donné des
valeurs représentatives de chaque personne interrogée selon les trois critères : usage
de la photographie numérique, usage d’Internet, intérêt pour l’image et l’art. Nous
avions supposé dans une partie précédente que ses catégories avaient parfois du mal
à être distinctes. La figure 22 nous montre l’évolution du « score » obtenu aux
questions sur la photographie numérique en fonction du « score » aux questions sur
Internet. On y voit clairement que plus une personne s’intéresse à l’image
numérique, plus elle a tendance à naviguer sur le Web. Par souci de cohérence, nous
ne pourrons plus mettre ces deux éléments en opposition et en comparaison au sein
de notre population expérimentale. Nous veillerons tout de même à différencier ces
deux tendances pour les personnes avec lesquelles c’est possible.
100 Cette valeur n’est pas à prendre en compte comme si elle était issue d’un questionnaire visant un échantillon représentatif de la population. Elle n’a qu’un titre indicatif car ici, pour les besoins de l’enquête, des profils atypiques ont été réunis et les 23 % dont il est fait état ici était composés en majorité de personnes dont le niveau de culture visuelle de la photographie, est d’après, le questionnaire sur les mœurs, supérieur à 70%.
100
Figure 23 : Evolution de l'usage d'Internet en fonction de l'usage de la photographie numérique.
d/ L’influence du profil d’utilisateur
Pour considérer la capacité des différents observateurs à juger par eux-mêmes
la qualité d’images compressées en JPEG, nous leur avons demandé de noter entre 0
et 20 toutes les versions d’une seule image. Ces images ont été notées par le jury et
mesurées avec S-CIELAB, les résultats obtenus sont réunis dans le tableau 14. L’une
des premières constatation que nous avons pu faire lors du déroulement de cette
partie de l’enquête, fut que, comme prévu, les personnes cherchaient une différence
là où il n’y en avait pas forcément. Ainsi, sur la première diapositive, représentant
trois fois la même image, 31 % des observateurs ont établi un crescendo des notes de
la gauche vers la droite101. Ce sens correspondant psychologiquement au sens de
lecture, il se peut que ces observateurs aient tous trouvé logique qu’on leur propose
des images de plus en plus dégradées. Il faudrait cependant mener une expérience sur
un plus grand échantillon pour en tirer une loi générale.
101 Dans le doute, nous avons vérifié que l’écran ne présentait pas de disfonctionnement particulier de ce type. C’est quasiment impossible car il s’agit d’un écran LCD. L’élément qui nous a rassuré face à cette constatation est que les personnes qui se sont fourvoyées ainsi correspondent souvent aux plus « mauvais » observateurs dans la suite de l’enquête.
101
À partir des valeurs du tableau 14, considérées comme « exactes », ou tout au
moins, comme étant les références desquelles les observateurs doivent se rapprocher
pour discerner avec brio les différences ainsi que la qualité absolue d’une image, on
calcule l’écart à la moyenne pour toutes les réponses de chaque observateur102. Ainsi,
son écart global au jugement considéré comme « objectif » nous donne une bonne
évaluation de sa capacité à discerner le défaut. On calcule cet écart selon la formule
suivante :
!
Ecart = observateur " objectiveimages
#
Figure 24 : Le calcul de l’écart au jugement objectif. « Observateur » représente la note donnée par l ‘observateur. « Objective » représente la note obtenue par combinaison de
l’avis du jury et du résultat S-CIELAB.
On y ajoute la valeur 5 à chaque fois que l’observateur à déclaré observer une différence dans la première où la dernière diapositive afin de le « pénaliser » de son erreur.
La figure 24 nous donne la valeur de l’écart obtenu pour chaque personne
interrogée. L’abscisse représente le niveau de « culture générale de l’image », qui
est en fait une somme des réponses données à toutes les questions de catégorisation
confondues. Attention pour la lecture de ce graphique, une valeur élevée en ordonnée
détermine une faible capacité de distinction.
102 Ces réponses ayant été remises sur l’échelle de son indulgence exprimée par la question sur la notation scolaire entre 0 et 20. Le calcul est le suivant : note considérée = (note donnée/note valable) x 10. La note « valable » est la réponse à la question : « Dans le milieu scolaire, lorsque l’évaluation se fait entre 0 et 20, qu’est-ce qui, pour vous ou votre enfant, correspond à une note valable ou suffisante ? »
102
Figure 25 : L'écart au jugement objectif en fonction du niveau de "culture visuelle" des personnes interrogées.
On remarque une décroissance globale dans le sens de la « culture de
l’image », mais si cette première conclusion semblait somme toute logique (plus on a
l’habitude de voir des images, mieux on distingue leurs défauts) elle est moins
importante à signaler que les nombreux pics irréguliers que l’on peut observer tout
au long de la courbe. Ces pics, « erreurs » de mesure, correspondent en réalité aux
profils atypiques, c’est-à-dire aux personnes dont le niveau de « culture visuelle de
l’image » est fortement influencé par l’un des trois critères de classification et dont
les réponses aux 3 parties du questionnaire sont hétérogènes. Parmi ces personnes,
nous pouvons remarquer Christine et Héloïse. Christine a 56 ans, elle est peintre
professionnelle et professeur de dessin, mais elle ne s’intéresse ni à la photographie
numérique, ni à Internet. Héloïse a 16 ans, elle est inscrite sur Myspace, Skyrock
Blog, Dailymotion et Youtube et déclare s’y rendre très régulièrement, pourtant elle
ne s’intéresse pas du tout à l’art et n’utilise qu’occasionnellement un appareil
photographique. La figure 25 nous montre la répartition des profils de ces deux
personnes selon les 3 critères de caractérisation que recouvre le questionnaire.
103
Figure 26 : La répartition des centres d'intérêt pour deux personnes "atypiques".
Les profils de ces deux personnes sont donc radicalement différents et chacun
est très caractéristique d’un domaine ; pourtant elles accusent toutes les deux un écart
au jugement objectif comparable. Héloïse affiche un total de 58, et Christine de 38.
Par ailleurs, 100% de leurs réponses vont exactement dans le même sens. Il
semblerait donc qu’Héloïse s’est forgé un regard sur la qualité des images qui soit
comparable en termes de distinction à celui d’un peintre de formation. Par contre, si
son écart au jugement objectif est supérieur à celui de Christine c’est parce que la
moyenne des notes sur 20 qu’elle a donnée est beaucoup plus élevée : 16,4/20 contre
11,5/20. La tolérance d’Héloïse aux images compressées est donc bien plus
importante, alors que ses capacités de distinction sont identiques. On peut en dégager
la conclusion suivante : si Héloïse s’est effectivement affiné le regard en visualisant
beaucoup d’images compressées, cela lui a aussi appris à accepter de graves défauts.
La figure 24 nous montre maintenant l’évolution de l’écart au jugement
objectif moyen des « catégories » de personnes. On y analyse les réponses moyennes
données par des personnes de catégories comparables. 5 catégories sont étudiées en
fonction de leurs réponses aux 3 questionnaires. La courbe « Général » représente la
somme des trois questionnaires confondus, c’est ce que l’on a appelé plus haut : la
« culture visuelle globale ».
104
Figure 27 : Evolution de l'écart au jugement objectif en fonction des groupes de personnes. Les personnes sont regroupées en fonction de leur pourcentage de réponses
positives au questionnaire considéré.
La première constatation que l’on peut faire est que globalement, les réponses
vont dans le même sens quel que soit le critère de catégorisation considéré. Ce qui
signifie que chacun d’entre eux à une influence sur la capacité de distinguer des
images. Il faut noter que la courbe « Général » se rapproche plus de 0 que les autres
car elle inclut deux personnes, Gauthier et Louise, qui ont été supprimées des autres
courbes, car elles étaient sur le « podium » de tous les questionnaires. Elles
faussaient les conclusions puisque, si leur jugement était très pertinent, ce n’était pas
dû à un critère considéré, mais au mélange des trois. Elles ont logiquement pu être
réinjectées dans la courbe totalisant les trois critères. Si l’on compare maintenant les
deux catégories de personnes suivantes : les plus grands utilisateurs du Web et les
plus grands passionnés d’art (entre 60% et 100% de réponses positives à chacun des
questionnaires), on remarque toujours ce qui avait été pressentit avec l’analyse des
réponses d’Héloïse par rapport à celles de Christine, les utilisateurs du Web ont des
capacités de jugement comparables aux amateurs d’art, mais sont globalement
beaucoup plus tolérants.
105
Dans la partie où l’abscisse est comprise entre 0 et 60, le schéma est inverse.
Dans ce cas, il peut s’agir d’une imprécision du questionnaire, qui aurait tendance à
surévaluer l’intérêt pour l’art des personnes aux profils plus modérés. Cette
autocritique est faite au vu des pourcentages élevées obtenus pour cette partie du
questionnaire103. L’une des observations géométriques à faire sur ce graphique est la
différence entre la partie supérieure de chaque courbe et sa partie inférieure. Plus la
différence est importante, plus le critère considéré compte dans le jugement. On
remarque alors que l’usage d’Internet semble moins décisif que l’intérêt pour l’art,
lui-même moins décisif que l’usage de la photographie numérique.
Ces constatations sont en accord avec nos présupposés. Le jugement s’affine
avec l’usage d’une pratique, mais aussi avec l’habitude de l’éprouver. Toutefois,
dans le rapport à Internet et l’usage désintéressé104 de la photographie numérique, un
élément fondamental ressort clairement : cet usage à des implications sur une sorte
d’éducation du regard. Celui-ci est capable de distinctions supérieures lorsque
l’observateur utilise l’une de ces deux innovations à une fréquence suffisamment
élevée. Par ailleurs, sa tolérance s’en trouve également supérieure. Il semblerait
donc, que lorsqu’on a déjà vu le pire, on sait reconnaître le mieux tout en l’acceptant
aveuglément.
103 Moyennes des pourcentages obtenus pour chaque questionnaire de catégorisation des profils : Photographie numérique, 36% ; Internet, 37% ; Art, 45%. 104 On entend par le terme « désintéressé », un usage naïf, basé sur le souvenir et la communication, un usage très social de l’image, sans intérêts techniques ou artistiques. Comme il a été décrit dans la première partie.
106
Conclusion
L’étude du jugement et de ses influences est fascinante lorsque l’on
s’intéresse à la population dite « normale », par opposition à une population
spécifique. De nouveaux éléments d’études sur les mouvements communautaires
sont aujourd’hui mis à la disposition des sociologues, à travers Internet. Ils nous
auront servi de base, non pas pour une réflexion sur eux-mêmes, mais comme
outil de travail pour une recherche s’appliquant à la population des pays
développés. Nous avons pu en tirer des conclusions techniques, qu’il fut
intéressant de confronter avec les considérations plus générales d’une étude
sociale. Ainsi, on peut reprendre l’exemple de la plateforme d’échange et de
communication Skyrock Blog. Elle s’adresse à un public très jeune qui n’est pas
ou qui est peu familiarisé avec la photographie argentique, mais qui, en
revanche, utilise davantage Internet pour sa fonction d’outil de communication
primaire105 que ses aînés. D’après nos résultats sur la compression, les
développeurs de cette plateforme doivent évaluer la tolérance de leurs
utilisateurs à un niveau bien plus élevé que les développeurs de Flickr pour leurs
propres utilisateurs.
Si nous avons décidé ici d’énoncer la totalité de l’environnement dans
lequel l’image numérique évolue actuellement au niveau du grand public, c’est
pour mieux la dégager de cet état et la considérer pour elle-même. Dans cette
étude, nous avons eu l’appui essentiel de recherches très actives ces dernières
années sur l’évaluation de qualité d’image par informatique, ce qui nous a
permis d’assurer une partie fixe, indépendante du jugement humain pour
l’appréciation de la dégradation JPEG. Cependant, ces recherches sont encore en
pleine évolution et si ce mémoire était également l’occasion de réunir tout ce qui
a été fait en la matière, c’est aussi parce qu’aucune de ces méthodes n’a encore
convaincu la communauté scientifique. Par sa facilité d’acquisition et de
diffusion, son immatérialité et ses nouvelles caractéristiques visuelles, l’image
105 Attribué à Internet, cette expression sous-entend la communication directe d’une personne avec une autre sans nécessité absolue d’échanger des connaissances.
107
fixe se trouve une fois de plus à un tournant de son histoire. Cette constatation
semble évidente aujourd’hui, mais les conclusions qu’il faudrait en tirer sur
l’évolution de la perception ne sont pas toujours mises à l’honneur dans les
réflexions contemporaines.
À la première question que nous posions : comment évolue la capacité de
distinction du défaut JPEG avec l’habitude ? Il semble que nous pourrions
répondre de deux manières. Cette aptitude se développe dans le sens d’une
éducation de la vigilance visuelle par l’apprivoisement du défaut, même sans
considérations particulières de celui-ci. L’autre élément de réponse est que la
tolérance elle aussi s’accentue avec la confrontation régulière avec le caractère
particulier d’une image. Quant à la capacité mentale d’effacer le voile de
l’anomalie pour accéder coûte que coûte à l’information, on peut dire qu’elle est
liée à la facilité de chercher la réalité dans l’image. N’entendons pas ici la réalité
au sens de véracité, mais réalité dans le sens de réel. La connaissance effective
de cette réalité facilite, par ailleurs, sa reconstitution. Il serait difficile de monter
une enquête dans laquelle des images représentant les proches de chaque
observateur seraient présentées à ceux-ci, mais l’on peut, au vu des conclusions
de cette étude, supposer qu’une telle enquête donnerait des résultats allant dans
le sens d’une tolérance très élevée et d’une faculté de distinction singulière.
Si les conclusions sont nombreuses avec la seule compression JPEG,
d’autres domaines, tout aussi intéressants pourraient être envisagés dans le cadre
d’une autre recherche suivant ce principe de mise en parallèle des usages avec la
technique.
108
Bibliographie
Ouvrages théoriques et historiques traitant de l’image.
AMAR Pierre-Jean, La photographie, histoire d’un art, Aix-en-provence, Edisud, 1993, 190 p.
BARTHES Roland, La chambre claire, note sur la photographie, Paris, Editions de l’Etoile, Gallimard, Le seuil, 1980, 192 p.
BELTING Hans, Pour une anthropologie des images, Paris, Gallimard, 2004, 346 p.
DIDI-HUBERMAN Georges, Ce que nous voyons, ce qui nous regarde, Paris, Editions de Minuit, 1992, 208 p.
DESCARTES René, Discours de la méthode, suivi d’extraits de la Dioptrique et des Météores, Paris, Garnier-Flammarion, 1966, 252 p.
GUNTHERT André, Études photographiques n° 15, L’image numérique s’en va-t’en guerre. Les photographies d’Abou Ghraib, Société Française de Photographie, Paris, 2004, 200 p.
GUNTHERT André, Études photographiques n°20. L’image parasite après le journalisme citoyen, Société Française de Photographie, Paris, 2007, 206 p.
LAVAUD Laurent, L’image, Paris, Flammarion, 1999, 247 p.
ROUILLE André, La photographie, Paris, Gallimard, 2005, 704p.
SARTRE Jean-Paul, L’imagination, Paris, Presses universitaires de France, 1950, 162 p.
WATZLAWICK Paul, L’invention de la réalité : comment savons nous ce que nous croyons savoir ? Paris, Le seuil, 1988, 373 p.
Ouvrages traitant des sciences humaines.
ANCEAUX Françoise et SOCKEEL Pascal, La démarche expérimentale en psychologie, Paris, In press, 2002, 223p.
BOURDIEU Pierre, Un art moyen, essai sur les usages sociaux de la photographie, Paris, Editions de Minuit, 1965, 360 p.
BROSSARD Alain, Psychologie du regard : de la perception visuelle au regard, Paris, Delachaux et Niestlé, 1992, 300 p.
CHAUCHAT Hélène, L’enquête en psycho-sociologie, Paris, Presses universitaires de France, 1985, 253 p.
DELORME André, Psychologie de la perception, Montréal, Editions Etudes Vivantes, 1982, 421p.
ENGELDRUM Peter G. Psychometric scaling, a toolkit for imaging systems development, Winchester, Imcotek Press, 2000, 185p.
109
GREGORY Richard L., L’œil et le cerveau : la psychologie de la vision, De Boeck Université, 2000, 344 p.
HOWELL David C., Méthodes statistiques en sciences humaines, De Boeck Université, 2007, 832 p.
SHEPARD Roger N., L’œil qui pense : visions, illusions, perceptions, Paris, Le seuil, 1992, 233 p.
Ouvrages techniques sur l’image numérique.
BOUILLOT René, Cours de photographie numérique, principes d’acquisition et stockage, Paris, Dunod, 2003, 300p.
BOUILLOT René, Cours de traitement numérique de l’image, Paris, Dunod, 2005, 236 p.
INCERTI Eric, La compression d’images : algorithmes et standards, Paris, Vuibert, 2003, 220 p.
Publications scientifiques.
BOUST Clotilde, Contribution à l’amélioration des images numériques par un algorithme fondé sur la démarche d’expert chromiste, Thèse de doctorat de l’Université Pierre et Marie Curie, Paris, 2004, 147 p.
BRINGIER Benjamin, Métrique de différences couleurs basée sur le système visuel humain, Laboratoire National d’Essais et Laboratoire de Signal, Image et Communications de l’Université de Poitiers, 33 p.
FAVIER Eric, DINET Eric et TREMEAU Alain, Colour image comparison and visual perception : a process for descriptor validation, Equipe Ingénierie de la vision CNRS 5516, Université Jean Monnet de Saint-Etienne, 1998, 10 p.
IMBENS Guido W., NEWEY Whitney et RIDDER Geert, Mean Squarred Error calculations for average treatment effects, Université de Californie à Berkeley, Institut de technologie du Massachusetts et Université de Californie du sud, 2007, 50 p.
KRATOCHVIL Tomáš et ŠIMICEK Pavel, Utilisation of Matlab for picture quality evaluation, Institut d’électronique de l’Université de technologie à Brno, Rép. Tchèque, 2006, 4 p.
LE CALLET Patrick et BARBA Dominique, Modèle de perception couleur, application à l’évaluation de qualité d’images in Traitement du signal, volume 21 n°spécial : L’image numérique couleur, Ecole polytechnique de l’Université de Nantes, 2004, 17 p.
MALANIN Mikael, LAINE Mari et Pr. OITTINEN Pirkko, Information agent-based objective print image quality evaluation, Université de technologie d’Helsinki, 2005, 4 p.
OLSHAUSEN Bruno A. et SIMONCELLI Eero P., Natural image statistics and neural representation, in Annual review of Neuroscience, Université de Californie, 2001, 26 p.
POIRSON Allen B. et WANDELL Brian A., Appearance of colored patterns : pattern-color separability, in Journal of the Optical Society of America, volume 10, n°12, 1993, 12p.
110
TEO Patrick C. et HEEGER David J., Perceptual image distortion, Département de sciences informatiques et département de Psychologie de l’Université de Stanford, 1994, 15 p.
WANG Zhou, Objective image/video qualityt measurement-a literature survey, Département d’ingénierie informatique et électrique de l’Université du Texas à Austin, 1998, 9 p.
WANG Zhou, BOVIK Alan C. et LIGANG Lu, Why is image quality assessment so difficult ? Laboratoire d’ingénierie d’image et de vidéo de l’Université du Texas à Austin et Centre de recherche Watson IBM, 2002, 4 p.
WANG Zhou, BOVIK Alan C. et SHEIKH Hamid Rahim, Image quality assessment : from error visibility to structural similarity in IEEE Transactions on image processing, volume 13, n°4, Avril 2004, 13 p.
WANG Zhou, BOVIK Alan C. et SIMONCELLI Eero P., Structural approaches to image quality assessment in Handbook of Image and Video Processing, 2ème édition, Edition Academic Press, Université de New York et Université du Texas à Austin, 2005, 33 p.
WANG Zhou et SHANG Xinli, Spatial pooling strategies for perceptual image quality assessment, Département d’ingénierie électrique de l’Université du Texas à Arlington, 2006, 4 p.
ZHANG Xueimei et WANDELL Brian A., A spatial extension of CIELAB for digital color image reproduction,, Département de psychologie de l’Université de Stanford, 1997, 6 p.
ZHANG Xueimei et WANDELL Brian A., Color image fidelity metrics evaluated using image distortion maps , Programme d’ingénierie de l’image de l’Université de Stanford, 1998, 23 p.
ZHANG Xueimei, Dr. SILVERSTEIN Amnon, FARRELL Joyce E. et WANDELL Brian A., Color image quality metric S-CIELAB and its application on halftone texture visibility, Département de psychologie de l’Université de Stanford et Laboratoires Hewlett Packard, 1997, 5 p.
Articles de presse.
Le Monde diplomatique, Mars 2005. Journal mensuel au tirage de 250 000 exemplaires en 2005. Directeur Ignacio Ramonet.
Le Photographe, n°1658 et n°1661, Janvier et Avril 2008. Revue mensuelle. Directeur Général Ernesto Mauri, rédacteur en chef Guillaume Cuvillier.
La Recherche : la révolution des images, n° spécial de 1983. Revue mensuelle. Directeur Philippe Clerget, rédacteur en chef Aline Richard.
Sites Internet.
http://www.brucelindbloom.com, Novembre 2007.
http://www.arhv.lhivic.org, de Décembre 2007 à Mai 2008.
http://www.uta.edu/faculty/zhouwang, Février 2008.
111
http://white.stanford.edu/~brian/scielab/scielab.html, Février 2008.
http://photo.net, section « Learn/jpeg », Janvier 2008.
http://www.wikipedia.org, de Novembre 2007 à Mai 2008.
Outils documentaires.
Norme Française NF X 35-103. Principes d’ergonomie visuelle applicables à l’éclairage des lieux de travail, Association Française de Normalisation, 1990.
Norme Française NF EN 29241-3. Exigences ergonomiques pour travail de bureau avec terminaux à écrans de visualisation, Association Française de Normalisation, 1993.
Recommandations T.81 du Comité Consultatif International des Télégraphes et Téléphone, Information technology – digital compression and coding of continuous-tone still images-requirements end guidelines, 1992, 186 p.
A guide to understanding color communication, X-Rite Incorporated, 2007, 26 p.
Mémoire de fin d’études et recherche appliquée École Nationale Supérieure Louis Lumière
Section Photographie Option Traitement Des Images
Promotion 2008
Étude des usages et effets de la compression JPEG dans la photographie sur Internet
ANNEXES
Cyrille Robin Sous la direction d’André Gunthert et Franck Maindon Membres du Jury : Françoise Denoyelle, Pascal Martin, André Gunthert, Franck Maindon et Véronique Dürr
2
Mémoire de fin d’études et recherche appliquée École Nationale Supérieure Louis Lumière
Section Photographie Option Traitement Des Images
Promotion 2008
Étude des usages et effets de la compression JPEG dans la photographie sur Internet
ANNEXES
Cyrille Robin Sous la direction d’André Gunthert et Franck Maindon Membres du Jury : Françoise Denoyelle, Pascal Martin, André Gunthert, Franck Maindon et Véronique Dürr
3
Table des matières
LA DIOPTRIQUE DE DESCARTES (PASSAGE CITE DANS LE PREMIER CHAPITRE)........................................................4 ÉTUDES STATISTIQUES CONNEXES .............................................................................................................................5 HISTORIQUE DE LA COLORIMETRIE ............................................................................................................................6
L’espace CIE XYZ 1931........................................................................................................................................6 Le diagramme de chromaticité CIE UCS 1960...................................................................................................7 L’espace CIEUVW 1964.......................................................................................................................................8 L’Espace CIELUV 1976 .......................................................................................................................................8 La transformation de Von Kries...........................................................................................................................9 L’Espace CIELab 1976.......................................................................................................................................10 Espace LCH.........................................................................................................................................................10
ALGORITHMES MATLAB UTILISES DANS LES PARTIES III ET IV...............................................................................12 MSE......................................................................................................................................................................12 PSNR ....................................................................................................................................................................12 SSIM.....................................................................................................................................................................12 S-CIELAB ............................................................................................................................................................15
COMPARAISON DES DEUX METHODES DE PHOTOSHOP............................................................................................20 CAPTURES D’ECRAN..................................................................................................................................................21
Les interfaces de visualisation des images utilisées dans la partie IV ............................................................21 Éléments logiciels................................................................................................................................................23
LES IMAGES UTILISEES DANS L’ENQUETE ET LEUR VERSION ORIGINALE ...............................................................24 Images professionnelles......................................................................................................................................24 Images amateurs .................................................................................................................................................34
RESULTATS COMPLETS DE L’ENQUETE ....................................................................................................................44 WHY IS IMAGE QUALITY ASSESSMENT SO DIFFICULT ? PAR ZHOU WANG, ALAN C. BOVIK & LIGANG LU ........50
4
La Dioptrique de Descartes (passage cité dans le premier chapitre)
« Et si, pour ne nous éloigner que le moins qu'il est possible des opinions déjà
reçues, nous aimons mieux avouer que les objets que nous sentons envoient
véritablement leurs images jusques au dedans de notre cerveau, il faut au moins que
nous remarquions qu'il n'y a aucunes images qui doivent en tout ressembler aux objets
qu'elles représentent car autrement il n'y aurait point de distinction entre l'objet et son
image: mais qu'il suffit qu'elles leur ressemblent en peu de choses ; et souvent même,
que leur perfection dépend de ce qu'elles ne leur ressemblent pas tant qu'elles
pourraient faire. Comme vous voyez que les tailles-douces, n'étant faites que s d'un
peu d'encre posée, çà et là sur du papier, nous représentent des forêts, des villes, des
hommes, et même des batailles et des tempêtes, bien que, d'une infinité de diverses
qualités qu'elles nous font concevoir en ces objets, il n'y en ait aucune que la figure
seule dont elles aient proprement la ressemblance; et encore est-ce une ressemblance
fort imparfaite, vu que, s sur une superficie toute plate, elles nous représentent des
corps diversement relevés et enfoncés, et que même, suivant les règles de la
perspective, souvent elles représentent mieux des cercles par les ovales que par
d'autres cercles; et des carrés par des losanges que par d'autres carrés ; et ainsi de
routes les autres figures en sorte que souvent, pour être plus parfaites en qualité
d'images, et représenter mieux un objet, elles doivent ne lui pas ressembler. Or il faut
que nous pensions tout le môme des images qui se forment en notre cerveau, et que
nous remarquions qu'il est seulement question de savoir comment elles peuvent donner
moyen à l'âme de sentir routes les diverses qualités des objets auxquels elles se
rapportent, et non point comment elles ont en soi leur ressemblance. »
René Descartes, La Dioptrique (1637)
5
Études statistiques connexes1
1Source Ipsos pour Le Photographe, le mensuel de l’image pro, n°1661, Avril 2008, Paris.
6
Historique de la colorimétrie
Depuis la première indexation encyclopédique des couleurs par le peintre
américain Albert Munsell2 en 1909, de nombreux efforts ont été consacrés à
l’élaboration de modèles mathématiques permettant une universalité de la notion de
couleur. Toute étude s’approchant de l’évaluation objective d’images se doit de
prendre en compte ces travaux. Nous revenons dans cette partie sur la chronologie des
évènements dont il est fait référence dans l’étude.
L’espace CIE XYZ 1931
Selon la théorie trichromatique, chaque couleur qui peut être perçue par un oeil
humain standard peut être décrite par trois coefficients qui quantifient la stimulation
des cônes rouges, verts ou bleus. Et deux sensations colorées identiques peuvent êtres
obtenues avec deux trios de coefficients différents. Vers 1930, Wright et Guild ont
effectué des expériences pendant lesquelles des observateurs devaient combiner de la
lumière à 435,8 nm, 546,1 nm et 700 nm de telle façon que la perception de couleur
résultante corresponde à la perception de couleur produite par la lumière
monochromatique à une certaine longueur d'onde du spectre visible. Les résultats de
ces expériences ont conduit à la définition des fonctions colorimétriques RVB
normalisées, puis la CIE a établi les fonctions colorimétriques :
Figure 1 : Les fonctions d’égalisation sur l’ensemble du spectre visible par l’observateur standard à partir des trois composantes rouge, verte et bleue. Résultats directs de
l’expérience sur l’observateur standard de 1931.
2 Albert Henry Munsell (Boston 1858- Brookline 1918)
7
Puis, les valeurs des coordonnées trichromatiques XYZ pour une fonction de
stimulus de couleur spectrale f(λ) sont données par :
De cet espace, une représentation en deux dimensions dans un repère
orthonormé à été établie pour plus de commodité d’usage et parce que l’espace a été
défini tel que Y représente la luminance. Ce diagramme est obtenu par projection des
valeurs X, Y et Z selon les formules :
Figure 2 : Diagramme de chromaticité xy 1931. La frontière extérieure est une courbe spectrale, elle représente les longueurs d’ondes visible en nanomètre. Les couleurs de
remplissage sont ici à titre indicatif.
Le diagramme de chromaticité CIE UCS 1960
A été initié par Judd, puis simplifié par David MacAdam pour prévenir du défaut
de l’espace CIE 1931 face à la non uniformité des différences de couleurs.
!
u =0,4661x + 0,1593yy 0,15735x + 2424
v =0,6581y
y 0,15735x + 0,2424puis
u =4x
12y 2x + 3
v =6y
12y 2x + 3
Figure 3 : Le diagramme de chromaticité (u,v) élaboré en 1960.
L’espace CIEUVW 1964
Basé sur l’espace UCS de 1960, Wyszecki à inventé cet espace pour pouvoir
calculer des différences de couleur sans tenir compte d’une luminance constante. Les
coordonnées sont définies ainsi :
!
U* =13W * (u uo)V* =13W * (v vo)W * = 25Y1/ 3 17
La différence entre les couleurs Delta E fait son apparition sous la forme aussi
simple qu’en 1976 : une distance euclidienne entre deux points de l’espace. Une
différence de clarté de 1 correspondait à une différence de chromaticité de 13.
L’Espace CIELUV 1976
Est une mise à jour du CIEUVW 1964. Dans les différences, nous pouvons
noter une différence dans l’échelle de Clarté et une autre dans les échelles de
9
chromaticité. CIELUV utilise l’adaptation du point blanc de Judd, contrairement à
CIELAB, qui utilise la transformation de Von Kries.
!
L* =116(Y /Yn )
1/ 3 16, Y /Yn > (6 /29)3
(29 /3)3(Y /Yn ), Y /Yn # (6 /29)3 % &
u* =13L * (u u n )v* =13L * (v v n )
Puis, a été établi par analogie avec le diagramme de chromaticité (x,y), le
diagramme (u’,v’) dont les coordonnées se calculent ainsi :
!
u" =4x
#2x +12y + 3v" =
9y
#2x +12y + 3
Figure 4 : Diagramme de chromaticité (u’,v’) connu sous le nom de CIE 1976 UCS (Uniform Chromaticity Scale)
La transformation de Von Kries
La méthode d’adaptation chromatique de Von Kries est parfois utilisée dans le
traitement d’image des appareils photographiques. La règle du coefficient de Von
Kries repose sur une hypothèse : la constance des couleurs malgré le changement
d’illuminant pour l’œil humain est due à une adaptation du gain des réponses par les
trois cônes en fonction de l’environnement spectral. Cette méthode est beaucoup
critiquée aujourd’hui.
10
L’Espace CIELab 1976
Les coordonnées de ce système proposé par la CIE en 1976 reprennent la
perception des couleurs au niveau du cerveau. En effet, les réponses des récepteurs
rétiniens à un signal lumineux sont transmises au cerveau par le nerf optique en
subissant un codage en paires antagonistes : noir/blanc → coordonnée L* ;
vert/rouge → coordonnée a* ; bleu/jaune → coordonnée b*. L*, a* et b* peuvent
être calculées à partir des coordonnées XYZ :
!
L* = fY
Yn
"
# $
%
& '
a* =500
116f
X
Xn
"
# $
%
& ' ( f
Y
Yn
"
# $
%
& '
)
* +
,
- .
b* =200
116fY
Yn
"
# $
%
& ' ( f
Z
Zn
"
# $
%
& '
)
* +
,
- .
!
où
f (x) " 8# f (x) =116x1/ 3 $16
f (x) < 8# f (x) =29
3
%
& '
(
) *
3
x
et Xn, Yn, et Zn coordonnées X,Y, Z du blanc de référence pour l’illuminant et
l’observateur choisi. On a en particulier Yn=100.
Espace LCH
L*, a*, b* sont les coordonnées cartésiennes et LCH les coordonnées
cylindriques d’une même représentation.
- la clarté L est identique
- le chroma C* est
!
C* = a*2b*
2 cette grandeur est liée à la notion de pureté
d’une couleur et proche de ce que l’on appelle la saturation de la couleur,
- l’angle de teinte
!
h* = atanb*
a*
"
# $
%
& '
11
Figure 5 : Illustration du lien entre espace L*a*b* et espace LCH
12
Algorithmes Matlab utilisés dans les parties III et IV
MSE
%%Ouverture des fichiers img1=imread('1.tif'); img2=imread('2.tif'); %%Conversion en lab cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); %%Différence des deux matrices [m,n] = size(img1); error = img1 - img2; %Calcul MSE couche par couchea MSE = (sum(sum(error.*error)))/(m*n); MSE = MSE(:,:,1)+MSE(:,:,2)+MSE(:,:,3); MSE = MSE/3
PSNR
%%Reprise du code de MSE img1=imread('1.tif'); img2=imread('1.tif'); cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); [m,n] = size(img1); error = img1 - img2; MSE = (sum(sum(error.*error)))/(m*n); MSE = MSE(:,:,1)+MSE(:,:,2)+MSE(:,:,3); MSE = MSE/3; %%Calcul spécifique de PSNR RMS = sqrt(MSE); PSNR = 20 * log10(100/RMS)
SSIM
%% Ouverture des fichiers img1=imread('1.jpg'); img2=imread('2.jpg'); %passage en lab cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); %on garde que la couche L img1L = img1(:,:,1); img2L = img2(:,:,1); imshow(img1L); imshow(img2L);
13
%Définition des paramètres K = [0.001 0.01]; window = fspecial('gaussian', 11, 1.5); L = 100; [mssim ssim_map] = ssim_index(img1L, img2L, K, window, L); %%Appliquer la fonction mssim imshow(max(0, ssim_map).^4); function [mssim, ssim_map] = ssim_index(img1, img2, K, window, L) %======================================================================== %SSIM Index, Version 1.0 %Copyright(c) 2003 Zhou Wang %All Rights Reserved. % %The author was with Howard Hughes Medical Institute, and Laboratory %for Computational Vision at Center for Neural Science and Courant %Institute of Mathematical Sciences, New York University, USA. He is %currently with Department of Electrical and Computer Engineering, %University of Waterloo, Canada. % %This is an implementation of the algorithm for calculating the %Structural SIMilarity (SSIM) index between two images. Please refer %to the following paper: % %Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image %quality assessment: From error measurement to structural similarity" %IEEE Transactios on Image Processing, vol. 13, no. 4, Apr. 2004. % %Kindly report any suggestions or corrections to [email protected] %======================================================================== if (nargin < 2 | nargin > 5) mssim = -Inf; ssim_map = -Inf; return; end if (size(img1) ~= size(img2)) mssim = -Inf; ssim_map = -Inf; return; end
14
[M N] = size(img1); if (nargin == 2) if ((M < 11) | (N < 11)) mssim = -Inf; ssim_map = -Inf; return end window = fspecial('gaussian', 11, 1.5); % K(1) = 0.01; % default settings K(2) = 0.03; % L = 255; % end if (nargin == 3) if ((M < 11) | (N < 11)) mssim = -Inf; ssim_map = -Inf; return end window = fspecial('gaussian', 11, 1.5); L = 255; if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end if (nargin == 4) [H W] = size(window); if ((H*W) < 4 | (H > M) | (W > N)) mssim = -Inf; ssim_map = -Inf; return end L = 255; if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end if (nargin == 5) [H W] = size(window); if ((H*W) < 4 | (H > M) | (W > N)) mssim = -Inf;
15
ssim_map = -Inf; return end if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end C1 = (K(1)*L)^2; C2 = (K(2)*L)^2; window = window/sum(sum(window)); %img1 = double(img1); %img2 = double(img2); mu1 = filter2(window, img1, 'valid'); mu2 = filter2(window, img2, 'valid'); mu1_sq = mu1.*mu1; mu2_sq = mu2.*mu2; mu1_mu2 = mu1.*mu2; sigma1_sq = filter2(window, img1.*img1, 'valid') - mu1_sq; sigma2_sq = filter2(window, img2.*img2, 'valid') - mu2_sq; sigma12 = filter2(window, img1.*img2, 'valid') - mu1_mu2; if (C1 > 0 & C2 > 0) ssim_map = ((2*mu1_mu2 + C1).*(2*sigma12 + C2))./((mu1_sq + mu2_sq + C1).*(sigma1_sq + sigma2_sq + C2)); else numerator1 = 2*mu1_mu2 + C1; numerator2 = 2*sigma12 + C2; denominator1 = mu1_sq + mu2_sq + C1; denominator2 = sigma1_sq + sigma2_sq + C2; ssim_map = ones(size(mu1)); index = (denominator1.*denominator2 > 0); ssim_map(index) = (numerator1(index).*numerator2(index))./(denominator1(index).*denominator2(index)); index = (denominator1 ~= 0) & (denominator2 == 0); ssim_map(index) = numerator1(index)./denominator1(index); end mssim = mean2(ssim_map); return
S-CIELAB
% Ouvrir les deux images en tableaux [rgbHats]=imread('1.tif'); [rgbHatsc]=imread('100.tif'); %Tapez les valeurs de visionnement de l'écran en dpi et en inches
16
resolution=96 distance=19 %%la formule de sampperdeg donne le nombre d'échantillons vues par angle %%solide par l'utilisatuer sur l'écran : %%samppPerDeg=round(RESOLUTIONMONITEURdpi/((DISTANCEVUEINCHESx10/pi)*atan(1/DISTANCEIN %%CH))); sampPerDeg=round(resolution/(((10*distance/pi)*atan(1/distance)))) %% pour charger les valeurs constantes de l'écran, etc. load displaySPD; load SmithPokornyCones; rgb2lms = cones'* displaySPD; load displayGamma; rgbWhite = [1 1 1]; whitepoint = rgbWhite * rgb2lms' %% Conversion en XYZ imgRGB = dac2rgb([rgbHats],gammaTable); img1LMS = changeColorSpace(imgRGB,rgb2lms); imgRGB = dac2rgb([rgbHatsc],gammaTable); img2LMS = changeColorSpace(imgRGB,rgb2lms); imageformat = 'lms'; %% Applique la fonction SCIELAB errorImage = scielab(sampPerDeg, img1LMS, img2LMS, whitepoint, imageformat); function result = scielab(sampPerDeg, image1, image2, whitepoint, imageformat,k) % result = scielab(sampPerDeg, image1, image2, whitepoint, imageformat,k) % % Computes the S-CIELAB difference between two images. % % Xuemei Zhang 1/28/96 % Last Modified 4/15/98 %%%%%%%%%%%%%%%%%%%%%%%%%%% %% General Preparation %% %%%%%%%%%%%%%%%%%%%%%%%%%%% if (nargin==2 | nargin==4) % if imageformat is not given, use default imageformat = 'xyz'; elseif (nargin==3) % if only 3 arguments, the 3rd one is imageformat imageformat = image2; end % force imageformat to be length 5 consistently, so that it is % easy to do comparisons like (imageformat=='...'). imageformat = [imageformat ' ']; imageformat = imageformat(1:5); % Check if the input images are 1-D or 2-D imsize = size(image1); if (imsize(1)>1 & prod(imsize(2:length(imsize)))>3) % 2-D
17
images dimension = 2; else dimension = 1; end %%%%%%%%%%%%%%%%%%%%%%%%%%% %% Color Transformation %% %%%%%%%%%%%%%%%%%%%%%%%%%%% disp('Performing color transformations ...'); % Convert XYZ or LMS representation to Poirson&Wandell opponent % representation. if (imageformat=='xyz10' | imageformat=='lms10') xyztype = 10; else xyztype = 2; end if (imageformat(1:3)=='lms') opp1 = changeColorSpace(image1, cmatrix('lms2opp')); if (nargin>3) opp2 = changeColorSpace(image2, cmatrix('lms2opp')); oppwhite = changeColorSpace(whitepoint, cmatrix('lms2opp')); whitepoint = changeColorSpace(oppwhite, cmatrix('opp2xyz', xyztype)); end else opp1 = changeColorSpace(image1, cmatrix('xyz2opp', xyztype)); if (nargin>3) opp2 = changeColorSpace(image2, cmatrix('xyz2opp', xyztype)); end end clear image1; clear image2; %%%%%%%%%%%%%%%%%%%%%% %% Prepare filters %% %%%%%%%%%%%%%%%%%%%%%% disp('Preparing filters ...'); if (dimension == 1) [k1, k2, k3] = separableFilters(sampPerDeg, 1); else [k1, k2, k3] = separableFilters(sampPerDeg, 3); end %%%%%%%%%%%%%%%%%%%%%%%% %% Spatial Filtering %% %%%%%%%%%%%%%%%%%%%%%%%% % Apply the filters k1, k2, k3 to the images. % The edges of the images are reflected for convolution. if (length(imsize)==3)
18
w1 = opp1(:,:,1); w2 = opp1(:,:,2); w3 = opp1(:,:,3); else [w1, w2, w3] = getPlanes(opp1); end clear opp1; wsize = size(w1); if (dimension == 1) w1 = pad4conv(w1, length(k1)); w2 = pad4conv(w2, length(k2)); w3 = pad4conv(w3, length(k3)); disp('Filtering BW plane of image1 ...'); p1 = resize(conv(w1, k1), wsize); disp('Filtering RG plane of image1 ...'); p2 = resize(conv(w2, k2), wsize); disp('Filtering BY plane of image1 ...'); p3 = resize(conv(w3, k3), wsize); else disp('Filtering BW plane of image1 ...'); p1 = separableConv(w1, k1, abs(k1)); disp('Filtering RG plane of image1 ...'); p2 = separableConv(w2, k2, abs(k2)); disp('Filtering BY plane of image1 ...'); p3 = separableConv(w3, k3, abs(k3)); end new1 = [p1 p2 p3]; % If a second image is given, do the same filtering to the second image % and then compute the CIELAB difference between them. if (nargin>3) if (length(imsize)==3) w1 = opp2(:,:,1); w2 = opp2(:,:,2); w3 = opp2(:,:,3); else [w1, w2, w3] = getPlanes(opp2); end clear opp2; if (dimension == 1) w1 = pad4conv(w1, length(k1)); w2 = pad4conv(w2, length(k2)); w3 = pad4conv(w3, length(k3)); disp('Filtering BW plane of image2 ...'); p1 = resize(conv(w1, k1), wsize); disp('Filtering RG plane of image2 ...'); p2 = resize(conv(w2, k2), wsize); disp('Filtering BY plane of image2 ...'); p3 = resize(conv(w3, k3), wsize); else disp('Filtering BW plane of image2 ...'); p1 = separableConv(w1, k1, abs(k1)); disp('Filtering RG plane of image2 ...'); p2 = separableConv(w2, k2, abs(k2)); disp('Filtering BY plane of image2 ...'); p3 = separableConv(w3, k3, abs(k3)); end new2 = [p1 p2 p3]; end
19
clear p1 p2 p3 w1 w2 w3 k1 k2 k3; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Return Appropriate Results %% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if (nargin<4) % return filtered image1 only result = reshape(new1, imsize); else % compute difference image disp('Computing CIELAB differences ...'); result = changeColorSpace(new1, cmatrix('opp2xyz', xyztype)); result2 = changeColorSpace(new2, cmatrix('opp2xyz', xyztype)); % result = result .* (result>0); % result2 = result2 .* (result2>0); if (nargin == 6) result = deltaLab(result, result2, whitepoint, 1/3, k); else result = deltaLab(result, result2, whitepoint); end end
20
Comparaison des deux méthodes de Photoshop
L’image présentée à gauche pèse 37 ko, sa différence MSE avec l’originale est de 3,0. Sa
différence S-CIELAB est de 3867. Elle a été compressée avec la fonction « enregistrer sous ».
L’image présentée à droite pèse 32 ko, sa différence MSE avec l’originale est de 0,8. Sa
différence S-CIELAB est de 824. Elle a été compressée avec l’option « optimiser pour la
taille d’un fichier de 37 ko » de la fonction « enregistrer pour le Web. »
21
Captures d’écran
Les interfaces de visualisation des images utilisées dans la partie IV
Figure 6 : La page d'accueil et une page type du site Internet professionnel utilisé
22
Figure 7 : La page d'accueil et une page type du site Internet amateur utilisé pour l’enqu
23
Figure 8 : Un trio d'images présenté pour les évaluations sur 20
Éléments logiciels
Figure 9 : l'interface de la fonction « enregistrer pour le Web » sous Photoshop Mac OS X
24
Les images utilisées dans l’enquête et leur version originale
Images professionnelles
25
26
27
28
29
30
31
32
33
34
Images amateurs
35
36
37
38
39
40
41
42
43
44
Résultats complets de l’enquête
45
46
47
48
49
50
Why is image quality assessment so difficult ? par Zhou Wang, Alan C. Bovik & Ligang Lu
51
52
53