La perception des effets visuels de la compression JPEG

Mémoire de fin d’études et recherche appliquée École Nationale Supérieure Louis Lumière

Section Photographie Option Traitement Des Images

Promotion 2008

La réception des effets visuels de la compression JPEG par le grand public

Cyrille Robin Sous la direction d’André Gunthert et Franck Maindon Membres du Jury : Françoise Denoyelle, Pascal Martin, André Gunthert, Franck Maindon et Véronique Dürr

2



Promotion 2008

La réception des effets visuels de la compression JPEG par le grand public


3

Pour leur aide et leur soutien, merci à : Arthur Azoulay, Daniel Barillot, Pierre Bonton, Nicolas Bonnier, Clotilde Boust, Benjamin Bringier, Pierre-Yves Bronsart,

Damien Capitan, Quentin Caffier, René Chaleil, Françoise Denoyelle, William Gaye, Nicolas Granon, André Gunthert, Bruce Lindbloom, Alexandre Lissner, Franck Maindon, Pascal Martin, Christopher Martin-Prud’homme, Guillaume Moreau,

Fannie Outeiro, Ludovic Quintard, Marianne Rapegno, Bérénice Rapegno, Marie-Christine Rapegno, Françoise Robin, Alain Sarlat, Ramid Sheik, Brian Wandell,

Xueimei Zhang, le couple de Hollandais du jardin des Tuileries, les élèves du Lycée Albert Thomas de Roanne, toutes les personnes que j'ai interrogées et, pour m’avoir donné l’idée du sujet : le couple qui a trouvé réussies les photographies du Samsung

i70 à la Fnac de la Défense.

4

Résumé

La compression JPEG est une pratique courante liée à l’usage de

l’informatique dans la photographie. Elle sert à rendre plus facilement

manipulables, stockables et diffusables les images numériques. Pour cela, elle

utilise des méthodes de statistiques qui modifient légèrement l’apparence. Cette

indispensable variation de l’aspect a été conçue pour rester difficilement

détectable à l’œil humain. Malheureusement, utilisée à des taux excessifs, la

compression JPEG peut avoir de graves conséquences sur l’image en se

traduisant par de fortes dégradations visuelles. Ce défaut devient alors très

caractéristique et reconnaissable. Un œil humain ayant régulièrement été

confronté à ce défaut ne peut assurément pas l’analyser de la même manière

qu’un autre. Par ailleurs, le contenu de l’image présentant ce défaut peut

influencer le jugement que l’on apporte sur la qualité de celle-ci.

Ce travail de recherche réunit : les causes de la détérioration visuelle des

photographies numériques, les méthodes qui permettent de mesurer

objectivement cette dégradation, et une analyse du regard que porte aujourd’hui

le grand public sur la photographie numérique. On s’intéresse donc au

bouleversement des mœurs, lié à la démocratisation du numérique et d’Internet,

pour le mettre en relation avec l’évolution du regard sur les images. On travaille

à partir d’écrits théoriques pour donner des pistes de réflexion sur ce sujet, et à

partir de sources scientifiques pour donner des valeurs numériques aux

mécanismes du regard. C’est dans un dialogue entre les sciences expérimentales

pures et les sciences humaines que ce sujet se propose d’exister.

5

Abstract

JPEG compression is a common practice linked to the use of photography

with computing. It is used to make it more easy to manipulate, store and

distribute digital photographs. To this end, it uses statistical methods that change

the appearance ever so slightly.This variation in appearance was been conceived

so that it remains undectectable to the human eye. Unfortunately, used at

excessive rates, JPEG compression can have serious consequences for the

picture resulting in severe visual impairments. This defect becomes very

distinctive and recognizable. A human eye wich has regularly been confronted

with this defect can certainly not analyze a photograph in the same way as an

eye that has not. In addition, the subject of the photo can influence the

judgement that it brings on the quality.

This research brings together : causes of visual deterioration in digital

photographs, methods to measure objectively this degradation, and the analysis

of sight that the general public currently has on digital photography. Therefore,

this subject deals with changes in mentality, linked to the democratization of

digital photography and the Internet, to relate it to the evolution in the way we

look at images. We base our works an theoretical writings to give ideas of

thought on this subject, and base of works on scientific sources to give

numerical values to the mechanisms of sight. Therefore, it is by merging pure

experimental sciences and social studies that this topic becomes relevant.

6

Table des Matières

INTRODUCTION 8

I - FONDEMENTS DE LA PROBLEMATIQUE 11

1 – UN NOUVEAU REGARD SUR L’IMAGE 12 A/ LES NOUVEAUX HORIZONS DE LA PRISE DE VUE FAMILIALE 12 B/ LE RESSENTI DES IMAGES AVEC LA FACILITE DU NUMERIQUE 14 C/ L'EXTENSION DES PROFILS D'UTILISATEURS AVERTIS 18 D/ LE REGARD SUR L’IMAGE IMPRECISE 21 E/ CONCLUSION 27 2 - LE FICHIER IMAGE EN INFORMATIQUE ET LA COMPRESSION 28 A/ LA STRUCTURE DU FICHIER IMAGE 28 B/ LES FORMATS DE COMPRESSION 30 C/ LES METHODES DE CODAGE ET ALGORITHMES DE COMPRESSION 32 D/ LE FORMAT DE COMPRESSION JPEG 33

II - METRIQUES DE QUALITE D’IMAGE 37

1 - LA PSYCHOMETRIE DE LA COULEUR 38 A/ L’IDEE 38 B/ L’APPROCHE COLORIMETRIQUE 39 C/ LA METRIQUE CIE DELTA E (1976) 40 D/ LA METRIQUE CMC L:C 41 E/ LA METRIQUE CIE DELTA E 1994 : 42 F/ LA METRIQUE CIE DELTA E 2000 : 42 2 - L’EVALUATION DE QUALITE D’IMAGE 43 A/ MEAN OPINION SCORE 44 B/ ENJEUX 45 C/ MEAN SQUARE ERROR (MSE) 46 D/ PEAK SIGNAL TO NOISE RATIO (PSNR) 47 E/ LA METRIQUE S-CIELAB 48 F/ LA METRIQUE SSIM 51

III - EXPERIMENTATIONS DES METRIQUES DANS LES USAGES REELS DU JPEG 56

1 - LA COMPRESSION DANS PHOTOSHOP 59 A/ PRESENTATION 59 B/ TESTS DE LA COMPRESSION JPEG DANS ADOBE PHOTOSHOP CS3® 60 2 - LA COMPRESSION AUTOMATISEE EN LIGNE. 67 A/ SANS REECHANTILLONNAGE 68 B/ AVEC REECHANTILLONNAGE 71 3 - L’AFFICHAGE DES IMAGES SUR ECRAN 72 A/ PROTOCOLE 73 B/ CONCLUSION 76

7

IV – ENQUETE SUR LES ELEMENTS CONSTITUTIFS DU JUGEMENT DE QUALITE D’IMAGES COMPRESSEES 78

1- REFLEXION SUR LES IMAGES TESTS 79 A/ LES CHOIX TECHNIQUES DES IMAGES. 79 B/ LE CONTENU DES IMAGES A CHOISIR. 80 2- REFLEXION SUR LE CONDITIONNEMENT 82 A/ L’INTERFACE DE VISUALISATION 83 B/ LE VOCABULAIRE A UTILISER. 84 C/ LA FORME DES QUESTIONNEMENTS 86 3- CATEGORISATION DES OBSERVATEURS 91 A/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’USAGE DE LA PHOTOGRAPHIE NUMERIQUE 91 B/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’INTERET POUR L’ART ET LA PHOTOGRAPHIE. 93 C/ JUSTIFICATIONS POUR LES QUESTIONS CONCERNANT L’USAGE D’INTERNET 95 3- RESULTATS ET INTERPRETATIONS 96 A/ L’AFFECT 97 B/ LA LEGITIMITE DU PHOTOGRAPHE ET LA GENE IMMEDIATE 98 C/ CATEGORISATION DES PROFILS 99 D/ L’INFLUENCE DU PROFIL D’UTILISATEUR 100

CONCLUSION 106

BIBLIOGRAPHIE 108

8

Introduction Il y a un an et demi, je travaillais le week-end comme vendeur d’appareils

photographiques numériques dans une très grande enseigne de diffusion de

produits high-tech. J’étais chargé de démontrer la qualité des nouveaux appareils

multifonctions et de vanter leur mérite technologique, ergonomique et qualitatif.

Sur les deux premiers points, il m’arrivait de tomber d’accord avec le fabricant

que je distribuais. Étant encore en formation à l’école Louis Lumière, mon

jugement restait beaucoup plus dubitatif en ce qui concerne le troisième atout : la

qualité des images. Mon jugement d’étudiant en photographie ne faisant pas du

tout légion dans cet environnement commercial, je me gardais bien d’en faire

part à qui que ce soit et beaucoup de clients n’en avaient pas besoin pour faire

leur choix dans cette jungle des prix. Souvent, leur regard, plus tolérant que le

mien sur la qualité, s’arrêtait sur d’autres problématiques comme la couleur de

l’appareil ou le lecteur vidéo intégré. Il n’était pas rare qu’ainsi je me fasse pour

un instant, l’élève d’un amateur visiblement plus averti que moi sur la capacité

de zoom optique d’un modèle antérieur à la gamme présentée. Pour les autres,

moins avertis, le nombre de millions de pixels disponibles sur chacun des

appareils à la vente était souvent la première et unique question.

Dans ce mémoire, je ne souhaite pas critiquer ce nouvel apprentissage

orchestré par les fabricants qui consiste à enseigner au grand public des points de

comparaison simples pour l’aider à consommer sans regretter ; je propose plutôt

d’analyser comment est utilisée l’image aujourd’hui et quels sont les impacts sur

la perception de la qualité subjective des images du réel.

Quel que soit le domaine considéré, le regard d’un professionnel sera

toujours différent de celui d’un amateur, nous ne reviendrons pas sur cette

évidence. Cependant, dans la société occidentale, l’image photographique mérite

que l’on s’attarde sur son cas plus que sur un autre parce qu’elle est dotée de ces

trois attributs particuliers : elle est manipulée par tous, elle figure le réel et elle

est en pleine mutation. La diversité des profils de personnes dans leur rapport à

l’image est immense et complexe, mais un dénominateur commun lie une

majorité des nouvelles photographies visualisées aujourd’hui : le format JPEG.

9

Propulsé aujourd’hui au statut de standard, même si l’on ne peut pas encore faire

de constatations concernant l’universalité de sa pratique, il change les codes de

qualité d’image. Aujourd’hui, une image numérique non validée pour défaut

technique par un professionnel de l’image peut schématiquement présenter une

sous-définition, un défaut de bruit électronique parasite, une mauvaise

répartition des valeurs, ou une compression destructive. Ce dernier paramètre est

intéressant car il est généré après la prise de vue. S’il dégrade souvent l’image,

son utilisation à des taux de compression parfois excessifs, est couramment

observable, bien que nécessitant une intervention du photographe ou d’un

membre de la chaîne d’exploitation des images. Cette spécificité donne

beaucoup d’intérêt à son étude. Ce qui nous conduit à questionner le regard

critique de différents publics sur ce défaut, qui, de surcroît, est omniprésent sur

Internet.

On se propose dans cette étude sur les usages et les effets de la

compression JPEG sur Internet, d’éclaircir dans la première partie, intitulée

« Fondements de la problématique », les bases de ce questionnement. C’est-à-

dire, les pratiques actuelles, leur impact sur le regard des images, et les

impératifs techniques de la compression, afin de détailler les enjeux et intérêts

d’une telle recherche. Pour comprendre les nouveaux profils utilisateurs et les

nouvelles utilisations à prendre en compte par la suite, nous reviendrons sur le

bouleversement des mœurs lié à l’arrivée de la photographie numérique. Dans

cette même partie, nous définirons clairement le défaut dont il est question, et

nous exploiterons quelques exemples courants dans lesquels le regard est

confronté à des images numériques dégradées. Puis, nous développerons les

causes de cette dégradation, selon le point de vue purement technique, et les

alternatives possibles à ce format d’image standard.

Ainsi, nous en arriverons à la deuxième partie, intitulée « Métriques de

qualité d’image », où nous inspecterons toutes les tentatives d’évaluation

objective de la qualité d’image basées sur des principes de comparaison

mathématiques entre image originale et image mesurée. Développées par des

informaticiens et des spécialistes de la couleur, les métriques de différences se

multiplient en utilisant des lois-statistiques ou psychovisuelles. Cette étude sera

10

l’occasion de réunir et expliquer ces nombreuses recherches au sein d’un même

document.

Cette inspection des méthodes sera faite en prévision d’une mise à

l’épreuve des métriques de qualité d’image durant la troisième partie,

« Expérimentations des métriques dans les usages réels du JPEG », qui mettra en

œuvre les méthodes mathématiques pour les faire dialoguer avec notre

problématique des usages habituels de la photographie numérique amateur et

professionnelle. Cela nous permettra d’envisager des mesures fiables sur

différents terrains comme la compression par les logiciels, l’interprétation de

l’affichage et le partage en ligne des photographies.

Enfin, nous utiliserons tous ces éléments pour réaliser une enquête sur la

tolérance et le jugement de la qualité de photographies numériques par

différentes populations expérimentales françaises. Le jugement de la qualité

étant une valeur très difficile à modéliser car faisant intervenir des réactions

psychologiques, des influences culturelles et sentimentales ainsi que des

habitudes d’utilisation, cette étude se portera sur ces influences plus que sur

l’obtention de règles générales.

11

I - Fondements de la problématique

12

1 – Un nouveau regard sur l’image

Avec la popularisation de la prise de vue numérique à presque tous les niveaux

dans les pays développés, le rapport à l’image est bouleversé dans son essence même.

Comme on peut le rappeler pour tout sujet évoluant, on se doit de le considérer pour

l’image : l’enfant qui naît aujourd’hui ne connaîtra pas de points de comparaison avec

le passé. Ce constat évident est particulièrement pertinent aujourd’hui pour le cas de la

photographie, car, bien que le bouleversement des habitudes se soit fait sans aucune

difficulté pour le grand public, une majorité de représentants de la génération

argentique vit aux côtés d’une génération grandissante destinée à remplacer la

première et n’ayant déjà plus conscience de l’avant numérique. Qu’elle soit sociale,

publicitaire ou informative, la nouvelle image est saisie de caractéristiques jusque-là

inexistantes et ceux qui la découvrent ne peuvent agir et regarder de la même manière

que ceux qui sont pour ainsi dire nés avec. Une étude de la conjoncture de la

photographie actuelle dans son environnement doit être faite dans une première partie,

afin de mettre à jour l’évolution du rapport psychologique à l’image.

a/ Les nouveaux horizons de la prise de vue familiale

Dans le cas spécifique de la prise de vue dite familiale, hier, l’appareil

photographique était considéré au même niveau par tous les membres de la famille.

C’était un objet à part, utilisé uniquement pour capturer les plus grands moments de

vie et qu’on ne sortait que pour les occasions particulières. Pour l’anniversaire du petit

dernier, on le chargeait d’une pellicule 24 poses que l’on n’était pas sûr de remplir,

mais peut-être allions-nous avoir sur la fin la place d’y mettre les photographies du

week-end à la campagne qui avait lieu quelques semaines après. L’appareil

photographique était un objet doté d’une fonction obscure, le passage de la réalité aux

images nécessitait un temps d’attente parfois important mais aussi le passage entre les

mains d’un professionnel. Ces deux ingrédients fondamentaux, propres à la prise de

vue sociale au gélatinobromure d’argent1, produisaient un environnement mystérieux

qui contribuait à extirper le client de sa réalité pour un instant : le premier

visionnement des images sorties de la boîte. Le paradoxe qui consiste à payer

quelqu’un pour qu’il vous rende un échantillon de vos propres souvenirs renvoyait

1 Appellation chimique courante du type de film photographique prépondérant durant tout le 20ème siècle.

13

l’acte de cet achat si spécifique dans des « sphères » supérieures aux autres types de

dépenses. L’acquisition des images semblait simple, mais l’ensemble des méthodes et

de la chaîne de fabrication restait mal connu. Les longues étapes de développement,

précurseur immédiat du visionnement de l’image, étaient floues. Cette allégorie de la

boîte noire, élément principal de l’implication des images dans un réel transposé sur

papier, a aujourd’hui quasiment disparue. Par ailleurs, l’appareil est noyé au milieu

d’autres éléments technologiques, il a perdu son statut unique de « boîte à images du

réel ». Si son principe de fonctionnement n’est toujours pas évident pour tous, la

conjoncture technologique actuelle permet cependant de mieux l’appréhender. Il est un

produit de consommation comme un autre et participe à la course de la haute

technologie dans laquelle la banalisation de ses capacités de capture l’a rangé au

même niveau que le lecteur DVD. Avant de l’acheter, certains connaissent par cœur

ses caractéristiques techniques commerciales, et il arrive qu’ils choisissent un appareil

plutôt qu’un autre parce qu’il semble être à la « pointe », parce qu’il fait plus

technologique. On trouve l’appareil numérique partout. Il est dans un téléphone, dans

une webcam, les publicités crient les capacités des zooms et le nombre de pixels pour

que chacun ait ces éléments de référence. Au sein de la même famille, il n’est plus rare

d’avoir plusieurs appareils et de connaître par coeur le nombre de pixels que chacun

est capable d’enregistrer. Alors qu’il avait fallu des dizaines d’années pour que les

notions de sensibilité ISO2 soient globalement acquises par tous, l’échelle du nombre

de photosites présents sur un capteur est devenue quasiment universelle entre 2000 et

2006.

Figure 1 : Publicité en page d'accueil du site Internet de vente en ligne www.cdiscount.com, avril 2008. L'appareil photographique est vanté pour ses caractéristiques technologiques et

présenté aux côtés de matériel d’informatique. 2 Equivalentes à la norme ASA jusqu’en 1986. La sensibilité ISO est l'échelle de mesure de la sensibilité des surfaces sensibles. Les pellicules grand public varient entre 100 et 400 ISO.

14

La prise de vue en amateur n’est donc pas en crise3, mais les images sont issues

d’instants beaucoup plus multiples qu’hier, souvent plus banals et globalement plus

difficiles à trier. D’après Pierre Bourdieu4, la pratique photographique familiale a

« toujours pour fonction expresse d’éterniser les grands moments et les hauts lieux de

la vie familiale ». Cette observation, faite en 1965, n’est aujourd’hui peut-être plus

d’actualité, les instants de vie familiaux ne sont plus les sujets majoritaires et la

pratique collective de l’image s’est élargie au groupe. Face au nombre d’images

générées, beaucoup en arrivent à se demander comment ils pourront les conserver pour

l’avenir. Pour une grande partie de la population, l’acte photographique numérique

n’est toujours pas considéré au même rang que l’argentique. Contrairement à ce

dernier, il n’est pas un rituel. La facilité du déclenchement, mais surtout la possibilité

immédiate de voir son image, de l’effacer et de la remplacer, ont bouleversé la

pratique photographique.

L’existence de toutes ces différences de fond entre la photographie sociale du

20ème siècle et celle du début du 21ème est évidente pour la génération encore vivante

du gélatinobromure d’argent, mais ne restera que difficilement intelligible pour les

suivants. C’est dans une analyse par anticipation des futurs regards sur ces images

empreintes de nouvelles caractéristiques que notre sujet d’étude trouve tout son

intérêt.

b/ Le ressenti des images avec la facilité du numérique

o L’évolution du rapport au temps

Laurent Lavaud à propos de Roland Barthes et de la théorie du ça a été, écrit5 :

« La photographie isole l’instant, elle l’arrache au flux continu du temps. » Cette

citation regroupe une idée générale très courante au sujet de la photographie qui

consiste à vanter sa capacité à figer le temps. Certes, dans la durée, l’image numérique

conserve cette compétence, mais sur l’instant de l’action, le temps infime qui sépare la

prise de vue de l’observation, modifie complètement cette perception. Si

fondamentalement, le temps est toujours suspendu par la photographie, du point de

3 Voir les chiffres de vente d’appareils photographiques dans l’annexe « Etudes statistiques connexes ». 4 Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.59, Paris, Editions de Minuit, 1965. 5 Laurent Lavaud, L’image, p.228, Paris, Flammarion, 1999.

15

vue de l’opérateur, l’image obtenue dans l’immédiat appartient psychologiquement au

même présent que l’action enregistrée et la photographie perd ainsi la distance qui la

séparait des évènements, elle s’en trouve, au moins un peu, dévaluée. Il est vrai

qu’avec la technologie du Polaroid, l’image appartenant au même présent que l’action

envisagée a déjà été expérimentée. Mais plusieurs différences fondamentales séparent

le Polaroid de l’appareil photographique numérique : d’une part, l’image Polaroid

nécessite un temps de développement non négligeable, durant ces quelques minutes,

l’action évolue et les pensées de l’opérateur ont le temps de se détacher de ce qui a

été6. D’autre part, l’image Polaroid est obtenue sur support physique : elle existe dès

le début en tant qu’objet, sa destruction n’est donc pas aussi simplement envisageable

qu’en numérique. Enfin, elle a une valeur financière : ce n’est pas le cas de l’image

numérique, au moins dans la première phase de son existence. Du point de vue

perceptif, ces trois différences ne peuvent pas être négligées. Aujourd’hui, le

photographe analyse son image aussitôt, et l’efface l’instant d’après pour en faire une

autre. L’aspect physique (palpable) n’étant plus obligatoire, l’image s’affiche et

s’observe sans nécessité de préhension ou de manipulation manuelle : dans l’instant où

elle est vue pour la première fois, elle ne fait pas encore partie du monde matériel.

Le nouveau système de visée vient s’ajouter à ce détachement du réel. Dans bien

des cas, la visée ne se fait plus à l’aide d’outils optiques, mais à travers une autre

image, affichée sur un écran. Le même écran, qui, l’instant d’après, servira à visualiser

la photographie obtenue. L’existence de cette image vidéo directe rapproche un peu

plus l’image du temps de sa capture. Dans l’Image, à propos de la temporalité du

direct à la télévision, Laurent Lavaud écrit : « l’identité de présent semble abolir toute

distance entre le regard et son objet. »7 Ce même état de l’image vidéo inscrite dans

un présent est observé avec la visée par écran interposé. Ce rapport entre le présent et

l’image change la perception de celle-ci. On voit donc bien comment, à travers ces

possibilités nouvelles, le rapport entre le temps et l’image photographique est

bouleversé. Par l’écran de visualisation, l’utilisateur peut voir son résultat avant même

la fin de l’action qu’il photographie. Nous ne pouvons pas encore prédire si ce

changement de fond aura une influence sur le jugement de la qualité mais il fallait

6 « La photographie ne dit pas (forcément) ce qui n’est plus, mais seulement et à coup sûr, ce qui a été ». Roland Barthes, La chambre claire. Note sur la photographie, p.133, Paris, Editions de l’Etoile, Gallimard, Le Seuil, 1980. 7 Laurent Lavaud, L’image, p.45, Paris, Flammarion, 1999.

16

néanmoins le citer comme différence essentielle entre la prise de vue numérique et la

prise de vue argentique, et donc comme élément participatif de l’évolution du regard.

o L’évolution du nombre d’images

L’idée banale serait de lier la facilité et la gratuité de capture en numérique avec

le nombre de photographies prises par une personne au cours de sa vie de photographe

amateur. Cette constatation a déjà été faite à maintes reprises : en numérique,

l’absence de limite financière supprime un frein essentiel à la prise de vue

traditionnelle. Même si la prolixité des images a toujours évolué depuis le XIXème

siècle et la simplification des techniques, ce mouvement s’accélère aujourd’hui8. Nous

nous proposons davantage de disserter sur le regard porté sur ces images multiples de

plus en plus faciles à obtenir, que sur les causes du nombre de ces images. Grâce à la

facilité de la capture et la possibilité de revenir à tous moments sur cet acte désormais

gratuit, la réflexion antérieure à la prise de vue nécessite moins d’attention. L’exemple

de la prise de vue avec camphone9 est un bon révélateur de la différence d’intention

que la photographie numérique implique. À travers cet outil, toujours présent dans la

poche, utilisé autant dans les instants de vie ordinaires qu’extraordinaires, le rapport à

la photographie appelle désormais une notion d’enregistrement beaucoup plus

spontanée. Aujourd’hui, on a tendance à réaliser des prises de vue sans intervalles de

temps, afin d’obtenir la meilleure image du même évènement ou bien de tout

enregistrer. L’immortalisation d’un souvenir sur support physique n’est plus la priorité

de l’acte photographique, c’est davantage une capture de l’instant sous quelque forme

que ce soit qui est envisagée. Le choix des images proposées est aujourd’hui tellement

important qu’il noie le jugement dans une multitude d’instants souvent proches dans le

temps. Face à la multiplicité des images produites, il arrive que l’observation a

posteriori de chaque image se résume à quelques secondes. Cette évolution est un

autre des points constitutifs de notre problématique.

8 En 2007, 80% des possesseurs de bridge et 66% des possesseurs de compacts numériques déclarent avoir fait plus de 100 photos au cours des 6 derniers mois. Source baromètre Ipsos de la photographie pour l’Association pour la Promotion de l’Image 2007. Selon la même source, en 2003, 37% des possesseurs de bridge et 21% des possesseurs de compacts numériques faisaient la même déclaration. 9 On appelle camphone un téléphone mobile doté d’une fonction appareil photographie numérique.

17

o L’évolution de la communication par l’image sociale

Après l’instant de la prise de vue, dans la phase d’existence de l’image aboutie,

la photographie sociale a toujours été une forme de communication. Pierre Bourdieu10

a écrit : « Le fait de prendre des photographies, d’en conserver ou de les regarder

peut apporter des satisfactions dans cinq domaines : la protection contre le temps, la

communication avec autrui et l’expression des sentiments, la réalisation de soi-même,

le prestige social, la distraction ou l’évasion. » Ainsi, montrer ses images souvenir à

l’autre permet de lui faire partager sa vie en parlant de soi pour recueillir ce que l’on

veut entendre, et analyser sa propre existence à travers le regard d’autrui. La

photographie sous sa forme courante actuelle conserve cette fonction d’outil de

communication et dans certains cas extrêmes, comme les messages photographiques

téléphoniques, elle n’est plus utilisée que pour cette fonction de communication, aux

dépens de son rôle de souvenir. Ainsi, il arrive désormais que l’on capture un

événement sans aucune volonté d’enregistrement, mais seulement pour évoquer un

propos. Cet usage exclusif d’une photographie par le grand public n’a pas ou peu

connu d’antécédents. Par ailleurs pour les cas plus courants de prise de vue, on envoie

très facilement un groupe de photographies par email alors que l’on offrait rarement

des tirages par courrier. Enfin, les blogs11 pour tous les âges, toutes les catégories

sociales et tous les centres d’intérêt se sont répandus sur Internet et présentent

couramment des images. Ces plateformes de communication aux visages multiples

sont utilisées par un grand nombre d’habitants des pays développés. On partage par ce

biais des instants intimes, des autoportraits mais aussi des images d’expérimentation.

De Myspace à Facebook, de Skyrock Blog à Picasa12, le modèle est proche et le

nombre d’images téléchargées est inimaginable. La possibilité de dialoguer sur ces

images est toujours laissée au visiteur, mais l’acte de voyeurisme a dans beaucoup de

cas, pris le pas sur la communication à double sens. De ce fait, le regard est plus

rapide et se lasse plus facilement.

10 Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.33, Paris, éditions de Minuit, 1965. 11 Blog (viens de web log) : site Internet constitué par la réunion d’écrits et de tout autre contenu fourni dans un ordre chronologique, et classés par ordre antéchronologique. La particularité d’un blog est la nature de son auteur-propriétaire : il s’agit généralement d’un indépendant. On peut apparenter le blog à un journal de bord ou un journal intime. Les contenus sont aussi divers que les œuvres d'un dessinateur, l'opinion d'un journaliste, le carnet de bord d'un photographe ou les vidéos d'une classe de collège. 12 Sont des plateformes Internet permettant la création automatisée de blogs ou de pages personnelles consultables par tous. En janvier 2008, selon le site www.commentcamarche.net, Facebook totalisait à lui tout seul 967 000 inscrits en France, soit 1,5% de la population.

18

c/ L'extension des profils d'utilisateurs avertis

Longtemps mythifié par ses pratiquants aux dépens des non-initiés, on pourrait

presque se permettre d’avancer l’idée que l’usage de l’appareil à visée reflex et du

laboratoire Noir et Blanc a été l’objet de mouvements « sectaires »13 durant la dernière

moitié du 20ème siècle. Le développement des photo-clubs fut un merveilleux moyen

de « communautariser » ces personnes et de renforcer la frontière entre les

photographes et les autres. À ce propos, Robert Castel et Dominique Schnapper14

écrivaient : « Leur premier acte est de rompre avec ce qui liait la photographie à

l’institution familiale. (…) Avant même d’être capable d’une technique savante, les

nouveaux adhérents s’accordent à moquer la photographie traditionnelle ». Il faut

bien dire qu’avant le numérique, on avait parfois l’impression que les photographes se

regroupaient en communauté comme le font les motards. En outre, au sein de la

communauté, chaque membre pouvait se sentir soutenu par les plus expérimentés.

D’après Castel et Schnapper : « Le photo-club offre le moyen de passer d’une pratique

naïve à une pratique savante au sein d’un groupe qui fournit des recettes et des

savoir-faire pour l’approfondissement de l’activité photographique. (…) Le but du

club est de se réunir. »

Aujourd’hui, la démocratisation du numérique exerce une importante influence

sur ces profils d’amateurs chevronnés. Les ventes de matériel numérique de prise de

vue et d’impression photo vont bon train15. L’avènement d’Internet et la possibilité

pour chacun de s’offrir une station de travail informatique dont l’un des usages

possibles mais non exclusifs est la photographie, a simplifié l’accès à cette pratique et

à ces outils. Une multitude d’individus passionnés par l’informatique a pris conscience

des possibilités multimédias de son outil de travail et de la simplicité de l’accès à

l’information par Internet. Le pont qui permettait jusqu’au milieu du XXème siècle un

passage de la peinture à la photographie16 est remplacé par un autre, c’est celui qui lie

13 Pierre Bourdieu écrit : « C’est ainsi que les membres des photo-clubs entendent à la fois s’ennoblir culturellement en tentant d’anoblir la photographie, substitut à leur portée et à leur mesure des arts nobles, et retrouver, dans les disciplines de la secte, ce corps de règles techniques et esthétiques dont ils se sont privés en refusant comme vulgaires celles qui régissent la pratique populaire. » Un art moyen, essais sur les usages sociaux de la photographie, p. 28, Paris, Flammarion, 1965. 14 Sous la direction de Pierre Bourdieu, Un art moyen, essais sur les usages sociaux de la photographie, p.145, Paris, Flammarion, 1965. 15 Voir l’annexe « Etudes statistiques connexes ». 16 De nombreux artistes travaillaient effectivement la peinture et la photographie en parallèle. Ainsi, pour exemple célèbre, Man Ray disait : « Je photographie ce que je ne peux pas peindre ; je peins ce que je ne peux

19

l’informatique à la photographie numérique. La frontière entre les photographes et les

gens « normaux » semble plus mince qu’autrefois car l’appareil photo numérique

accuse une logique d’utilisation proche des autres outils technologiques. De plus, avec

le développement du Web 2.017, de nouvelles formes de photo-clubs sont apparues : ils

ressemblent à des forums de discussion où l’on partage ses images et ses questions en

ligne. Il faut noter que si, dans un certain sens, ces plateformes remplacent les

traditionnels photo-clubs, elles ne prétendent quasiment jamais s’intéresser à la

photographie en général, mais uniquement à la photographie numérique. Cette

spécificité est clairement annoncée dès l’entrée sur le site Internet avec la phrase

d’accroche (voir l’exemple de la figure 2). Pourtant, il ne faut pas lire cette formule en

considérant qu’elle ferme la porte aux pratiquants de l’argentique. Bien au contraire,

ce type de slogan se veut rassembleur et le club photo ouvre ainsi ses portes aux

ignares de l’argentique plus qu’il ne les ferme au puriste. Sur le plan national Français,

4 grands forums18 traitant de la photographie numérique regroupent plus de 50 000

membres. D’après la classification de Castel et Schnapper, il existait dans les années

1960, des photo-clubs réservés à une élite et d’autres, au contraire, très populaires. Les

premiers s’intéressant à la photographie pour l’art, les autres restant plus terre-à-terre,

préféraient considérer qu‘« une bonne photographie est une photographie

techniquement bonne. »

Figure 2 : L'en-tête du site Internet www.virusphoto.com. La majorité des sites français basés sur ce modèle précise leur orientation exclusivement numérique.

Si le nombre d’inscrits dans ces clubs virtuels est sans commune mesure avec

l’époque du club photo, ce nouveau photographe amateur, seul devant son ordinateur,

est noyé sous une foule d’images postées chaque jour en quête de reconnaissance, de

pas photographier. » tiré de Pierre-Jean Amar, La photographie, histoire d’un art, note de fin n°133, p.181, Aix-en-Provence, Edisud, 1993. 17 « Web 2.0 » est une expression lancée en 2004 par Tim O’Reilly, fondateur des éditions O’Reilly. Elle désigne à la fois un nom et un adjectif,. On qualifie de Web 2.0 les interfaces permettant aux internautes d'interagir à la fois avec le contenu des pages mais aussi entre eux. 18 www.pixelistes.com (11 000 membres), www.virusphoto.com (16 000 membres), www.parlonsphoto.com (17 000 membres), www.aupetitforum.com (8000 membres) fonctionnent tous selon les mêmes principes. En moyenne, on compte entre 50 et 100 membres connectés sur chaque site à chaque instant durant la journée.

20

critiques et de conseils. Les relations d’échange que l’on observait alors dans les

anciens clubs photos ne sont pas réitérées, le dialogue entre deux personnes, se

limitera souvent à un ou deux messages au travers d’un fil de discussion réunissant

déjà une vingtaine de participants totalement anonymes entre eux. On assiste moins à

une logique visant à tisser des liens amicaux, mais plutôt à une « contribution »

participative de la part de chacun. Il faut cependant nuancer nos propos en soulignant

que l’on remarque sur ces sites Internet l’existence d’un cercle de participants non

anonymes entre eux, beaucoup plus actifs que la majorité. Ainsi l’éducation de la

technique et du regard ne se fait pas selon les mêmes voies qu’autrefois. le résultat

obtenu en sera-t-il différent pour autant ? Assurément oui, les plus remarqués d’entre

eux le sont à travers des images très techniques et la part de création personnelle en est

amoindrie car le jugement peut se faire en un coup d’œil, sans connaître l’identité ou

les antécédents du photographe amateur concerné. L’autre élément responsable de

cette évolution est le nouveau moyen d’accès au traitement de l’image

photographique : le pont entre l’informatique et la photographie ne peut pas donner les

mêmes profils d’artistes que le pont entre la peinture et la photographie autrefois.

Sur le plan international, la répartition n’est pas la même et Flickr.com, la

plateforme développée par Yahoo ! détient le monopole du genre. Flickr affiche 23

millions de membres inscrits dans le monde et 900 000 en France19. Ce site Internet

est devenu un élément d’étude sociologique incontournable, mais son principe

d’échange n’est pas comparable avec les relativement petits forums cités plus haut.

Sur Flickr, l’échange ne se fait pas pour se perfectionner ou dialoguer de points

techniques, sur Flickr, le partage des images est la priorité. Il mélange à la fois des

photographes créatifs, que l’on peut qualifier d’avertis, et des utilisateurs lambda. A

travers Flickr, la communication par l’image est à son paroxysme, pour accélérer et

stimuler la navigation, des tags20 de description stimulent et varient les méthodes

d’exploration des contenus. Pourtant, d’après une étude réalisée en 200621, seulement

4 % des inscrits détenaient 60 % des photographies mises en ligne. Ces utilisateurs

19 Source interview de Kakul Srivastava, directrice du développement de Flickr par Isabelle Boucq (01net.com) en date du 3 mars 2008. 20 Un tag est un mot-clé ou un terme associé à une image. Il participe à sa description et permet une classification des informations basée sur le principe de mots-clés. Dans le mouvement Web 2.0, on utilise souvent les nuages de tags, pour évoquer d’un coup d’œil tous les liens relatifs au contenu considéré. 21 Tiré de Christophe Prieur, Dominique Cardon, Jean-Samuel Beuscart, Nicolas Pissard et Pascal Pons, Université Paris-Diderot, Orange Labs, « The stength of weak cooperation : a case study on Flickr », in Projet de recherche Autograph, Paris, 2006.

21

étant les membres disposant d’un compte « pro », payant, on peut supposer qu’ils

correspondent effectivement à des professionnels mais surtout à des amateurs

suffisamment avertis pour payer l’adhésion et nécessiter les services supplémentaires.

Globalement, ils affichent des profils parallèles aux participants les plus remarqués

des forums évoqués précédemment, ou ils sont des anciens membres de ce type de

forum, qui, il faut le dire, sont en déclin. Flickr est donc un site à part, qui n’est ni

consacré à la photographie semi professionnelle ni consacré à la photographie

familiale.

On trouve donc un nombre incommensurable de photographies sur Internet,

issues de millions de sources différentes. Quoique, un élément en relie la majorité :

leur format de fichier. Sur Flickr, Facebook ou Myspace, qu’elles soient de type

amateur, amateur averti ou professionnel, toutes les images photographiques sont

compressées au format JPEG. C’est ce format qui nous intéresse aujourd’hui,

positionné comme un standard indéniable, mais qui impose pourtant dans bien des cas,

des caractéristiques visuelles évidentes.

d/ Le regard sur l’image imprécise

Le JPEG est un format de compression destructif22 et lorsque celle-ci devient

importante, les dégradations sur l’image peuvent être telles que, pour ceux qui les

discernent, il n’est plus possible de ne pas considérer qu’elles prennent une part

importante au contenu de l’image. Pour considérer l’évolution du regard avec les

nouvelles techniques, nous nous devons de citer les sources principales d’images les

plus dégradées ; elles s’en trouvent être, par ailleurs, les garantes de l’éducation du

regard du grand public. Ainsi, celles qui sont les plus évidentes à mettre en avant sont

les images d’information ou journalistiques, car bien souvent, les photographies

domestiques ne présentent pas de défauts de compression JPEG aussi importants que

certaines de ces images amplement diffusées. Ce paragraphe n’a pas pour ambition

d’accuser une quelconque pratique, ni de critiquer l’usage d’images de mauvaise

qualité, mais de regrouper des exemples clés dans lesquels le regard a pu être

confronté au JPEG ou à des dégradations analogues, et d’en tirer des conclusions sur

l'apprentissage visuel de la compression.

22 voir I/3-La compression d’images.

22

o L’apprentissage visuel de la compression

Dans le reportage et dans l’information, ces dégradations sont parfois causées

par le journalisme citoyen23, et on a coutume d’accuser certains journaux de se

gargariser de fournir des images floues ou mal définies en toute connaissance de

cause, parce qu’ils savent que le défaut sera visible de tous et qu’il permettra de

soutenir la sensation de réalité24. Autrefois, le défaut était le grain ; aujourd’hui, c’est

une pixellisation ou une compression abusive. Si cette présentation d’images

dégradées est effectivement issue d’une volonté du périodique, alors c’est qu’il postule

que son lecteur saura, inconsciemment, lire ce défaut pour classer l’image dans la

catégorie des « scoops ». En effet, quel intérêt y aurait-il à introduire un défaut s’il

n’était pas, visible et donc, inconsciemment, interprétable par le lecteur ?

Figure 3 : Un exemple de compression JPEG sur une image de reportage lors du tsunami de décembre 2004. Gurinder Osan/AP Photo.

L’image de gauche a été trouvée sur le site Internet de ABC News, (http://abcnews.go.com), l’image de droite a été dégradée pour les besoins de la démonstration.

Christian Caujolle écrivait à propos d’une photographie numérique amateur du

tsunami de l’Océan Indien en 2004 qui fit la couverture de Paris Match : « La

présence, visible, du pixel dans la presse n’est jamais que la sanction ou juste la

23 Le journalisme citoyen est l’utilisation des moyens de prise de vue du grand public pour diffuser l’information sur un événement notable. Le journalisme citoyen est considéré comme « jouant un rôle actif dans les processus de récupération, reportage, analyse et dissémination de l'actualité et de l'information». Tiré de Shayne Bowman et Chris Willis, in We media : how audiences are shaping the future of news and information, rapport de l’institut américain de la presse, Reston, Virginie, 2003. 24 « …si des images plus esthétiques ne sont pas envisageables dans ces magazines, ce n'est pas pour la seule question financière, c'est d'avantage parce que le lecteur est plus crédule devant le simple (sans artifices) que devant une image esthétisée…» tiré de Pierre-Yves Bronsart, Le photojournalisme décèderait-il, in Tapage n°15, Paris, 2006.

23

matérialisation d’un état de l’image aujourd’hui. Un état qui relève (…) d’un codage

numérique du réel dans les limites d’un cadre, avec les conséquences, visuelles,

techniques et interprétatives, qui en découlent. »25 À travers ces lignes, Christian

Caujolle évoque principalement le journalisme citoyen dans son opposition et sa

compétition avec le photojournalisme professionnel. Il n’est pas pour nous, le sujet

d’étude proprement dit, mais il est un élément fondateur des images dégradées les plus

couramment visibles aujourd’hui dans les médias. Dans la trame de cette citation, on

lit bien que le défaut technique des images présentées dans les journaux prend part au

discours et que le réel est ainsi travesti par une mauvaise lisibilité de l’image qui,

involontairement, ou non, apporte une autre information maîtrisée, ou non, que le

contenu considéré.

Partons de l’expérience suivante, simple à réaliser qui consiste à entrer les mots

clés « Ingrid Bétancourt » dans l’outil de recherche d’images de Google. Les quelques

images désormais tristement célèbres de cette femme politique, sont toutes empreintes

de défauts visuels. Ici, aucun journalisme citoyen n’est venu troubler la qualité des

images mais les dernières qui ont été largement diffusées sont des captures de vidéos

réalisées par les médias. Le référent réel derrière cette « pixellisation » ou ce « flou »

engendré par la compression, vidéo dans un premier temps26, puis JPEG dans le temps

de la diffusion Internet, est un réel qui se trouve esthétiquement caractérisé selon des

défauts connus et reconnaissables par certains. Sur Internet, chacun ayant repris, à son

compte, ces captures vidéos, on trouve désormais un grand nombre d’exemplaires de

la même scène, très différents colorimétriquement, à des niveaux de compression très

variables et avec des cadrages également changeants. La gêne face à ce défaut de

qualité ne sera effective que chez très peu de personnes, l’image étant proposée dans

chaque environnement sans les alternatives existantes. En revanche, la simple

constatation de ce défaut de qualité est possible pour un public beaucoup plus large.

C’est là que la question finale de notre étude est posée : qui est sensible à ces

nouveaux défauts de l’image ? Revenons sur la dernière preuve de vie diffusée

d’Ingrid Bétancourt (figure 3), en date du 24 octobre 2007 : la scène est dramatique,

inquiétante, la jeune femme est maigre, vue en plongée, son regard triste est baissé.

Chaque Français, adolescent ou adulte, a été exposé au moins une fois à cette image, 25 tiré de Christian Caujolle, Mort et résurrection du photojournalisme, in Le Monde diplomatique, Paris, Mars 2005. 26 La compression vidéo MPEG, qui est la plus courante, se base sur les mêmes algorithmes que le JPEG.

24

par le biais de la télévision, d’Internet ou d’un journal, elle pourrait presque être une

icône de notre sujet d’étude. Elle est compressée et sa compression se voit, elle

aggrave le sujet. Dès lors qu’elle est vue à travers ce filtre, l’image se charge d’une

histoire contemporaine usée et d’une réalité crue et déformée. Cette réinvention de la

réalité trouble le jugement et l’on ne peut décemment plus nier l’impact de la

compression dans le rapport à l’information. Il y a donc une part de l’information qui

est tronquée dans ces images, pas suffisamment définies pour satisfaire l’œil. Le

regard d’un professionnel sur celles-ci sera différent de celui d’un amateur. Pourtant,

dans les deux cas, une reconstitution mentale des éléments perdus par la compression

risque d’être accomplie. Dans quel cadre cette reconstitution est-elle consciemment

opérée et dans quel cadre est-elle la plus importante ?

Figure 4 : Parmi toutes les versions diffusées, deux exemples significatifs des différences observables et de la qualité tolérée par certains acteurs du Web.

Parmi les images que l’on trouve sur Internet, aucune respectant des critères de

qualité standard n’a été diffusée largement au grand public27. Ingrid Bétancourt n’a

donc pas encore été révélée « nette » aux yeux de tous et toutes les images sont

estampillées : numériques. Ainsi, on peut dire que, depuis des mois, personne n’a eu

accès à une image de cette femme représentant la réalité sans le défaut.

Physiologiquement, l’image n’étant pas suffisamment définie pour contenter l’œil, une

part de l’imagination du spectateur doit remplir le manque d’informations fournies par

celle-ci. La question que l’on se pose alors est : Quelle est la part d’imagination

visuelle dont doit faire preuve chaque spectateur pour compléter le manque ou pour

27 Bien qu’on en trouve quelques exemplaires après une recherche approfondie.

25

effacer le voile de la dégradation ? À cette question, on répondra qu’assurément, la

part d’imagination nécessaire à une reconstruction fidèle de la scène est

proportionnelle au niveau de dégradation de celle-ci. Mais là où l’on s’interroge, c’est

qu’elle n’est peut-être pas identique pour tous. Dans ce cas, une deuxième question

pertinente arrive : quel spectateur utilisera le moins son imagination pour visualiser

mentalement la scène ? À cette question, il existe trois réponses possibles : celui qui

n’a aucune culture visuelle de la photographie, son opposé, ou quelqu’un qui

connaîtrait parfaitement le visage à « reconstituer ». On ne peut répondre à cette

question aussi simplement qu’à la première, mais il est évident qu’au moins l’un de

ces trois paramètres a une influence.

Descartes écrit à ce sujet28 : « il faut au moins que nous remarquions qu'il n'y a

aucunes images qui doivent en tout ressembler aux objets qu'elles représentent : car

autrement il n'y aurait point de distinction entre l'objet et son image : mais qu'il suffit

qu'elles leur ressemblent en peu de choses ». Si les images ne ressemblent pas

fondamentalement à leurs modèles, c'est parce que c'est le sujet qui élabore ses

représentations à l'occasion de l'image et surtout qui détermine son degré de croyance

en une ressemblance. Ainsi, l'un verra dans la photographie de l’otage une

reproduction juste (l’image restitue le désarroi) et l'autre décèlera l'écart entre

l'original et la copie. Chacun utilisera donc son imagination en proportion de l'effet de

croyance engendré par l'image, effet de croyance qui témoigne du succès ou non de la

fonction de l'image à se substituer au réel. Cet effet varie selon les individus. Selon

Descartes, l’imagination est donc principalement motivée par des sources subjectives

et les éléments de connaissance objectifs se feront dépasser par la volonté d’exprimer

un concept capable d’excéder la signification première.

Dans la sphère aujourd’hui très explorée de la vidéo sur Internet, les

technologies actuelles causent obligatoirement une dégradation encore plus importante

que l’image fixe. Au sein de la génération grandissante, on trouve des jeunes qui,

n’étant pas équipés de téléviseur, alimentent leur soif d’actualité vivante avec le seul

usage d’Internet et les plateformes de diffusion telles que www.dailymotion.com pour

la France et www.youtube.com29 pour l’international. Ainsi, par exemple, il n’est pas

28 Tiré de La Dioptrique, discours quatrième, 1637. 29 Dailymotion et Youtube sont des plateformes de partage en ligne de vidéos de tous types, amateurs ou professionnels. À l’instar de Flickr pour la photographie, on peut aujourd’hui affirmer que l’impact de ces outils

26

rare qu’après un an de gouvernance du président Sarkozy, certains d’entre eux avouent

n’avoir jamais vu d’image vidéo de lui dénuée d’un fort caractère de compression. Le

voile sur la réalité qui s’en trouve généré ainsi s’efface petit à petit avec l’habitude et

l’acceptation de cette image inexacte est inexorable. C’est seulement lorsqu’une image

parfaitement « nette » du même contenu sera enfin visionnée (à la télévision par

exemple) que la nature travestie de la première référence est dévoilée au grand jour.

Cette projection dans la réalité imposée par la nécessité d’y croire est valable pour tout

contenu diffusé sans éléments de comparaisons sur un temps conséquent. Cette

remarque effectuée amène évidemment à se questionner sur l’accoutumance de tels

défauts et sa conséquence sur le jugement de qualité d’images à venir.

o Là où le voile de la dégradation ne peut plus s’occulter

Dans le regard sur l’image en général, il est tout à fait courant d’entendre la

phrase suivante, preuve d’un amalgame évident : « ce que je vois c’est ça » au lieu de

« ce que je vois c’est une photographie de ça ». Si le filtre de la photographie n’est

plus suffisant pour décoller l’image du réel, un filtre de dégradation très intense pourra

peut-être rendre à l’image sa nature représentative et la détacher à nouveau de son

référent.

C’est ce qu’a expérimenté le photographe allemand Thomas Ruff, dans son

livre, Nudes30, où il publie des images brouillées par des traitements numériques.

Partant de contenus pornographiques rassemblés depuis Internet, il détériore la

structure de l’image jusqu’à la limite du lisible. Ces images sont tellement peu lisibles

qu’elles nécessitent de la part du spectateur, un important travail de reconstruction par

l’imagination. Même si toutes sont issues d’une recherche Internet, ne nous

fourvoyons pas, la problématique de Ruff se porte beaucoup plus sur le rapport entre

le spectateur et le sexe que sur le rapport entre le regard objectif et subjectif d’images

dégradées. Néanmoins, la considération qui nous intéresse dans cet exemple est que, le

spectateur, confronté à un défaut inhabituel et tenté par sa curiosité, se retrouve

confronté à lui-même pour un instant de réflexion intime où il cherche à reconnaître

des éléments connus dans l’image afin de mettre au grand jour la réalité de la scène

derrière le filtre de la photographie. La scène photographiée est bel et bien inscrite est sans précédent depuis la télévision. En 2006, d’après Le Journal du Net en date du 09/08/06, Youtube diffusait déjà plus de 100 millions de vidéos par jour. 30 Thomas Ruff, Nudes, éditions Harry N. Abrams, 2003.

27

dans un passé, mais pourtant, après le passage de Ruff, la lecture de l’image et de ce

qui a été doit traverser un filtre de plus. Instinctivement et sans possibilité de contrôle,

le regard du spectateur examine attentivement ce qu’il croit reconnaître. Ce n’est que

lorsque l’image mentale qu’il produit à partir de la photographie et de son

imagination, lui parvient claire et nette, qu’il prend conscience de ce qu’il a sous les

yeux et qu’il se sent lui-même violé dans cette intimité de l’imagination qui est la

sienne.

Figure 5 : Thomas Ruff, Nudes, 2003.

e/ Conclusion

Après ce bref aperçu psycho-sociologique des nouveaux usages de l’image et de

leur impact sur le regard des photographies, nous en concluons qu’effectivement,

chaque personne accusera un ressenti différent face aux images compressées ou

dégradées. Un amateur passionné qui n’a jamais été sur Internet, ne consulte pas les

nouveaux médias et qui ne photographie pas en numérique, un adolescent qui pratique

une activité intense de partage de photographies et de vidéos numériques sur le Web,

un amateur occasionnel du numérique : chacune de ces personnes présente une

confrontation différente avec l’image dégradée. Des catégories générales parmi la

population pourraient ainsi être dégagées afin d’analyser l’évolution du regard

subjectif sur ces images selon les profils. Avant de s’aventurer dans une telle enquête,

nous devons appréhender techniquement et fondamentalement de quelle image il est

question.

28

2 - Le fichier image en informatique et la compression

Intéressons nous dans des termes plus techniques au fondement de cet usage

d’images numériques, c’est-à-dire la capacité d’enregistrer une image dans un code

numérique, mais aussi le choix d’alléger ce code numérique, bien que cela puisse avoir

des conséquences sur l’apparence de l’image considérée. Donner la description la plus

théorique de la photographie numérique nous permettra également d’envisager tous les

fichiers numériques dont il est fait part dans cette étude et de cerner leurs limites

techniques et leur intérêt tout en abordant les horizons de la recherche dans le domaine

du stockage de l’information visuelle en code électronique. Après quelques rappels de

vocabulaire sur le format de fichiers image, nous verrons dans cette partie comment et

pourquoi l’information photographique est compressée.

a/ La structure du fichier image

Intéressons nous à la structure générale d’un fichier informatique image pour

revenir sur les bases de vocabulaire utilisées tout au long de ce document. Un fichier

est composé d’une suite de codes, décrivant de manière numérique le contenu de

l’image. Couramment, on symbolise ce code en une suite de 0 et de 1. Dans l’ordre de

lecture, on trouve tout d’abord l’en-tête, appelé header, il fournit toutes les

informations descriptives nécessaires de base. Le premier code que l’on peut y lire est

appelé le magic number, il représente le format du fichier31. C’est ce code, et non

l’extension fournie dans le nom du fichier qui donne l’information du format d’image

au système d’exploitation. Dans l’en-tête, on trouve aussi la taille de l’image32, et sa

profondeur de codage33. Des valeurs courantes de profondeur de codage sont les

suivantes :

- 1 bit, correspond à des images binaires donc noir et blanc.

31 Le format d’un fichier en informatique est le type de données écrites et son organisation. Pour chacun d’entre eux, les logiciels et systèmes d’exploitation doivent contenir un code permettant son chargement et dans le cas d’une image, son affichage. Le format d’une image détermine sa qualité, son usage, son poids et son aspect. 32 La taille de l’image est le nombre d’éléments strictement unitaires la constituant en longueur et en largeur. Chaque élément unitaire code pour une couleur uniforme, il est appelé pixel. 33 La profondeur de codage, par analogie avec un cube, est la troisième dimension de l’image. Elle précise la taille d’un pixel, c’est-à-dire, la valeur numérique maximale que peut prendre un pixel.

29

- 8 bits, correspond à des images codées entre 0 et 25534. Elles seront

monochromes ou en couleurs indexées. Dans ce document, on utilisera

souvent le terme, niveaux de gris, pour définir les images monochromes.

- 24 bits, correspond à des images codées sur 3 x 8 bits. Chaque pixel est alors

défini par trois composantes qui correspondent aux niveaux de 3 couleurs

primaires. Pour un pixel, on aura 2563 teintes possibles.

Figure 6 : La même image codée sur 1 bit, 8 bits niveaux de gris puis 24 bits Rouge Vert Bleu

Après l’en-tête, viennent les données images proprement dites. À la manière

d’un tableau, elles codent pour l’intensité lumineuse de chaque pixel. En réalité, dans

le corps du fichier, beaucoup de formats ne contiennent pas de données images brutes

aussi simplement que ça. Un autre code vient s’ajouter à celui qui représente les

valeurs numériques de chaque pixel, c’est un code de compression, dont le principe est

d’alléger l’espace de stockage pour le support informatique. Dans ce cas, l’en-tête du

fichier doit contenir tous les paramètres et données supplémentaires utilisés par le

codeur lors de son enregistrement. Le décodeur lira ces informations et appliquera la

méthode pour déduire à partir du code compressé, les données image affichables. La

structure détaillée des formats compressés peut être extrêmement complexe et nous ne

détaillerons que les méthodes utilisées.

Pour un échange efficace et une bonne diffusion des images numériques,

l’habitude a été prise de faire des copies des fichiers originaux. Deux enjeux sont

essentiels au bon déroulement de ce modèle : le poids des fichiers copies35, et leur

34 En réalité, 1 bit correspondant d’un point de vue purement informatique à un choix entre la valeur 0 et 1, une image de 8 bits offre pour chaque pixel, 28 possibilités. 35 Représente l’espace nécessaire sur le support de stockage de fichiers nécessaires. Cet espace se mesure en octets. Couramment, on regroupe les octets en Kilooctets (1 Kilooctet = 210) puis en Mégaoctets (1 Mégaoctet = 210 Kilooctets).

30

similitude visuelle avec l’original. Alléger le poids numérique d’une photographie en

vue de simplifier son transfert, d’accélérer son affichage ou tout simplement d’alléger

le support de stockage, est une action désormais journalière. Majoritairement effectuée

dès la prise de vue à l’intérieur même de l’appareil, cette étape est très souvent

totalement transparente pour l’utilisateur, on appelle cette action : la compression.

Tous les formats de compression de photographie numérique sont généralement

pensés dans le but d’obtenir le meilleur ratio quantité d’informations/poids de fichier.

Si aujourd’hui le format JPEG a tendance à s’imposer pour toutes les applications

courantes, c’est pour plusieurs raisons, dont l’une des premières est le très bon ratio

quantité d’informations/poids de fichier qui paraissait spectaculaire il y a seulement

une dizaine d’années. De plus, la norme JPEG ISO/IEC IS 10918-1 est arrivée en

199236, donc au moment même de la démocratisation de l’image numérique.

b/ Les formats de compression

Lorsque l’on compresse un fichier image pour en faire une copie de poids

inférieur, il existe deux méthodes, que l’on qualifie de compression avec ou sans

pertes. La première offre des possibilités de gain d’espace disque incomparables, mais

la deuxième assure, lors de l’affichage, une identité parfaite entre la copie et l’original.

o Les formats de compression sans pertes existants sont :

- TGA : désigné aussi TARGA, ce format a été initié pour le logiciel du même

nom par la société True Vision. C’est un des plus anciens formats de

compression d’images, il est basé sur un codage RLE37.

- GIF (Graphic Interchange Format) : en réalité, même s’il est classé dans la

catégorie des formats sans pertes, GIF doit opérer une indexation des

couleurs à partir de l’original. Il fonctionne sur 8 bits uniquement, donc si

l’image originale ne contient pas plus de 256 valeurs différentes utiles, il n’y

a effectivement aucune perte. C’est aussi un format très ancien, mais celui-

ci, contrairement à TGA, est encore beaucoup utilisé. Il fonctionne sur un

36 Sous l’impulsion des comités : International Standard Organization (ISO), Comité Consultatif International sur le Télégraphe et le Téléphone (CCITT) et Jpeg File Interchange Format (JFIF). 37 Run Length Encoding. Voir I/2/c.

31

algorithme LZW38 et a tendance à être concurrencé par PNG, car LZW n’est

pas un algorithme libre de droit.

- PNG (Portable Network Graphiques) : entièrement libre de droit, il a été

conçu par le W3C39 pour devenir une référence en image sur Internet et

supplanter GIF. Sa compression est généralement basée sur l’algorithme

LZ77. Contrairement à GIF, il n’oblige pas l’indexation des couleurs, et en

mode 8 ou 24 bits, il permet une transparence sur 256 niveaux.

- TIFF (Tagged Image File Format) : développé par la société Adobe, c’est le

plus complet des formats en termes d’options d’enregistrement. Il permet

une compression sans pertes avec un choix entre l’algorithme RLE et LZW.

- JPEG (Joint Photographic Expert Group) : aussi surprenant que cela puisse

paraître, il existe un type de format de compression JPEG sans pertes. Il est

très rarement utilisé à l’heure actuelle. La compression sans pertes du JPEG

se base sur les algorithmes DPCM40.

Les formats de compression avec pertes autres que JPEG sont :

- TIFF : peu utilisé, TIFF propose effectivement un format de compression

avec pertes. Il est en réalité basé sur la norme JPEG/JFIF, donc son rendu

visuel est proche de celui d’un JPEG.

- FPX (FlashPix) : proposé en 1996 par 4 sociétés du monde de la

photographie et de l’informatique41, sa structure est complexe. Il stocke

l’image en différentes définitions selon une structure hiérarchique

pyramidale. La plus haute définition étant à la base et la plus faible, de 64 x

64 pixels est au sommet. Chaque niveau constitue le quart du niveau

inférieur et est découpé en tuiles de 64 x 64 pixels. Il permet pour Internet un

38 Cet acronyme vient du nom des inventeurs de l’algorithme qu’il désigne : Lempel, Ziv et Welch. Il est basé sur le LZ78, lui-même basé sur LZ77. Voir le paragraphe sur les codages et algorithmes de compression. 39 Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de normalisation fondé en 1994 pour promouvoir la compatibilité des technologies utilisées sur Internet. Le W3C n'émet pas des normes au sens européen, mais des recommandations à valeur de standards industriels. 40 Differential Pulse Code Modulation. C’est une procédure de conversion analogique-numérique dans laquelle les données sont échantillonnées de telle manière que la différence entre le signal analogique réel et la valeur prédite de chaque échantillon soit encodée en une valeur numérique. 41 Kodak, Hewlett-Packard, Live Picture et Microsoft

32

chargement progressif ou un affichage partiel. S’il n’est pas la référence

aujourd’hui, c’est parce que le poids des images est bien supérieur à des

images JPEG classiques.

- JPEG-2000 : la norme la plus récente développée par le comité JPEG/JFIF

devait remplacer le JPEG et le TIFF. La compression se base sur une analyse

mathématique complexe du signal image appelée la transformation en

ondelettes. Les performances de compression de JPEG 2000 sont bien

meilleures que JPEG mais l’un des intérêts premiers réside en réalité dans la

structure de ses données. Elle permet des modes de décompression

progressive indépendante du mode de compression et de nombreux

paramétrages. Malheureusement, on peut supposer que JPEG-2000 ne

deviendra jamais un format standard aussi répandu que JPEG car son

utilisation est soumise à des brevets de propriété intellectuelle.

c/ Les méthodes de codage et algorithmes de compression

On ne peut pas effectuer une recherche sur la perception des défauts de la

compression sans étudier les fondements techniques et mathématiques de la

compression, c’est-à-dire les algorithmes de base. Ce sujet étant très vaste et

nécessitant de fortes connaissances en mathématiques et informatique, nous nous

limiterons aux fondements principaux.

o Le codage RLE (Run Length Encoding)

Il fonctionne sur une utilisation des plages uniformes des images. Il est plus

efficace pour les images synthétisées que les photographies. On divise l’image en

paquets de taille variable répétant la même valeur et on note dans le code l’événement

de probabilité Pi, qui correspond à la ième suite de valeurs répétées, et le nombre de

répétitions de cet événement. À partir de la suite de valeurs suivante :

50/50/50/50/52/52/52/50/50/50/48/48/50/49/49/49

La méthode RLE donnerait la séquence suivante :

P0(50,4) P1(52,3) P2(50,3) P3(48,2) P4(50,1) P5(49,3)

33

o Les algorithmes LZ*

Tous les algorithmes disponibles sous l’appellation LZ* découlent du premier

d’entre eux, le LZ77. Ces techniques de codage incorporent dans le code une part de la

structure des données. On les appelle codages par dictionnaire ou codages par

substitution de facteurs. Dans ces techniques, l’algorithme construit une liste de

motifs, le dictionnaire. Un motif étant une suite de valeurs numériques répétée

plusieurs fois dans l’image, lorsqu’un motif est lu pour la deuxième fois, la valeur

enregistrée dans le fichier compressé n’est pas le motif lui-même, mais un pointage

vers le dernier emplacement trouvé pour ce motif. On comprend aisément que

l’efficacité de ce codage par dictionnaire réside dans un bon rapport entre la taille du

dictionnaire et la taille des séquences clés indexées. Ce type de compression sans

pertes est aussi utilisé dans certains utilitaires généraux de compression comme

Winzip®.

d/ Le format de compression JPEG

Il est réputé pour son bon traitement des données complexes spatialement et

spectralement, c’est pourquoi on l’utilise pour les photographies et non pas pour les

images de synthèse. Il ne traite que des images en tons continus42, accepte différentes

profondeurs de codage, mais ne supporte pas la transparence. Notons que la norme ne

recommande pas d’utiliser le JPEG pour des images RVB, mais pour des images

YCbCr43.

La technique de compression est à diviser en deux parties :

- une partie non destructive basée sur une combinaison entre les algorithmes

DPCM et RLE.

- une partie destructive qui se base sur une quantification de coefficient

obtenue après l’application d’une Transformée en Cosinus Discrète (DCT)

sur des blocs de 8x8 pixels.

42 C’est un abus de langage qui fait opposition avec les couleurs indexées. Comme tout signal numérique, les couleurs en tons continus sont en réalité assujetties à des valeurs discrètes. 43 L’espace YCbCr est un espace de codage des couleurs utilisé en vidéo numérique. Y code pour la luminance, Cb pour le bleu et Cr pour le rouge.

34

Pour expliquer les processus complexes qui agissent dans la première partie,

prenons comme exemple une matrice de 8x8, échantillon sous forme d’un bloc

JPEG d’une image 8 bits (tableau 1).

100 155 131 116 151 135 131 211

120 135 127 88 155 131 155 179

120 135 151 100 179 116 155 167

120 155 151 108 191 112 155 179

135 151 135 120 197 112 179 179

120 151 155 151 151 116 179 179

135 151 167 167 151 151 167 171

120 151 179 151 151 131 155 167

Tableau 1

L’algorithme soustrait d’abord le nombre 128 à chaque valeur de la matrice ce

qui permet de conserver une plus grande dynamique pour prévenir des modifications

qui vont être engendrées par le processus. La DCT décompose la matrice originale sur

des bases de fonctions propres, c’est-à-dire définies par leurs matrices. Sur la matrice

DCT (i,j), les axes représentent les fréquences du signal en deux dimensions.

!

DCT(i, j) =1

4CiC j I(x,y)cos

2x +1( )i"16

#

$ %

&

' ( cos

(2y +1) j"

16

#

$ %

&

' (

y= 0

7

)x= 0

7

)

Équation 1 : La formule de calcul de la DCT pour un bloc d’image 8*8 bidimensionnel.

I(x,y) représente les emplacements de chaque pixel un à un considérés. Ci et Cj sont des constantes telles que :

!

i, j = 0" Ci,C j =1 2

i, j # 0" Ci,C j =1

$ % &

' &

Lire la formule de la DCT nous permet de remarquer que pour la calculer en

chaque point, il est indispensable de parcourir toutes les valeurs de la matrice

considérée. Ce qui revient à dire que pour une image de 1024x768, on aurait 786 432

termes à sommer pour chaque cellule d’un tableau de mêmes dimensions. Ce calcul

très lourd n’est pas envisageable car il ralentirait considérablement l’affichage des

images JPEG. Par ailleurs, la formule nécessite des matrices carrées. Elle est

irréalisable avec un tableau dont la longueur n’est pas égale à la largeur. C’est pour

35

ces deux raisons que l’algorithme prend soin de découper l’image en blocs carrés de

8x8 pixels avant d’effectuer la DCT. Lors du décodage de l’image, l’algorithme utilise

une autre formule : la DCT inverse44. Si la reconstitution de l’image se faisait

maintenant, il n’y aurait, en théorie, aucune modification dans les valeurs des pixels,

ces deux formules étant strictement réversibles.

145 -84 34 -69 42 -32 -3 8

-45 -28 28 19 10 -4 5 0

15 27 -8 -15 -9 0 8 -4

9 -14 15 -11 5 8 -12 -13

1 1 3 -11 7 -12 -4 0

18 4 -17 -10 4 -10 7 -6

-5 1 -7 -10 1 -1 -3 4

3 1 1 5 2 7 2 -1

Tableau 2 : Matrice résultante de la DCT appliquée au tableau 1.

Comme il est montré en exemple dans le tableau 2, la DCT organise l’ordre des

coefficients en fonction de leur valeur absolue. De cette manière, elle sépare les plus

fortes valeurs absolues des plus faibles. En lisant les valeurs de gauche à droite et de

haut en bas, on remarque que celles-ci décroissent jusqu’au minimum dans le coin

inférieur droit. Une forte valeur absolue dans la matrice DCT représente une basse

fréquence de l’image et vice-versa. Des études ont montré que l’œil était moins

sensible à des stimuli dans les hautes fréquences que dans les basses. Cette

particularité va être utilisée dans le processus compressif suivant45. Il s’agit

maintenant de diviser tous les coefficients de la matrice DCT par un pas de

quantification dont la valeur varie avec la position du coefficient considéré. De cette

manière, les valeurs supprimées seront les valeurs inutiles à la vision. En parcourant la

matrice de gauche à droite et de haut en bas, la valeur du diviseur va augmenter en

répondant à cette formule :

44

!

IDCT(x,y) =1

4CiC jDCT(i, j)cos

2x +1( )i"16

#

$ %

&

' ( cos

(2y +1) j"

16

#

$ %

&

' (

y= 0

7

)x= 0

7

)

45 La DCT n’allège en aucun cas le poids de l’image, bien au contraire, les valeurs entières ayant été transformées en valeurs réelles, elles sont plus lourdes à coder.

36

!

P(i, j) =1+ (1+ i + j) "Q

Équation 2 : le pas de quantification (diviseur) en fonction du coefficient de la matrice DCT considéré. Q est une constante qui correspond au facteur qualité.

La formule de P(i,j) sera stockée dans l’en-tête du fichier pour le décodeur. La

matrice obtenue contiendra un nombre important de valeurs répétées et de 0.

L’algorithme n’a plus qu’à coder ces valeurs avec une des méthodes sans pertes citées

plus haut : RLE ou LZ*. Ce bloc, traité indépendamment de ses voisins, aura au bout

du compte uniformisé les pixels qui participaient à des valeurs de haute fréquence.

Chaque bloc étant traité comme ceci, l’image s’en retrouve partout légèrement

modifiée. Le choix du facteur Q utilisé dans la formule du pas de quantification est

capital et décisif pour l’importance des pertes tolérées. Car si l’on parle ici des hautes

fréquences peu importantes pour l’œil, il faut rappeler qu’une image compressée avec

cette méthode à de fort taux, peut s’avérer très différente de l’original.

Malheureusement, chaque logiciel qui compresse en utilisant la norme JPEG utilise

des variantes de la méthode abordée ici. Une communication de la part des fabricants

de logiciels à propos des valeurs des facteurs Q qu’ils utilisent, quand bien même elle

serait effective, ne suffirait pas à établir une échelle universelle entre les logiciels.

On comprend donc bien les enjeux de cette compression qui, au moment où les

échanges d’images numériques sont les plus nombreux, semble la solution parfaite

pour accélérer les transferts à tous les niveaux, mais aussi pour limiter le remplissage

des espaces de stockage physiques. Les gains d’espace sont tels que si la compression

est intelligemment faite, le même disque dur pourrait stocker 5 fois plus d’images qui

répondraient à des critères de qualité semblables. Malheureusement, si au contraire,

cette compression est mal gérée ou tout simplement, abusive, il y a de forts risques

pour qu’une dégradation soit observée et modifie l’apparence. Ce changement

d’aspect visuellement remarquable est très évolutif et peut être étalé sur des échelles

psychométriques. Nous désirons étudier ces échelles pour, le cas échéant, être en

mesure de quantifier objectivement la dégradation sur les images photographiques.

37

II - Métriques de qualité d’image

38

1 - La psychométrie de la couleur

Comme nous venons de le voir, la compression avec pertes implique des

différences, parfois visibles, entre une image originale et sa version compressée. Pour

une certaine quantité de pixels, variable avec le taux de compression et la méthode

utilisée, il y a des différences de couleur entre les deux versions de la même image.

L’utilisation du terme « perte » dans la définition de la compression JPEG est donc

aussi bien assimilable à une notion de différence. En effet, dans l’affichage sur

moniteur d’une image après sa décompression, le nombre d’éléments unitaires46

affichant l’image reste le même. Les « pertes » évoquées antérieurement ne sont donc

pas à prendre au sens propre du mot car il s’agit plus précisément d’une différence de

couleur.

a/ L’idée

Dans le cadre de notre étude, il serait intéressant de savoir comptabiliser

l’importance de ces différences colorées. Pour se faire, on pourrait concevoir un outil

informatique permettant d’évaluer pour chaque pixel l’écart en couleur avec l’original,

puis en faisant une sommation de tous les pixels différents, on pourrait savoir

précisément à quel niveau est dégradée une image par la compression. Pour espérer un

tel outil réalisable, il convient de s’intéresser aux études antérieures qui ont trait à cette

notion de différence, voire même à cette capacité à modéliser de manière

mathématique les couleurs et leur capacité à être perçues par le système visuel humain.

Dès lors que l’on s’intéresse à des calculs objectifs sur la couleur, l’outil

mathématique devient essentiel. De nombreuses recherches au cours du XXème siècle,

ont été menées pour établir un espace à trois dimensions permettant de symboliser et

de cartographier toutes les couleurs. Un retour sur certains de ces modèles de

représentation est nécessaire afin de choisir une méthode de quantification de la

différence colorée utilisable pour notre propos.

46 Appelés luminophores dans le cas d’un moniteur à tube cathodique (CRT), et incorrectement appelés pixels dans le cas d’un moniteur à cristaux liquides (LCD). Un pixel est un élément d’image d’un point de vue numérique, il contient l’information couleur sous forme d’un code numérique.

39

b/ L’approche colorimétrique

Afin de bien envisager les mesures de différences possibles entre des couleurs, il

faut obligatoirement énoncer les principes objectifs de mesure et de cartographie de la

couleur. Ainsi, on pourra utiliser ces méthodes pour établir des écarts entre les

couleurs observées dans les images dégradées et leurs originaux. Nous n’allons

détailler ici que deux espaces vectoriels capables de donner des coordonnées

objectives aux couleurs ; cependant, il faut bien garder à l’esprit que d’autres modèles

existent47. Le premier, XYZ, sera cité car il est fondateur de tous les autres, le

deuxième, CIELAB, car il est pertinent pour notre étude.

- L’espace CIE 1931 XYZ :

Comme son nom l’indique, cet outil de représentation des couleurs a été établi

en 1931. C’est le premier outil mathématique qui permis de cartographier l’ensemble

des couleurs perçues par l’œil humain. Il fut établi expérimentalement pour prédire

quelles distributions spectrales48 seraient perçues par un observateur standard comme

donnant la même couleur. Pour notre étude, le diagramme n‘est pas utilisable en tant

que tel, car son défaut principal est justement de ne pas être perceptivement uniforme.

C’est-à-dire que deux couleurs A et B peuvent être calculées proches l’une de l’autre

dans cet espace alors qu’un observateur humain qui verrait ces deux couleurs, pourrait

estimer que A est visuellement très différente de B et vice-versa. C’est pourquoi cet

espace sera soumis à de nombreuses révisions.

- Le modèle CIELAB :

La première version de ce modèle date de 1976. Elle est directement basée sur le

diagramme CIE 1931 XYZ. Son principal intérêt réside dans sa capacité à uniformiser

la perception des différences de couleurs. Les 3 composantes L*, a* et b* étant issues

de relations non linéaires afin d'imiter la réponse logarithmique de l'œil aux stimuli

colorés. Pour cette raison, il a fait l’objet des premiers calculs permettant une

évaluation mathématique de l’écart visuel entre deux couleurs. Ainsi nous nous

sommes intéressés de près à cette notion d’écart mathématique, qui représenterait le

47 Un historique sur les espaces colorimétriques est disponible en annexe. 48 Trois composantes primaires : Rouge, Vert et Bleu sont nécessaires à la formation de toutes les couleurs visibles par l’œil humain. On peut faire l’approximation qui consiste à dire qu’il est doté de capteurs sensibles à ces 3 couleurs. La quantité de chacune d’entre elles nécessaire pour donner une couleur est la distribution spectrale.

40

regard objectif sur la différence entre une image et sa version compressée. Plusieurs

formules représentant l’écart objectif entre deux couleurs ont été établies,

parallèlement aux recherches sur les espaces couleurs. On les appelle des métriques de

l’apparence colorée.

c/ La métrique CIE Delta E (1976)

Cette première formule a été énoncée en même temps que le modèle CIE

L*a*b*. Elle correspond directement à la distance euclidienne entre deux points dans

l’espace à 3 dimensions. Dans la théorie, si la valeur obtenue en utilisant cette formule

pour différencier deux couleurs est inférieure à 1, c’est que la différence entre ces

deux couleurs est imperceptible à l’œil humain. On conçoit aisément que ce calcul ait

semblé logique au vu des caractéristiques de l’espace L*a*b* énoncées plus haut et

malgré sa remarquable trivialité. Considérant que l’on cherche à connaître l’écart entre

deux couleurs que l’on baptise 1 et 2 où L*1, a*1 et b*1 sont les coordonnées de la

couleur 1 et L*2, a*2 et b*2 , les coordonnées de la couleur 2, la formule de Delta E

s’écrit ainsi :

!

"E* = (L *1#L *

2)2

+ (a*1#a*

2)2

+ (b*1#b*

2)2

Équation 3 : Formule du CIE Delta E (1976)

En réalité, cette formule est approximative car on ne peut pas considérer que

l’espace L*a*b* soit perceptivement uniforme. Le support de la couleur, qui est un

élément important n’est pas pris en compte dans ce calcul. Par ailleurs, les humains

ont plus de facilités à distinguer les différences dans certaines couleurs que dans

d’autres. Dans les jaunes par exemple, une différence Delta E supérieure à 1 ne sera

pas forcément distinguable alors que la même valeur de Delta E entre deux verts sera

clairement visible. Pour cette raison, la formule sera révisée tout d’abord en 1984 par

le CMC49, puis en 1994 par la CIE50.

49 L’acronyme CMC représente ici Colour Measurement Committee of the Society of Dyes and Colourists of Great Britain qui est un comité se consacrant à la mesure des couleurs de l'organisme professionnel du marché des pigments et coloristes de Grande-Bretagne. 50 L’acronyme CIE représente ici la Commission Internationale de l’Eclairage, qui est un comité scientifique et technologique fondé en 1913. Aujourd’hui, la CIE est une autorité reconnue par l'ISO comme organisme de standardisation international dans les domaines de la couleur, la vision, les technologies de la lumière et de l’image.

41

Figure 7 : Représentation graphique de l'écart entre deux couleurs dans l'espace CIELAB

d/ La métrique CMC l:c

Cette nouvelle mesure de la couleur a été développée sur un autre espace que

l’espace L*a*b* : l’espace LCH qui est la version cylindrique de l’espace CIELUV51.

La métrique CMC l:c était destinée à l’industrie textile. Elle permet un réglage de

clarté et de chroma et intègre un facteur commercial, qui en fonction de la précision

souhaitée par l’industrie, détermine l’acceptabilité de la différence couleur. Si le

facteur commercial est égal à 1, cela signifie que la valeur Delta E CMC est inférieure

à 1, donc indiscernable.

!

"E *CMC

=L *2 #L *1

lSL

$

% &

'

( )

2

+C *2 #C *1

cSC

$

% &

'

( )

2

+h2 # h1SH

$

% &

'

( )

2

avec

SL

=0,511 L *1 <16

0,04975L*1

1+0,001765L*1

L *1 *16

+ , -

. - SC

=0,638C *1

1+ 0,0131C *1+ 0,638 S

H= S

C(FT +1# F)

et

F =C*1

4

C*14 +1900

T =0,56 + 0,2cos(h1 +168°) 164° / h1 / 345°

0,36 + 0,4cos(h1 + 35°) h1 0 164°;345°{ }

+ , .

Équation 4 : Formule du Delta E CMC

51 Un historique sur les espaces colorimétriques est disponible en annexe.

42

e/ La métrique CIE Delta E 1994 :

Dérivée de la métrique CMC l :c, celle-ci devait permettre une extension à la

perception des couleurs sur une surface lisse. Elle est basée sur des tests de tolérance

des couleurs sur des peintures pour automobiles. Considérant que l’on cherche à

connaître l’écart entre deux couleurs baptisées 1 et 2 dont les coordonnées seraient

(L*1 ; C*1 ; h*1) et (L*2 ; C*2 ; h*2) dans l’espace à trois dimensions LCH.

!

"E *94

=L *

2#L *

1

KL

$

% &

'

( )

2

+C *

2#C *

1

1+ K1C *

1

$

% &

'

( )

2

+h2# h

1

1+ K2C *

1

$

% &

'

( )

2

Équation 5 : Formule du CIE Delta E 94

les facteurs K pour les arts graphiques et la photographie sont : KL = 1 K1 = 0,045 K2 = 0,015

Cette formule n’étant toujours pas satisfaisante, notamment pour les couleurs

bleues. La CIE l’a révisé en 2000, avec 5 correctifs.

f/ La métrique CIE Delta E 2000 :

Les correctifs de cette version de la métrique Delta E portent sur un problème

principal : la version 1994 supposait que le terme L* reflétait correctement les

différences perçues en clarté. La version de 2000 ajoute un terme de pondération qui

varie avec la valeur de L* et des compensations pour les couleurs neutres, la clarté, la

chroma et la teinte.

!

"E *00

="L#

SL

$

% &

'

( )

2

+"C#

SC

$

% &

'

( )

2

+"H#

SH

$

% &

'

( )

2

+ RT

"C#

SC

"H#

SH

avec

"L# =L *

1+L *

2

2"C# =

C *1

+C *2

2avec C

1= a*

1

2+b*

1

2et C

2= a*

2

2+b*

2

2

avec

G = 1*"C#7

"C#7 + 2572

$

% & &

'

( ) )

Équation 6 : Formule du CIE Delta E 2000

43

2 - L’évaluation de qualité d’image

À la suite de l’explication sur ces nombreuses métriques qui s’intéressent aux

écarts entre deux couleurs, on pourrait penser qu’il suffirait de concevoir un outil

permettant de calculer de manière automatisée l’écart Delta E 2000 entre chaque pixel

homologue de deux images pour avoir une idée valable sur l’impact visuel de la

compression avec pertes. Mais le cerveau humain réagit différemment en fonction de

la surface de la couleur considérée, en fonction des couleurs à proximité de celle-ci et

en fonction de la fréquence visuelle des couleurs affichées. On conçoit donc à quel

point, quantifier l’écart visuel de toute une image avec sa version originale, peut

devenir complexe. Pourtant, nous souhaitons arriver à un résultat allant dans ce sens à

la fin de cette partie de l’étude. Si chaque couleur est affichée sur des éléments

unitaires de 0,35 mm52 de longueur et si les fréquences de répétitions sont très

variables, comme dans le cas des images photographiques affichées sur écran, alors la

quantification objective d’une dégradation en traitement d’images revient à des

méthodes de traitement du signal. Il faut néanmoins se méfier de ces méthodes, car

chaque modification dans la structure de l’image ou dans la différence colorée ne sera

pas obligatoirement une dégradation pour l'oeil humain. Utiliser les formules de

différence colorée en comparant pixel par pixel l’écart puis en moyennant un écart

global sur l’image reviendrait à considérer que la vision humaine regarde chaque pixel

un à un pour établir la différence. La différence que l’on souhaite quantifier de

manière automatisée et objective se porte sur la dégradation de l’image en terme de

qualité, mais principalement en termes de rendu des détails. Il n’existe aujourd’hui pas

d'algorithme générique capable de prédire si une modification est une dégradation ou

une amélioration mais lorsque l'on parle de compression d’images, a priori, une

modification est toujours une dégradation ou plus exactement une perte de fidélité par

rapport à l'acquisition originale. Se pose alors la question de quantifier ces

modifications au sens perceptif.

52 Si l’on considère un écran de 17 pouces de diagonale avec une définition affichant 1024x768 pixels, on a dans la hauteur : 768/10,8 = 72 pixels/pouce affichés, et dans la largeur 1024/14 = 76 pixels/pouce affichés. Chaque couleur peut donc être affichée sur une surface supérieure ou égale à 0,35 mm x 0,33 mm.

44

a/ Mean Opinion Score

Le Mean Opinion Score est incontestablement considéré comme la méthode la

plus fiable pour mesurer l’importance visuelle de la compression sur des images. Les

créateurs d’algorithmes de compression n’ont malheureusement ni le temps, ni les

moyens de l’utiliser. Néanmoins, dans d’autres domaines visant la réception de la

qualité comme la télévision numérique, c’est une pratique très courante. La recherche

du MOS est simplement le fait de présenter les images dégradées à un grand nombre

de personnes et d’en déduire la valeur acceptée, la limite à ne pas dépasser, en fin de

compte : les marges de manoeuvre. Une règle de statistiques veut qu’avec un nombre

important de résultats, on obtienne, malgré des variations internes, une courbe en

forme de gaussienne qui représente l’éparpillement des réponses autour d’une valeur

intermédiaire. Cette valeur correspond davantage au pic du plus grand nombre de

réponses identiques qu’à la moyenne des réponses obtenues. Son utilisation et la

validation de questions statistiques par son usage ne sont généralement pas à remettre

en cause. Et généralement, cette valeur qui a obtenu le maximum de résultats est

considérée comme étant la bonne réponse. Néanmoins, dans le cadre d’appréciations

visuelles et particulièrement lorsque le phénomène étudié offre des disparités très

diverses quant aux types de personnes exposées, il peut devenir inquiétant de constater

qu’une réponse donnée par la loi du MOS est considérée comme la bonne réponse. Le

sujet de ce mémoire n’est pas de remettre en cause les lois statistiques, il n’est pas non

plus de définir une nouvelle métrique de compression d’image, mais plutôt de

s’intéresser aux différents courants qu’on peut identifier sous la gaussienne, et le cas

échéant, de prévenir une hypothétique dérive de celle-ci. Néanmoins, pour parvenir à

cet objectif, nous avons besoin d’un résultat invariant, affichant une valeur

mathématique fixe et comparable pour des images présentées à des publics différents.

C’est pour cette raison que nous avons besoin d’un système d’évaluation de la qualité

des images qui soit objectif, mathématique et non perceptif comme le sont toutes les

études classiques.

45

b/ Enjeux

En s’intéressant au traitement du signal et aux méthodes de quantification de

distorsions entre images, on trouve différentes formules utilisées régulièrement par les

informaticiens pour tester des algorithmes de compression, parmi eux : la MSE53, le

PSNR54, et les algorithmes de S-CIELAB55 et SSIM56. Certaines de ces méthodes sont

utilisables pour tous les types de signaux, qu’ils soient visuels ou sonores, mais leurs

élaborations sont parfois issues de domaines mathématiques abstraits comme les

probabilités et les statistiques. Notons que S-CIELAB et SSIM sont exclusivement

dédiés aux comparaisons entre images. Néanmoins, notre intérêt s’est porté sur

l’ensemble de ces méthodes et nous les avons toutes testées dans le cadre

d’appréciations visuelles sur des images photographiques. Le but de cette enquête

étant de trouver lequel correspondrait le mieux à nos besoins spécifiques de

comparaison. Il est important de bien cerner nos besoins et de les mettre en parallèle

avec les capacités de ces outils de quantification actuels dans le cadre de notre étude

finale, qui consiste à comparer la sensibilité de différents publics à la dégradation

JPEG sur différentes images. Il convient, pour expliciter nos besoins, de revenir sur

l’un des risques de l’enquête finale. Il ne faudrait pas, au travers d’une interface

offrant une comparaison image dégradée/image originale, éduquer les personnes

interrogées sur la recherche et l’identification du défaut dans l’image, au cours de

l’enquête elle-même. Notre intérêt se porte sur le niveau de distorsion minimal pour

qu’une gêne soit ressentie, à partir de quand l’image n’est plus acceptée. On ne

s’intéresse pas à la reconnaissance du défaut. Pour donner un exemple du niveau de

gêne recherché, on pourrait résumer ainsi : si les personnes interrogées devaient

alimenter un blog ou un site Internet, à partir de quel taux de compression

n’accepteraient-elles plus de mettre en ligne sur celui-ci, des images faites par un

autre57. Les outils qui vont nous permettre dans cette partie de donner une valeur fixe

sur la dégradation des images fonctionnent tous sur le principe de comparaison, image

originale/image compressée, la valeur numérique qu’ils peuvent nous donner est donc

53 Mean Square Error 54 Peak Signal to Noise Ratio 55 Spatial CIELAB 56 Structural Similarity 57 Il semble important de signaler que ce jugement a de grandes chances de différer en fonction de l’auteur de la photographie.

46

à prendre avec précaution et il conviendra de faire dialoguer la méthode de calcul avec

le ressenti d’un jury de professionnel face aux images testées.

c/ Mean Square Error (MSE)

Erreur quadratique moyenne. MSE est un outil de statistiques et de probabilités

qui permet de chiffrer la différence entre une prévision et la quantité estimée. À l'instar

de la variance58, MSE a la même unité de mesure que le carré de la quantité estimée.

Par analogie avec l'écart-type59, en prenant la racine carrée de la MSE, on obtient la

RMSE (Root Mean Squared Error), connue en français sous le nom de moyenne

quadratique. La MSE est calculée en moyennant le carré des différences d’intensités

entre image déformée et image de référence. Dans le cas de la comparaison entre deux

images monocouches, la MSE peut se calculer ainsi :

!

MSE("m,n,#m,n ) =1

m * n("i, j $ #i, j )

2

j=1

n

%i=1

m

%

Équation 7 : L’erreur quadratique moyenne (MSE) entre deux images monocouches nommées θ et ρ. (m, n) : taille en pixel des deux images

Historiquement, une moyenne de la MSE pour chaque couche était faite pour les

images en couleur. On comprend aisément que ce système, s’il est juste d’un point de

vue mathématique, ne prend pas en compte la réponse du système visuel humain à

chaque composante colorée. Dans le cas d’une image en niveaux de gris, le résultat

sera aussi contestable car le facteur de contraste visuel sera oublié. Pour deux images

identiques comparées, la valeur de la MSE est nulle.

58 En statistique et probabilité, la variance est une mesure qui caractérise la dispersion d'un échantillon ou d'une population. C’est la moyenne des carrés des écarts à la moyenne. 59 L’écart type est la racine carrée de la variance.

47

Figure 8 : Image compressée dans Photoshop aux taux 12, 6 et 0.

Les valeurs de MSE par rapport à la photographie originale au format TIFF sont respectivement : MSE 12 = 0,097 ; MSE 6 = 0,64 et MSE 0 = 4,79

d/ Peak Signal to Noise Ratio (PSNR)

En français : pic du rapport signal sur bruit. On ne peut pas aborder cette notion

sans expliquer le rapport signal sur bruit. Le rapport signal sur bruit est un concept

général d'ingénierie électrique. Il est beaucoup utilisé dans le traitement du son mais il

peut-être appliqué à divers domaines comme la biologie, pour des mesures de signaux

cellulaires, par exemple. Mathématiquement défini comme le rapport entre la

puissance d'un signal et la puissance de corruption de ce signal, il permet de comparer

le niveau du signal désiré avec le niveau de bruit de fond. Plus le ratio est élevé, moins

le bruit de fond est gênant, meilleur est le signal. Le PSNR, quant à lui, prend en

compte la puissance maximum possible d’un signal et la puissance du signal de

corruption. Il est régulièrement utilisé pour des quantifications de bruit dans l’image et

la photographie. Il est plus adapté à l’échelle visuelle car il se mesure habituellement

en décibels, ce qui signifie qu’il utilise une échelle d’incrémentation logarithmique,

proche de la réponse psychophysique de l’œil aux stimuli visuels. Dans l’évaluation de

fidélité par compression d’images, son calcul se base sur l’erreur quadratique

moyenne (MSE) définie au paragraphe précédent. Dans le cadre d’une image codée

sur 8 bits en une seule couche, il se calcule ainsi :

!

PSNR = 20log10255

MSE

"

# $

%

& '

Équation 8 : Formule du PSNR pour des images 8 bits monocouche. 60

60 Dans le cadre d’une comparaison entre images n’étant pas codées sur 8 bits, la valeur 255 sera remplacée par la valeur maximale qu’un pixel peut obtenir.

48

Pour les images en couleur, la définition du PSNR reste la même, la MSE sera

calculée comme indiquée dans le paragraphe précédent. Les valeurs typiques d’un

PSNR entre une image compressée et sa version originale sont comprises entre 30 et

50 décibels. La valeur maximale indiquant la plus faible perte d’information. Assez

logiquement, lorsque l’on compare deux images strictement identiques, le PSNR tend

vers l’infini.

Certes ces outils sont simples à utiliser, ont un sens physique clair et sont

mathématiquement très commodes pour optimiser une vitesse de calcul sur des lots

d’images ou dans le cadre d’évaluation de la qualité en vidéo. Par ailleurs, ils

représentent effectivement une différence entre deux images, mais ils semblent oublier

le contenu réel des signaux. Ils simplifient la notion complexe de couleur en une

notion beaucoup plus généraliste : le signal. Nous avons vu au début de ce chapitre61

les nombreux efforts consacrés dans les trois dernières décennies à la modélisation du

système visuel humain et de sa perception des couleurs. Il semble évident qu’un outil

fiable et moderne devrait tirer parti des caractéristiques désormais mieux connues de

notre système de vision. Des études, encore en cours, sont à l’épreuve sur ce sujet.

Revenons maintenant sur les métriques Delta E énoncées au début du chapitre. Le

défaut mis en avant par ces métriques basées uniquement sur la perception colorée par

l’œil humain était l’incapacité de celles-ci (même Delta E 2000) à modéliser les

conditions réelles de visualisations de photographies numériques. Rappelez-vous qu’il

est rare qu’une couleur unique soit affichée sur une grande surface dans le cadre de

photographie numérique. Une métrique, plus récente la S-CIELAB (1997) prétend

résoudre tous ces problèmes en prenant en compte la sensibilité de l’œil aux couleurs

selon la fréquence.

e/ La métrique S-CIELAB

En général, plus la fréquence spatiale des couleurs augmente, plus les

différences de couleur deviennent difficiles à percevoir62. Ce qui signifie que des

différences colorées parfaitement identifiables sur des aplats pourraient passer

inaperçues dans des zones faites de détails. Dans le cadre d’une compression de

61Voir II/1/b et l’annexe « Historique de la colorimétrie ». 62«CIE recommendations on uniform color spaces, colour-difference equations, and psychometric colour Terms», Supplément n° 2 de la Publication CIE n° 15, Colorimétrie (E-1.3.1) 1971.

49

photographie, une différence colorée supérieure au minimum distinguable, serait alors

visible dans un cas, mais pas dans l’autre. Nous avons besoin d’une métrique qui

prend en compte le critère de surface. D’après ses auteurs, la S-CIELAB propose

d’intégrer les caractéristiques spatiales de la couleur affichée à l’écran. Elle reprend

les calculs de delta E mais en ajoutant un pré-traitement prenant en compte la

répartition spatiale des couleurs dans l’image. Avant de donner un résultat sur la

différence visible entre les deux images testées, la métrique S-CIELAB nécessite la

connaissance des paramètres suivants : distance de visionnage des images, résolution

et gamma d’affichage, distribution spectrale de l’écran et fonctions d’absorption

relative de l’œil. Si l’utilisation de tous ces paramètres semble rassurante, il convient

d’analyser leur utilisation. L’innovation dans la conception du S-CIELAB consiste à

appliquer un filtre spatial aux données colorées de l'image afin de simuler

l’estompement naturel du système visuel humain tout en conservant les zones offrant

une grande uniformité. Le calcul d’erreur se fait par le delta E traditionnel. Le

traitement de S-CIELAB se déroule en 4 étapes comme suit :

- Quel que soit l’espace source descriptif de l’image couleur, les valeurs

sont converties en L*a*b*.

- Chaque couleur dans l’espace CIELAB est filtrée par un noyau spatial à

deux dimensions63 dont la taille est déterminée par la sensibilité visuelle

à la zone colorée.

- Ces valeurs filtrées sont réinjectées dans l’espace CIEXYZ en utilisant

les formules CIELAB.

- On choisit l’une des formules delta E traditionnelles pour calculer la

différence globale entre cette image et une autre qui aurait subi le même

traitement.

63 Il s’agît d’une convolution mathématique dont la forme du noyau est :

!

f = k wiEi

i

" avec Ei = ki exp #(x2 + y

2[ ] /$ i

2 .

Le facteur d'échelle k est choisi de telle sorte que, pour chaque couche colorée, le noyau en deux dimensions f somme à un. Les paramètres wi et σi sont liés à l'angle visuel en degrés.

50

Figure 9 Diagramme du traitement S-CIELAB complet sur une image.

Les paramètres de calculs dans le S-CIELAB sont basés sur les résultats des

expériences psychophysiques de Poirson et Wandell64 sur la capacité de l’œil humain

à séparer les couleurs en fonction de la surface de celles-ci. Il apporte un complément

important aux meilleurs calculs de delta E, à travers cette approche de la répartition

spatiale de la couleur observée. Néanmoins, depuis son invention par Xuemei Zhang

et Brian Wandell en 1997, il ne s’est pas imposé comme un mode de calcul

incontournable dans le petit monde de l’évaluation objective de qualité d’images.

Certains le comparent toujours au PSNR et en arrivent à hésiter entre les deux,

pourtant il n’échappe à personne que les deux méthodes sont issues de domaines très

distincts. Depuis 2005, Zhou Wang de l’université de New York et Alan Bovik de

l’université du Texas à Austin, remettent en question les travaux précédents.

64 Allen B. Poirson et Brian A. Wandell, « Appearance of colored patterns : pattern-color separability. » in Journal of the Optical Society of America, volume 10, n°12, p. 2458 à 2470, 1993.

51

f/ La métrique SSIM

Dans la recherche dont il est fait état jusqu’à présent, on peut remarquer que les

résultats que donnent toutes les métriques de qualité d’image ne s‘intéressent pas au

contenu de celles-ci. Entendons nous bien sur ce point, même si S-CIELAB prend en

compte la répartition spatiale des couleurs, elle donnera le même résultat si l’image

considérée est un dessin représentant une scène abstraite ou une photographie bien

réelle. Au cours de son développement, le système visuel d’un individu est longtemps

exposé à des images de l'environnement naturel, et certaines recherches65 ont

démontré qu’il est, de ce fait, plus adapté à extraire rapidement les informations utiles

à la vue d’une image représentant une scène naturelle qu’une image aléatoire. Une

bonne métrique de qualité d’image qui viserait à prédire l'évaluation de la qualité par

l’humain devrait donc s’adapter au contenu des images. L’une des caractéristiques qui

différencie une image réelle d’une succession de pixels aléatoires réside dans sa

structure intrinsèque. Dans une image réelle, à chaque échelle, on trouve des

dépendances entre les différents échantillons de la même image. Ces dépendances

fournissent beaucoup d'informations sur la scène photographiée ou dessinée. La

métrique de qualité d’image SSIM prétend analyser les dépendances de chaque

échantillon d’image, pour en déduire les lignes fortes structurant l’image. La figure 9

montre un exemple dans lequel les métriques classiques se seraient fourvoyées. Des

pixels de valeurs aléatoires ont été ajoutés à deux images obtenues avec les mêmes

pixels réarrangés. La dégradation artificielle de ces deux images est donc quantifiable

de la même manière par les métriques classiques. Pourtant, on comprend aisément

avec cet exemple que la structure du sujet photographié est capitale dans une

évaluation de la qualité.

65 Source : E. P. Simoncelli et B. Olshausen, « Natural image statistics and neural representation, » in Annual Review of Neuroscience, vol. 24, p. 1193-1216, 2001.

52

Figure 10 L’incapacité des métriques classiques à comprendre le contenu d’une image.66

A est l’image originale, C est un réarrangement des mêmes pixels que A. B et D sont des versions dégradées de A et C par le même bruit gaussien. Les métriques classiques donnent

la même valeur de distorsion entre A et B qu’entre C et D.

Par conséquent, une mesure objective de la qualité d’image servant à simuler

l’évaluation subjective sur des images différentes devrait être capable de capter

l'information structurale ou, le sens des changements structurels. Le principe fondateur

de la métrique SSIM est donc que le système visuel humain fonctionne sur un principe

d’extraction de l'information structurale de la scène observée. La mesure de la SSIM

étant une mesure mathématique de la similitude structurelle entre images.

Les auteurs de cette métrique en justifient l’emploi à partir de considérations

mathématiques absolues. D’un point de vue purement formel, considérons une image

A constituée d’un nombre fini de pixels, par exemple 1 million, chacun pouvant être

codé sur 256 niveaux. On sait qu’il existe 1 000 000*256 images réalisables. Plaçons

nous dans un hyperespace théorique dans lequel chacune de ces images est assimilable

à un point. Cet hyperespace est discret et contient 256 millions de valeurs possibles.

On peut alors l’appeler : l’espace image A car il permet la cartographie de l’intégralité

des variantes de l’image A. Toute dégradation de A peut y être assimilée à une

66 Source : Zhou Wang, Alan C. Bovik et Eero P. Simoncelli, « Structural Approaches to Image Quality Assessment », in Handbook of Image and Video Processing, 2ème édition, Academic Press, 2005.

53

transformation vectorielle dont le point d’origine est A et le point d’arrivée est l’image

dégradée. Un grand nombre de vecteurs de même norme pouvant être définis depuis

un point unique, on conçoit que autour de A, il y aura une grande diversité de vecteurs

dont la norme est identique et une métrique classique mesurant la norme ne verrait pas

d’autres différences. Pourtant la qualité visuelle des images obtenues pourra être

radicalement différente.

Figure 11 Représentation plane d’une sphère d'équité MSE autour d'une image A dans l'hyperespace de l’image A.67

B, C, D et E ont toutes la même erreur quadratique moyenne par rapport à l’originale. Elles appartiennent donc à une sphère commune dans l’espace image A. Pourtant, elles sont

visuellement très différentes les unes des autres.

C’est donc dans la direction du vecteur que se joue la différence entre ces

images. La bonne métrique serait celle qui pondère la norme mesurée du vecteur en

fonction de sa direction. La pondération pourrait se faire avec la fonction de sensibilité

au contraste, comme cela est courant dans de nombreux modèles d'évaluation de la

qualité. Mais SSIM base complètement son calcul sur les changements de structure

dans l’image, pour cette raison, il ne nécessite pas d’autre composante que la couche

67 Source : Zhou Wang, Alan C. Bovik et Eero P. Simoncelli, « Structural Approaches to Image Quality Assessment », in Handbook of Image and Video Processing, 2ème édition, Academic Press, 2005.

54

L* d’une image. Le calcul s’effectue indépendamment sur différents échantillons de

l’image qui, une fois réunis, forment l’ensemble de l’image. Chaque échantillon sera

ensuite pondéré en fonction de son importance.

!

SSIM(a,b) =(2µ

aµb

+ c1)(2cov

ab+ c

2)

(µa

2 + µb

2 + c1)("

a

2 +"b

2 + c2)

Équation 9 : Mesure SSIM entre deux échantillons a et b appartenant à des images A et B

avec : µa, la moyenne de a ; µb la moyenne de b ; σ2a la variance de a ; σ2

b la variance de b, ; covab la covariance de b ; c1 = (k1L)2 ; c2=(k2L)2 ; L, la profondeur de codage des images.

Dans cette formule, les constantes C1 et C2 sont introduites pour éviter

l’instabilité de la division lorsque (µa + µb)2 est proche de 0. k1 et k2 doivent être de

faibles quantités. La somme pour la comparaison d’images totale se définit ainsi :

!

SSIM(A,B) =

W j (a j ,b j )SSIM(a j ,b j )j=1

Ns

"

W j (a j ,b j )j=1

Ns

"

Équation 10 : Formule de SSIM

Où Ns est le nombre d’échantillons considérés dans l’image et Wj est le coefficient de pondération donné au jième échantillon.

Notez que dans certains cas, la fonction de pondération est déterminée

uniquement par la localisation spatiale j, alors que le contenu de l'image joue aussi un

rôle. Il a été observé que les différentes textures d’images attirent le regard de

l’homme à des degrés variables. C’est pourquoi des pondérations différentes peuvent

être assignés aussi en fonction de la texture.

La quantification de la dégradation d’une image n’est donc généralement pas

aisée et se cantonner à une seule méthode ou algorithme mènerait inéluctablement à un

résultat peu pertinent car l’on constate lors des tests finaux sur ces méthodes que la

quantification objective caractérise bien l’évolution de cas de compression croissants

sur la même image mais reste difficile à exploiter lorsque les contenus varient

fortement d’une image à une autre. Une appréciation visuelle par des regards

professionnels pourrait donc compléter dans le cas de la constitution d’une base de

données d’images dégradées visuellement au même taux. Rappelons que la réalisation

55

d’une telle base de données est l’un des enjeux de la dernière partie de ce mémoire.

Ces images seraient ensuite présentées à des personnes de profils très différents afin de

voir l’importance de chaque élément constitutif ou parasite du jugement.

Nous avons donc vu en détail quelles étaient les nouvelles mœurs de la pratique

courante de la photographie et leurs implications supposées sur le regard. Nous avons

expliqué comment ces images étaient constituées et nous avons présenté les causes de

leurs défauts. Alors, nous nous sommes questionnés d’un point de vue fondamental

sur la possibilité de quantifier ces défauts visuels avec des outils stables et objectifs. Il

semble que nous soyons à présent en mesure de mélanger ces deux analyses pour

établir une série d’expérimentations critiques à visées quantitatives et comparatives.

Cette analyse se portera sur certains outils logiciels qui manipulent la nouvelle

photographie et dont nous avons déjà cité les noms au cours de la première partie.

56

III - Expérimentations des métriques dans les usages réels du JPEG

57

Les nombreux logiciels et algorithmes de traitements sont les premiers

générateurs de JPEG. Utilisés souvent à tort et à travers par le grand public ou même

par les développeurs, ces moteurs de compression génèrent une nouvelle esthétique de

la photographie sur Internet. À l’aide des métriques détaillées dans la deuxième partie,

on souhaite caractériser ici les différences observables entre les sites Internet qui

compressent les images et un logiciel de traitement professionnel. Mais pour qu’une

boucle de toutes les utilisations du JPEG soit bouclée, nous comparerons aussi les

dispositifs de décompression, nécessaires à l’affichage des images sur écran. Les

réponses à ces questions devraient nous guider pour concevoir un protocole final

pertinent, exact et dont les limites seraient clairement établies. La constitution d’une

liste exhaustive des logiciels responsables de la compression serait inutile et

nécessiterait une étude à part entière, mais l’on peut d’ores et déjà s’intéresser aux

usages actuels de déformation involontaire d’images, en vue d’une rapidité de

transfert, ou d’une « amélioration » de la définition.

Pour mieux comprendre l’enjeu, nous allons envisager un enchaînement d’étapes

et de pratiques courantes sur une image d’exemple. Considérons une image

publicitaire prise par un photographe professionnel à l’aide d’un appareil numérique

de 12 millions de pixels, ce qui est une valeur acceptable dans ce domaine. Le

photographe capture en format raw68, puis il développe l’image en TIFF. Il désire la

mettre en ligne sur Internet, et comme il est au fait des méthodes numériques, il

exécute le programme professionnel de traitement d’images Adobe Photoshop® afin

de rééchantilloner69 l’image à un format inférieur, par exemple 800 x 600 pixels, avec

l’algorithme de son choix, par exemple bicubique plus net. Ensuite, il prépare le

fichier avec l’outil de compression pour le Web afin de générer un JPEG qui satisfera

ses besoins en terme de poids et de qualité d’image. Cette image est a priori exempte

de défauts visibles si les marges de manœuvre en terme de poids sont suffisantes. Dans

notre exemple, 300 ko conviennent à notre photographe pointilleux. Il livre deux

versions de l’image à son client, le fichier TIFF et le fichier JPEG de 300 Ko. Ce

dernier désire alors l’exploiter sur son propre site Internet. Son webmestre lui a

68 Raw est une appellation générique qui désigne le format de prise de vue numérique le plus brut exploitable en sortie d’un appareil de prise de vue numérique. Il ne contient pas de traitement de l’image concernant la balance colorée, mais surtout, il n’applique généralement pas de compression avec pertes. 69 Le rééchantillonnage est le fait de changer artificiellement la définition d’une image. Il s’agit en principe de représenter la même scène exactement en utilisant moins de pixels.

58

préparé un outil d’administration php70 simple lui permettant de télécharger et de

redimensionner des photographies sur le site depuis son ordinateur pour les besoins du

site sans repasser par un logiciel de traitement spécialisé installé en local. Le client

utilise cet outil et choisit d’envoyer au serveur71 de la plateforme Internet l’image déjà

compressée par le photographe car le téléchargement est plus rapide. L’image est alors

redimensionnée par l’outil php pour s’intégrer au site et prend les valeurs suivantes :

450 x 335 pixels en 45 ko. Le client ne se soucie pas de ces valeurs. L’image sera

visionnée par tous les visiteurs selon ces critères de qualité, qui ne correspondent plus

à ceux qui furent validés par son auteur. L’un des visiteurs, appréciera cette image et

désirera l’utiliser72 pour son propre site Internet. Il l’enregistre sur son ordinateur,

mais il considère qu’elle est d’une trop faible dimension et il préfèrerait une image

plus grande. Il ouvre alors un outil de traitement d’images, la rééchantillonne pour

l’agrandir jusqu’à 700 x 520 pixels puis la sauvegarde à nouveau en JPEG de 65 ko, et

la met en ligne sur son site. Une autre personne copiera cette image depuis cette

version, puis désirera à son tour la mettre sur son blog ou sur le profil de son site

communautaire73, le moteur php de ce site la recompressera alors en 500 x 375 pixels

et 52 ko.

Si un tel enchaînement peut paraître un peu caricatural, il n’en reste pas moins

un schéma très courant de traitements contradictoires observables sur Internet. Au

dernier stade, l’image est empreinte d’un caractère tout à fait particulier, auquel

certaines personnes ne sont pas sensibles. Mais pour le professionnel ou une personne

disposant de la référence originale, cette copie semble extrêmement dégradée, voire

peu fidèle. Néanmoins, elle contient en elle une nouvelle esthétique. L’esthétique du

Web. Chaque personne qui a déjà navigué sur Internet à forcément visionné au moins

une image ayant subi un schéma de traitement parallèle à celui-ci. La traçabilité des

fichiers n’étant pas un outil encore universel, cette nouvelle profusion des copies est

incontrôlable et difficile à quantifier. Si de telles pratiques sont courantes, c’est sans

nul doute parce qu’un grand nombre de visiteurs et même d’acteurs du Web ne savent

pas distinguer ce caractère ou ne sont tout au moins pas dérangés par celui-ci. La 70 PHP est l’acronyme récursif d’Hypertext Preprocessor. C’est le langage de programmation libre le plus utilisé actuellement pour produire des pages Web dynamiques calculées à la volée par le serveur http. (pour http, voir l’annotation page 61) 71 Le serveur en informatique est l’ordinateur qui stocke les données que les internautes consultent sur Internet. 72 Pratique totalement illégale néanmoins courante sur Internet. 73 On appelle site communautaire une plateforme Internet à partir de laquelle chaque utilisateur pourra se constituer un espace personnel visible par les autres.

59

connaissance des niveaux de tolérance et de l’accoutumance des publics à ces

dégradations est l’une des ambitions de cette étude. L’effet de l’éducation du regard

qui découle involontairement de ces phénomènes en est une autre. Avant toutes

choses, il convient de détailler par une analyse expérimentale méthodique les

traitements énoncés dans cette introduction.

1 - La compression dans Photoshop

Il y a encore quelques années, la bataille entre les développeurs de logiciels de

traitement d’images professionnels faisait rage. Aujourd’hui, on peut dire sans hésiter

qu’Adobe a remporté le monopole et a réussi à démocratiser son logiciel à un niveau

jamais égalé. C’est ce logiciel qui est utilisé par quasiment tous les professionnels de

la photographie et sa référence de comparaison en termes de compression s’avère tout

à fait pertinente. C’est pourquoi nous allons le tester dans la première partie de ce

chapitre.

a/ Présentation

Si la proportion de photographes amateurs pratiquant le traitement numérique de

l’image de manière intensive reste faible, il n’en est pas moins évident qu’une grande

partie des utilisateurs de Photoshop ne maîtrise pas suffisamment cet outil pour en

connaître les limites et les applications exactes. Aujourd’hui encore, de nombreuses

personnes enregistrent en JPEG sans comprendre l’impact exact de cette action et

quand bien même elles conçoivent les tenants et les aboutissants de ce choix, rares

sont celles qui peuvent émettre un avis exact sur le niveau de « qualité » qu’engendre

chaque valeur des échelles proposées dans l’interface. Comme nous l’avons vu dans le

paragraphe qui traite de la méthode de compression JPEG74, il est difficile d’un

logiciel à l’autre de connaître le facteur qualité utilisé pour chaque taux de

compression. Pourtant, la connaissance d’une échelle équivalente aux différents

logiciels et méthodes serait utile à tous. Dans l’interface d’Adobe Photoshop®, il

existe deux moyens différents de générer des fichiers compressés JPEG :

74 I/2/b

60

la fonction « enregistrer sous » :

Très largement utilisée, elle n’impose pas de limites pour la taille du fichier

d’entrée ou de sortie et permet de nombreux formats d’image différents, parmi

lesquels le JPEG. L’échelle de taux de compression proposée par l’interface se statue

entre 0 et 12. Lorsqu’une image est enregistrée par cette méthode, un aperçu en

miniature est automatiquement intégré au fichier afin de pouvoir afficher une icône du

fichier représentant l’image. Traditionnellement, elle est peu conseillée pour des

images de faible définition dont le poids nécessite d’être minimum, on lui préfère alors

la fonction « enregistrer pour le web ».

la fonction « enregistrer pour le web » :

Elle permet de nombreux paramétrages précis spécifiques à Internet comme la

restriction des couleurs aux couleurs web pour le GIF. Elle ne propose que les formats

GIF, JPEG, PNG 8 et 24 bits. Elle permet de régler le taux de compression par deux

approches différentes : en choisissant un niveau de qualité entre 0 et 100 ou, en entrant

le poids de fichier désiré. Cette méthode ne génère pas d’aperçu à l’image.

De nombreuses questions inhérentes à l’utilisation de ces méthodes sont sans

réponses. Les échelles sont-elles équivalentes en terme de poids ? en terme de

qualité ? L’algorithme utilisé est-il le même ? Est-il utile de prédéfinir un poids de

fichier ? Peut-on compresser à des poids identiques des images différentes en

conservant le même niveau de qualité ?

b/ Tests de la compression JPEG dans Adobe Photoshop CS3®

Considérant que la différence dans les échelles de compression affichées

pourrait impliquer que Photoshop utilise un algorithme de compression différent pour

chacune de ces méthodes, on se propose de générer, à partir de fichiers PNG, des

images compressées aux taux 0, 3, 6, 9 et 12 avec la fonction « enregistrer sous » et les

mêmes images compressées aux taux 0, 25, 50, 75 et 10075 avec la fonction

« enregistrer pour le web ». On calculera les valeurs de MSE, PSNR, SSIM et S-

CIELAB entre les images obtenues et l’originale non compressée. La première image 75 Selon une règle de trois, ces taux de compression correspondent instinctivement pour l’utilisateur à des valeurs relatives identiques. Si l’on choisit ces valeurs, c’est que nous pensons que le développeur du logiciel ayant conçu une interface conviviale devrait prendre en compte cette logique triviale.

61

est un portrait en gros plan, au format 400 x 600 pixels, l’autre est une vue dans les

rues de New York en plein jour au format 500 x 500 pixels. Utiliser des images

différentes nous permettra d’observer le comportement de ces compressions avec des

niveaux de détails différents. Le calcul des métriques se fait à l’aide d’algorithmes76

réalisés pour les besoins de l’expérience dans le logiciel The Mathworks™ Matlab 7.0.

Les résultats sont indiqués dans les tableaux 3 et 4.

Méthode et taux Poids MSE PSNR SSIM S-CIELAB

Enregistrer sous (12/12) 214 ko 0,095 50 0,99 0

Pour le web (100/100) 172 ko 0,095 50 0,99 0


Pour le web (75/100) 68 ko 0,34 45

0,99 22


Pour le web (50/100) 32 ko 0,8 41 0,95 824


Pour le web (25/100) 19 ko 1,4 39 0,92 2173

Enregistrer sous (0/12) 37 ko 3 35 0,90 3867

Pour le web (0/12) 11 ko 2,5 34 0,89 4858

Tableau 3 : Les métriques calculées pour l’image 1 compressée dans Photoshop selon les deux méthodes.

Figure 12 : L’image 1 compressée aux facteurs de qualités successifs 12, 9, 6, 3 et 0 sur l’échelle 0-12 de la fonction « enregistrer sous » de Photoshop.77

76 Deux facteurs de qualité sont disponibles en annexe. 77 Pour un gain d’espace sur la page, le format des images imprimées n’est pas du tout contractuel. Il se peut que les différences entre elles ne soient pas visibles à l’œil nu.

62

À la lecture du tableau 3, on peut dors et déjà constater que l’usage de plusieurs

métriques différentes sur les mêmes images n’est pas superflu. Comme nous l’avions

abordé en première partie, la complexité de ce sujet et les avancées de la recherche

dans ce domaine étant ce qu’elles sont, aucune métrique ne peut être considérée

comme suffisante ou exacte. L’exactitude de leurs résultats est relative, entre autres,

au défaut considéré, au contenu de l’image et à sa taille. Certaines, comme MSE,

donnent des résultats supérieurs à 0, là où aucun œil humain n’est encore capable de

distinguer une différence. Cela peut s’avérer utile pour une constatation simple de

différence mathématique et moins pour une dégradation objective. Comparativement,

S-CIELAB évolue de manière presque logarithmique et sa capacité à afficher des

résultats proches de 0 pour les compressions minimales prouve son intérêt dans le cas

d’une quantification objective de la sensation visuelle, car à la valeur de compression

12 de Photoshop, il est de bon ton de signaler qu’il est quasiment toujours impossible

de distinguer une quelconque différence avec l’originale. Par ailleurs, la valeur de

SSIM variant peu d’une image à une autre, il semble clair que son résultat ne pourra

être exploitable pour nos tests de compression. Nous ne l’utiliserons plus dans la suite

des études. PNSR semble évoluer de manière tout à fait intuitive d’une version à une

autre, mais sa précision ne permet pas d’estimer une échelle sur des résultats peu

différents. Sa similitude de fait avec MSE nous fera justement lui préférer MSE. Par

ailleurs, S-CIELAB et MSE sont les deux seules à varier dans le même sens que le

poids de fichier pour tous les résultats obtenus.

63



Pour le web (100/100) 280 ko 0 50 0,99 0


Pour le web (75/100) 120 ko 0,53 43 0,98 423


Pour le web (50/100) 56 ko 1,6 38 0,99 1855


Pour le web (25/100) 39 ko 2,7 36 0,94 2898


Pour le web (0/100) 21 ko 4,6 33 0,95 6418

Tableau 4 : Les métriques calculées pour l’image 2 compressée dans Photoshop selon les deux méthodes.

Figure 13 : L’image 2 compressée aux facteurs de qualité successifs 100, 75, 50, 25 et 0 sur l’échelle 0-100 de la fonction « enregistrer pour le web » de Photoshop.

Nous pouvons tracer à partir de ces deux tableaux, une première courbe

représentant les poids de fichiers obtenus selon les deux méthodes en fonction des

facteurs qualités (figure 14). Si l’échelle 0-100 était juste une échelle de compression

dont les taux sont identiques mais plus paramétrables que l’échelle 0-12, on

observerait pour les valeurs choisies ici, une courbe rouge superposée à la bleue, ainsi

qu’une courbe verte superposée à la jaune.

64

Figure 14 : Dans Photoshop, les deux méthodes de compression JPEG ne sont pas du tout équivalentes.

À la lecture de ces tableaux et graphiques, on constate de manière assez claire

que, à « qualité » comparable, le poids de fichier est différent selon les deux méthodes.

Même les niveaux de compression minimums (12/12 et 100/100) ne donnent pas des

poids de fichiers image identiques, pourtant, les deux images obtenues, sont tout à fait

semblables. Quant à la fidélité avec l’originale non compressée, il se trouve que les

valeurs diffèrent d’une méthode à l’autre pour tous les niveaux de compression, taux

minimal mis à part. On peut se permettre une critique à ce sujet envers Adobe car la

majorité des utilisateurs aura instinctivement tendance à se référer à une règle de trois

pour tenter de comparer les deux échelles de « qualité ». Ici, on constate d’ores et déjà

que le niveau de qualité 9/12 de la fonction « enregistrer sous » ne correspond pas du

tout au niveau de qualité 75/100 de la fonction « enregistrer pour le Web ». Par

ailleurs, selon le contenu de l’image et malgré des taux identiques relatifs, les résultats

sont différents. Ceci s’explique par la différence de structure entre elles. Comme nous

l’expliquions dans le paragraphe78 sur le format de compression JPEG, d’un point de

vue formel, le JPEG parvient plus facilement à compresser des images comportant peu

de détails, car elles sont constituées de plus de motifs répétitifs. Ici, le portrait

78 I/2/b

65

considéré comporte des aplats colorés sur le visage, tandis que le paysage est composé

de nombreux petits détails.

Les poids des images obtenues étant différents, ces premiers résultats ne

permettent qu’une évaluation du niveau de compression en fonction de l’échelle

choisie. Ces résultats ont donc pour réel intérêt de nous informer des échelles utilisées

dans chacune de ces deux fonctions. Il serait tout aussi utile de pouvoir comparer la

rentabilité de la compression selon ces deux méthodes. L’usage des métriques

d’évaluation se révèlerait particulièrement pertinent si, au sein de l’interface

d’enregistrement pour le Web, on pouvait définir des taux de compression offrant des

poids équivalant aux images obtenues avec la première. Une telle option existe, il

s’agit de cocher la case : « optimiser pour la taille du fichier désiré ». Une fois la

compression des images effectuées avec l’objectif de poids de fichiers comparables,

on recalcule les valeurs de MSE, PSNR, SSIM ET S-CIELAB entre l’originale et les

images compressées.

Pour obtenir le tableau 6, on utilise la fonction « enregistrer pour le Web » avec

son option « optimiser pour la taille du fichier désirée. » Les résultats montrent cette

fois-ci une nette amélioration de la fidélité avec la méthode d’enregistrement

spécifique pour le Web79. Il semble que pour des poids de fichiers prédéterminés par

l’utilisateur, l’algorithme adapte mieux sa compression au contenu de l’image et sait

conserver de manière bien plus fidèle les données d’origine. Nous expliquions en

introduction que la raison pour laquelle des recherches étaient toujours en cours sur

des méthodes de compression était l’obtention d’une meilleure relation entre le poids

et la fidélité. On peut désormais grâce à ces résultats et aux métriques d’évaluation,

tracer une courbe comparative de l’évolution de l’erreur quadratique moyenne en

fonction du poids de fichier selon les deux méthodes et les deux images considérées.

79 Une capture d’écran de l’interface d’enregistrement pour le Web de Photoshop CS3 est disponible en annexe avec l’image compressée pour 37 ko selon la fonction « pour le web » ainsi que l’image de 37 ko compressée selon la méthode « enregistrer sous ».

66



Pour le web (pour 214 ko) ko) 175 ko 0,0965 50 0,99 0


Pour le web (pour 86 ko) 82 ko 0,2834 45 0,99 6







Tableau 5 : Valeurs des métriques de qualité d'image entre l'originale et des versions compressées à des poids comparables selon les deux méthodes de Photoshop

Figure 15

Les conclusions sur l’utilisation des deux fonctions d’enregistrement JPEG de

Photoshop sont donc simples et catégoriques : le niveau de qualité maximum que

67

permet la fonction « enregistrer pour le Web » est inférieur à celui que permet la

fonction « enregistrer sous ». Néanmoins, cette dernière est à proscrire dans le cas de

fortes compressions d’images. La fonction « enregistrer pour le Web » est beaucoup

plus performante lorsque l’on choisit l’option « optimiser pour la taille du fichier

désiré». Les niveaux de fidélité obtenus en fonction du poids de fichier sont

globalement toujours bien meilleurs avec cette fonction. D’une manière générale, on

se doit de remarquer que la valeur de MSE évolue selon une modélisation

exponentielle avec l’inverse du poids de fichier. Dans les valeurs minimales de poids,

il faudra être très pointilleux et pour gagner quelques kilo octets, on peut changer

radicalement l’image.

2 - La compression automatisée en ligne.

Lorsque l’utilisateur souhaite partager ses photographies sur des sites Internet

communautaires, la plupart du temps, il n’a pas le choix du taux de compression que le

serveur appliquera à ses images. C’est le webmestre qui, le jour du codage du site

Internet dynamique, choisit un facteur qualité et un moteur de compression. Dans

beaucoup de cas, pour les besoins de la maquette du site, l’image est également

rééchantillonnée à la volée. Seuls les professionnels ont généralement conscience de la

présence de ces deux opérations. Pourtant, il existe de nombreuses méthodes de

rééchantillonnage, tout comme il existe de nombreuses méthodes de compression et

leur action sur les images téléchargées peut s’avérer ravageuse. Nous nous proposons

dans cette partie de tester différents sites et algorithmes très couramment utilisés sur

Internet pour traiter les images photographiques du grand public, car ce sont ces

plateformes numériques en ligne, encore plus que Photoshop, qui sont les plus larges

producteurs d’images compressées en JPEG sur Internet. De Facebook à Skyrock

Blog, nombreux sont ces outils automatiques de galeries photographie en ligne dont

nous faisions part en première partie. De l’un à l’autre, tout peut varier, mais,

concernant le traitement des images, on constate trois points communs :

- ils recompressent tous les images envoyées par l’utilisateur.

- ils ne rééchantillonnent que dans le sens de la réduction.

- le plus grand dénominateur commun en termes de taille d’image

maximale acceptée est 500 pixels pour le côté le plus long.

68

a/ Sans rééchantillonnage

Pour des raisons de commodité, nous décidons d’envoyer à chacun de ces

serveurs une image de format carré, et, afin de pouvoir comparer les compressions

effectuées avec celles de Photoshop étudiées dans un paragraphe précédent, nous

choisirons l’image de la ville de New York qui avait été utilisée alors. C’est une image

de 500 pixels de côté, elle ne sera donc pas rééchantillonnée. Les sites Internet dont les

moteurs de compression seront testés sont : Facebook.com, Flickr.com,

Imageshack.us, Myspace.com, Picasa Web Album et Skyrock Blog. On trouve sur

Internet une fonction open source80 du langage de programmation php, intitulée

imagejpeg81. Cette fonction renvoie une image compressée en JPEG à partir d’une

image source compressée ou non compressée. Elle est utilisable par tout développeur

amateur ou professionnel et applicable à divers cas de compression. C’est ce type de

fonction qui est aujourd’hui utilisé par une grande partie des sites Internet

dynamiques. La fonction imagejpeg permet au programmateur de choisir un argument

de qualité, sur une échelle comprise entre 0 et 100. Par défaut, si aucun argument n’est

choisi, c’est la valeur 75 qui est considérée. Nous testerons également cette fonction

en réglant l’argument sur 75 pour les tests comparatifs.

MSE S-CIELAB Poids fichier Facebook 1,867 1457 68

Flickr 0,2678 232 164 imageshack 0,0385 46 280

Myspace 2,38 2061 52 Fonction PHP 2,37 1975 52

Picasa 0 0 292 Skyrock Blog 2,37 1975 52

Image originale 0 0 292

Tableau 6 : Les poids de fichiers obtenus et les métriques de qualité d'image correspondantes pour 7 méthodes automatisées de compression en ligne.

Ce tableau nécessite un peu d’attention car sa lecture nous renseigne de

manière assez évidente sur les similarités entre les sites et nous permet de dresser un

classement pour les traitements destructifs appliqués sur chacun. Nous n’oublierons

pas de considérer ces remarques en parallèle avec l’usage qu’en attendent les

développeurs. Tout d’abord, il semblerait que Skyrock Blog utilise la même fonction 80 L’open source est une licence légale informatique. Lorsqu’un code informatique est open source, les droits d’utilisation sont partagés à l’ensemble de la communauté créative. 81 Depuis la version 3.0.0.16 de PHP.

69

php imagejpeg que nous avons testée et qu’il l’utilise avec la valeur de facteur qualité

par défaut puisque les deux métriques donnent strictement les mêmes valeurs pour les

deux images issues de ces traitements. Nous pouvons soupçonner Myspace d’utiliser

également cette fonction, mais avec un facteur de qualité légèrement différent car les 3

valeurs : poids de fichier, S-CIELAB et MSE sont étrangement proches. En revanche,

il semble que Flickr utilise un algorithme moins destructif, mais fournissant des

fichiers plus lourds que les autres. Cette observation est loin d’être surprenante pour

deux raisons :

- Flickr est le seul site communautaire uniquement axé sur l’image : l’utilisateur

de Flickr ne s’y rend que pour y voir ou laisser des photographies82, contrairement aux

autres où la photographie n’est qu’un outil de communication supplémentaire.

- l’interface de Flickr laisse le visiteur choisir son format d’affichage.

Imageshack.us ne peut pas être classé dans la catégorie des sites

communautaires, c’est un utilitaire en ligne permettant de stocker des photographies

sur le serveur du développeur afin de pouvoir y accéder en ligne depuis une simple

adresse en http83. L’interface est triviale, ne constitue pas de galeries et le site

s’adresse à des amateurs avertis, c’est probablement pour cette raison qu’il n’est que

très peu intervenu sur l’image que nous lui avons envoyée. Facebook, quant à lui, est

plus récent que les deux sites analogues testés : Myspace et Skyrock Blog, c’est

certainement pour cela qu’il utilise un algorithme de compression moins destructif.

Skyrock Blog est le seul site français, et il s’adresse à un public plus jeune que les

autres, principalement lycéen. On peut supposer que « l’amateurisme » relatif du

codage de ce site qui est mis en exergue par cette utilisation d’une fonction open

source brute, découle de ces deux spécificités : pas d’ambitions internationales ni de

publics expérimentés. Si Facebook tolère un poids de fichier légèrement supérieur à

Myspace, c’est sans doutes à cause de son plus jeune âge, car le débit de transfert

moyen dont est équipé le grand public n’a cessé d’augmenter ces dernières années.

Picasa Web Album est la combinaison d’un logiciel de tri d’images en local et d’une

plateforme de partage en ligne. Il n’a visiblement pas compressé notre image lors du

82 Même si depuis peu, on peut également télécharger des vidéos sur Flickr. 83 HTTP est l’acronyme d’HyperText Transfer Protocole. C’est un protocole de communication développé pour Internet.

70

partage en ligne, cela peut s’avérer problématique s’il en faisait de même avec un

fichier très lourd.

Ce premier tableau nous aura simplement permis de comparer les sites Internet

considérés entre eux. Afin de bien saisir l’impact des compressions réalisées en ligne,

il serait intéressant de pouvoir les confronter à une référence. Ainsi, la figure 14 nous

montre l’intégration de ces valeurs dans la courbe du même fichier compressé dans

Photoshop.

Figure 16 : Les fonctions MSE = f (poids de fichier) de Photoshop et les valeurs renvoyées par Facebook, Flickr, Imageshack, Myspace, php et Skyrock Blog

On voit sur cette courbe que le rapport de qualité en fonction du poids est moins

bon pour les sites Internet qu’avec la meilleure des méthodes de Photoshop (courbe

verte). Flickr renvoie exactement le même rapport de qualité d’image que Photoshop.

La gestion de la compression par la fonction « enregistrer sous » de Photoshop s’avère

toujours rester le plus mauvais moyen de compresser une image de 500 x 500 pixels.

Comme nous l’avions pressenti dans le tableau, les trois sites dont l’usage est similaire

(Myspace, Skyrock Blog et Facebook) donnent des résultats très proches de la fonction

php open source imagejpeg lorsqu’elle est laissée sur sa valeur par défaut. Cette valeur

doit donc être considérée par les développeurs comme suffisante pour l’usage très

71

anecdotique de ces images. Chaque point spécifiquement inscrit sur les deux courbes

de Photoshop représente une valeur des facteurs de qualité relative suivants :

0,3,6,9,12, pour la fonction « enregistrer sous » et « 0, 25, 50, 100 » pour la fonction

« enregistrer pour le Web ». Les trois sites communautaires classiques donnent donc

des taux de compression qui sont compris entre les taux 3/12 et 6/12 de la fonction

« enregistrer sous » et entre les taux 25/100 et 50/100 de la fonction « enregistrer pour

le web ». Ces valeurs sont très faibles et rarement utilisées dans les usages de la

photographie professionnelle, donc peu en adéquation avec des recommandations que

l’on pourrait faire à ce sujet.

b/ Avec rééchantillonnage

Les tests effectués ci-dessus permettent une bonne appréciation des taux de

compression choisis par ces sites Internet grand public. Pour les besoins de

l’expérience, ils ont été réalisés avec des fichiers dont la taille en pixels est inférieure

ou égale à la taille maximale acceptée par la maquette du site. En effet, pour les

calculs des métriques de qualité d’image, les deux images comparées doivent

obligatoirement être de taille égale. Malheureusement, dans les usages courants, il est

très rare qu’un utilisateur de ces sites envoie une telle image. La majorité est envoyée

en définition maximale et le serveur a besoin de rééchantillonner jusqu’au format

maximal accepté par la maquette de la page. On se propose maintenant d’envoyer des

fichiers pleine définition et de comparer les images rééchantillonnées par les serveurs

avec les mêmes fichiers rééchantillonnés en local dans Photoshop CS3 selon la

méthode bicubique. Nous considérerons pour cette partie que cette méthode est la

référence de réinterprétation de fichier. Les différences observées pour chaque site

Internet sont classées dans le tableau 8.

Cette fois-ci, on remarque que les résultats sont beaucoup plus variables entre

les sites. Comprenons bien que ce tableau incorpore aussi une étape de compression

car ce traitement est incontournable dès lors que l’on télécharge une image sur l’un de

ces sites. Globalement, les différences sont beaucoup plus importantes, mais la

classification entre les différents annonceurs reste semblable. Myspace accuse le plus

mauvais système de traitements de photographies sur les deux étapes :

rééchantillonnage + compression. Facebook, Skyblog et le code php open source

restent dans des valeurs intermédiaires mais avec des valeurs de MSE beaucoup plus

72

élevées que lors des premiers tests. Flickr reste le meilleur des sites communautaires,

mais ses résultats sont beaucoup plus proches des autres que lorsque l’on envoie une

image à la taille exacte. Imageshack devient l’outil le moins destructif de l’ensemble et

Picasa se révèle être un convertisseur moins qualitatif lorsqu’il doit rééchantilloner

l’image en vue d’une galerie dont la taille maximale de fichiers acceptée est 512 pixels

pour le coté le plus court.84 En rééchantillonnant

MSE S-CIELAB Poids fichier Facebook 3,11 2743 92

Flickr 2,9564 1688 204 imageshack 1,96 879 492

Myspace 4,4293 4115 72 Fonction PHP 3,1033 2102 52

Picasa 2,632 2864 68 Skyblog 3,14 2217 52 Originale 0 0 variable

Tableau 7 : Différences MSE et S-CIELAB pour le même rééchantillonnage entre différents sites Internet et Photoshop.

Il est important de signaler dans ce paragraphe sur le rééchantillonage en ligne,

que Flickr propose une fonction qui laisse entendre au visiteur qu’il peut avoir accès

au fichier original envoyé par le photographe. Si le photographe active cette fonction,

son fichier est donc visible au sein de la galerie en taille réelle. Nous avons testé cette

fonction avec un fichier JPEG de 1200 x 1200 pixels. Il s’avère qu’en effet, aucun

rééchantillonnage n’est appliqué, mais une compression drastique affichant, pour le

fichier testé, une valeur MSE de 1,7 a été mesurée. La recommandation que l’on peut

soumettre à l’issue de ce constat est de ne pas considérer Flickr comme une

sauvegarde en ligne des fichiers originaux.

3 - L’affichage des images sur écran

Si l’on s’intéresse à la sensation visuelle de qualité, ou de fidélité d’une image

lors de son visionnement, il ne faut pas oublier de prendre en compte ce paramètre

capital qui est l’interprétation de la compression et des valeurs colorées des pixels par

les logiciels d’affichage couramment utilisés.

84 À titre indicatif, les tailles de fichiers rééchantillonés considérés sont : Facebook (604 px), Flickr (500 px), Imageshack (640 px), Myspace (600 px), Picasa (512 px), Syrock Blog (500 px).

73

a/ Protocole

Un outil de comparaison simple et efficace est l’outil de captures d’écrans. Il

capture le signal envoyé à l’écran par la carte graphique sans prendre en compte le

profil écran. Ainsi, on obtient l’image lue par le logiciel. En opérant des captures

d’écran lors de l’affichage de la même image à travers plusieurs utilitaires, on pourra

les comparer ensuite à l’aide de nos métriques de comparaisons. Si les valeurs entre

deux images sont nulles, alors les deux affichages sont identiques, sinon, les deux

logiciels interprètent différemment la compression. Nous allons mener cette

expérience sur une image test RVB couramment utilisée dans l’impression numérique

pour sa capacité à intégrer différentes situations de prise de vue. Et nous effectuerons

les opérations de différence entre l’image originale repassée en format TIFF après

compression et l’image capturée à l’écran. L’image choisie mesure 500 x 354 pixels,

ce qui lui permet de tenir en affichage taille réelle dans les divers écrans utilisés pour

lesquels la carte graphique calcule entre 1024 x 768 et 1920 x 1200 pixels. L’image

est compressée en JPEG et n’intègre pas de profil ICC de telle sorte que les résultats

ne varient pas en fonction de la gestion ICC de certains logiciels par rapport à

d’autres.

Figure 17 : L'image compressée en JPEG dont l'affichage sera testé sur différents logiciels est particulièrement complexe afin d'obtenir des valeurs de métriques les plus variables

possibles.

L’affichage se fera en 100% dans chacun des logiciels, sous 3 systèmes

d’exploitation : Mac OS X Tiger, Mac OS X Leopard et Windows XP SP3. A cette

valeur d’affichage : 100 %, les images ne souffrent pas d’un lissage abusif comme on

74

le remarque parfois pour des images trop grandes dont on souhaite faire adapter par la

carte graphique la taille d’affichage à l’écran. Trois cartes graphiques sont testées pour

Mac OS X et trois cartes graphiques pour Windows XP. La version Leopard de Mac

OS X est testée sur le même ordinateur que l’un des Windows XP. Les captures d’écran

sont réalisées avec les utilitaires de capture d’écran de Mac OS X et de Windows XP

puis enregistrées en format TIFF.

Nous les comparons avec deux métriques, MSE et S-CIELAB, afin de nous

assurer d’obtenir des résultats cohérents. Lorsque les deux métriques donnent le même

résultat de différences mathématiques et perceptives avec l’image originale, on peut

considérer que les images capturées sont identiques entre elles.85 Le tableau 9

regroupe tous ces résultats. Le tableau 10 récapitule, à titre indicatif les logiciels et

systèmes d’exploitation capables de gérer les profils ICC incorporés aux fichiers.

85 Si les résultats des calculs paraissent globalement très élevés c’est sans nul doute parce que l’image testée n’est pas une image photographique réelle, mais une composition très complexe comportant des dégradés et des éléments graphiques avec un montage de 4 photographies.

75

A

perçu système

Diaporam

a systèm

e Photoshop C

S3 Firefox 2

Internet E

xplorer 7 Safari 3

Coup

d'œil/Pellicule

Fond d'écran

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

MSE

S-CIELA

B

Mac O

S 10.4 ATI

Radeon 9650 256 M

o 1,3

579 2,2

10667 5,24

38967 1,29

539

1,29

539

1,29

539

Mac O

S 10.4 nV

idia GeForce

FX G

o5200 32Mo

1,29 539

4,44 39632

5,28 14649

1,3 579

1,28 937

1,29 539

Mac O

S 10.5 ATI

Radeon H

D 2600

256 Mo

1,4 3062

1,4 3062

0,68 1317

0,87 1317

1,4 3062

1,4 3062

1,4 3062

Window

s XP A

TI R

adeon HD

2600 256 M

o 1,3

579 1,3

579 3,85

12238 1,3

579 1,3

579 1,3

579 1,3

579 1,3

579

Window

s XP A

TI R

adeon X1300

PRO

256 Mo

1,3 579

1,3 579

3,85 12238

1,3 579

1,3 579

1,3 579

1,3 579

1,3 579

Window

s XP

nVidia G

eforce 8800 G

TS V2

512 Mo

1,3 579

1,3 579

1,18 9066

1,3 579

1,3 579

1,3 579

1,3 579

1,3 579

Tableau 8 : Valeurs des métriques de différences M

SE et S-CIELAB

entre une image originale et son affichage dans divers logiciels.

Gestion des profils IC

C

Aperçu

système

Diaporam

a Systèm

e Photoshop C

S3 Firefox 2

Internet Explorer 7

Safari 3 C

oup d'œ

il/pellicule Fond

d'écran

Mac O

S 10.5 oui

oui oui

non

oui oui

oui W

indows X

P SP3 non

non oui

non non

oui non

non

Tableau 9 : La gestion des profils ICC incorporés par divers logiciels d'usage courant.

b/ Conclusion

En ce qui concerne les valeurs MSE et S-CIELAB obtenues par différence

entre les images affichées puis capturées et l’image source, il est normal qu’aucun

des résultats ne soit nul, car l’image affichée ne peut être identique à l’image

originale. La première constatation est la suivante : sous Windows XP, l’affichage

des images ne dépend ni de la carte graphique ni du logiciel utilisé, sauf pour

Photoshop. Il semble que dans tous les autres cas, c’est le système qui gère la

décompression et l’affichage des couleurs des images JPEG RVB. Les résultats des

deux métriques utilisées étant strictement identiques entre eux, on peut considérer

que les images capturées dans les différents utilitaires d’affichage sous Windows XP

donnent également les mêmes résultats quelle que soit la carte graphique utilisée.

Sous Mac OS X, les résultats sont beaucoup plus variables et l’importance de la

carte graphique est incontestable. Le fait que la quasi-totalité des logiciels testés sous

Mac OS X gère les profils ICC explique peut-être la variabilité qui est acceptée dans

les divers affichages. Par ailleurs, sous Mac OS X, un profil écran est toujours actif,

néanmoins il est difficile d’interpréter une telle variabilité des résultats,

particulièrement, lorsque l’on compare l’aperçu et le diaporama de Mac OS X.

Pourtant, ce n’est pas la méthode de test que l’on peut remettre en cause, car cette

différence est telle (3,15 en valeur MSE) qu’elle s’observe déjà largement à l’œil nu

sans même effectuer de capture d’écran.

Nous avons maintenant éclairci beaucoup de points concernant les

conséquences sur les images des véritables utilisations de la photographie numérique

ainsi pratiquée. Il s’avère donc que sur Internet, l’image est fortement compressée

mais pas de manière équivalente selon les sites considérés. Nous avons aussi résolu

qu’une utilisation mal contrôlée de Photoshop pouvait avoir des conséquences

désastreuses sur des images destinées à un affichage Web rapide, certes, mais fidèle.

Nous connaissons maintenant les interprétations effectuées par les différents logiciels

d’affichage lorsqu’ils doivent décompresser une image et l’afficher en taille réelle.

La variabilité de l’image selon tous ces points de comparaison est telle qu’elle

justifie la pertinence de notre démarche, dans laquelle on s’intéresse au regard du

public, premier utilisateur de ces outils, sur les images dans leur contexte de

visualisation général. Tous ces éléments suffisent donc pour constituer une base de

77

données d’images en vue d’une mesure expérimentale avec des publics aux habitudes

variables. Il s’agira de reprendre des éléments clés de chaque partie théorique pour

les confronter avec une expérimentation pratique sur l’humain.

78

IV – Enquête sur les éléments constitutifs du jugement de qualité d’images compressées

79

Puisque nous avons mis en évidence l’instabilité des systèmes d’affichage et de

réalisation de compression JPEG, puisque nous avons évoqué toutes les nouvelles

utilisations que certains types de personnes affichent, la question fondamentale qui

s’en dégage naturellement est la suivante : que pense le public de tout cela ? Dans

cette partie, nous allons détailler les modalités d’une enquête permettant de dégager

des éléments de réponse quant à la tolérance du public face à des images

compressées à des taux abusifs et destructifs. Dans une telle enquête, tous les détails

doivent être examinés, car nous souhaitons isoler les parasites du jugement les uns

par rapport aux autres de manière à les étudier indépendamment. Du choix des

images présentées, jusqu’à la manière de les visualiser et de les analyser, les données

de réponses seront valables si le maximum de parasites inconsidérés est supprimé.

1- Réflexion sur les images tests

Les images présentées au test sont, en quelque sorte, la matière première de

l’enquête psychoperceptive. L’influence de leur contenu ou de leurs caractéristiques

doit être maîtrisé ou analysé, nous décidons de ne pas l’ignorer. Dans la première

partie de ce chapitre, nous allons détailler les modalités des choix techniques et

esthétiques qui sont faits.

a/ Les choix techniques des images.

Dans une étude sur la perception psychologique de la qualité des

photographies, il convient de rester prudent quant aux images qui sont présentées à la

population expérimentale. Ainsi, pour s’assurer que d’un point de vue technique,

toutes les images choisies correspondent à des critères d’exposition et de netteté sans

défaut majeur, elles sont présentées à un jury expérimenté86 qui valide que leurs

critères de qualité technique soient irréprochables. Enfin, une neutralité de

l’ambiance lumineuse de la scène est assurée par une retoucheuse professionnelle87.

Toutes ces précautions sont prises afin de s’assurer que les réponses recueillies sur la

qualité technique des images, ne sont pas parasitées par un de ces éléments,

intrinsèques à l’image, mais sans lien avec la compression ou une autre question de

la problématique.

86 Il s’agit de trois étudiants en dernière année de l’Ecole Louis Lumière, section Photographie, dont le regard sur la qualité technique s’approche d’un regard professionnel. 87 Floriane Pech, retoucheuse professionnelle travaille au studio 44 à Paris. Elle est diplômée de l’école des Gobelins.

80

Pour évaluer objectivement le niveau de dégradation des images, nous nous

proposons d’utiliser la métrique S-CIELAB qui a été remarquée comme étant la plus

fiable pour notre étude sur le critère du jugement objectif. Comme nous l’avons vu88,

utiliser une métrique aussi mathématique que MSE ou PSNR engendrerait, une

surévaluation du défaut visible de chaque photographie présentée et le but ici, n’est

plus de juger objectivement de la différence mathématique entre l’image originale et

sa copie, mais bien de quantifier visuellement les défauts, selon un outil fiable. Les

images sont toutes dégradées à l’aide de Photoshop avec la fonction « enregistrer

sous » et à partir de fichiers bruts non compressés. Nous utilisons cette fonction avec

un rééchantillonnage abusif et des enregistrements multiples en JPEG afin d’obtenir

des dégradations très élevées. En effet, si l’image risquait de se trouver sans défauts

apparents pour une majorité de personnes, l’étude risquerait de ne pas être

exploitable. Plusieurs mesures de S-CIELAB, entre l’original non compressée et des

versions de niveaux de compression variables sont effectuées. À l’issue de ces

compressions destructives maximales, les photographies dégradées à des niveaux

globalement équivalents sont retenues et présentées à nouveau au jury de regards

expérimentés pour qu’il confirme cette équivalence relative de dégradations entre les

images.

La taille des images affichées correspond à la taille la plus courante sur

Internet. Nous avons vu dans le chapitre précédent89, qu’un dénominateur commun

concernant ce critère, pouvait être dégagé des sites Internet communautaires. Par

ailleurs, la taille de 500 pixels pour le côté le plus long permet d’occuper un espace

moyen dans un écran réglé sur une définition de 1024 x 768 pixels et affichant les

barres d’outils d’un navigateur Internet, en plus de quelques éléments de page Web

tout autour des images. Nos images sont donc dimensionnées à 500 pixels pour le

côté le plus long.

b/ Le contenu des images à choisir.

On choisit d’exploiter deux lots d’images. Le premier serait annoncé au public

expérimental comme étant issu de la production d’un photographe professionnel.

L’autre se verrait attribuer la mention psychologique d’images « amateur » réalisées

88 II/2/d 89 III/2

81

par un couple au fil de ses vacances. Une dizaine d’images de chaque type sont

sélectionnées. Afin de dégager des lois simples sur l’influence de la légitimité du

photographe dans le jugement de la qualité technique, les mêmes questions pour les

deux lots d’images sont posées aux observateurs naïfs90.

Par ailleurs, on souhaite répondre à la question suivante : est-ce que la part de

l’affectif pour le sujet photographié peut troubler le jugement ? Pour cela, les

contenus photographiés doivent êtres très variables. Certains sont choisis par

anticipation sur leur impopularité présumée, tandis que d’autres, au contraire sont

retenus pour leur facilité à séduire le plus grand nombre. Ainsi, l’image crue d’une

femme pendue sur fond rouge risque de facilement être rejetée par le public, tandis

que la représentation d’un bébé rose aux yeux bleus fixant l’objectif, à de fortes

chances d’attendrir. Ces deux images présentant des défauts de compression

visuellement comparables d’après S-CIELAB, si une différence globale du jugement

de la qualité est observée, on pourra la faire dialoguer avec les préférences

personnelles.

À l’exception du portrait, du montage et du pendu, toutes les images de la

sélection professionnelle répondent à des références esthétiques publicitaires ou

commerciales, car parmi la production photographique professionnelle, c’est ce type

d’images qui est le plus largement observé par le grand public. Le tableau 10

présente la liste des 20 images utilisées avec les valeurs S-CIELAB de chacune. Ces

images ont été réalisées de manière à comporter des similitudes proches dans leurs

valeurs de métrique, mais il est difficile d’obtenir une identité parfaite, S-CIELAB

évoluant selon une échelle logarithmique. Dans les valeurs supérieures à 1000, une

différence de 100 sur l’échelle S-CIELAB correspond à une différence de 10 dans les

valeurs proches de la centaine.

90 Le terme naïf appliqué aux observateurs d’une enquête psycho-perceptive, est utilisé en sciences cognitives pour désigner un observateur non averti sur le sujet de l’enquête et non expert dans le domaine considéré. Source : Thèse de doctorat de Clotilde Boust, Contribution à l’amélioration des images numériques par un algorithme fondé sur la démarche d’expert chromiste.

82

Traitement professionnel Traitement amateur

Contenu de l’image S-CIELAB Contenu de l’image S-CIELAB

Portrait d’une femme en studio 1028 Portrait de trois

hommes festifs 1103

Un poisson saute hors de son bocal 989 Une fontaine dans la

nature 1209

Palmier sur une île 1935 Une île avec des palmiers 1532

Une femme pendue 1121 Deux surfeurs assis dans la neige 995

Publicité pour des sous-vêtements 1652 Une maison décorée 1025

Une composition florale zen 882 Une statue 907

Un bébé sous un linge frais 1250 Un phare 899

Un couple souriant au soleil 1045 Un couple dans un

jardin 1310

Un plat de tomates fraîches 1380 Un touriste sur une

place 958

Un paysage déstructuré complexe

918 Un château lointain 1148

Tableau 10 : Liste des images tests91 proposées à la critique des utilisateurs et valeurs S-CIELAB de leur dégradation par rapport à leur version non compressée.

2- Réflexion sur le conditionnement

Lors d’un test comme celui-ci, tout l’environnement qui entoure l’observateur

doit être maîtrisé pour que les réponses ne changent pas d’une personne à une autre,

à cause des conditions d’observation ou d’un parasite au bon déroulement de

l’enquête ; mais aussi, pour que l’observateur ne donne pas des réponses différentes

parce qu’il est dans le contexte d’une expérience. Toute l’interface de visualisation

est donc pensée pour reproduire des conditions normales d’utilisation dans lesquelles

l’observateur se sente en confiance, mais l’approche qui est faite par l’enquêteur

aussi, essaye de ne pas lui dévoiler tout de suite ce sur quoi il doit porter son

attention. Ce qui risquerait d’influencer son jugement à l’encontre du protocole et de

91 Les visuels en version originale et version compressée sont disponibles en annexe.

83

nos objectifs de questionnement : est-ce que oui ou non les personnes détectent un

problème de qualité sur les images et est-ce que cela constitue en soi une gêne.

a/ L’interface de visualisation

Notre sujet s’intéressant à l’acceptabilité des images de mauvaise qualité sur

Internet, les images soumises à la critique sont présentées sur écran au milieu d’un

environnement similaire à un environnement Web classique. Il inclut la présence de

deux publicités par page, le titre du site, les images en miniature et des éléments de

graphisme. L’interface graphique utilisée est celle de Windows XP avec Internet

Explorer 692. On rappelle que sous Windows, Photoshop mis à part quel que soit le

logiciel d’affichage utilisé, nous avions la même valeur de métrique S-CIELAB entre

l’image originale et affichée. On utilise deux environnements Web différents pour les

deux lots d’images de la première expérience, mais ils sont tous les deux sur fond

blanc, afin de les doter de caractéristiques visuelles générales peu différentes entre

elles et relativement standards. Pour la partie professionnelle, nous avons sélectionné

le site du photographe Daniel Barillot pour sa simplicité. Il nous a gentiment donné

l’autorisation de reprendre le graphisme très sobre de son site Internet ainsi que son

nom. Pour la partie amateur, on s’inspirera de l’interface de Flickr, très courante et

relativement sobre, elle aussi. Chaque personne interrogée doit observer les images

pendant un temps semblable. Un diaporama des images est donc déclenché à la main

par l’enquêteur. Ce diaporama est géré par l’outil diaporama de l’explorateur

Windows XP.

L’écran est calibré avec une sonde X-Rite EyeOne Display® et le logiciel X-

Rite EyeOne match® pour respecter une luminosité de 90 candela/m2 et un gamma de

2,2. Il mesure 13 pouces de diagonale et les observateurs doivent se situer à 50 cm.

Cette distance correspond, d’une part à un usage courant pour cette taille d’écran, et

d’autre part à la distance à laquelle est observé le test d’acuité visuel93. La luminosité

ambiante de la pièce est vérifiée avec une cellule photométrique pour rester

inférieure aux valeurs moyennes recommandées par la médecine du travail (300-500

cd/m²) et l’écran est orienté perpendiculairement à la source de lumière principale

92 En Mars 2007, d’après www.xitimonitor.com, 77% des Français équipés d’Internet utilisait ce navigateur. C’est donc son interface graphique qui est familière au plus grand nombre, c’est pour cette raison que nous le choisissons. 93 Voir page suivante.

84

de la pièce. Un test d’acuité visuelle est établi pour chaque observateur. Ce test doit

être validé pour que les réponses de l’observateur soient prises en compte. Une

image de 500 pixels de hauteur (figure 18) est affichée en 100% sur l’écran de

l’expérience, l’observateur doit se cacher un œil et lire tous les chiffres de haute en

bas. Ensuite, il cache l’autre œil et exécute la même opération. S’il rencontre une

difficulté sur un seul des chiffres, le test n’est pas validé94.

Figure 18 : Visuel de l'image test pour l'acuité visuelle. Cette image est au format PNG sans compression destructive.

b/ Le vocabulaire à utiliser.

L’un des enjeux fondamentaux de l’enquête psychoperceptive est d’obtenir des

réponses en adéquation avec les interrogations. Questionner des observateurs naïfs

sur la compression des images peut s’avérer très compliqué, car il n’existe pas encore

de mot simple et intelligible par tous, permettant de définir le défaut de la

compression JPEG. Il s’agit de s’assurer que la personne juge effectivement le critère

que l’on considère et ne donne pas ses réponses en fonction d’un autre. Un tel

quiproquo mènerait inévitablement l’enquête à un échec. Pour cela, nous avons

réalisé une enquête préliminaire à celle-ci, dont le but était uniquement de dégager

les termes les plus couramment utilisés par un autre échantillon d’observateurs naïfs. 94 Source www.bienvoir.com, mars 2008. L’image mesure 291 x 496 pixels. Le plus petit chiffre mesure 8 pixels. Elle est prévue pour être observée à 75 cm d’un écran 14 pouces en 800 x 600 pixels. Dans notre cas, l’écran mesure 13 pouces et la définition est de 1024 x 768, l’observation doit donc se faire à 50 cm.

85

Le protocole de cette pré-enquête est le suivant : on choisit un portrait

répondant aux mêmes caractéristiques que citées précédemment95, que l’on dégrade

au maximum à l’aide de plusieurs logiciels de traitement d’images. On présente avec

un même écran d’ordinateur, sur fond gris, l’image originale et sa version

compressée côte à côte. Vingt personnes, âgées de 21 à 57 ans, sont interrogées

selon trois questions. Le temps maximal d’observation des images pour recueillir les

réponses de l’utilisateur est de 10 secondes. Les questions posées sont les suivantes :

- Observez-vous une différence entre ces deux images ?

- Si oui, comment la définiriez-vous avec une expression ou un mot

simple ?

- Pourriez-vous donner une note entre 0 et 20 sur l’échelle de ce mot

pour chacune des images ?

Le tableau 12 réunit toutes les réponses obtenues. Certaines personnes ayant

utilisé deux termes différents, le total est supérieur à 20. On constate que

majoritairement, la notion sémantique de netteté est mise en cause par les personnes

interrogées. La pixellisation est un terme qui a été utilisé à trois reprises, mais par des

habitués de la photographie numérique. On remarque que la majorité des personnes

ayant pu donner un nom à ce défaut affirme pouvoir également y donner une note

entre 0 et 20. Ce critère nous permet, pour la suite de l’enquête, de demander aux

futurs observateurs de noter ainsi des qualités d’images.

Terme Pas nette Pixellisée Mauvaise Dégradée

Pas de différences

Oui, je pourrai noter ces

différences Nombre de

réponses 11 3 5 3 15

Tableau 11 : les réponses d’utilisateurs données en visualisant la photographie de la figure 19 et le nombre qui affirme pouvoir noter ces différences.

Pour l’enquête finale, il s’agit donc d’adapter le vocabulaire en fonction de la

personne interrogée. Les termes d’opposition « flou/net » seront utilisés de manière

prépondérante et mélangés aux différentes appellations concernant la mauvaise

qualité et la notion de dégradation. Un court échange verbal entre l’enquêteur et

95 1/a de ce même chapitre.

86

l’observateur pourra être envisagé à cet effet. Ainsi, on ne commencera le

questionnaire sur la qualité qu’avec l’assurance d’un discours compris par

l’observateur.

Figure 19 : L'image présentée pour la pré-enquête et sa version dégradée sur fond gris

c/ La forme des questionnements

Une enquête traitant de la qualité d’image peut être envisagée selon de

multiples formes. Habituellement, l’objectif est de définir un niveau de dégradation

ressenti par la majorité des gens. Pour arriver à ce résultat, il arrive que l’on présente

instantanément, la même image dans plusieurs versions à des observateurs standards.

Par comparaison, ils doivent éliminer un à un les exemplaires présentés, du plus

mauvais jusqu’au meilleur. À partir de l’instant où leur ordre de préférence ne

répond plus à une logique, on admet qu’il ne voit plus le défaut.

Dans une enquête visant à classer la préférence des personnes face à des

images-tests, la méthode de comparaison par paire est souvent utilisée. C’est une

méthode de psychophysique classique96 qui a été développée pour minimiser la

subjectivité des observateurs en simplifiant leur tâche. Toutes les images dont on

veut classer l’ordre de préférence sont présentées deux par deux et selon toutes les

combinaisons de couples possibles. À chaque affichage, l’utilisateur choisit l’image

qu’il préfère. On en déduit ensuite à partir de ses réponses, la classification générale

des images les unes par rapport aux autres. À l’issue de ces tests, réalisés sur des

96 Peter G. Engeldrum, Psychometric scaling, a toolkit for imaging systems development, Winchester, Imcotek Press, 2000, 185p.

87

échantillons représentatifs de la population, on réalise généralement des lois

générales sur les goûts ou sur la capacité de distinction.

Mais nous n’envisageons pas tout à fait le même genre de problématiques. Au

contraire, notre étude se porte sur les parasites du jugement et sur l’acceptation des

images présentées lorsqu’elles ne permettent pas de points de comparaison. Par

ailleurs, nous ne voulons pas accepter la notion d’un observateur standard et au

contraire, nous prétendons dégager les différents courants d’observateurs

identifiables afin d’envisager l’évolution du jugement en fonction de l’évolution de

la pratique.

Première expérience : images in situ

La première méthode de questionnement que nous exploitons se déroule donc

en deux parties, l’une retenant l’affect qui lie les images et l’observateur, l’autre,

s’intéressant au ressenti de netteté ou de qualité d’image. L’enquêteur se présente à

l’observateur en tant qu'étudiant faisant une étude de sociologie sur Internet. De cette

manière, il n’attire pas l’attention sur la qualité des photographies, ce qui permet de

s’assurer que l’observateur reste candide, au moins durant la première partie. On

explique que la première partie consiste à visiter le site Internet d'un photographe

professionnel et que l’on souhaite recueillir l’avis personnel des observateurs sur les

photographies. On précise qu’il s’agit de goût totalement personnel et que les

réponses peuvent s’étaler sur ces trois simples propositions : « j'aime/je n’aime pas/je

n’ai pas d’avis ». La visite se fait sous la forme d'un diaporama dont l’enquêteur

règle la cadence à un rythme soutenu (4-5 secondes par image en moyenne) mais

suffisant pour recueillir les impressions du visiteur. On se rapproche ainsi du rythme

moyen d’un diaporama sur Internet97 tout en étant assuré d’une visite comparable

pour chaque observateur. Le deuxième faux site Internet, présentant les

photographies typées amateurs, est visité en suivant la même démarche. Après ces

deux visites, on pose une question simple à l’utilisateur : « Avez-vous remarqué

quelque chose de particulier ou de gênant sur les images de ces sites Internet ? ».

Cette question nous permet de quantifier le nombre de personnes capables de

remarquer d’elles-mêmes des images de très mauvaise qualité, et de différencier ainsi

la sensation de gêne de la capacité de distinction que nous étudierons plus tard.

97 Temps moyen constaté pour les diaporamas de Flickr, dphoto.com, Myspace, Mac OS X et Windows XP.

88

Après avoir ainsi débarrassé l’observateur de son affect pour l’image et noté sa

capacité ou non à remarquer de lui-même, l’extrême dégradation des images, on lui

explique désormais que son goût personnel ayant été retenu, il ne doit plus porter son

attention que sur la qualité des photographies. On veille à utiliser les termes de

netteté et de bonne définition recueillis lors de la pré-enquête et, on vérifie que l’on

s’entend sur le même sujet, en demandant à la personne de reformuler ce que l’on

cherche. Au cours de cette deuxième visite, un peu plus attentive, on demande à

l’observateur de noter ainsi chaque image déjà visualisée selon ces trois critères :

« très nette/moyennement nette/pas nette ». Le temps de visionnement peut être

allongé à 6 secondes par photographie, et l’on passe à l’image suivante dès que la

réponse de l’observateur est clairement affirmée. Pour l’exploitation des données,

des valeurs numériques notées par l’enquêteur correspondent aux réponses données

par l’observateur. Cette échelle est détaillée dans le tableau 13.

Avis personnel Jugement qualitatif Valeur retenue

J’aime bien Bien nette 1

Je n’ai pas d’avis Moyennement nette 0

Je n’aime pas Pas nette -1

Tableau 12

Deuxième expérience : images hors contexte

On choisit pour la deuxième grande partie de l’enquête, une seule image. On

sélectionne celle qui a reçu un accueil le plus neutre en termes d’avis personnels au

cours de la première partie. Il s’agit de la photographie professionnelle du couple au

soleil. C’est un plan moyen, composé d’un double portrait, ce qui permet à l’œil de

juger un élément familier (des visages) mais qui permet aussi à la dégradation de se

porter sur des fins détails ainsi que sur des aplats. Repartant de la version originale

de cette image, on la dégrade selon plusieurs taux, supérieurs à la version présentée

sur le site Internet. Ces versions sont comparées et notées par la métrique S-CIELAB

et le jury expérimenté. Nous nous inspirons maintenant de la méthode de

comparaison par paires, mais à la différence près que nous ne voulons pas connaître

l’ordre de préférence des versions variables de la même image par l’observateur,

mais plutôt sa capacité propre à distinguer le défaut. On présentera donc les images

trois par trois au lieu de deux par deux, afin de compliquer la tâche. En effet, ici, ce

89

sont les observateurs qui sont comparés, c’est leur aptitude à juger la qualité des

images en fonction de leur profil qui nous intéresse. Les trois nouvelles versions

engendrées à partir de l’originale sont notées sur 20 en fonction du résultat de S-

CIELAB et de l’avis des jurys. La version originale se verra logiquement attribuer la

note de 20/20. Elles sont présentées sur quatre diapositives, trois par trois, mais

jamais toutes en même temps. Il y a au minimum un exemplaire de la version du site

Internet sur chaque planche afin d’observer, le cas échéant, une éventuelle évolution

de sa notation au fil de l’enquête.

Figure 20 : La troisième planche du diaporama présenté.

La première planche est composée de trois versions identiques à celle du site

Internet, la dernière planche également. Ces deux éléments nous permettent de

vérifier la sincérité de l’observateur et les parasites psychologiques intervenant au

sein de l’évolution de l’enquête. On ne souhaite pas lui fournir la version parfaite de

l’image dès le début, car cela risquerait de le conduire à juger les autres images en

fonction de celle-ci98. Celle-ci ne sera donc présentée que dans la troisième

diapositive. Entre chaque diapositive, on place une image grise vide, que l’on laisse

afficher durant 5 secondes, pour que l’œil oublie les images qu’il vient de voir.

98 Dans l’usage classique de visites sur Internet, la version parfaite non compressée n’est jamais disponible pour le visiteur.

90

Image S-CIELAB Jury Note retenue A1 1045 9 10 A2 1045 9 10 A3 1045 9 10 B1 2158 7 8 B2 9761 1 2 B3 1045 11 10 C1 1045 10 10 C2 0 20 20 C3 9761 0 2 D1 1045 9 10 D2 1045 9 10 D3 1045 9 10

Tableau 13 : Les notes attribuées aux 12 images par le jury et par S-CIELAB. Des valeurs de S-CIELAB identiques rappellent qu’il s’agit de la même image.

On demande à l’observateur de noter, selon le même critère de netteté/qualité

établi au début, chacune des images de chaque trio entre 0 et 20. Il doit donc fournir

12 notes en tout. Pour l’exploitation des données, sa capacité de distinction sera

jugée en fonction de la différence entre les notes qu’il a fournies et celles qui sont

établies par la méthode objective. Pour pondérer les réponses données par

l’observateur en fonction de son échelle de notation personnelle, on lui pose enfin la

question suivante : « Dans le milieu scolaire, lorsque l’évaluation se fait entre 0 et

20, qu’est-ce qui, pour vous ou votre enfant, correspond à une note valable ou

suffisante ? ».99

99 Cette méthode est conseillée par Hélène Chauchat, docteur en psychologie, in L’enquête en psycho-sociologie, éditions puf, Paris, 1985.

91

3- Catégorisation des observateurs

On désire dégager des profils différents parmi les personnes interrogées. Le

niveau d’habitude de l’image et son utilisation sont les échelles selon lesquelles nous

souhaitons classer les observateurs. Après les constatations faites tout au long de la

recherche, notre démarche décide de se pencher en particulier sur ces trois types de

catégories : amateurs de photographie numérique/amateurs d’art/utilisateurs

d’Internet. Cependant, dans les pratiques, ces domaines ont parfois de bonnes raisons

de se mélanger et toute la difficulté de cette enquête réside dans la recherche de

profils types, voire atypiques, ne mélangeant pas ces trois conditions pour pouvoir

étudier l’influence de chacun d’entre eux. Il faut noter qu’un fervent utilisateur de la

photographie numérique a généralement des habitudes de navigation Internet plus

élevées que la moyenne. Nous essaierons malgré tout de trouver des personnes au

profil rare.

Pour comprendre et caractériser les observateurs sélectionnés, on se propose

d’établir 3 questionnaires qui seront soumis aux observateurs après le recueil de leurs

évaluations sur les images. En opérant ces étapes dans cet ordre, on s’assure une fois

de plus de ne pas éveiller l’attention des observateurs sur le but de notre recherche.

a/ Justifications pour les questions concernant l’usage de la photographie numérique

Lorsque les réponses à ces questions sont de la forme oui/non, une réponse

donne la valeur 1, une réponse non, la valeur 0. Lorsque la réponse est de la forme

non/un peu/assez souvent/très souvent, les valeurs numériques sont 0,1, 2, 3.

- Question 1 : « Possédez-vous un appareil photographique numérique ? » Cette

question, simple et triviale, n’implique pas d’ambiguïté dans son interprétation,

et dès lors qu’une personne y répondra par la négative, elle a de fortes chances

d’être classé parmi les non utilisateurs de photographie numérique.

- Questions 2 et 3 : « Avez-vous un ordinateur capable d'enregistrer et d'afficher

des photographies ? Avez-vous déjà visualisé vos photos sur ordinateur ? » Ces

deux questions nous servent à opérer une différence entre quelqu’un qui n’a

aucune pratique et une personne qui est déjà familiarisée au moins un peu avec

la visualisation d’images numériques sur moniteur informatique.

92

- Question 4 : « Avez-vous déjà retouché des photos sur ordinateur ? » Cette

question est suivie d’une précision sur la fréquence : « un peu ? assez souvent ?

très souvent ?». Cette question est assez fondamentale car elle touche à l’un des

premiers bouleversements du numérique : le traitement de l’image par le grand

public. Le regard d’une personne sensibilisé à la retouche est plus éduqué dans

la recherche de défauts.

- Question 5 : « Avez-vous déjà pris des photos avec un téléphone portable ? ».

Un utilisateur très intéressé par la photographie numérique aura au moins une

fois été tenté par cette expérience et possèdera probablement un tel appareil.

Par ailleurs, la qualité de ces matériels étant actuellement peu valorisée,

l’occasion de photographier avec un téléphone est aussi l’occasion d’être

confronté à des images de mauvaise qualité.

- Questions 6 et 7 : « Etes-vous inscrit à Flickr ou un site qui vous sert à

présenter vos photographies ? Etes-vous inscrit sur un site de tirage sur

Internet ? » Ces deux questions peuvent surprendre à première vue dans cette

catégorie, mais en réalité, elles n’auraient pas leur place dans la catégorie

« habitudes d’Internet ». Comme nous l’évoquions en introduction, un amateur

averti de la photographie numérique utilisera sans doute Internet pour partager

ou tirer ses images. Le contraire n’est pas vrai : un utilisateur très confirmé

d’Internet n’a pas forcément de raisons de partager ou de tirer des

photographies.

- Question 8 : « Possédez-vous Picasa où un logiciel spécifique pour classer vos

photographies ?». La majorité des amateurs avertis ont recours à des outils de

classement, la réponse à cette question met en évidence le degré de

familiarisation.

- Question 9 : « Peut-on dire de vous que vous manipulez plus de photos

numériques que la moyenne ? un peu plus ? beaucoup plus ? vraiment plus ? ».

Cette question simple est intelligible par tous et donne immédiatement 3 points

à l’utilisateur confirmé. Comme la réponse à cette question peut sembler au

premier abord relative au jugement personnel de l’observateur, l’enquêteur

veillera a éclaircir, voir corriger la réponse avec quelques questions rapides et

pour assurer une échelle cohérente entre toutes les personnes interrogées..

93

- Question 10 : « Avez-vous déjà imprimé vos photos numériques vous-même

? » Le regard et le discernement d’un photographe s’éduquent quant il devient

son propre technicien de l’image.

- Question 11 : « Avez-vous un reflex numérique ou souhaitez-vous en acheter

un ? » On emploie ces deux propositions car la vente de reflex numériques est

en telle évolution qu’il ne faudrait pas négliger un utilisateur très acharné

équipé d’un bridge qui souhaiterait passer au format supérieur dans les

semaines à venir.

- Question 12 : « Habitez-vous ou vous déplacez-vous régulièrement dans des

lieux affichant beaucoup de publicités ? » L’éducation de notre regard sur la

photographie numérique se fait aussi avec la présence ou l’absence d’images

professionnelles dans le champ de vision au quotidien.

b/ Justifications pour les questions concernant l’intérêt pour l’art et la photographie.

On ne cherchera pas dans ces questions à définir l’aptitude technique du regard

de l’observateur (la démarche expérimentale est là pour ça), mais il s’agira plutôt

d’évaluer son attachement à l’art ou la photographie.

- Question 1 : « Utilisez-vous un appareil photographique argentique ? ».

Quelqu’un qui utilise encore un appareil argentique peut prouver deux

caractères : soit il s’intéresse de près à la photographie, soit il a une pratique de

la photographie occasionnelle qui n’a pas été prise en compte dans la première

partie des questions. Le cas échant, cette pratique ne peut être négligée et doit

donc être prise en compte ici.

- Question 2 : « Faites-vous des photographies en dehors des évènements

particuliers avec cet appareil ? (anniversaires, mariages, vacances ) » Cette

question nous permet de faire la distinction entre deux personnes qui auraient

répondu oui à la première.

- Question 3 et 4 : « Classez-vous vos photos dans des albums ? » et «Vous

arrive-t-il d’en choisir pour des agrandissements ?». Celui qui trie ses images

en est soucieux. De même, le membre d’une famille qui décide de faire

94

agrandir des photographies se révèle plus sensible à cet art et l’on ne peut

négliger cet acte.

- Question 5 : « Peut-on dire de vous que vous vous intéressez à l’art d’une

manière supérieure à la moyenne des gens ? Un peu ? assez ? vraiment ? ».

Cette question demande une appréciation personnelle qui donnera beaucoup de

points à l’amateur d’art et nous permettra de bien le distinguer.

- Question 6 : « Pensez-vous être influencé par un proche qui s’intéresserait à la

photographie ? ». Si un observateur avait répondu non à la première, il ne faut

pas en négliger pour autant la possible influence familiale ou autre d’une

personne qui montre régulièrement des images et éduque involontairement le

regard de ses proches.

- Question 7 : « Avez-vous déjà remarqué une mauvaise qualité de photo sur

Internet ? ». Cette question sera posée avec la précision suivante : « nous

parlons d’une image dont vous avez pensé avec certitude qu’elle était mauvaise

à cause d’Internet ». Quelqu’un qui est capable de se plaindre de cette qualité

présentera un regard plus pertinent sur la photographie compressée que

quelqu’un n’ayant jamais fait cette constatation. Bien que cette question

apparaisse fondamentale, on ne peut la noter trop différemment des autres, car

au sein de cette catégorie, elle séparerait injustement ceux qui vont sur Internet

de ceux qui n’y vont pas. Rappelons qu’ici nous cherchons à évaluer

l’attachement de l’observateur pour l’art.

- Question 8 : « Avez-vous récemment vu une photo de vous prise par un

professionnel ? ». Le regard sur soi est un des meilleurs moyens de s’éduquer

l’œil car chacun connaît ses particularités physiques avec précision. Par

ailleurs, son habitude de l’art et ses fréquentations auront forcément un impact

sur cette réponse.

- Question 9 : « Visitez-vous régulièrement des expositions de photographies

? ». Cette question vise à dégager clairement les amateurs de photographie

d’art des autres.

95

- Question 10, 11 et 12 : « Avez-vous déjà pris des cours de dessin ? de

peinture ? de photographie ? » Ces trois questions simples, si elles donnent des

réponses positives, prouvent une culture artistique visuelle enseignée.

- Question 13 : « Pourriez-vous me citer votre photographe préféré ? ». Le

niveau de culture en photographie, sera facilement révélé par cette question.

- Question 14 : « Considérez-vous avoir un regard critique sur les arts visuels ? »

Cette question vient contenter un observateur qui n’aurait pu répondre par la

positive aux questions 10, 11, 12 mais dont l’intérêt pour l’art et l’éducation

visuelle sont tout aussi développés.

c/ Justifications pour les questions concernant l’usage d’Internet

- Question 1 : « Avez vous un accès Internet à disposition ? ». À l’instar de la

première question sur l’appareil numérique, elle permet de faire tout de suite la

séparation entre une personne qui ne voit quasiment jamais de JPEG et une

autre.

- Question 2 : « Avez-vous déjà mis vos photos en ligne sur Internet ? » Cette

question permet de définir le niveau d’usage de la photographie sur Internet et

l’habitude de voir ses propres images dans un environnement Web.

- Question 3, 4, 5, 6, 7 et 8 : « Etes-vous inscrit à des sites

communautaires ? Facebook ? Myspace ? Skyrock blog ? Dailymotion ?

Youtube ?» Ces questions sont décisives, plus le nombre de réponses positives

sera important, plus on aura affaire à une personne confrontée visuellement à la

compression d’images.

- Question 9 : « Combien de ces sites Internet connaissez-vous ? ». Cette

question permet de donner des points positifs à quelqu’un qui n’est pas un

suffisamment fervent utilisateur d’Internet pour être inscrit sur tous mais qui y

navigue suffisamment pour les connaître.

- Question 10 : « Allez-vous régulièrement sur l’un de ces sites Internet ? ».

Cette question permet de pondérer les réponses des questions 3,4,5,6,7 et 8.

96

- Question 11 : « Connaissez-vous Picasa ? ». Ce service n’étant pas

extrêmement populaire, mais néanmoins propulsé par Google, la connaissance

de ce nom prouvera une certaine culture du Web, mais n’engage pas de culture

de l’image particulière.

- Question 12 et 13 : « Connaissez vous le mot « podcast » ? en utilisez-vous ? »

Ce mot de vocabulaire est assez courant sur Internet, mais n’a pas d’équivalent

dans le monde réel, une réponse positive à ces deux questions prouve un usage

intensif du Web.

- Question 14 et 15 : « Connaissez vous le mot « blog » ? en utilisez-vous ? ».

Beaucoup plus courant, cette question intermédiaire permet de différencier des

profils peu expérimentés du Web, mais proches entre eux

- Question 16 : « Utilisez-vous des moteurs de recherche d’image, comme

Google image ? un peu ? souvent ? beaucoup ? » L’utilisation d’un tel moteur

de recherche amène souvent à des images compressées à des taux abusifs.

Cette question est primordiale pour détacher les personnes ayant l’habitude de

voir du JPEG des autres.

3- Résultats et interprétations

De nombreuses conclusions sont possibles à l’issue d’un tel test. Résumons les

points que nous voulons mettre en avant et juger comme parasites probables : le

premier point est l’influence de l’affect pour l’image observée. Nous voulons définir

le lien de subjectivité qui peut rapprocher le jugement de la qualité et la préférence

pour le contenu d’une image. Le deuxième point est l’influence que l’expérience

supposée du photographe apporte sur ce jugement. Nous voulons à travers celui-ci

étudier la question suivante : si le photographe est jugé fiable, la tolérance est elle

plus importante que s’il est jugé quelconque. Le troisième point est la capacité des

personnes à remarquer d’elles-mêmes le défaut. Cette question est intéressante car

elle révèle l’influence de l’environnement Internet autour de l’image. Seulement, elle

ne fournit pas de données chiffrées, donc elle est peu exploitable sur des faibles

populations. Le quatrième point est le plus développé : il s’agit de la capacité de

distinction en fonction du profil des personnes interrogées. La population

expérimentale totale est composée de 27 personnes, âgées entre 17 et 76 ans, .

97

a/ L’affect

Les premières données à analyser concernent l’influence de l’affect pour les

images dans le jugement de la qualité. Dans la sélection des images professionnelles,

certaines ont été choisies pour leur facilité à s’attirer les faveurs du public et d’autres

pour l’inverse.

Comme nous l’avions supposé, 60 % des personnes interrogées ont trouvé que

l’image de la femme pendue était déplaisante et 40 % de ceux qui ne l’ont pas aimé

l’ont jugée avec le plus faible critère de netteté/qualité. Parmi toutes les images, c’est

elle qui remporte le plus mauvais score de qualité subjective. En revanche, les quatre

images préférées du public sont aussi les quatre qui sont considérées comme les plus

nets en général. L’image du palmier sur l’île avait été choisie pour plaire au public,

malheureusement elle est la 3ème image la moins aimée du public. Si l’on regarde

attentivement ses résultats S-CIELAB (tableau 11), il s’avère que c’est l’image qui

est largement la plus dégradée. On peut donc supposer que l’affect influence le

jugement mais aussi que la qualité influence l’affect : une image professionnelle qui

ne plaît pas est jugée comme étant de mauvaise qualité et une image de mauvaise

qualité aura plus de difficulté à plaire.

Figure 21 : Le goût pour une image professionnelle compressée en parallèle du jugement de sa qualité. Somme des résultats obtenus sur la population, toutes catégories

confondues.

98

Si ces observations sont sans appel pour le premier lot d’images, la conclusion

est beaucoup plus difficile à tirer pour le deuxième. On voit dans l’histogramme de la

figure 21 que l’évaluation qualitative semble moins facilement variable pour des

images « à la portée de tous ». Une légère influence est tout de même notable,

puisque l’image la moins appréciée (les surfeurs) reste celle qui est considérée

comme la moins bonne. En revanche, la « Place », qui est la deuxième image la

moins aimée du public, est jugée aussi « nette » que les autres. On ne peut donc pas

tirer la même conclusion sur l’influence de l’affect mais l’on peut signaler qu’il y a

de fortes chances pour que, lorsque le public est confronté à des images qu’il

considère être capable de réaliser, il les juge plus facilement selon les critères et

parvient à rester indépendant de son goût personnel.

Figure 22 : Le goût pour une image d’amateur compressée en parallèle du jugement de sa qualité. Somme des résultats obtenus sur la population, toutes catégories confondues.

b/ La légitimité du photographe et la gêne immédiate

Si l’on établit la somme de toutes les réponses données sur la qualité technique

des images du « site professionnel » et toutes les réponses données depuis le « site

amateur », on obtient 108 pour le premier et 97 pour le deuxième. Ce qui revient à

une note globale de 8,3/20 pour le premier et 7,5/20 pour le deuxième. On ne peut

99

donc pas considérer avec ces résultats que la légitimité du photographe intervient

pour décider globalement l’observateur sur la qualité d’un lot d’image. Il semble a

priori que les observateurs fassent preuve de plus d’indulgence le photographe

professionnel, mais la différence de notes et la taille de la population expérimentale

ne sont pas suffisantes pour affirmer clairement cette conclusion.

On s’intéresse maintenant au nombre de personnes ayant spontanément détecté

les défauts à la suite de la première question : « Avez-vous remarqué quelque chose

de particulier ou de gênant sur ces sites Internet ? ». 23% des personnes

interrogées100 se sont plaintes d’un défaut de « pixellisation », ou de « petits carrés »

sur les images. Il faut préciser un élément à cela : pour les autres, l’enquêteur a

décidé de préciser la question d’origine en orientant vers la notion de qualité

d’image. Aucun n’a répondu qu’il y avait un défaut à ce niveau. Il semblerait donc

que la gêne se fasse spontanément ou ne se fasse pas. Il y aurait donc adéquation

entre la connaissance du problème et son identification.

c/ Catégorisation des profils

Les questions posées aux publics pour définir ses usages nous ont donné des

valeurs représentatives de chaque personne interrogée selon les trois critères : usage

de la photographie numérique, usage d’Internet, intérêt pour l’image et l’art. Nous

avions supposé dans une partie précédente que ses catégories avaient parfois du mal

à être distinctes. La figure 22 nous montre l’évolution du « score » obtenu aux

questions sur la photographie numérique en fonction du « score » aux questions sur

Internet. On y voit clairement que plus une personne s’intéresse à l’image

numérique, plus elle a tendance à naviguer sur le Web. Par souci de cohérence, nous

ne pourrons plus mettre ces deux éléments en opposition et en comparaison au sein

de notre population expérimentale. Nous veillerons tout de même à différencier ces

deux tendances pour les personnes avec lesquelles c’est possible.

100 Cette valeur n’est pas à prendre en compte comme si elle était issue d’un questionnaire visant un échantillon représentatif de la population. Elle n’a qu’un titre indicatif car ici, pour les besoins de l’enquête, des profils atypiques ont été réunis et les 23 % dont il est fait état ici était composés en majorité de personnes dont le niveau de culture visuelle de la photographie, est d’après, le questionnaire sur les mœurs, supérieur à 70%.

100

Figure 23 : Evolution de l'usage d'Internet en fonction de l'usage de la photographie numérique.

d/ L’influence du profil d’utilisateur

Pour considérer la capacité des différents observateurs à juger par eux-mêmes

la qualité d’images compressées en JPEG, nous leur avons demandé de noter entre 0

et 20 toutes les versions d’une seule image. Ces images ont été notées par le jury et

mesurées avec S-CIELAB, les résultats obtenus sont réunis dans le tableau 14. L’une

des premières constatation que nous avons pu faire lors du déroulement de cette

partie de l’enquête, fut que, comme prévu, les personnes cherchaient une différence

là où il n’y en avait pas forcément. Ainsi, sur la première diapositive, représentant

trois fois la même image, 31 % des observateurs ont établi un crescendo des notes de

la gauche vers la droite101. Ce sens correspondant psychologiquement au sens de

lecture, il se peut que ces observateurs aient tous trouvé logique qu’on leur propose

des images de plus en plus dégradées. Il faudrait cependant mener une expérience sur

un plus grand échantillon pour en tirer une loi générale.

101 Dans le doute, nous avons vérifié que l’écran ne présentait pas de disfonctionnement particulier de ce type. C’est quasiment impossible car il s’agit d’un écran LCD. L’élément qui nous a rassuré face à cette constatation est que les personnes qui se sont fourvoyées ainsi correspondent souvent aux plus « mauvais » observateurs dans la suite de l’enquête.

101

À partir des valeurs du tableau 14, considérées comme « exactes », ou tout au

moins, comme étant les références desquelles les observateurs doivent se rapprocher

pour discerner avec brio les différences ainsi que la qualité absolue d’une image, on

calcule l’écart à la moyenne pour toutes les réponses de chaque observateur102. Ainsi,

son écart global au jugement considéré comme « objectif » nous donne une bonne

évaluation de sa capacité à discerner le défaut. On calcule cet écart selon la formule

suivante :

!

Ecart = observateur " objectiveimages

#

Figure 24 : Le calcul de l’écart au jugement objectif. « Observateur » représente la note donnée par l ‘observateur. « Objective » représente la note obtenue par combinaison de

l’avis du jury et du résultat S-CIELAB.

On y ajoute la valeur 5 à chaque fois que l’observateur à déclaré observer une différence dans la première où la dernière diapositive afin de le « pénaliser » de son erreur.

La figure 24 nous donne la valeur de l’écart obtenu pour chaque personne

interrogée. L’abscisse représente le niveau de « culture générale de l’image », qui

est en fait une somme des réponses données à toutes les questions de catégorisation

confondues. Attention pour la lecture de ce graphique, une valeur élevée en ordonnée

détermine une faible capacité de distinction.

102 Ces réponses ayant été remises sur l’échelle de son indulgence exprimée par la question sur la notation scolaire entre 0 et 20. Le calcul est le suivant : note considérée = (note donnée/note valable) x 10. La note « valable » est la réponse à la question : « Dans le milieu scolaire, lorsque l’évaluation se fait entre 0 et 20, qu’est-ce qui, pour vous ou votre enfant, correspond à une note valable ou suffisante ? »

102

Figure 25 : L'écart au jugement objectif en fonction du niveau de "culture visuelle" des personnes interrogées.

On remarque une décroissance globale dans le sens de la « culture de

l’image », mais si cette première conclusion semblait somme toute logique (plus on a

l’habitude de voir des images, mieux on distingue leurs défauts) elle est moins

importante à signaler que les nombreux pics irréguliers que l’on peut observer tout

au long de la courbe. Ces pics, « erreurs » de mesure, correspondent en réalité aux

profils atypiques, c’est-à-dire aux personnes dont le niveau de « culture visuelle de

l’image » est fortement influencé par l’un des trois critères de classification et dont

les réponses aux 3 parties du questionnaire sont hétérogènes. Parmi ces personnes,

nous pouvons remarquer Christine et Héloïse. Christine a 56 ans, elle est peintre

professionnelle et professeur de dessin, mais elle ne s’intéresse ni à la photographie

numérique, ni à Internet. Héloïse a 16 ans, elle est inscrite sur Myspace, Skyrock

Blog, Dailymotion et Youtube et déclare s’y rendre très régulièrement, pourtant elle

ne s’intéresse pas du tout à l’art et n’utilise qu’occasionnellement un appareil

photographique. La figure 25 nous montre la répartition des profils de ces deux

personnes selon les 3 critères de caractérisation que recouvre le questionnaire.

103

Figure 26 : La répartition des centres d'intérêt pour deux personnes "atypiques".

Les profils de ces deux personnes sont donc radicalement différents et chacun

est très caractéristique d’un domaine ; pourtant elles accusent toutes les deux un écart

au jugement objectif comparable. Héloïse affiche un total de 58, et Christine de 38.

Par ailleurs, 100% de leurs réponses vont exactement dans le même sens. Il

semblerait donc qu’Héloïse s’est forgé un regard sur la qualité des images qui soit

comparable en termes de distinction à celui d’un peintre de formation. Par contre, si

son écart au jugement objectif est supérieur à celui de Christine c’est parce que la

moyenne des notes sur 20 qu’elle a donnée est beaucoup plus élevée : 16,4/20 contre

11,5/20. La tolérance d’Héloïse aux images compressées est donc bien plus

importante, alors que ses capacités de distinction sont identiques. On peut en dégager

la conclusion suivante : si Héloïse s’est effectivement affiné le regard en visualisant

beaucoup d’images compressées, cela lui a aussi appris à accepter de graves défauts.

La figure 24 nous montre maintenant l’évolution de l’écart au jugement

objectif moyen des « catégories » de personnes. On y analyse les réponses moyennes

données par des personnes de catégories comparables. 5 catégories sont étudiées en

fonction de leurs réponses aux 3 questionnaires. La courbe « Général » représente la

somme des trois questionnaires confondus, c’est ce que l’on a appelé plus haut : la

« culture visuelle globale ».

104

Figure 27 : Evolution de l'écart au jugement objectif en fonction des groupes de personnes. Les personnes sont regroupées en fonction de leur pourcentage de réponses

positives au questionnaire considéré.

La première constatation que l’on peut faire est que globalement, les réponses

vont dans le même sens quel que soit le critère de catégorisation considéré. Ce qui

signifie que chacun d’entre eux à une influence sur la capacité de distinguer des

images. Il faut noter que la courbe « Général » se rapproche plus de 0 que les autres

car elle inclut deux personnes, Gauthier et Louise, qui ont été supprimées des autres

courbes, car elles étaient sur le « podium » de tous les questionnaires. Elles

faussaient les conclusions puisque, si leur jugement était très pertinent, ce n’était pas

dû à un critère considéré, mais au mélange des trois. Elles ont logiquement pu être

réinjectées dans la courbe totalisant les trois critères. Si l’on compare maintenant les

deux catégories de personnes suivantes : les plus grands utilisateurs du Web et les

plus grands passionnés d’art (entre 60% et 100% de réponses positives à chacun des

questionnaires), on remarque toujours ce qui avait été pressentit avec l’analyse des

réponses d’Héloïse par rapport à celles de Christine, les utilisateurs du Web ont des

capacités de jugement comparables aux amateurs d’art, mais sont globalement

beaucoup plus tolérants.

105

Dans la partie où l’abscisse est comprise entre 0 et 60, le schéma est inverse.

Dans ce cas, il peut s’agir d’une imprécision du questionnaire, qui aurait tendance à

surévaluer l’intérêt pour l’art des personnes aux profils plus modérés. Cette

autocritique est faite au vu des pourcentages élevées obtenus pour cette partie du

questionnaire103. L’une des observations géométriques à faire sur ce graphique est la

différence entre la partie supérieure de chaque courbe et sa partie inférieure. Plus la

différence est importante, plus le critère considéré compte dans le jugement. On

remarque alors que l’usage d’Internet semble moins décisif que l’intérêt pour l’art,

lui-même moins décisif que l’usage de la photographie numérique.

Ces constatations sont en accord avec nos présupposés. Le jugement s’affine

avec l’usage d’une pratique, mais aussi avec l’habitude de l’éprouver. Toutefois,

dans le rapport à Internet et l’usage désintéressé104 de la photographie numérique, un

élément fondamental ressort clairement : cet usage à des implications sur une sorte

d’éducation du regard. Celui-ci est capable de distinctions supérieures lorsque

l’observateur utilise l’une de ces deux innovations à une fréquence suffisamment

élevée. Par ailleurs, sa tolérance s’en trouve également supérieure. Il semblerait

donc, que lorsqu’on a déjà vu le pire, on sait reconnaître le mieux tout en l’acceptant

aveuglément.

103 Moyennes des pourcentages obtenus pour chaque questionnaire de catégorisation des profils : Photographie numérique, 36% ; Internet, 37% ; Art, 45%. 104 On entend par le terme « désintéressé », un usage naïf, basé sur le souvenir et la communication, un usage très social de l’image, sans intérêts techniques ou artistiques. Comme il a été décrit dans la première partie.

106

Conclusion

L’étude du jugement et de ses influences est fascinante lorsque l’on

s’intéresse à la population dite « normale », par opposition à une population

spécifique. De nouveaux éléments d’études sur les mouvements communautaires

sont aujourd’hui mis à la disposition des sociologues, à travers Internet. Ils nous

auront servi de base, non pas pour une réflexion sur eux-mêmes, mais comme

outil de travail pour une recherche s’appliquant à la population des pays

développés. Nous avons pu en tirer des conclusions techniques, qu’il fut

intéressant de confronter avec les considérations plus générales d’une étude

sociale. Ainsi, on peut reprendre l’exemple de la plateforme d’échange et de

communication Skyrock Blog. Elle s’adresse à un public très jeune qui n’est pas

ou qui est peu familiarisé avec la photographie argentique, mais qui, en

revanche, utilise davantage Internet pour sa fonction d’outil de communication

primaire105 que ses aînés. D’après nos résultats sur la compression, les

développeurs de cette plateforme doivent évaluer la tolérance de leurs

utilisateurs à un niveau bien plus élevé que les développeurs de Flickr pour leurs

propres utilisateurs.

Si nous avons décidé ici d’énoncer la totalité de l’environnement dans

lequel l’image numérique évolue actuellement au niveau du grand public, c’est

pour mieux la dégager de cet état et la considérer pour elle-même. Dans cette

étude, nous avons eu l’appui essentiel de recherches très actives ces dernières

années sur l’évaluation de qualité d’image par informatique, ce qui nous a

permis d’assurer une partie fixe, indépendante du jugement humain pour

l’appréciation de la dégradation JPEG. Cependant, ces recherches sont encore en

pleine évolution et si ce mémoire était également l’occasion de réunir tout ce qui

a été fait en la matière, c’est aussi parce qu’aucune de ces méthodes n’a encore

convaincu la communauté scientifique. Par sa facilité d’acquisition et de

diffusion, son immatérialité et ses nouvelles caractéristiques visuelles, l’image

105 Attribué à Internet, cette expression sous-entend la communication directe d’une personne avec une autre sans nécessité absolue d’échanger des connaissances.

107

fixe se trouve une fois de plus à un tournant de son histoire. Cette constatation

semble évidente aujourd’hui, mais les conclusions qu’il faudrait en tirer sur

l’évolution de la perception ne sont pas toujours mises à l’honneur dans les

réflexions contemporaines.

À la première question que nous posions : comment évolue la capacité de

distinction du défaut JPEG avec l’habitude ? Il semble que nous pourrions

répondre de deux manières. Cette aptitude se développe dans le sens d’une

éducation de la vigilance visuelle par l’apprivoisement du défaut, même sans

considérations particulières de celui-ci. L’autre élément de réponse est que la

tolérance elle aussi s’accentue avec la confrontation régulière avec le caractère

particulier d’une image. Quant à la capacité mentale d’effacer le voile de

l’anomalie pour accéder coûte que coûte à l’information, on peut dire qu’elle est

liée à la facilité de chercher la réalité dans l’image. N’entendons pas ici la réalité

au sens de véracité, mais réalité dans le sens de réel. La connaissance effective

de cette réalité facilite, par ailleurs, sa reconstitution. Il serait difficile de monter

une enquête dans laquelle des images représentant les proches de chaque

observateur seraient présentées à ceux-ci, mais l’on peut, au vu des conclusions

de cette étude, supposer qu’une telle enquête donnerait des résultats allant dans

le sens d’une tolérance très élevée et d’une faculté de distinction singulière.

Si les conclusions sont nombreuses avec la seule compression JPEG,

d’autres domaines, tout aussi intéressants pourraient être envisagés dans le cadre

d’une autre recherche suivant ce principe de mise en parallèle des usages avec la

technique.

108

Bibliographie

Ouvrages théoriques et historiques traitant de l’image.

AMAR Pierre-Jean, La photographie, histoire d’un art, Aix-en-provence, Edisud, 1993, 190 p.

BARTHES Roland, La chambre claire, note sur la photographie, Paris, Editions de l’Etoile, Gallimard, Le seuil, 1980, 192 p.

BELTING Hans, Pour une anthropologie des images, Paris, Gallimard, 2004, 346 p.

DIDI-HUBERMAN Georges, Ce que nous voyons, ce qui nous regarde, Paris, Editions de Minuit, 1992, 208 p.

DESCARTES René, Discours de la méthode, suivi d’extraits de la Dioptrique et des Météores, Paris, Garnier-Flammarion, 1966, 252 p.

GUNTHERT André, Études photographiques n° 15, L’image numérique s’en va-t’en guerre. Les photographies d’Abou Ghraib, Société Française de Photographie, Paris, 2004, 200 p.

GUNTHERT André, Études photographiques n°20. L’image parasite après le journalisme citoyen, Société Française de Photographie, Paris, 2007, 206 p.

LAVAUD Laurent, L’image, Paris, Flammarion, 1999, 247 p.

ROUILLE André, La photographie, Paris, Gallimard, 2005, 704p.

SARTRE Jean-Paul, L’imagination, Paris, Presses universitaires de France, 1950, 162 p.

WATZLAWICK Paul, L’invention de la réalité : comment savons nous ce que nous croyons savoir ? Paris, Le seuil, 1988, 373 p.

Ouvrages traitant des sciences humaines.

ANCEAUX Françoise et SOCKEEL Pascal, La démarche expérimentale en psychologie, Paris, In press, 2002, 223p.

BOURDIEU Pierre, Un art moyen, essai sur les usages sociaux de la photographie, Paris, Editions de Minuit, 1965, 360 p.

BROSSARD Alain, Psychologie du regard : de la perception visuelle au regard, Paris, Delachaux et Niestlé, 1992, 300 p.

CHAUCHAT Hélène, L’enquête en psycho-sociologie, Paris, Presses universitaires de France, 1985, 253 p.

DELORME André, Psychologie de la perception, Montréal, Editions Etudes Vivantes, 1982, 421p.

ENGELDRUM Peter G. Psychometric scaling, a toolkit for imaging systems development, Winchester, Imcotek Press, 2000, 185p.

109

GREGORY Richard L., L’œil et le cerveau : la psychologie de la vision, De Boeck Université, 2000, 344 p.

HOWELL David C., Méthodes statistiques en sciences humaines, De Boeck Université, 2007, 832 p.

SHEPARD Roger N., L’œil qui pense : visions, illusions, perceptions, Paris, Le seuil, 1992, 233 p.

Ouvrages techniques sur l’image numérique.

BOUILLOT René, Cours de photographie numérique, principes d’acquisition et stockage, Paris, Dunod, 2003, 300p.

BOUILLOT René, Cours de traitement numérique de l’image, Paris, Dunod, 2005, 236 p.

INCERTI Eric, La compression d’images : algorithmes et standards, Paris, Vuibert, 2003, 220 p.

Publications scientifiques.

BOUST Clotilde, Contribution à l’amélioration des images numériques par un algorithme fondé sur la démarche d’expert chromiste, Thèse de doctorat de l’Université Pierre et Marie Curie, Paris, 2004, 147 p.

BRINGIER Benjamin, Métrique de différences couleurs basée sur le système visuel humain, Laboratoire National d’Essais et Laboratoire de Signal, Image et Communications de l’Université de Poitiers, 33 p.

FAVIER Eric, DINET Eric et TREMEAU Alain, Colour image comparison and visual perception : a process for descriptor validation, Equipe Ingénierie de la vision CNRS 5516, Université Jean Monnet de Saint-Etienne, 1998, 10 p.

IMBENS Guido W., NEWEY Whitney et RIDDER Geert, Mean Squarred Error calculations for average treatment effects, Université de Californie à Berkeley, Institut de technologie du Massachusetts et Université de Californie du sud, 2007, 50 p.

KRATOCHVIL Tomáš et ŠIMICEK Pavel, Utilisation of Matlab for picture quality evaluation, Institut d’électronique de l’Université de technologie à Brno, Rép. Tchèque, 2006, 4 p.

LE CALLET Patrick et BARBA Dominique, Modèle de perception couleur, application à l’évaluation de qualité d’images in Traitement du signal, volume 21 n°spécial : L’image numérique couleur, Ecole polytechnique de l’Université de Nantes, 2004, 17 p.

MALANIN Mikael, LAINE Mari et Pr. OITTINEN Pirkko, Information agent-based objective print image quality evaluation, Université de technologie d’Helsinki, 2005, 4 p.

OLSHAUSEN Bruno A. et SIMONCELLI Eero P., Natural image statistics and neural representation, in Annual review of Neuroscience, Université de Californie, 2001, 26 p.

POIRSON Allen B. et WANDELL Brian A., Appearance of colored patterns : pattern-color separability, in Journal of the Optical Society of America, volume 10, n°12, 1993, 12p.

110

TEO Patrick C. et HEEGER David J., Perceptual image distortion, Département de sciences informatiques et département de Psychologie de l’Université de Stanford, 1994, 15 p.

WANG Zhou, Objective image/video qualityt measurement-a literature survey, Département d’ingénierie informatique et électrique de l’Université du Texas à Austin, 1998, 9 p.

WANG Zhou, BOVIK Alan C. et LIGANG Lu, Why is image quality assessment so difficult ? Laboratoire d’ingénierie d’image et de vidéo de l’Université du Texas à Austin et Centre de recherche Watson IBM, 2002, 4 p.

WANG Zhou, BOVIK Alan C. et SHEIKH Hamid Rahim, Image quality assessment : from error visibility to structural similarity in IEEE Transactions on image processing, volume 13, n°4, Avril 2004, 13 p.

WANG Zhou, BOVIK Alan C. et SIMONCELLI Eero P., Structural approaches to image quality assessment in Handbook of Image and Video Processing, 2ème édition, Edition Academic Press, Université de New York et Université du Texas à Austin, 2005, 33 p.

WANG Zhou et SHANG Xinli, Spatial pooling strategies for perceptual image quality assessment, Département d’ingénierie électrique de l’Université du Texas à Arlington, 2006, 4 p.

ZHANG Xueimei et WANDELL Brian A., A spatial extension of CIELAB for digital color image reproduction,, Département de psychologie de l’Université de Stanford, 1997, 6 p.

ZHANG Xueimei et WANDELL Brian A., Color image fidelity metrics evaluated using image distortion maps , Programme d’ingénierie de l’image de l’Université de Stanford, 1998, 23 p.

ZHANG Xueimei, Dr. SILVERSTEIN Amnon, FARRELL Joyce E. et WANDELL Brian A., Color image quality metric S-CIELAB and its application on halftone texture visibility, Département de psychologie de l’Université de Stanford et Laboratoires Hewlett Packard, 1997, 5 p.

Articles de presse.

Le Monde diplomatique, Mars 2005. Journal mensuel au tirage de 250 000 exemplaires en 2005. Directeur Ignacio Ramonet.

Le Photographe, n°1658 et n°1661, Janvier et Avril 2008. Revue mensuelle. Directeur Général Ernesto Mauri, rédacteur en chef Guillaume Cuvillier.

La Recherche : la révolution des images, n° spécial de 1983. Revue mensuelle. Directeur Philippe Clerget, rédacteur en chef Aline Richard.

Sites Internet.

http://www.brucelindbloom.com, Novembre 2007.

http://www.arhv.lhivic.org, de Décembre 2007 à Mai 2008.

http://www.uta.edu/faculty/zhouwang, Février 2008.

111

http://white.stanford.edu/~brian/scielab/scielab.html, Février 2008.

http://photo.net, section « Learn/jpeg », Janvier 2008.

http://www.wikipedia.org, de Novembre 2007 à Mai 2008.

Outils documentaires.

Norme Française NF X 35-103. Principes d’ergonomie visuelle applicables à l’éclairage des lieux de travail, Association Française de Normalisation, 1990.

Norme Française NF EN 29241-3. Exigences ergonomiques pour travail de bureau avec terminaux à écrans de visualisation, Association Française de Normalisation, 1993.

Recommandations T.81 du Comité Consultatif International des Télégraphes et Téléphone, Information technology – digital compression and coding of continuous-tone still images-requirements end guidelines, 1992, 186 p.

A guide to understanding color communication, X-Rite Incorporated, 2007, 26 p.



Promotion 2008

Étude des usages et effets de la compression JPEG dans la photographie sur Internet

ANNEXES


2



Promotion 2008

Étude des usages et effets de la compression JPEG dans la photographie sur Internet

ANNEXES


3

Table des matières

LA DIOPTRIQUE DE DESCARTES (PASSAGE CITE DANS LE PREMIER CHAPITRE)........................................................4 ÉTUDES STATISTIQUES CONNEXES .............................................................................................................................5 HISTORIQUE DE LA COLORIMETRIE ............................................................................................................................6

L’espace CIE XYZ 1931........................................................................................................................................6 Le diagramme de chromaticité CIE UCS 1960...................................................................................................7 L’espace CIEUVW 1964.......................................................................................................................................8 L’Espace CIELUV 1976 .......................................................................................................................................8 La transformation de Von Kries...........................................................................................................................9 L’Espace CIELab 1976.......................................................................................................................................10 Espace LCH.........................................................................................................................................................10

ALGORITHMES MATLAB UTILISES DANS LES PARTIES III ET IV...............................................................................12 MSE......................................................................................................................................................................12 PSNR ....................................................................................................................................................................12 SSIM.....................................................................................................................................................................12 S-CIELAB ............................................................................................................................................................15

COMPARAISON DES DEUX METHODES DE PHOTOSHOP............................................................................................20 CAPTURES D’ECRAN..................................................................................................................................................21

Les interfaces de visualisation des images utilisées dans la partie IV ............................................................21 Éléments logiciels................................................................................................................................................23

LES IMAGES UTILISEES DANS L’ENQUETE ET LEUR VERSION ORIGINALE ...............................................................24 Images professionnelles......................................................................................................................................24 Images amateurs .................................................................................................................................................34

RESULTATS COMPLETS DE L’ENQUETE ....................................................................................................................44 WHY IS IMAGE QUALITY ASSESSMENT SO DIFFICULT ? PAR ZHOU WANG, ALAN C. BOVIK & LIGANG LU ........50

4

La Dioptrique de Descartes (passage cité dans le premier chapitre)

« Et si, pour ne nous éloigner que le moins qu'il est possible des opinions déjà

reçues, nous aimons mieux avouer que les objets que nous sentons envoient

véritablement leurs images jusques au dedans de notre cerveau, il faut au moins que

nous remarquions qu'il n'y a aucunes images qui doivent en tout ressembler aux objets

qu'elles représentent car autrement il n'y aurait point de distinction entre l'objet et son

image: mais qu'il suffit qu'elles leur ressemblent en peu de choses ; et souvent même,

que leur perfection dépend de ce qu'elles ne leur ressemblent pas tant qu'elles

pourraient faire. Comme vous voyez que les tailles-douces, n'étant faites que s d'un

peu d'encre posée, çà et là sur du papier, nous représentent des forêts, des villes, des

hommes, et même des batailles et des tempêtes, bien que, d'une infinité de diverses

qualités qu'elles nous font concevoir en ces objets, il n'y en ait aucune que la figure

seule dont elles aient proprement la ressemblance; et encore est-ce une ressemblance

fort imparfaite, vu que, s sur une superficie toute plate, elles nous représentent des

corps diversement relevés et enfoncés, et que même, suivant les règles de la

perspective, souvent elles représentent mieux des cercles par les ovales que par

d'autres cercles; et des carrés par des losanges que par d'autres carrés ; et ainsi de

routes les autres figures en sorte que souvent, pour être plus parfaites en qualité

d'images, et représenter mieux un objet, elles doivent ne lui pas ressembler. Or il faut

que nous pensions tout le môme des images qui se forment en notre cerveau, et que

nous remarquions qu'il est seulement question de savoir comment elles peuvent donner

moyen à l'âme de sentir routes les diverses qualités des objets auxquels elles se

rapportent, et non point comment elles ont en soi leur ressemblance. »

René Descartes, La Dioptrique (1637)

5

Études statistiques connexes1

1Source Ipsos pour Le Photographe, le mensuel de l’image pro, n°1661, Avril 2008, Paris.

6

Historique de la colorimétrie

Depuis la première indexation encyclopédique des couleurs par le peintre

américain Albert Munsell2 en 1909, de nombreux efforts ont été consacrés à

l’élaboration de modèles mathématiques permettant une universalité de la notion de

couleur. Toute étude s’approchant de l’évaluation objective d’images se doit de

prendre en compte ces travaux. Nous revenons dans cette partie sur la chronologie des

évènements dont il est fait référence dans l’étude.

L’espace CIE XYZ 1931

Selon la théorie trichromatique, chaque couleur qui peut être perçue par un oeil

humain standard peut être décrite par trois coefficients qui quantifient la stimulation

des cônes rouges, verts ou bleus. Et deux sensations colorées identiques peuvent êtres

obtenues avec deux trios de coefficients différents. Vers 1930, Wright et Guild ont

effectué des expériences pendant lesquelles des observateurs devaient combiner de la

lumière à 435,8 nm, 546,1 nm et 700 nm de telle façon que la perception de couleur

résultante corresponde à la perception de couleur produite par la lumière

monochromatique à une certaine longueur d'onde du spectre visible. Les résultats de

ces expériences ont conduit à la définition des fonctions colorimétriques RVB

normalisées, puis la CIE a établi les fonctions colorimétriques :

Figure 1 : Les fonctions d’égalisation sur l’ensemble du spectre visible par l’observateur standard à partir des trois composantes rouge, verte et bleue. Résultats directs de

l’expérience sur l’observateur standard de 1931.

2 Albert Henry Munsell (Boston 1858- Brookline 1918)

7

Puis, les valeurs des coordonnées trichromatiques XYZ pour une fonction de

stimulus de couleur spectrale f(λ) sont données par :

De cet espace, une représentation en deux dimensions dans un repère

orthonormé à été établie pour plus de commodité d’usage et parce que l’espace a été

défini tel que Y représente la luminance. Ce diagramme est obtenu par projection des

valeurs X, Y et Z selon les formules :

Figure 2 : Diagramme de chromaticité xy 1931. La frontière extérieure est une courbe spectrale, elle représente les longueurs d’ondes visible en nanomètre. Les couleurs de

remplissage sont ici à titre indicatif.

Le diagramme de chromaticité CIE UCS 1960

A été initié par Judd, puis simplifié par David MacAdam pour prévenir du défaut

de l’espace CIE 1931 face à la non uniformité des différences de couleurs.

!

u =0,4661x + 0,1593yy 0,15735x + 2424

v =0,6581y

y 0,15735x + 0,2424puis

u =4x

12y 2x + 3

v =6y

12y 2x + 3

Figure 3 : Le diagramme de chromaticité (u,v) élaboré en 1960.

L’espace CIEUVW 1964

Basé sur l’espace UCS de 1960, Wyszecki à inventé cet espace pour pouvoir

calculer des différences de couleur sans tenir compte d’une luminance constante. Les

coordonnées sont définies ainsi :

!

U* =13W * (u uo)V* =13W * (v vo)W * = 25Y1/ 3 17

La différence entre les couleurs Delta E fait son apparition sous la forme aussi

simple qu’en 1976 : une distance euclidienne entre deux points de l’espace. Une

différence de clarté de 1 correspondait à une différence de chromaticité de 13.

L’Espace CIELUV 1976

Est une mise à jour du CIEUVW 1964. Dans les différences, nous pouvons

noter une différence dans l’échelle de Clarté et une autre dans les échelles de

9

chromaticité. CIELUV utilise l’adaptation du point blanc de Judd, contrairement à

CIELAB, qui utilise la transformation de Von Kries.

!

L* =116(Y /Yn )

1/ 3 16, Y /Yn > (6 /29)3

(29 /3)3(Y /Yn ), Y /Yn # (6 /29)3 % &

u* =13L * (u u n )v* =13L * (v v n )

Puis, a été établi par analogie avec le diagramme de chromaticité (x,y), le

diagramme (u’,v’) dont les coordonnées se calculent ainsi :

!

u" =4x

#2x +12y + 3v" =

9y

#2x +12y + 3

Figure 4 : Diagramme de chromaticité (u’,v’) connu sous le nom de CIE 1976 UCS (Uniform Chromaticity Scale)

La transformation de Von Kries

La méthode d’adaptation chromatique de Von Kries est parfois utilisée dans le

traitement d’image des appareils photographiques. La règle du coefficient de Von

Kries repose sur une hypothèse : la constance des couleurs malgré le changement

d’illuminant pour l’œil humain est due à une adaptation du gain des réponses par les

trois cônes en fonction de l’environnement spectral. Cette méthode est beaucoup

critiquée aujourd’hui.

10

L’Espace CIELab 1976

Les coordonnées de ce système proposé par la CIE en 1976 reprennent la

perception des couleurs au niveau du cerveau. En effet, les réponses des récepteurs

rétiniens à un signal lumineux sont transmises au cerveau par le nerf optique en

subissant un codage en paires antagonistes : noir/blanc → coordonnée L* ;

vert/rouge → coordonnée a* ; bleu/jaune → coordonnée b*. L*, a* et b* peuvent

être calculées à partir des coordonnées XYZ :

!

L* = fY

Yn

"

# $

%

& '

a* =500

116f

X

Xn

"

# $

%

& ' ( f

Y

Yn

"

# $

%

& '

)

* +

,

- .

b* =200

116fY

Yn

"

# $

%

& ' ( f

Z

Zn

"

# $

%

& '

)

* +

,

- .

!

où

f (x) " 8# f (x) =116x1/ 3 $16

f (x) < 8# f (x) =29

3

%

& '

(

) *

3

x

et Xn, Yn, et Zn coordonnées X,Y, Z du blanc de référence pour l’illuminant et

l’observateur choisi. On a en particulier Yn=100.

Espace LCH

L*, a*, b* sont les coordonnées cartésiennes et LCH les coordonnées

cylindriques d’une même représentation.

- la clarté L est identique

- le chroma C* est

!

C* = a*2b*

2 cette grandeur est liée à la notion de pureté

d’une couleur et proche de ce que l’on appelle la saturation de la couleur,

- l’angle de teinte

!

h* = atanb*

a*

"

# $

%

& '

11

Figure 5 : Illustration du lien entre espace L*a*b* et espace LCH

12

Algorithmes Matlab utilisés dans les parties III et IV

MSE

%%Ouverture des fichiers img1=imread('1.tif'); img2=imread('2.tif'); %%Conversion en lab cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); %%Différence des deux matrices [m,n] = size(img1); error = img1 - img2; %Calcul MSE couche par couchea MSE = (sum(sum(error.*error)))/(m*n); MSE = MSE(:,:,1)+MSE(:,:,2)+MSE(:,:,3); MSE = MSE/3

PSNR

%%Reprise du code de MSE img1=imread('1.tif'); img2=imread('1.tif'); cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); [m,n] = size(img1); error = img1 - img2; MSE = (sum(sum(error.*error)))/(m*n); MSE = MSE(:,:,1)+MSE(:,:,2)+MSE(:,:,3); MSE = MSE/3; %%Calcul spécifique de PSNR RMS = sqrt(MSE); PSNR = 20 * log10(100/RMS)

SSIM

%% Ouverture des fichiers img1=imread('1.jpg'); img2=imread('2.jpg'); %passage en lab cform = makecform('srgb2lab'); img1 = applycform(img1, cform); img2 = applycform(img2, cform); %on garde que la couche L img1L = img1(:,:,1); img2L = img2(:,:,1); imshow(img1L); imshow(img2L);

13

%Définition des paramètres K = [0.001 0.01]; window = fspecial('gaussian', 11, 1.5); L = 100; [mssim ssim_map] = ssim_index(img1L, img2L, K, window, L); %%Appliquer la fonction mssim imshow(max(0, ssim_map).^4); function [mssim, ssim_map] = ssim_index(img1, img2, K, window, L) %======================================================================== %SSIM Index, Version 1.0 %Copyright(c) 2003 Zhou Wang %All Rights Reserved. % %The author was with Howard Hughes Medical Institute, and Laboratory %for Computational Vision at Center for Neural Science and Courant %Institute of Mathematical Sciences, New York University, USA. He is %currently with Department of Electrical and Computer Engineering, %University of Waterloo, Canada. % %This is an implementation of the algorithm for calculating the %Structural SIMilarity (SSIM) index between two images. Please refer %to the following paper: % %Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image %quality assessment: From error measurement to structural similarity" %IEEE Transactios on Image Processing, vol. 13, no. 4, Apr. 2004. % %Kindly report any suggestions or corrections to [email protected] %======================================================================== if (nargin < 2 | nargin > 5) mssim = -Inf; ssim_map = -Inf; return; end if (size(img1) ~= size(img2)) mssim = -Inf; ssim_map = -Inf; return; end

14

[M N] = size(img1); if (nargin == 2) if ((M < 11) | (N < 11)) mssim = -Inf; ssim_map = -Inf; return end window = fspecial('gaussian', 11, 1.5); % K(1) = 0.01; % default settings K(2) = 0.03; % L = 255; % end if (nargin == 3) if ((M < 11) | (N < 11)) mssim = -Inf; ssim_map = -Inf; return end window = fspecial('gaussian', 11, 1.5); L = 255; if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end if (nargin == 4) [H W] = size(window); if ((H*W) < 4 | (H > M) | (W > N)) mssim = -Inf; ssim_map = -Inf; return end L = 255; if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end if (nargin == 5) [H W] = size(window); if ((H*W) < 4 | (H > M) | (W > N)) mssim = -Inf;

15

ssim_map = -Inf; return end if (length(K) == 2) if (K(1) < 0 | K(2) < 0) mssim = -Inf; ssim_map = -Inf; return; end else mssim = -Inf; ssim_map = -Inf; return; end end C1 = (K(1)*L)^2; C2 = (K(2)*L)^2; window = window/sum(sum(window)); %img1 = double(img1); %img2 = double(img2); mu1 = filter2(window, img1, 'valid'); mu2 = filter2(window, img2, 'valid'); mu1_sq = mu1.*mu1; mu2_sq = mu2.*mu2; mu1_mu2 = mu1.*mu2; sigma1_sq = filter2(window, img1.*img1, 'valid') - mu1_sq; sigma2_sq = filter2(window, img2.*img2, 'valid') - mu2_sq; sigma12 = filter2(window, img1.*img2, 'valid') - mu1_mu2; if (C1 > 0 & C2 > 0) ssim_map = ((2*mu1_mu2 + C1).*(2*sigma12 + C2))./((mu1_sq + mu2_sq + C1).*(sigma1_sq + sigma2_sq + C2)); else numerator1 = 2*mu1_mu2 + C1; numerator2 = 2*sigma12 + C2; denominator1 = mu1_sq + mu2_sq + C1; denominator2 = sigma1_sq + sigma2_sq + C2; ssim_map = ones(size(mu1)); index = (denominator1.*denominator2 > 0); ssim_map(index) = (numerator1(index).*numerator2(index))./(denominator1(index).*denominator2(index)); index = (denominator1 ~= 0) & (denominator2 == 0); ssim_map(index) = numerator1(index)./denominator1(index); end mssim = mean2(ssim_map); return

S-CIELAB

% Ouvrir les deux images en tableaux [rgbHats]=imread('1.tif'); [rgbHatsc]=imread('100.tif'); %Tapez les valeurs de visionnement de l'écran en dpi et en inches

16

resolution=96 distance=19 %%la formule de sampperdeg donne le nombre d'échantillons vues par angle %%solide par l'utilisatuer sur l'écran : %%samppPerDeg=round(RESOLUTIONMONITEURdpi/((DISTANCEVUEINCHESx10/pi)*atan(1/DISTANCEIN %%CH))); sampPerDeg=round(resolution/(((10*distance/pi)*atan(1/distance)))) %% pour charger les valeurs constantes de l'écran, etc. load displaySPD; load SmithPokornyCones; rgb2lms = cones'* displaySPD; load displayGamma; rgbWhite = [1 1 1]; whitepoint = rgbWhite * rgb2lms' %% Conversion en XYZ imgRGB = dac2rgb([rgbHats],gammaTable); img1LMS = changeColorSpace(imgRGB,rgb2lms); imgRGB = dac2rgb([rgbHatsc],gammaTable); img2LMS = changeColorSpace(imgRGB,rgb2lms); imageformat = 'lms'; %% Applique la fonction SCIELAB errorImage = scielab(sampPerDeg, img1LMS, img2LMS, whitepoint, imageformat); function result = scielab(sampPerDeg, image1, image2, whitepoint, imageformat,k) % result = scielab(sampPerDeg, image1, image2, whitepoint, imageformat,k) % % Computes the S-CIELAB difference between two images. % % Xuemei Zhang 1/28/96 % Last Modified 4/15/98 %%%%%%%%%%%%%%%%%%%%%%%%%%% %% General Preparation %% %%%%%%%%%%%%%%%%%%%%%%%%%%% if (nargin==2 | nargin==4) % if imageformat is not given, use default imageformat = 'xyz'; elseif (nargin==3) % if only 3 arguments, the 3rd one is imageformat imageformat = image2; end % force imageformat to be length 5 consistently, so that it is % easy to do comparisons like (imageformat=='...'). imageformat = [imageformat ' ']; imageformat = imageformat(1:5); % Check if the input images are 1-D or 2-D imsize = size(image1); if (imsize(1)>1 & prod(imsize(2:length(imsize)))>3) % 2-D

17

images dimension = 2; else dimension = 1; end %%%%%%%%%%%%%%%%%%%%%%%%%%% %% Color Transformation %% %%%%%%%%%%%%%%%%%%%%%%%%%%% disp('Performing color transformations ...'); % Convert XYZ or LMS representation to Poirson&Wandell opponent % representation. if (imageformat=='xyz10' | imageformat=='lms10') xyztype = 10; else xyztype = 2; end if (imageformat(1:3)=='lms') opp1 = changeColorSpace(image1, cmatrix('lms2opp')); if (nargin>3) opp2 = changeColorSpace(image2, cmatrix('lms2opp')); oppwhite = changeColorSpace(whitepoint, cmatrix('lms2opp')); whitepoint = changeColorSpace(oppwhite, cmatrix('opp2xyz', xyztype)); end else opp1 = changeColorSpace(image1, cmatrix('xyz2opp', xyztype)); if (nargin>3) opp2 = changeColorSpace(image2, cmatrix('xyz2opp', xyztype)); end end clear image1; clear image2; %%%%%%%%%%%%%%%%%%%%%% %% Prepare filters %% %%%%%%%%%%%%%%%%%%%%%% disp('Preparing filters ...'); if (dimension == 1) [k1, k2, k3] = separableFilters(sampPerDeg, 1); else [k1, k2, k3] = separableFilters(sampPerDeg, 3); end %%%%%%%%%%%%%%%%%%%%%%%% %% Spatial Filtering %% %%%%%%%%%%%%%%%%%%%%%%%% % Apply the filters k1, k2, k3 to the images. % The edges of the images are reflected for convolution. if (length(imsize)==3)

18

w1 = opp1(:,:,1); w2 = opp1(:,:,2); w3 = opp1(:,:,3); else [w1, w2, w3] = getPlanes(opp1); end clear opp1; wsize = size(w1); if (dimension == 1) w1 = pad4conv(w1, length(k1)); w2 = pad4conv(w2, length(k2)); w3 = pad4conv(w3, length(k3)); disp('Filtering BW plane of image1 ...'); p1 = resize(conv(w1, k1), wsize); disp('Filtering RG plane of image1 ...'); p2 = resize(conv(w2, k2), wsize); disp('Filtering BY plane of image1 ...'); p3 = resize(conv(w3, k3), wsize); else disp('Filtering BW plane of image1 ...'); p1 = separableConv(w1, k1, abs(k1)); disp('Filtering RG plane of image1 ...'); p2 = separableConv(w2, k2, abs(k2)); disp('Filtering BY plane of image1 ...'); p3 = separableConv(w3, k3, abs(k3)); end new1 = [p1 p2 p3]; % If a second image is given, do the same filtering to the second image % and then compute the CIELAB difference between them. if (nargin>3) if (length(imsize)==3) w1 = opp2(:,:,1); w2 = opp2(:,:,2); w3 = opp2(:,:,3); else [w1, w2, w3] = getPlanes(opp2); end clear opp2; if (dimension == 1) w1 = pad4conv(w1, length(k1)); w2 = pad4conv(w2, length(k2)); w3 = pad4conv(w3, length(k3)); disp('Filtering BW plane of image2 ...'); p1 = resize(conv(w1, k1), wsize); disp('Filtering RG plane of image2 ...'); p2 = resize(conv(w2, k2), wsize); disp('Filtering BY plane of image2 ...'); p3 = resize(conv(w3, k3), wsize); else disp('Filtering BW plane of image2 ...'); p1 = separableConv(w1, k1, abs(k1)); disp('Filtering RG plane of image2 ...'); p2 = separableConv(w2, k2, abs(k2)); disp('Filtering BY plane of image2 ...'); p3 = separableConv(w3, k3, abs(k3)); end new2 = [p1 p2 p3]; end

19

clear p1 p2 p3 w1 w2 w3 k1 k2 k3; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Return Appropriate Results %% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if (nargin<4) % return filtered image1 only result = reshape(new1, imsize); else % compute difference image disp('Computing CIELAB differences ...'); result = changeColorSpace(new1, cmatrix('opp2xyz', xyztype)); result2 = changeColorSpace(new2, cmatrix('opp2xyz', xyztype)); % result = result .* (result>0); % result2 = result2 .* (result2>0); if (nargin == 6) result = deltaLab(result, result2, whitepoint, 1/3, k); else result = deltaLab(result, result2, whitepoint); end end

20

Comparaison des deux méthodes de Photoshop

L’image présentée à gauche pèse 37 ko, sa différence MSE avec l’originale est de 3,0. Sa

différence S-CIELAB est de 3867. Elle a été compressée avec la fonction « enregistrer sous ».

L’image présentée à droite pèse 32 ko, sa différence MSE avec l’originale est de 0,8. Sa

différence S-CIELAB est de 824. Elle a été compressée avec l’option « optimiser pour la

taille d’un fichier de 37 ko » de la fonction « enregistrer pour le Web. »

21

Captures d’écran

Les interfaces de visualisation des images utilisées dans la partie IV

Figure 6 : La page d'accueil et une page type du site Internet professionnel utilisé

22

Figure 7 : La page d'accueil et une page type du site Internet amateur utilisé pour l’enqu

23

Figure 8 : Un trio d'images présenté pour les évaluations sur 20

Éléments logiciels

Figure 9 : l'interface de la fonction « enregistrer pour le Web » sous Photoshop Mac OS X

24

Les images utilisées dans l’enquête et leur version originale

Images professionnelles

34

Images amateurs

44

Résultats complets de l’enquête

50

Why is image quality assessment so difficult ? par Zhou Wang, Alan C. Bovik & Ligang Lu

La perception des effets visuels de la compression JPEG

Documents

Transcript of La perception des effets visuels de la compression JPEG