Techniques de Referencement sur internet

download Techniques de Referencement sur internet

of 64

Transcript of Techniques de Referencement sur internet

  • 8/14/2019 Techniques de Referencement sur internet

    1/64

    MOUHOT

    Pierre Etienne

    Matrise MIAGE du CFA AFIA en apprentissage l'IEA de Paris 1 Panthon - Sorbonne

    Anne 2004-2005

    MEMOIRE DE FIN D'ANNEEPle d'accueil :Direction des Systmes d'Informations du GIE AXA

    TECHNIQUES DE REFERENCEMENT

    SUR INTERNET

    Mots-cls : Visibilit sur Internet, rfrencement, positionnement, annuaire,moteur de recherche, robots, soumission manuelle.

    Tutrice Enseignante : Mme Carine SOUVEYET - Matre de Confrences l'UniversitParis 1 Panthon Sorbonne.

    Matre d'apprentissage : M. Jean-Franois MIGN - Responsable du ple Etudes etDveloppement de la DSI du GIE AXA.

    Accord pour diffusion universitaire

  • 8/14/2019 Techniques de Referencement sur internet

    2/64

    2/64

    Sommaire

    Remerciements....................................................................................................3Prface ...............................................................................................................4I. Introduction au rfrencement web ou la ncessit d'un bon rfrencement..........4A. Classification des outils de recherche................................................................................. 5B. Guerre des outils de recherche et futures volutions du march ........................................ 11C. Diffrence entre rfrencement, indexation, positionnement et visibilit. ............................ 13D. Diffrents points de vue du rfrencement ...................................................................... 14

    II. L'tat de l'art du rfrencement .................................................................... 16A. Les ternelles (?) balises META....................................................................................... 16B. Les autres balises .......................................................................................................... 21C. Gestion des diffrents contenus ...................................................................................... 27D. L'URL ReWriting ............................................................................................................ 28E. Les fichiers robots.txt..................................................................................................... 30F. Plan du site................................................................................................................... 31G. Redirections .................................................................................................................. 33H. Rfrencer un site multilingue ........................................................................................ 35I. Soumission manuelle dans les annuaires.......................................................................... 36J. Dernires astuces. ......................................................................................................... 38

    III. Pratiques condamnables .............................................................................. 39A. Les pages satellites........................................................................................................ 39B. Spamdexing .................................................................................................................. 42C. Cloaking ....................................................................................................................... 42D. Google Bombing ............................................................................................................ 43

    IV. Les solutions payantes................................................................................. 45A. Soumission payante....................................................................................................... 45B. Rfrencement payant ................................................................................................... 45C. Positionnement payant................................................................................................... 45D. Rfrencement par des prestataires ................................................................................ 46

    V. Exemple de rfrencement........................................................................... 47Cas du "Mangeur de cigogne".................................................................................................. 47

    VI. IMS-Entreprendre pour la Cit ...................................................................... 49A. Prsentation.................................................................................................................. 49B. Le site .......................................................................................................................... 49C. Application .................................................................................................................... 52

    VII. Conclusion ................................................................................................. 60Annexe 1 .......................................................................................................... 62Annexe 2 .......................................................................................................... 63

  • 8/14/2019 Techniques de Referencement sur internet

    3/64

    3/64

    Remerciements

    Mes remerciements vont tout dabord Jean-Franois MIGNE, mon matredapprentissage. Je le remercie de m'avoir laiss effectuer mes recherches et rdiger cerapport en parfaite autonomie.

    Je lui suis extrmement reconnaissant pour le temps qu'il a su consacrer larelecture de ce mmoire et pour les conseils toujours justifis qu'il aura pu me donner.

    Je tenais galement remercier toutes les personnes de l'IMS-Entreprendre pourla Cit avec qui j'ai eu l'occasion de travailler au cours de la rdaction de ce mmoire.Ces personnes m'ont fait confiance en me laissant mettre en application les techniquesde rfrencement sur leur site Internet. Sans leur aide, je n'aurais certainement pas puavoir l'approche pratique du rfrencement que j'ai aujourd'hui.

    Merci Carine SOUVEYET, ma tutrice enseignante, pour m'avoir accord de son

    temps et apport une aide prcieuse lors de la rdaction de ce prsent mmoire.

    Enfin, merci galement M. DUBUC, directeur du CFA AFIA, pour son suivicontinu durant mes deux annes d'apprentissage ainsi que pour les efforts qu'il fournitpour nous assurer le bon droulement de notre formation l'universit comme en

    entreprise.

  • 8/14/2019 Techniques de Referencement sur internet

    4/64

    4/64

    Prface

    Etudiant en dernire anne d'IUP MIAGE effectu en apprentissage la fois Paris 1 Panthon Sorbonne et au sein de la DSI du GIE AXA, j'ai choisi, pour monmmoire de fin d'tudes, de traiter la question du rfrencement sur Internet.En effet, voil 3 ans que je touche de prs ou de loin au dveloppement de sites webdynamiques pour diffrentes socits or je n'avais jamais eu l'occasion de rflchir lafuture visibilit sur Internet des sites que je dveloppais.

    Pour illustrer ce mmoire par des exemples concrets, j'ai eu la chance de pouvoirexprimenter ce que j'ai appris au fur et mesure de mes recherches sur le site web del'IMS-Entreprendre pour la cit1. Dans le cadre de mes annes d'apprentissage au seind'AXA, j'ai eu faire voluer le site de cette association de mcnat de solidarit. Il m'agalement t demand de m'occuper de rfrencer ce site auprs des principaux outils

    de recherche. C'est de l qu'est ne l'ide d'utiliser ce thme comme sujet pour monmmoire de fin d'anne.

    I . Introduction au rfrencement web ou la

    ncessit d'un bon rfrencement

    Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilis, rserv aux initisAmricains, il s'est ensuite doucement dvelopp pour enfin vritablement arriver enFrance dans les annes 1996-1997.

    Cependant, on peut dire que les annes 2000 ont rellement contribu ladmocratisation du web en France.

    Au cours des quatre dernires annes, et principalement parce que des technologies hautdbit sont arrives sur le march, le nombre d'internautes franais est pass de 10millions plus de 24 millions.La France a aujourd'hui pratiquement combl son retard en matire de nouvellestechnologies. Elle se situe ainsi dans la moyenne des pays dvelopps.

    Il va sans dire que si le nombre d'Internautes a explos de la sorte, le nombre depages et de services sur Internet a fait de mme.En 2005, le nombre mondial d'internautes devrait dpasser un milliard. Et ce nombre ne

    va cesser d'augmenter avec l'arrive des nouveaux pays dvelopps.

    Aujourd'hui, la question n'est plus de savoir o l'on va trouver l'information quinous intresse mais plutt comment est ce qu'on va pouvoir trouver une informationpertinente parmi la multitude des pages qui nous sont proposes.

    Partant de ce principe, les diffrents annuaires et moteurs de recherche ontdvelopp leurs mthodes pour indexer et rfrencer le contenu des sites internet.

    Il y a encore quelques annes, seules les grandes entreprises possdaient leur siteweb. Celles-ci n'avaient pas besoin de se pencher sur la question du rfrencementpuisque les moteurs de recherche et autres annuaires n'taient que trs peu nombreux.

    1Accs au site : http://www.imsentreprendre.com (ou via un moteur de recherche !)

  • 8/14/2019 Techniques de Referencement sur internet

    5/64

    5/64

    A cette poque, la grande majorit des connexions sur un site quelconque se faisait paraccs direct (en connaissant l'URLi) ou par liens externes (en suivant des lienshypertexte).

    Aujourd'hui, c'est diffrent. La majorit des entreprises, petites ou grandes possdent unsite web.

    Si elles ont compris qu'un bon site pouvait tendre considrablement leur zoned'influence et leurs parts de march, elles savent aussi qu'il est impratif que leur sitepuisse tre visible sur la toile.

    Des tudes comparatives montrent que le rfrencement reste une mthodemoins onreuse que les mthodes de marketing traditionnelles.ii

    A l'heure actuelle, en France, les diffrents moyens d'accder un site sont les suivants :

    37%

    33%30%

    Moteurs de recherche / annuaires

    Liens

    Accs direct (liens et favoris)

    L'accs par les outils de recherche n'est donc videmment pas ngliger.

    Le principal problme pour ces outils est le nombre monumental de pages

    indexer. Par exemple, Google recense l'heure actuelle environ 8 milliards de pages aucontenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'ilutilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pagesque cela.

    En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base dedonnes, Google soit oblig de grer des index de 40 bits. Dans ce cas, les temps decalculs et d'accs aux diffrents documents seraient beaucoup trop longs.

    Google, comme les autres, travaille sur la possibilit de grer des bases dedonnes gigantesques avec des machines toujours plus puissantes (serveur 64 bits) iii. Enattendant, il n'est pas rare de voir des pages, jusque l indexes, remplaces par denouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui,en gnral, disposent d'un index plus petit et ont des critres de slection beaucoup plusstricts.Ainsi, le classement dans les outils de recherche n'est pas dfinitif est doit tre suivi enpermanence.

    A. Classification des outils de recherche

    Nous utilisons quotidiennement les outils de recherche qui sont notre dispositionsur Internet. Cette tape est devenue quasiment obligatoire lorsque l'on recherche desinformations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outilsde recherche pour trouver le site d'une enseigne qu'ils connaissent" iv. Il est vident que"la recherche sur les moteurs de recherche est devenu un rflexe pour plus de 90% desutilisateurs rguliers d'Internet"v.Nous utilisons donc couramment les outils de recherche mais combien d'entre noussavent qu'il existe deux principaux types d'outils ?

  • 8/14/2019 Techniques de Referencement sur internet

    6/64

    6/64

    Il s'agit des annuaires et des moteurs de recherche. Ils se diffrencientprincipalement par le fait qu'ils n'utilisent pas la mme mthode pour indexer leurspages.Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateurlambda. Pour lui, la diffrence s'arrte certainement au mode de recherche et l'agencement des rsultats.

    Plus pratiquement, si on voulait assimiler Internet un grand un livre, "lesannuaires (ou guides) thmatiques en seraient la table des matires, bien partielle, et lesmoteurs de recherche un moyen de chercher l'information mot par mot, mais sans biensavoir le contenu du livre".vi

    1. Les annuaires

    Les annuaires (ou rpertoire) indexent les sites web grce au travail de

    personnes physiques. Ils classent les sites par catgorie et sous catgorie de la plusgnrale la plus spcifique. Les recherches se font donc sur ces catgories et lesrsultats sont prsents par ordre alphabtique.

    Un webmestre souhaitant enregistrer son site doit le faire au moyen d'unformulaire lectronique gnralement accessible depuis la page d'accueil de l'annuaire. Ilrenseigne alors ce formulaire avec la description de son site, son adresse, son titre, sacatgorie et la sous catgorie. Aprs validation du formulaire, sa demande sera traitepar une personne physique qui ira regarder le site. Suivant une notation par rapport des critres propres chaque annuaire, cette personne (nomme "netsurfeur") dcideraou non d'inclure le site dans la base de donnes de l'annuaire.

    Les lments requis lors d'une demande d'inscription sont trs importants car la

    recherche au moyen d'un mot-cl est base sur ces lments (adresse Web, titre,description) et non sur le contenu des pages du site en question.

    Les avantages Les inconvnients

    Lors d'une recherche, on obtientrapidement une slection de sitescorrespondant une catgorie prcise

    Les sites rpertoris doivent tre inscritsmanuellement1

    Qualit des sites rpertorisLa mise jour de la base de donnes estplus longue que pour un moteur derecherche

    Le classement des rsultats se fait parordre alphabtique et non par pertinenceComme le contenu des sites a t examinpar des personnes, il y a moins de risquesd'obtenir des rsultats errons Les critres d'acceptation sont souvent

    svres

    L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994,recevait dj plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions devisiteurs par mois.vii Pourtant il reste derrire le moteur de recherche Google. Il est vraiqu'historiquement, les annuaires sont arrivs avant les moteurs de recherche puisque latechnologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette

    attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire.1Soumission manuelle via les formulaires spcifiques chaque annuaire.

  • 8/14/2019 Techniques de Referencement sur internet

    7/64

    7/64

    L'Open Directory Project

    "L'Open Directory Project (ou ODP) est le plus grand et le plus complet des

    rpertoires du Web dits par des tres humains. Il est dvelopp et maintenu par unevaste communaut mondiale d'diteurs bnvoles. [] L'Open Directory a t fond dansl'esprit du mouvement Open Source et est le seul rpertoire d'importance majeure tretotalement gratuit."viii

    Enfin, pour conclure sur cette partie rserve aux annuaires, l'essentiel retenirest que le classement se fait de manire arborescente, suivant des thmes et desrubriques et que la classification manuelle permet une approche qualitative.

    2. Moteur de recherche

    Pour simplifier, on peut voir un moteur de recherche comme une immense base

    de donnes qui recenserait les principaux sujets de chaque page prsente sur le web.Le moteur de recherche propose, contrairement l'annuaire, une recherche par

    m o t - c l .Il est bien vident que lorsque vous faites une requte sur un moteur de

    recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une rponsepertinente.Il se contente d'aller regarder dans sa base de donnes ce qui correspond le mieux votre requte. Cette base de donne est mise jour rgulirement afin de rfrencer lesnouveaux sites qui apparaissent quotidiennement sur la toile.Cette mise jour est possible grce des "robots"1 qui parcourent en permanence et demanire automatique l'ensemble des serveurs web.

    Lors d'une requte sous forme de mots-cls sur un moteur de recherche, celui-ci consulteson index pour fournir l'ensemble des rsultats. Ces rponses sont tries par ordrede pertinence suivant un algorithme propre chaque moteur de recherche.

    A titre de comparaison, un moteur de recherche renvoie une liste de pages web alorsqu'un annuaire retourne une liste de sites.

    Les avantages Les inconvnients

    Les recherches donnent plus de rsultatscar la base de donnes d'un moteur derecherche est beaucoup plus importanteque celle d'un annuaire

    Les recherches peuvent gnrer unemasse importante de rsultats

    La base de donnes est mise jour plusfrquemment

    Comme le contenu des sites n'est pasexamin par des humains, la qualit desrsultats peut tre moindre

    Le classement des rsultats de rechercheest effectu par pertinence et non par ordrealphabtique

    Je pense qu'il n'est plus ncessaire de vous prsenter Google et son index de plus

    de huit milliards de pages.1"Robots" ou "araignes" ou encore "crawler"

  • 8/14/2019 Techniques de Referencement sur internet

    8/64

    8/64

    En revanche, je vais revenir sur certains points particuliers de Google car il fait office derfrence en matire de moteur de recherche. De plus, et bien que nous verrons plustard que cela peut changer, beaucoup de gens considrent qu'un bon rfrencementdans Google constitue un rfrencement suffisant

    a. Les robots L'exemple du GoogleBot1

    Nous avons vu que la mise jour des bases de donnes de Google tait effectuesgrce des robots.

    Comprendre comment ils fonctionnent, c'est--dire savoir ce qu'ils recherchentrellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer ct d'un bon rfrencement.

    Nous savons qu'ils explorent le web de pages en pages la recherche

    d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de donnes.Etant donne la taille colossale de leur travail, il faut bien comprendre qu'ils ne passentpas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 3 fois parmois sur un site dj bien rfrenc. Mais sachez qu'ils peuvent galement ne jamaispasser si rien n'est fait pour les "attirer".

    On pourrait penser que les robots sont des monstres de technologie capables defaire normment de traitements avec une page web Il n'en est rien. En ralit, ils secomportent exactement comme un navigateur de base. Ils fonctionnent en mode textecomme le fait le navigateur Lynx. C'est--dire qu'ils ne grent pas les images, lesanimations Flash, les diffrentes polices de caractres, leurs tailles. Les frames2, lespages accs restreint (protges par mot de passe) et les scripts (JavaScript, applets

    java, pages dynamiques etc.) sont galement ignors contrairement aux formulaires etcookies qu'ils savent grer. Cette gestion trs spartiate des pages leur permet par contred'tre trs rapides la parcourir.

    Concrtement, lorsque l'on souhaite acclrer le rfrencement d'un site, la seulechose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, ilfaut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire.Cette tape est similaire la soumission manuelle que l'on ferait avec un annuaire ladiffrence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URLen queue de liste des URL que le moteur va devoir analyser.

    Une fois le robot arriv sur votre site, il commence par regarder s'il existe unfichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourratrouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page mme sivous ne lui avez pas demand explicitement. Par contre, cela risque de lui prendre plusde temps pour trouver votre site.

    NB : Si votre serveur est surcharg ou en panne au moment o un robot essaye de s'yconnecter, le robot est normalement configur pour ressayer un certain nombre de foisavant de considrer que le site n'existe plus. Cette scurit sert viter de supprimerdes sites de l'index du moteur alors qu'ils ne sont que momentanment indisponibles. Aupire, les informations dont dispose le robot sur votre site ne seront pas mises jouravant son prochain passage.

    1GoogleBot : nom du robot d'indexation dvelopp par Google2 Frames : Concept invent par Netscape. Consiste afficher le rsultat de l'assemblage de plusieurs pagesHTML dans une seule fentre du navigateur.

  • 8/14/2019 Techniques de Referencement sur internet

    9/64

    9/64

    b. Le PageRank

    Google a dvelopp un algorithme pour lui permettre de mesurer la popularit et

    la pertinence des pages qu'il retourne en rponse une requte. Cette note s'appelle lePageRank.

    Le principe de PageRank est simple : tout lien pointant de la page A la page B1est considr comme un vote de la page A en faveur de la page B. Toutefois, Google nelimite pas son valuation au nombre de votes (liens) reus par la page ; il procdegalement une analyse de la page qui contient le lien. Les liens prsents dans despages juges importantes par Google ont plus de poids , et contribuent ainsi lire d'autres pages"ix. Le PageRank est donc trs intressant car on peut supposerqu'un site populaire soit de meilleure qualit (fiabilit des informations disponibles parexemple) qu'un autre moins consult.

    Notez cependant que cette technique, telle que je viens de vous la prsenter, ne

    permet absolument pas d'affirmer que les rsultats correspondent votre requte. C'estpourquoi le PageRank est complt par d'autres critres plus spcifiques aux mots-clspar exemple. Le PageRank est mis jour chaque GoogleDance.

    Google fut le premier perfectionner ses agents de recherche afin que ceux-ci nese contentent plus seulement des balises "META" prsentes en entte de chaque page.Cette technique est certainement l'origine du succs de Google puisque, ds sesdbuts, il a su proposer des rsultats pertinents.

    c. La GoogleDance

    Pour rpondre plus vite aux requtes, Google a choisi de rpartir ses nombreuxserveurs (environs 40 000) en une dizaine de "Data Center" implants principalement

    aux Etats-Unis et en Europe. Ainsi, les requtes que vous faites sur www.google.fr sonttraites par un Data Center choisi en fonction de deux critres :

    - votre localisation gographique- la charge du Data Center le plus proche.

    Vous comprendrez que cette architecture ne permet pas de maintenir les bases dedonnes parfaitement synchronises d'un Data Center l'autre.Sachant cela, on comprend pourquoi des requtes identiques ralises depuis un mmeposte mais des moments diffrents peuvent finalement donner des rsultats diffrents.

    Avant d'opter pour une indexation continue, Google mettait jour sa base dedonnes une fois par mois. Cette mise jour majeure mettait les Data-Centers dans des

    tats profondment diffrents les uns par rapport aux autres. Ainsi, les rsultatspouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phnomne futbaptis GoogleDance. Elle pouvait durer jusqu' une semaine. Chaque "dance" taitbaptise comme le sont les cyclones !

    Nous venons de voir ce qu'est une GoogleDance, essayons maintenant decomprendre ce qu'elle apporte aux webmasters.

    Google, avant de rendre accessible son nouvel index, le teste sur deux domainesparticuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com.

    Ces domaines publics possdent, en gnral, une version de l'index plus jourque celle utilise par le site www.google.xxx. Ils permettent aux webmasters d'avoir un

    1On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. Lacommande link: de Google permet de connatre ces BL.

  • 8/14/2019 Techniques de Referencement sur internet

    10/64

    10/64

    aperu de ce que sera leur position lorsque le nouvel index sera pass. En effet, c'est enfonction de ce qui apparatra dans le nouvel index que Google pourra calculer lesnouvelles valeurs des PageRank.

    Ainsi, cette priode est utile aux rfrenceurs pour que ceux-ci peaufinent leurtechnique. S'ils ratent la GoogleDance, ils n'auront qu' attendre le prochain passage durobot.

    3. Les hybrides ou outils mixtes

    Ils proposent une mthode de recherche soit sous forme d'annuaire, soit sousforme de mots-cls.En gnral, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utiliss poureffectuer des recherches au sein d'un mme site web.Un cas concret est celui du site http://www.telecharger.com qui propose de rechercherun logiciel par son nom ou alors de le retrouver travers les catgories proposes.

    L'objectif est de dgrossir les recherches en slectionnant les thmes importantsdans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-cls.

    4. Les mtamoteurs

    Les mtamoteurs sont des moteurs de recherche qui basent leurs recherches surl'interrogation de plusieurs autres moteurs de recherche. Le plus connu est srementCopernic qui fournit un rsultat issu de plus de 100 moteurs diffrents. Si cela tait

    intressant la fin des annes 90, a n'est plus vraiment le cas aujourd'hui. Surtout

    Annuaire

    Moteur de recherche

  • 8/14/2019 Techniques de Referencement sur internet

    11/64

    11/64

    quand on sait que Google retourne lui tout seul des milliers de pages pour unerechercheC'est pourquoi, les mtamoteurs ont d trouver des moyens de se dmarquer desmoteurs de recherche. Outre le fait qu'ils n'aient pas de base de donnes propre !Pour cela, ils ont d proposer des fonctions supplmentaires telles que la suppression desdoublons, des liens morts et la possibilit d'ajouter des filtres pour trier les rsultats.

    N'utilisant pas de base de donnes propre, ils ne reprsentent aucun intrt du point devue du rfrencement.

    B. Guerre des outils de recherche et futures volutions du march

    En France, on constate que 73% des recherches se font sur Google. L'hgmoniede Google dure depuis quelques annes et ne semble pour l'instant pas remise en cause.Pourtant, de nouveaux acteurs tentent de s'implanter sur ce crneau trs porteur.

    1. La bonne guerre de Yahoo! et Google

    Nous connaissons depuis le dbut la guerre qui oppose Google Yahoo!. Pourtant,ces deux outils de recherche ne proposent pas tout fait les mmes services. En effet,Google s'est spcialis dans le moteur de recherche et ne fait que a, alors que Yahoo!est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi unportail contenant une grande source d'informations immdiatement disponibles.

    Pour preuve de la guerre de ces deux gants de la recherche sur Internet, il y aun an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait degrandes chances d'arriver sur le site de Google. Google ayant achet le nom de domainewww.yahooo.fr afin de faire une redirection1 sur son propre site. Yahoo! avait alors viteripost en achetant www.gooogle.com !

    Le 9 Aot dernier, Yahoo! annonait que son index recensait dsormais 20milliards de documents. GoogleImage a immdiatement rpliqu en affirmant que sonmoteur de recherche ddi aux image n'indexait plus 1.3 mais 2.2 milliards de photos.

    2. Un nouvel acteur : MSN Search

    Aujourd'hui la guerre continue mais les choses risquent d'voluer plus rapidementavec l'arrive de Microsoft sur le march. En effet, le gant deRedmond a dcid de selancer dans la recherche sur internet. La diffrence rside dans le fait que Microsoftpossde des fonds normes qu'il semble prt investir pour s'implanter rapidement sur

    ce march.Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne reprsente "que" deuxmois de rsultat de Microsoft". Ainsi, "ce que Google a mis quatre ans construire,Microsoft peut l'obtenir en quelques mois."x

    L'avenir nous dira lequel des grands du rfrencement gagnera mais en attentant, enFrance, Google semble particulirement bien tirer son pingle du jeu.

    1Une redirection est une action, transparente pour l'utilisateur, qui permet de le racheminer d'une page versune autre en changeant automatiquement son URL.

  • 8/14/2019 Techniques de Referencement sur internet

    12/64

    12/64

    (Source : http://www.barometre-referencement.com/question_du_mois.htm)

    3. La guerre du nombre de pages indexes

    Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages.Le 3 mars dernier on pouvait trouver sur la page www.google.fr :

    Il semblerait pourtant que son index ne fasse pas vraiment la taille indique Il s'agiraitplutt d'une estimation par interpolation. D'ailleurs, Google a annonc qu'il avait doublla taille de son index (passant ainsi de 4 8 milliards de pages) le jour o Microsoftlanait la version d'essai de MSN Search qui, elle, est sense indexer 5 milliards depages. Bizarre donc

    Si on en croit l'tude "Comptes bidons chez Google ?"xi, on remarque ainsiquelques incohrences traduisant clairement que Google et les autres se livrent uneguerre acharne.

    A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la

    quasi-totalit des pages anglaises. Voici le rsultat, dans toutes les langues, de larecherche sur Google.

    Tout juste 8 milliards de rsultats Bref, ce qui est tonnant c'est qu'en ne cherchant

    que sur les pages anglaises, on obtient le rsultat suivant :

    Soit peu prs 1% du rsultat prcdant ! Sous-entendant par la mme occasion que"the" se trouve dans 99% des cas dans des pages non anglaises

    Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autresoit de meilleure qualit qu'un autre.

    12% 76% 5%

  • 8/14/2019 Techniques de Referencement sur internet

    13/64

    13/64

    En gnral, nous autres internautes sommes plutt perdus devant le nombre de

    rsultats que peut nous renvoyer une recherche.Le problme est gnralement que l'on obtient trop de rponses plutt que pas

    assez ! L'internaute ne s'en rend mme pas compte. Il s'en fiche mme de savoir que sarequte sur MSN Search lui retourne 653 125 rponses alors que la mme interrogationde Google lui en retourne le double.

    Les statistiques montrent que "91% des internautes changent de requte s'ils sontinsatisfaits des quarante premiers rsultats". En allant plus loin, on montre que "les 10premiers rsultats reoivent 78% de trafic supplmentaire par rapport ceux qui sontlists de la onzime la trentime position."xii

    C'est justement en sachant ceci que l'on comprend l'intrt d'un bonrfrencement et plus particulirement celui d'un bon positionnement. Nous allons tout

    de suite dfinir ces deux termes.

    C. Diffrence entre rfrencement, indexation, positionnement et visibilit.

    Au cours de ce rapport, je vais frquemment utiliser les quatre termes ci-dessus.Il est essentiel de bien comprendre la diffrence entre ces expressions.

    Le rfrencement, dans son acceptation large, peut tre dfini commel'ensemble des actions permettant un site d'tre prsent dans les bases de donnes desoutils de recherche. L'action visant tre rpertori est l'indexation xiii

    Il y a encore quelques annes, l'objectif tait uniquement de se faire rfrencer

    par les moteurs de recherche.On constate qu'aujourd'hui le but reste bien videmment d'tre rfrenc par le plus demoteurs de recherches/annuaires possibles mais l'accent est surtout mis sur lepositionnement.

    Le positionnement prend appui sur les fondements du rfrencement. Mais leterme de positionnement sous entend que l'on value le rfrencement par rapport quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa positionpar rapport celle de ses concurrents. On pourra ainsi estimer le rang auquel apparatraun site dans la liste des rsultats retourns par un outil de recherche la suite d'unerequte prcise.

    Nous avons dj vu "que plus de 70% des internautes ne consultent que les deuxpremires pages de rsultats"xiv. Mme au sein de la premire page, la comptition estrude. En effet, "le premier site qui apparat lors d'une requte reoit trois fois plus declics que le cinquime"xv.

    La ncessit d'tre bien positionn n'est donc plus dmontrer.

    Pour finir, la visibilit d'un site fait plus rfrence la stratgie qui sera mise enplace pour cibler le march et les clients que l'on veut atteindre. L'objectif de la visibilittant de se faire connatre des clients et de se distinguer des concurrents.

  • 8/14/2019 Techniques de Referencement sur internet

    14/64

    14/64

    D. Diffrents points de vue du rfrencement

    Avant d'tudier en dtail les diffrentes techniques de rfrencement, je pensequ'il est important de bien mettre l'accent sur un point essentiel du rfrencement.

    Ce point concerne la divergence qui rside entre l'objectif des outils de rechercheet celui des webmasters.

    En effet, il faut bien comprendre que le but d'un webmaster soucieux de sonrfrencement est de faire apparatre son site en tte des rsultats des moteurs derecherche (c'est--dire tre bien positionn).Par contre, l'objectif des moteurs de recherche et des annuaires est, quant lui, deretourner le maximum de rsultats pertinents par rapport une requte faite par uninternaute.

    Cette divergence de points de vue entre les deux principaux acteurs durfrencement explique pourquoi les techniques de rfrencement ont tellement voluau cours des dernires annes.

    Vous l'aurez compris, les webmasters tudient les moteurs de recherche afin decomprendre comment ils fonctionnent. Grce ces informations, ils sont capables detrouver les failles leur permettant d'atteindre le haut des classements. De leur ct, lesmoteurs de recherche sont obligs de ragir rapidement afin de condamner les abus desrfrenceurs et ainsi toujours garantir des rsultats cohrents.Ainsi, on peut classer les techniques1 suivant leurs volutions :

    Action des moteurs de recherche sens Riposte des webmasters

    Les balises mta du langage HTMLont t inventes dans le but depermettre le rfrencement despages. Les premiers robots neprenaient alors en compte QUE cesbalises

    Du coup, les webmasters en ont profitpour abuser de ces balises Ils ont crle spamdexing et le "bourrage demots-cls"

    Les moteurs ont du riposter enprenant de moins en moins encompte ces balises. Ils se sont alorsfocaliss sur d'autres balises : title,

    Hx, b et alt

    De la mme manire, on a vuapparatre des pages contenant denombreuses rptitions de mots-clsdans ces balises

    La technologie ayant suffisammentvolu, les robots ont alors tscapables de rechercher eux-mmesles mots pertinents dans le contenutextuel des pages. Le webmaster nedevait alors plus pouvoir tromper lesrobots

    Les webmasters ont alors choisi decrer de nombreuses pages au contenuoptimis pour les moteurs de recherche.En couplant ces pages avec uneredirection, ils on invents les pagessatellites Pages qui furent rapidementcondamnes par les moteurs derecherche

    Pour viter d'indexer de tropnombreuses pages satellites, lesmoteurs tentent de les reprer et de

    les bannir de leurs index

    Pour limiter le risque de se faire excluredes moteurs de recherche par uneutilisation abusive des pages satellites,

    les webmasters ont dvelopp une1Ce tableau donne le nom et les grandes lignes de quelques techniques. Elles seront explicites par la suite.

  • 8/14/2019 Techniques de Referencement sur internet

    15/64

    15/64

    nouvelle technique. Celle dite ducloaking qui permet de prsenter uncontenu diffrent d'une mme pagesuivant que c'est un internaute qui lavisionne ou un robot qui la parcourt.

    Pour rduire le risque de cloaking,certains moteurs changent le nom deleurs robots

    Les webmasters ont amlior leursscripts de cloaking pour identifier lesrobots en fonction de leur adresse IP etnon plus seulement partir de leur nom

    Il semble que les moteurs n'aient pasencore vraiment ragi ce sujet. Celavient srement du fait qu'un bombingn'est pas facile mettre en uvrepuisqu'il doit tre ralissimultanment par plusieurs milliersde webmasters.

    Une des dernires techniques utilisepar les webmasters est le bombing.

    Ce cycle d'volution peut se rsumer de la manire suivante :

  • 8/14/2019 Techniques de Referencement sur internet

    16/64

    16/64

    II . L'tat de l'art du rfrencement

    A. Les ternelles (?) balises META

    1. Prsentation

    Historiquement, les premiers moyens mis en uvre pour rfrencer un sitetaient simples et efficaces. La raison que l'on a dj vue est que le nombre de page surInternet tait bien moindre.

    Technologiquement moins performants, les premier "spiders" taient lents.Coupls des bases de donnes limites, ils ne pouvaient pas stocker beaucoupd'information pour chaque site.

    Ainsi, pour prparer le travail des robots, les webmasters avaient la possibilit deleur fournir directement les informations pertinentes en utilisant des balises HTML crerspcifiquement pour cela. Ces balises META taient placer entre les balises HEAD d'undocument HTML.

    Invisibles des internautes ( moins bien sr d'afficher le code source de la page),elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (rsum etles mots-cls).

    Cette technique a longuement t le meilleur (voire le seul) moyen de rfrencerson site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clsidentiques entre la recherche et les pages trouves.

    2. Liste exhaustive

    Voici une liste quasiment complte des principales balises META avec leurfonction. Cette liste est classe par ordre d'importance croissante.Beaucoup de ces balises ne sont plus prises en considration par les robots des moteursde recherche pour des raisons que nous verrons par la suite.

    Toujours est-il qu'elles sont trs simples mettre en uvre et qu'il seraitdommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire aurfrencement tant que l'on ne s'en sert pas pour tromper les robots

    Balises Fonction / Utilisation

    Localise gographiquement la socit dtenant lesite. Elle peut servir pour les nouvelles fonctionsdes moteurs de recherche qui proposentmaintenant en priorit des rponses "proches" del'internaute.

    Donne un moyen de faire apparatre le nom de lasocit dans le code source de la page. Si l'onutilise un outil (tel que Deamweaver) pourgnrer la page, celui-ci renseigneautomatiquement la balise avec son nom.

  • 8/14/2019 Techniques de Referencement sur internet

    17/64

    17/64

    Spcifie une adresse de rponse pour lesutilisateurs avertis qui consulteront le code

    source de la page.Permet galement de faire apparatre l'adresseemail dans le code source de la page et doncaugmente les chances d'indexation par lesrobots.Par contre, cette adresse sera aussi repre parles robots qui parcourent le web la recherched'adresses mails spammer

    Balise spcifique aux Copyright o l'on peutencore mettre le nom de l'entreprise.

    Permet de dfinir le thme principal de la page.

    Permet un annuaire de savoir dans quellerubrique il va pouvoir classer le site. Il estpossible de mettre plusieurs catgories. Ellesdoivent tre crites en anglais.

    Spcifie au navigateur qu'il doit recharger toutela page avant de l'afficher, et ceci mme s'il l'adj en cache.

    Cette balise permet simplement de faireapparatre l'URL de la page principale du sitedans le code source de la page

    Spcifie la date de cration de la page en cours.

    Spcifie la date de dernire modification de lapage en cours.

    Spcifie avec quelle frquence le robot peutrevenir visiter la page.

    Donne une indication au robot sur la date jusqu'laquelle il doit garder la page en cache.De mme le navigateur n'utilisera pas la pagequ'il pourrait avoir en cache au del de cettedate.Cette balise sert essentiellement pour des pagesdont le contenu est souvent mis jour.

  • 8/14/2019 Techniques de Referencement sur internet

    18/64

    18/64

    Cette balise redirige automatiquementl'internaute vers la page spcifie.

    Elle peut tre utile en matire de rfrencementlors d'un changement d'url. Elle permet ainsi auxrobots de trouver la nouvelle URL du site.

    Permet d'indiquer le nom de l'auteur du site oude la socit. Elle permet d'ajouter une fois deplus ce nom en question dans le code source dela page.

    Cette balise, dont la taille ne doit pas excder200 caractres, est (tait...) utilise par lesmoteurs de recherche pour afficher un rsum(snippetsxvi) de la page l'utilisateur.

    Aujourd'hui, bien des moteurs de recherchegnrent dynamiquement un rsum de la pagecontenant les mots-cls de la recherche. Dans cecas, le contenu de la balise n'est plus affich l'internaute.

    Le rsultat de cette enqute1reprsente le pourcentage de pages

    retournes par un moteur derecherche et ayant au moins unmot-cl figurant dans la requte.

    Comme quoi, les keywords gardentune relative importance.

    Comme son nom l'indique, cette balise pouvantcontenir jusqu' 1000 caractres, permet delister les mots-cls en rapport avec la page.Les mots-cls reprsentent des termes qui serapportent directement au sujet de votre page. Ilest important de mettre plusieurs synonymes(voire mme des antonymes) d'un mot-cl

    important pour viter toute ambigut. Vos mots-cls peuvent galement comporter des fautesd'orthographe volontaires afin de ressortircomme rsultat suite une recherchecomportant des erreurs de frappe.

    Quasiment tous les moteurs de recherche et 65%des sites utilisent encore cette balise.

    Pour viter les problmes de "casse"(diffrenciation des lettres minuscules etmajuscules) il est conseill de mettre tous lesmots-cls en minuscules.

    Contrairement ce que l'on peut penser, rpterles mots-cls ou en mettre trop peut avoir l'effetinverse l'effet souhait.Les spiders comprendront alors cette balisecomme une mthode frauduleuse pouraugmenter le positionnement et prfreront nepas indexer la page2.

    1 L'tude date d'Octobre 2004. Sa version complte est disponible l'adresse suivante : http://www.revue-referencement.com/ETUDES/0410-referencement-title-h1.htm2Le keywordsstuffing ou bourrage de mots-cls en franais, est banni par les moteurs de recherche

  • 8/14/2019 Techniques de Referencement sur internet

    19/64

    19/64

    En revanche, dans le cas de site multi-langues, ilest conseill de rajouter l'attribut1 lang="" pourspcifier la langue dans laquelle sont lesmots-cls qui suivent.On aura ainsi, dans le cas d'un site bilingue,ceci :

    Cette balise spcifie au robot s'il peut indexer ounon votre page. En gnral, elle sert plutt

    exclure des pages du rfrencement. Elle seradonc utile dans le cas d'une page en cours deralisation et qui ne doit pas tre accessible.Idem pour une page destine un usagepersonnel (page de statistiques par exemple).

    L'attribut content peut prendre les valeurssuivantes :- ALL (dfaut) : Indique qu'il faut indexer lapage et suivre les liens hypertextes.- NONE : Ne pas indexer la page et de ne passuivre les liens.

    - INDEX : La page peut tre indexe par lesrobots.- NOINDEX : Pas d'indexation de la page par lesrobots.- FOLLOW : Donne la permission de suivre lesliens hypertextes.- NOFOLLOW : Indique qu'il ne faut pas suivreles liens de la page.- NOIMAGEINDEX - Pas d'indexation desimages, seulement le texte le sera- NOIMAGECLICK : Pas d'indexation des liensdes images.

    1Un attribut est une instruction contenue l'intrieur d'une balise et dont le but est de fournir une informationsupplmentaire sur la manire dont cette balise doit tre interprte.

  • 8/14/2019 Techniques de Referencement sur internet

    20/64

    20/64

    "noarchive" indique aux robots qu'ils ne doiventpas mettre en cache la page en cours. Par

    contre, ils peuvent l'indexer et suivre les liens.Beaucoup de moteurs de recherche mettent lespages en cache. Cela permet l'Internaute detout de mme pouvoir consulter la page mme sielle a t supprime ou est momentanmentinaccessible.

    Le webmaster pourra lui connatre la date dudernier passage du robot sur sa page.

    Sachez cependant que les moteurs de recherchemettent un long moment (entre 1 et 6 mois,dpend du PageRank) avant d'actualiser leurcache. Ainsi, pour un site ayant un contenusouvent actualis (site d'informations parexemple) il est ncessaire de mettre cette balise.De mme pour un site dont le contenu seraitpayant. Sinon, il suffirait d'attendre que Googlel'indexe pour ensuite consulter la page en cache !

    3. Limites de ces balises

    Si ces balises ont eu leurs heures de gloire lors des dbuts du rfrencement,

    elles n'ont plus aujourd'hui qu'une influence trs limite.Les diffrentes raisons qui confirment la mort de balises META :

    L'volution technologique qu'a connue le secteur de l'informatique ces derniresannes a bien videmment profit aux moteurs de recherche.

    Les personnes en charge du dveloppement des robots ont alors dcid de baserleurs indexations sur des mots-cls gnrs automatiquement. C'est--dire que lesinformations collectes ne devaient plus uniquement tre celles que le webmaster voulaitbien mettre la disposition des robots via les balises META.

    Ce que je veux dire c'est que des serveurs de plus grosse capacit, coupls dessipders plus rapides leur permettent d'analyser les pages plus en profondeur. Lesanalyses se basent maintenant directement sur le contenu textuel de la page.

    Cette nouvelle orientation de la part des moteurs de recherche chercheuniquement obtenir des rsultats probants. Il faut savoir que de nombreux webmasterspeu scrupuleux avaient trouv comment gnrer facilement du trafic sur leurs pages.Leur but n'tait alors pas d'offrir une information de qualit aux internautes de toushorizons mais de gagner de l'argent grce aux publicits prsentes sur leurs pages.

    L'ide tait simple et efficace : il leur suffisait d'utiliser comme mots-cls de leurspages, la liste la plus exhaustive possible des mots ou expression les plus recherchsdans les moteurs. Ainsi, la majorit des recherches faites retournait leur site commersultat.Pour illustrer ce phnomne, on peut rappeler qu'en 1998, de nombreux sites Internetpersonnels avaient comme mots-cls : Bill Clinton et Monica Lewinsky

  • 8/14/2019 Techniques de Referencement sur internet

    21/64

    21/64

    Aujourd'hui bien connues, ces techniques sont catalogues comme tant duspamdexing. Ce barbarisme anglophone se dfinit comme tant l'ensemble des mthodesabusives de rfrencement qui consistent tromper l'internaute ( travers les moteursde recherche) sur le contenu rel de la page.

    La comptition qui existe entre les moteurs de recherche les a contraints passerd'un objectif quantitatif un objectif qualitatif.Pourtant, lorsque l'on compare le nombre de rsultats intressants et le nombre total dersultats retourns par les moteurs de recherche, on peut se demander s'ils y sontparvenus.

    Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voirecondamner, le spamdexing. En gnral, la mesure la plus radicale est de ne pasrfrencer les pages concernes. Cela revient inscrire le site sur une "BlackList". Unefois sur cette liste noire, le seul moyen pour le webmaster de voir son site r-index par

    le moteur est de contacter directement le service concern de l'outil de recherche dans lebut de lui prsenter un site modifi qui rponde ses critres de slection.

    B. Les autres balises

    Les concepteurs de spiders ont d trouver d'autres moyens de reprer lesinformations importantes dans les pages web.

    On sait maintenant que d'autres balises prsentent plus d'intrt du point du vuedu rfrencement que celles qui initialement cres pour cela !

    1. Le titre

    GoogleBot, par exemple, donne une place trs importante au titre des pages.La balise renseigne en gnral sur le contenu global de la page.

    Une tude datant d'octobre 2004xvii montre quel point la balise titre estimportante pour les principaux moteurs de recherche. Le graphe ci-dessous montre laproportion des mots-cls que l'on retrouve, dans la balise des pagesretournes, en rponse 100 questions poses.

  • 8/14/2019 Techniques de Referencement sur internet

    22/64

    22/64

    2. Les paragraphes

    De la mme manire, on sait que la balise qui reprsente les titres desparagraphes, a galement une grande importance.

    Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de typespamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance ce type de balise (H1 et ses drivs H2, H3, ) qu'ils n'en ont accord par le pass.

    Si la balise TITLE sert toujours, c'est parce que la taille du texte est limite. Enrevanche, il est possible de mettre autant de commentaire que l'on veut entre une baliseH1 ouvrante et une balise H1 fermante

    Sur cet exemple trivial, on comprend qu'en crivant une grande quantit demots-cls de la mme couleur de texte que le fond d'cran, on peut garder uneprsentation agrable pour l'Internaute tout en fournissant une grande quantitd'informations aux robots. Cependant, faites attention aux moteurs de recherche quitraquent ces abus en comparant systmatiquement la couleur de la police avec celle dufond d'cran.

    Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'anne 1997), ce langagesupporte les feuilles de style CSS1. Celles-ci ont alors connu un fort dveloppement carelles permettent aisment de changer l'intgralit de la charte graphique d'un site en nemodifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes lespages De ce fait, la mise en forme via les balises n'est plus utilise que dans unquart des sites web.

    Pour cacher du texte l'utilisateur tout en s'assurant qu'il restera accessible auxrobots puisque prsent dans le code source de la page, on peut utiliser la propritsuivante des feuilles des styles :

    .TextInvisible {visibility:hidden}ou encore :

    .TextInvisible {display:none;}

    1Cascading Style Sheets: Langage permettant de compenser les manques de l'HTML en termes de mise enforme et de prsentation.

  • 8/14/2019 Techniques de Referencement sur internet

    23/64

    23/64

    Pour combattre ceci, les moteurs de recherche tiennent compte de toutes lesautres balises de mise en forme HTML telles que (gras), (soulign),

    (italique) ainsi que de la taille du texte.A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette baliseavec un total de 16% de mots-cls trouvs entre des balises H1 sachant qu'ils taientdans la requte.

    3. Le texte alternatif des images

    Nos premiers pas sur Internet taient, souvenez vous, trs lents A l'poque, laconnexion 56k tait un must.

    Pourtant, le langage HTML avait t au dbut dvelopp pour permettre d'offrirdes documents sous forme textuelle la consultation. Plus tard, et devant l'essor duweb, on a commenc inclure des images dans nos documents et donc alourdir

    considrablement les pages, rallongeant ainsi le temps de chargement.Les deux principaux navigateurs qu'taient Internet Explorer et Netscape avaientbien compris ce problme et proposaient tous les deux une option qui servait charger lapage sans tlcharger les images. Apparaissait alors la place, une brve description dela photo sous forme de texte. Celle-ci tait directement renseigne par le dveloppeurgrce l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spidersd'indexer les balises images qu'ils ne savaient pas traiter autrement.

    Il s'est donc avr que ces petites descriptions textuelles associes aux imagestaient recherches et contribuaient fortement l'indexation du site par les moteurs.

    Aujourd'hui, ces balises ne sont quasiment plus utilises par les dveloppeurspuisque les connexions que nous avons nous permettent gnralement d'afficher

    rapidement toutes les photos.Seuls les webmasters soucieux de leur rfrencement s'en servent encore.

    Notez que nous risquons de voir rapparatre cette balise puisqu'elle fait partieintgrante des dernires recommandations du W3C1(plus particulirement de la WAI2).Dornavant, une balise IMG devra forcement contenir un attribut ALT pour tre conforme la norme.

    En effet, cette balise permet de traduire les images en texte. Elle est doncprimordiale pour une accessibilit au site des personnes non voyantes ou mal voyantes.C'est sur cet attribut que se base leur navigateur pour leur dcrire / lire la page.

    De la mme manire, on peut mettre un texte sous forme d'info bulle sur un lienen utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cettebalise soit rellement prise en compte.

    1Word Wilde Web Consortium : Organisme international qui dveloppe et fait voluer les standards du web.2Web Accessibility Initiative : commission du W3C et rfrence mondiale pour l'accessibilit des sites web auxpersonnes handicapes.

  • 8/14/2019 Techniques de Referencement sur internet

    24/64

  • 8/14/2019 Techniques de Referencement sur internet

    25/64

    25/64

    La fentre principale (dans notre exemple frame.html) est appele page mre.Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html)

    Aujourd'hui, les frames sont de moins en moins utilises pour les raisons suivantes :

    - de nouvelles techniques permettent maintenant de crer des menus plus lgantset plus dynamiques.

    Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp

    - On ne peut pas enregistrer une page en favoris.- L'impression est souvent trs mal gre.- Mais surtout, elles nuisent au rfrencement

    En effet, face un site dont la fentre principale serait constitue de frames, lesmoteurs de recherche ont 4 possibilits :

    o Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est biensr la plus problmatique.

  • 8/14/2019 Techniques de Referencement sur internet

    26/64

    26/64

    o Indexer toutes les pages du site indpendamment les unes des autres. Cela aau moins le mrite de permettre de retrouver, au travers d'une recherche, unepage fille. En revanche, le lien qui apparatra dans le snippet du moteurpointera directement sur la page en question. Ainsi, lors de l'affichage, onperdra l'intgralit de la barre de navigation.

    Illustration :

    o Rfrencer la page mre et les pages filles tout en tant capable de rappeler laframe parent au cas o l'internaute souhaite afficher une page diffrente de laHome. Sachez seulement que trs peu de moteurs de recherche font a (voire

    aucun)

    o Indexer uniquement la page mre. Sachant que les robots fonctionnent enmode texte, ils ne prennent pas en compte les frames. A l'affichage d'unepage avec des frames, ils ne verront que le texte se trouvant entre les balises. On se rend compte quel point ces balises peuvent s'avrerimportantes en terme de rfrencement.

    Notez qu'en gnral, lorsqu'un moteur de recherche dit supporter les frames(Google affirme le faire "dans la mesure du possible") cela veut simplementdire qu'il est capable de lire (d'indexer) le contenu de la balise .

    Sachant que les frames tendent disparatre, les moteurs de rechercheaffirment ne pas faire d'efforts pour dvelopper des robots supportant mieuxces structures de pages.

    Page d'accueil normale

    Rsultat : la page finale est ouverteindpendamment du cadre parent

    Exemple de recherche avec Google

  • 8/14/2019 Techniques de Referencement sur internet

    27/64

    27/64

    Quant Yahoo!, je cite : "Le robotYahoo! suit les liens HREF. Il ne suit pas lesliens SRC, ce qui signifie qu'il ne recherche pas ou ne classe pas les frames quisont pointes par des liens SRC."xviii

    Pourtant, comme moi, vous serez peut tre un jour confront ce problme. Dansce cas, plutt que de laisser les moteurs se dbrouiller comme ils peuvent/veulent avecvos frames, sachez que vous pouvez grer ce problme vous-mme. L'important reste debien prendre en compte ce problme ds la conception du site afin de tout de suitemettre en uvre la mthode adquate.

    Cette technique est trs simple. Elle est base sur le langage JavaScript. L'ide estd'inclure, au dbut de chaque page, une fonction vrifiant que la page en cours est bienouverte par l'intermdiaire de la frame. Si a n'est pas le cas, la frame parent estautomatiquement recharge.

    Voici un exemple de script permettant de faire cela :

    if (parent.frames.length==0) parent.location.href="frame.htm";

    Cette version extrmement simpliste prsente tout de mme un problme majeur.Imaginez que vous souhaitiez afficher la page : page2.html. Vous l'avez trouve grce Google qui vous donne le lien suivant : http://lesite.fr/page2.html.Si la page contient le script donn ci-dessus, en suivant le lien, vous allez finalement

    ouvrir la page HTML (donc statique) frame.html.Malheureusement pour vous, frame.html sert ouvrir les deux pages suivantes :menu.html et page1.html.

    Conclusion, votre page s'affiche bien dans la frame parent, vous avez bien la barrede navigation mais vous ne retombez pas sur le page qui vous intresse !

    Pour contrer ce nouveau problme, il existe des solutions qui reposent surl'utilisation d'un langage dynamique. Nous utiliserons cette mthode dans la partie demise en application de ces concepts.

    C. Gestion des diffrents contenus

    Nous savons que le web est constitu de documents de types varis. Pour assurerun rfrencement performant, les robots doivent s'adapter ces diffrents types.Aujourd'hui, outre l'HTML, ils sont capables de lire les documents texte, Word,PowerPoint, PDF, XML.

    Par contre, il n'en est pas de mme pour les animations Flash1. Ce langage permetde crer des pages beaucoup plus interactives et graphiquement plus volue que ce quenous pouvons faire pour l'instant avec les langages courants.

    En revanche, ces animations crites dans un langage propritaire1 ne sont pasencore prises en compte du point de vue du rfrencement.

    1Fichier qui peut tre inclus dans une page HTML et dont l'extension est .swf. Si tout le site est fait en Flash, lefichier HTML appelant le Flash est quasiment vide.

  • 8/14/2019 Techniques de Referencement sur internet

    28/64

    28/64

    Contrairement aux frames que nous venons de voir, des efforts sont faits pour

    indexer le mieux possible ces animations. Ceci vient du fait que la technologie Flash estrcente sur Internet et qu'elle risque d'encore beaucoup se dvelopper dans les annes venir.

    La plupart des sipders se limitent suivre les liens contenus dans les animationsFlash. Les rcentes innovations des robots les autorisent pouvoir lire le contenu textuelde ces animations. Pour cela, ils se basent sur un kit qui leur est fourni par Macromedia.Conscient que ce problme de rfrencement nuisait la propagation de son langage,Macromedia propose en effet un kit qui permettra aux robots de pouvoir interprter lelangage Flash afin de pouvoir retrouver les parties de texte contenues dans le code desanimations.

    Pour l'instant, cette technologie reste peu fiable.

    Comme pour les frames, des balises spcifiques permettent d'ignorer le Flash. Cesbalises et servent insrer le code HTML qui sera lu par lesnavigateurs qui ne supportent pas le Flash.

    D. L'URL ReWriting

    1. Le problme

    Nous savons maintenant que l'adresse a une place importante dans lerfrencement. Pour preuve, les moteurs de recherche retournent souvent commersultat des sites contenants certains des mots-cls de votre recherche dans leur nom de

    domaine.

    Sachant cela, on peut se demander comment fait le robot pour grer les URLexotiques que l'on obtient en passant les paramtres des pages dynamiques par lamthode GET.

    Ex : http://www.monsite.net/documents/articles/lire.php?id=12&page=2&rubrique=5

    La rponse est simple, Google et les autres, le grent mal. Au mieux ils peuventindexer des pages ayant des URL contenant jusqu' deux variables. Mais pas plus.

    On sait qu'une URL telle que celle donne dans l'exemple ci-dessus, appelle

    toujours la mme page dynamique. Celle-ci va alors chercher dans une base de donnesles informations correspondantes l'article de la page 2, de la rubrique 5 ayant 12comme identifiant.

    Ce qui est dommage c'est que cet article accessible cette adresse parle justement d'une technique de rfrencement qui s'appelle l'URL ReWriting. Maiscomment le deviner juste en regardant cette adresse ?

    L'objectif de la mthode de rcriture d'URL est d'arriver faire croire au robotqu'il est en prsence d'une page statique.

    Pour cela, le serveur web devra transformer l'adresse en une URL finale du type :article_12_2_5.html ou mieux : referencement-12-2-5.html.

    1L'diteur est Macromedia

  • 8/14/2019 Techniques de Referencement sur internet

    29/64

    29/64

    Cela doit rester transparent pour l'utilisateur. Le serveur web Apache quant lui reoittoujours l'adresse sous la forme lire.php?id=12&page=2&rubrique=5.

    Pour effectuer cette transformation, le webmaster devra fixer des rgles dercriture.

    2. Mode d'emploi

    Pour commencer, il est ncessaire de configurer Apache. Nous prendrons Apachecomme exemple car il s'agit d'un serveur web qui se prte bien la rcriture d'URL etqui est trs utilis dans le monde libre.

    Ouvrez le fichier "httpd.conf" et retirez les symboles de commentaires (#) devantles lignes suivantes:

    LoadModule rewrite_module modules/mod_rewrite.soAddModule mod_rewrite.c

    Pour vraiment accrotre votre rfrencement, l'idal serait d'arriver gnrer desadresses sous cette forme :

    http://www.monsite.com/articles/ISAPI-rewrite-pour-url-rewriting_12_3.html

    C'est--dire avec le sujet de l'article contenu dans l'adresse de la page. Lesparamtres rellement utiliss doivent bien sr galement apparatre. Ensuite, il fautforcer Apache excuter toutes les pages dans le rpertoire articles comme tant des

    pages PHP, et ce, malgr l'extension .HTML.Cette tape se fait via le fichier texte .htaccess :

    ForceType application/x-httpd-php

    FilesMatch permet Apache d'analyser le nom de fichier pour y rechercher uneexpression rgulire.

    Nous venons de voir que les rgles de rcriture d'URL taient dfinies dans le

    fichier .htaccess. Cela ne marche donc pas avec le serveur web Microsoft InternetInformation Services (IIS). Pour faire de l'URL-rewriting avec les serveurs web Microsoft,il est ncessaire d'installer un module additionnel qui propose les mmes fonctionnalitsque le fichier d'Apache.

    Bien que la plupart de ces modules soient payants, il est possible de tlchargerune version allge de l'outil "ISAPI rewrite"xix. Cet utilitaire est fourni avec un modulepermettant de tester vos expressions rgulires.Exemple :

  • 8/14/2019 Techniques de Referencement sur internet

    30/64

    30/64

    Voil ce que l'on obtient (4)en appliquant la rgle dercriture (3) la partie del'adresse de test (2)identifie par l'expressionrgulire (1).

    E. Les fichiers robots.txt

    Dans la partie II a, je vous disais que la premire chose que fait un robot enarrivant la racine de votre site est de regarder s'il existe un fichier nomm robots.txt.Ce simple fichier texte va donner des informations au robot sous forme de commandes.En l'absence d'un tel fichier, les robots regarderont tout le site (action par dfaut).

    On constate alors que le seul intrt d'un fichier robots.txt est d'exclure desparties de site des spiders. Il est galement possible de filtrer les robots autoriss indexer le site.

    User-Agent:nom du r o b o t ou * : permet de prciser le robot concern par lesdirectives qui suivront. La valeur * dsigne tous les spiders.

    Disallow:nom du rpertoire ou du fichier : permet d'indiquer les pages exclure de l'indexation. Chaque page ou dossier exclure doit tre sur une ligne part et doit commencer par /. La valeur / seule signifie que cela s'appliquera toutes les pages du site.xx

    Exemple de fichier type :

    Le style de contenu du fichier robots.txt se prsente de la faon suivante :

    User-agent: *Disallow: /cgi-bin/Disallow: /temp/

    Disallow: /prive/Disallow: /admin/statistiques.html

  • 8/14/2019 Techniques de Referencement sur internet

    31/64

    31/64

    Clairement, voici la signification du contenu :- User-agent: * signifie que l'accs est accord tous les robots.- Disallow: /cgi-bin/ : l'accs est refus aux robots pour tous les fichiers contenus dans ledossier cgi-bin, temp et prive.- Disallow: /admin/statistiques.html : l'accs est refus aux robots pour la page destatistiques contenu dans le rpertoire admin. Les autres fichiers de ce rpertoire ne sontpas concerns.

    Attention : Ne laissez jamais de lignes vierges ou blanches (la touche entre) lerobot l'interprterait comme tant la fin du fichier.xxi

    Remarque : Les fichiers de logs du site de l'IMS (ne disposant pas, pour l'instant, defichier robots.txt) nous permettent de tracer l'activit des robots. En effet, une erreur404 "fichier non trouv" est enregistre dans les logs chaque passage des spiderspuisqu'ils commencent par demander ce fichier. Sur le total du mois de fvrier, ce fichier

    a t demand 742 fois.

    Finalement, ce fichier permet d'empcher les robots d'indexer certaines parties dusite comme des parties prives, des pages de test, des images, des fichiers JavaScript etautres feuilles de style, etc.

    Ma dernire remarque concerne la scurit. Il est en effet important d'avoir l'esprit que ce fichier reste accessible tout le monde (et non pas seulement aux robots).Il suffit de taper http://www.NomDeDomaine.fr/robots.txt pour rcuprer le fichier den'importe quel site. J'ai moi-mme utilis cette mthode pour avoir des exemples desyntaxe des ces fichiers.Il peut tre dangereux de mettre en clair le chemin d'un fichier ou d'un rpertoire

    confidentiel. Par exemple la ligne : Disallow: /admin/AjoutDroits.asp peut servir de pointde dpart une personne mal intentionne pour attaquer votre site.Dans ce cas, on prfrera une balise classique.

    F. Plan du site

    Encore une page facile faire et intgrer qui, en plus de faciliter la navigationdans des sites ayant un grand nombre de pages et de rubriques, augmente sensiblementle rfrencement.

    En effet, cette simple page contient un grand nombre de liens internes.Notez que GoogleBot et les autres spiders ne vont pas analyser les pages qui auraientune profondeur suprieure 4. Cela veut dire qu'une page uniquement accessible en

    suivant les liens de 3 autres pages prcdentes ne sera pas rfrence.Un plan de site permet alors de rduire cette profondeur et de rendre accessiblece genre de pages.

    Dbut juin 2005, Google a lanc un nouvel outil gratuit bas sur ce principe.Google SiteMap devrait lui permettre d'indexer plus de pages. La vritable innovation parrapport au plan de site que nous venons de voir est, qu'avec cet outil, le webmaster estcapable d'indiquer rapidement GoogleBot qu'il y a de nouvelles pages indexer ou quele contenu du site a chang.

    Cet outil repose sur un ou plusieurs fichiers qui peuvent avoir des formats

    diffrents. Le format XML reste le plus utilis car il est plus performant. Ces fichiersontpour objectif d'aider Google rfrencer toutes les pages et mieux prendre en compteles volutions de votre site. Ce fichier est gnr par le webmaster.

  • 8/14/2019 Techniques de Referencement sur internet

    32/64

    32/64

    Voici la syntaxe type d'un fichier SiteMap.xmlxxii :Le fichier final ne doit pas forcment s'appeler sitemap.xml mais il est prfrable de lenommer ainsi au cas ou d'autre robots dcident de s'en servir galement.

    L'ide est la mme que celle d'un plan de site classique, c'est--dire de faire des liensdirects vers toutes les pages que l'on souhaite indexer. La nouveaut se traduit par lesinformations supplmentaires que l'on trouve dans les balises lastmod, changefreq, etpriority. Ces dernires sont toutes facultatives. Ne pas les utiliser reviendrait lister lesURL analyser. Cela ne serait pas beaucoup plus intressant qu'un plan classique.

    La balise peut prendre les valeurs suivantes : "always", "hourly","daily", "weekly", "monthly", "yearly" ou "never". Google prcise tout de mmequ'il ne considre ces balises que comme tant des conseils et qu'une valeur mise "always" n'obligera pas le robot passer plusieurs fois par jour sur la page. Demme, si vous mettez "yearly" ou "never, sachez que le robot visitera quandmme votre page.

    La balise permet simplement d'viter aux robots d'analyser une pages'il elle n'a pas connu de changement depuis son dernier passage.

    Enfin, la balise autorise le dveloppeur privilgier certaines pages parrapport d'autres. Les valeurs de cette balise vont de 0.0 1.0. 0.0 tant biensr pour dsigner les pages les moins prioritaires. Par dfaut, la valeur d'une pageest de 0.5.Comprenez galement que cette balise ne change en rien votre positionnementdans les pages de rsultats. Cela joue simplement sur la probabilit que les pagesque vous considrez comme plus importantes ressortent plus souvent.

    Lorsque Google trouve plus de 2 pages d'un mme site qui satisfont unerequte, il procde alors un clustering. C'est--dire que plutt que d'afficher

  • 8/14/2019 Techniques de Referencement sur internet

    33/64

    33/64

    toutes les pages de rsultat, il en prendra deux au hasard et ne retournera queces deux rsultats pour ce site.Voila ce que l'on retrouve alors l'cran :

    La balise permettra Google deprivilgier les pages importantes lorsde ce clustering.

    Dernire remarque, mettre toutes les pages de son site avec une priorit de 1.0ne sert absolument rien puisque cette priorit est relative entre les autres pagesdu site. En aucun cas, cette priorit ne s'applique entre des pages de sitesdiffrents.

    Lorsque vous avez gnr votre fichier XML, il faut l'enregistrer auprs de Google.Cela peut se faire de deux manires.

    La premire consiste indiquer directement l'adresse de votre fichier SiteMap parle biais d'une requte faite cette URL :

    www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fvotresite.com%2F sitemap.xml

    La deuxime solution est d'ouvrir un compte sur Google et d'utiliser les outils quepropose le moteur de recherche. Il s'agit d'un portail permettant de grer l'insertion, lamise jour. Google propose galement un outil (sous forme de script) permettant degnrer directement un SiteMap. Afin d'viter d'utiliser cet outil peu pratique (car critdans le langage Python peu rpandu) il est prfrable d'utiliser d'autres outils disponiblessur Internet. Ils permettent par exemple de gnrer un fichier SiteMap.xml partir d'unscan des rpertoires de votre site, des fichiers de logs ou d'une extraction de la base dedonnes.

    G. Redirections

    Lors de la conception ou de la maintenance d'un site web, vous allez certainementtre, un moment ou un autre, oblig d'utiliser une mthode de redirection. Celle-cipeut tre ncessaire pour orienter une personne non reconnue vers une paged'identification, crer une page d'erreur spcifique ou encore indiquer l'adresse dunouveau nom de domaine de votre site etc.

    Pour cela, il existe plusieurs techniques qui peuvent se faire soit ct serveur, soitct client.

    Du point de vue du rfrencement, elles n'ont pas le mme impact.

    "En effet, pour que les robots des moteurs de recherche interprtent correctement laredirection, il faut que l'en-tte HTTP envoy avec la page corresponde au statut de lapage. Par exemple, si une page a chang d'emplacement dans votre site, il faut que

  • 8/14/2019 Techniques de Referencement sur internet

    34/64

    34/64

    l'ancienne URL fasse une redirection vers la nouvelle en utilisant un en-tte HTTP quiprcise que cette page a chang dfinitivement d'adresse (code 301). Cela permettra aurobot de ne plus venir indexer l'ancienne URL, et de mettre jour sa base de donnes enaffectant la nouvelle URL la page.Si vous ne mettez pas de redirection depuis l'ancienne URL, le robot obtiendra une erreur404 et ne sera pas forcment au courant de la nouvelle adresse." xxiii

    1. Redirection sur le serveur

    Il faut se rfrer la documentation de votre serveur web car les redirections sefont diffremment sous Apache, IIS ou Tomcat

    Sachez cependant que ce type de redirection n'a pas d'effet nfaste sur lerfrencement.

    2. Url-ReWriting

    Nous le savons maintenant, l'URL-ReWriting est une technique particulirementefficace en termes de rfrencement. Dans le cas d'un serveur web Apache, le fichier.htaccess permet de rediriger facilement vers une page d'erreur.

    3. Redirection par un script serveur

    Les langages dynamiques permettent de rediriger facilement une page vers uneautre :

    PHP : header("Location: http://www.votresite.com/unepage.htm ");

    ouASP : response.addheader "location", "http://www.votre-site.com/"

    Cependant, n'oubliez pas de prciser le nouvel en-tte de la page :

    PHP : header("Status: 301 Moved Permanently");

    ouASP : response.status = "301 Moved Permanently"

    pour ne pas que cela pose de problme aux robots.

    4. Redirection HTML avec balise META

    Bien que trs pratique et simple d'utilisation,

    ce type de redirection est proscrire. Elle fut principalement utilise dans les pagessatellites pour rediriger l'internaute sur la page principale aprs un dlai de 0 secondes.Les moteurs n'indexeront donc pas le contenu de la page.

    5. Redirection ct client avec JavaScript

    Elle s'utilise de la manire suivante :

    window.location.replace("http://www.un-site.com/une-page.htm");

    En revanche, elle ne modifie pas l'en-tte HTTP.

  • 8/14/2019 Techniques de Referencement sur internet

    35/64

    35/64

    Les robots ne lisant pas le JavaScript, ils ne suivront pas ces redirections. Le risque estdonc d'indexer le contenu d'une vieille page alors que la nouvelle ne sera pas vue desmoteurs de recherche.

    H. Rfrencer un site multilingue

    Le rfrencement d'un site multilingue peut poser des problmes, ou tout du moinssoulever quelques questions auxquelles nous n'avons pas encore rpondu. Par exemple :o Faut-il crer autant de sites que de langues diffrentes ?o Est-ce mieux d'avoir autant d'URL que de langues utilises ?o L'architecture globale du site est-elle diffrente ?

    Architecture d'un site multilingue :

    "La premire page n'est pas forcment la page que visitera en premier l'internaute s'ilvient d'un moteur de recherche. Mais c'est une "vitrine" du site qu'il convientparticulirement de soigner."xxiv

    Plusieurs possibilits :o Page d'accueil propose l'internaute de choisir sa langue. Cette solution est rapide et

    efficace mais pas optimise en termes de rfrencement. En effet, elle sous-entendune page d'accueil quasiment vierge de tout contenu.

    o Choisir une langue par dfaut et permettre l'internaute de la changer s'il lesouhaite.

    o Dtecter la langue de son navigateur afin de choisir une premire langue. Il aura lapossibilit de la changer par la suite.

    Gestion du paramtre de la langue

    Le dveloppeur du site devra prvoir une manire pour conserver la langue choisied'une page l'autre. Plusieurs possibilits sont offertes par les techniques dudveloppement web : cookie, variable de session, passage du paramtre par la mthodePOST ou la mthode GET (variable dans l'URL).

    Les cookies peuvent tre intressants parce qu'ils sont persistants d'une visite l'autretant que l'utilisateur ne supprime pas ses cookies ou qu'ils n'expirent pas. En revanche,les robots des moteurs de recherche ne les acceptent pas. Il en est de mme pourl'internaute qui a la possibilit de les refuser.

    Le passage du paramtre par "variable de session" ou par la mthode POST fonctionnemais n'apporte rien de plus.

    En revanche, la mthode prconise est celle de la mthode GET. Premirement parcequ'elle permet de mettre l'URL en "favori" et donc de conserver cette information.Deuximement parce qu'elle permet aux moteurs de recherche d'enregistrer desadresses diffrentes suivant la langue utilise.Exemple :

    http://www.monsite.com?lang=fret

    http://www.monsite.com?lang=en

  • 8/14/2019 Techniques de Referencement sur internet

    36/64

    36/64

    Dans ce cas, l'architecture du site pourra tre identique celle d'un site monolingue. Ilsuffit juste d'inclure au dbut de chaque page une procdure permettant d'aller chercherle contenu textuel de la page en fonction du paramtre.

    Enfin, il est toujours intressant d'tablir une rgle de rcriture d'URL pour ceparamtre.

    Utilisation de la balise META .

    La balise mta va dfinirla langue globale de la page. Ainsi, elle pourra galement servir dfinir l'orientation (dedroite gauche) du texte dans la page.

    Encodage de la page

    Dans le cas d'une page pouvant accueillir plusieurs langues, il ne faut pas oublierde bien dfinir l'encodage de la page. Un encodage en UTF-8, "contrairement d'autrescomme la srie ISO 8859, permet de reprsenter des milliers de caractres de toutessortes de langues."xxv

    Cas des annuaires :

    En ce qui concerne les annuaires, la soumission tant manuelle et contrle parune personne physique, la pertinence du site reste donc de sa responsabilit. Que le sitesoit dans une langue ou une autre ne doit rien changer.

    La seule chose que vous ayez faire est de soumettre votre (vos) site(s) sur chaqueversion de l'annuaire. Par exemple sur yahoo.fr, yahoo.co.uk, yahoo.it, etc.

    Cas des moteurs de recherche :

    Nous le savons, le rfrencement par les robots est automatique. Il n'y a doncrien de plus faire. Tant que les mots-cls sont dfinis dans toutes les langues, et quevos pages comportent du contenu dans toutes les langues, il ne devrait pas y avoir de

    problmes particuliers.

    I. Soumission manuelle dans les annuaires

    Jusqu' prsent, nous avons privilgi les moteurs de recherche. Cependant, il nefaut pas pour autant oublier la deuxime sorte d'outil de recherche que sont lesannuaires. Il peut tre intressant d'enregistrer manuellement son site dans lesprincipaux annuaires gnralistes tels que Yahoo! et l'Open Directory sans oublier lesplus petits annuaires spcialiss.

    A titre d'exemple, je peux vous assurer que le fait d'avoir inscrit mon site

    personnel sur un annuaire spcialis m'apporte beaucoup plus de visites que celles issuesde recherches sur Google.

  • 8/14/2019 Techniques de Referencement sur internet

    37/64

    37/64

    En tant que rserviste de la Gendarmerie, j'ai dcid il y a quelques mois de faire

    une page racontant mon exprience dans la Gendarmerie. J'ai donc cr quelques pagessur ma Prparation Militaire Gendarmerie, pages sur lesquelles j'ai inclus un script mepermettant de suivre la frquentation de mon site. J'ai galement pris soin de construiremes pages sans frames, avec beaucoup de texte et peu d'images, d'y inclure des liensvers les principaux sites traitant du mme sujet, de nommer explicitement mes pages etrenseigner correctement les balises META Bref, j'ai mis en application tout ce que jeviens de vous expliquer jusque l.

    Mes Logs m'ont permis de tracer le passage des robots (GoogleBot et Yahoo!Slurp entres autres) et au bout de quelques semaines, ma page ressortait dj en 4meposition sur les recherches "preparation militaire pmg" ou encore "pmg rservistegendarmerie". J'tais loin d'imaginer que j'allais pouvoir me placer cette position en sipeu de temps Pourtant les visites sur mon site provenant de Google plafonnaient 5par jour. Je trouvais dj cela pas mal pour un site sans prtention comme le mien mais

    bon Enfin, en regardant de plus prs les sites devant le mien, je me suis aperu qu'unrsultat ressortait toujours au dessus du mien (outre les sites officiels de laGendarmerie). Il s'agissait su site www.annugend.comqui n'est en fait qu'un annuairedes diffrents sites, officiels ou non, de la Gendarmerie. Ce site a un PageRank de 4 alorsque celui de mon site est nul puisque le PR est mis jour lors des Googles Dances et quecelles-ci ne se produisent que 2 3 fois par an. La dernire a eu lieu avant que je necre mes pages.

    J'ai donc dcid d'inscrire mon site sur cet annuaire spcialis. J'ai prpar unpetit texte d'accroche et je me suis rendu sur le site annugend.com pour complter leformulaire d'inscription. Le processus ne m'a pris que 2 minutes en tout. Finalement,deux jours plus tard, je recevais un courrier lectronique du webmaster du site me disantque mes pages correspondaient parfaitement aux attentes du site et que je faisais

    dsormais partie de leur base de donnes. Depuis, la rubrique "Les derniers inscrits" quiapparat en haut gauche de la page principale du site annugend fait un lien vers monsite. Un lien vers mon site est galement propos dans la sous-catgorie "rserves" de lacatgorie "Gendarmerie Dpartementale".

    Cette inscription m'a permis de multiplier par trois la frquentation journalire demon site

    Comme quoi, les annuaires spcialiss reprsentent un point d'entre intressantvers votre site.

    La soumission dans ce type d'annuaire se fait manuellement et prend doncncessairement un peu de temps.

    Le choix de l'annuaire est galement important. J'ai paralllement voulu tester unoutil qui, soit-disant, allait automatiquement soumettre mon site plusieurs dizainesd'annuaires. Et cela, en ne remplissant qu'un seul formulaire. Ce gain de temps meparaissait prometteur suite ma premire exprience avec l'annuaire annugend.Malheureusement, je n'ai pas mis longtemps avant de regretter l'utilisation de cet outil.Premirement, lors de son utilisation, il m'a retourn beaucoup d'erreurs (a priori car ilvoulait soumettre mon site des annuaires ayant disparu). Ensuite, j'ai reu plusieursdizaines de mails provenant des annuaires qui me disaient que mon site ne correspondaitpas du tout au thme de leur site. Finalement, les quelques annuaires qui ont acceptmon site ne m'ont jamais apport de visite

  • 8/14/2019 Techniques de Referencement sur internet

    38/64

  • 8/14/2019 Techniques de Referencement sur internet

    39/64

  • 8/14/2019 Techniques de Referencement sur internet

    40/64

    40/64

    Pour illustrer cette technique, prenons l'exemple du site http://www.4-6.fr qui utilise lespages satellites.

    La page suivante illustre comment 3 pages diffrentes redirigent chacune sa faon versla page principale (http://www.3valles.com/4-6/index2.html). Pour l'internaute nonaverti, cette redirection est transparente.Les redirections se font en JavaScript. Pour voir les pages satellites, il suffit donc toutsimplement de dsactiver le JavaScript de notre navigateur.

    Notons tout de mme que les pages satellites de cet exemple ne cherchent pas tromper l'Internaute. En effet, celles-ci son optimises pour des mots-cls qui restent enrapport avec le sujet de la page principale.

    Ca n'est bien videment, par le cas de toutes les pages satellites.

  • 8/14/2019 Techniques de Referencement sur internet

    41/64

    http:/ / ww w.3vallees.com

    http:/ / ww w.3vallees.com/ 4-6/indhttp:/ / ww w.3vallees.com/ 4-6/ index.html

    LESMENUIRES, LES 3 ...

    http://www.4-6.fr

  • 8/14/2019 Techniques de Referencement sur internet

    42/64

    42/64

    B. Spamdexing

    Nous venons de voir que tout ce qui se rapproche du spamdexing est prohib parles robots. On peut toujours utiliser les mots-cls, renseigner judicieusement les balisesTITLE et H1, mais il ne faut pas tenter de tromper les robots Et c'est prcisment lqu'est la limite. Il est souvent difficile de faire la part des choses entre un site ayant unrfrencement trop pouss et un autre ayant une volont dlibre d'induire en erreurles robots.Certains sites passent donc travers les mailles du filet mais il faut savoir que les robotsse perfectionnent de jour en jour. Il n'est donc pas tonnant de voir des sites bannis desindex pour cette raison.

    Vous aurez compris qu'il est dangereux de multiplier les rptitions de mots-clsdans une mme balise. En revanche il est fortement conseill de rpter ces "keywords"dans le contenu (titre, texte, liens, etc.) de vos pages.

    Rappelez vous que Google (et d'autres) conserve les mots les plus rcurrents dela page et les utilisent comme mots-cls.

    Il est mme recommand d'utiliser des synonymes des principaux mots-cls parceque les moteurs recherchent de plus en plus connatre le thme principal de la page.

    C. Cloaking

    La technique dite de cloaking consiste prsenter un contenu diffrent d'unemme page web suivant qu'il s'agisse d'un Internaute ou bien d'un moteur de recherche.

    Cela est trs facile faire car les moteurs de recherche ne font rien pour cacherleur identit.

    Deux mthodes permettent d'identifier les robots :

    - La premire identifie le robot par son nom contenu dans le champ User-Agent de l'en-tte HTTP de la requte.

    Exemple d'un script PHP permettant cela :

    ... page cloake pour Googlebot...

  • 8/14/2019 Techniques de Referencement sur internet

    43/64

    43/64

    - La seconde technique de cloaking consiste dterminer l'agent grce son adresseIP. Elle suppose donc que l'on ait une liste exhaustive et jour des adresses IP desrobots. On peut se procurer ces listes sur des forums spcialiss.

    Le script peut alors tre :

    ... page HTML cloake pour Googlebot et Slurp.

  • 8/14/2019 Techniques de Referencement sur internet

    44/64

    44/64

    Et pourtant, concrtement, ce Google Bombing ne se rsume qu' cela :

    Miserable failure

    Ou sur les forums :

    [url=http://www.whitehouse.gov/president/gwbbio.html] Miserable failure [/url]

    Mais, retrouvant ce lien sur de trs nombreux sites, Google associe l'intitul et le lien lui-mme.

    Pour combattre ce phnomne, les moteurs de recherche et les annuaires essayent defaire voluer les normes HTML en dclarant tenir compte d'un nouvel attribut pour lesbalises de lien :

    lien

    Cet attribut sera particulirement utile aux modrateurs1 des forums Il leur

    suffira alors d'inclure une seule fois cet attribut dans leur page dynamique et ils serontsrs que leur forum ne servira pas de collecteur pour des liens destins un bombing.

    Nous venons de passer en revue la plupart des mthodes classiques derfrencement. Depuis quelques annes, les outils de recherche proposent des solutionspayantes qui peuvent s'avrer rentables dans bien des cas. Elles peuvent galementcombler certaines lacunes du rfrencement traditionnel tel que le besoin de ractivitpour des vnements ponctuels.

    1Modrateur : personne qui suit les discussions d'un forum afin de supprimer les messages irrespectueux, caractre social ou raciste etc.

  • 8/14/2019 Techniques de Referencement sur internet

    45/64

    45/64

    IV. Les solutions payantes

    A. Soumission payante

    Pour acclrer la prise en compte de son site par les annuaires, ceux-ci proposenten gnral une mthode payante. Elle garantit qu'un salari de l'annuaire visitera le sitesous X jours. X dpend gnralement de l'annuaire et de la solution que vous choisissez.

    Attention, cela ne veut en aucun cas dire que le site sera inclus l'index del'annuaire. La personne est tout fait libre de refuser le site si le contenu ne lui semblepas pertinent.

    B. Rfrencement payant

    Une autre solution est le rfrencement payant. Dans ce cas, le moteur derecherche doit obligatoirement indexer le site mais il ne garantit en aucuns cas un bonpositionnement.

    C. Positionnement payant

    La dernire solution est de payer pour obtenir un rfrencement optimal. Celarevient, ni plus ni moins, qu' faire de a publicit. Elle correspond des lienssupplmentaires qui n'apparaissent pas dans la liste des rsultats principaux.

    Exemple de Google :

    Pour Google, cette technique s'appelle "AdWords". Un annonceur peut acheter unmot-cl aux enchres. Les enchres permettent Google d'optimiser son profit.Normalement le nombre total de liens commerciaux qui apparat lors d'une recherche estlimit huit. Le cot d'une campagne de publicit de ce type dpend directement dunombre de clic sur le lien. C'est ce que l'on appelle le Cot Par Clic ou (CPC).

    Un autre avantage de cette technique est qu'il est possible de spcifier une zonegographique dans laquelle les internautes verront la publicit. Ce peut tre trsintressant pour un annonceur qui ne souhaite app