Duplicate Content Seo campus 09-03-2012

Post on 19-Nov-2014

15.573 views 3 download

description

Support de la conférence d'Olivier Andrieu (Abodnance) sur le Duplicate Content au salon SEO Campus le 9 mars 2012.

Transcript of Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Olivier Andrieu (Abondance)

SEO CAMPUS

9 mars 2012olivier@abondance.com

http://www.abondance.com/

Olivier Andrieu (olivier@abondance.com)

Basé à Heiligenstein (67140)

- Premiers pas sur Internet en 1993

- Création de la société Abondance en 1996

- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)

Présentation

Lettre professionnelle "Recherche et Référencement"

Le "Duplicate Content"

Le "duplicate content", c'est quoi ?

Le "duplicate content", c'est quoi ?

La gestion du contenu dupliqué par les moteurs

La notion de contenu dupliqué peut être de différents types…

Le "duplicate content", c'est quoi ?

???

Le "duplicate content", c'est quoi ?

???

Il peut s'agir de contenus complets ou parfois de "parties de contenus"

Le "duplicate content", c'est quoi ?

???

Il peut s'agir de contenus complets ou parfois de "parties de contenus"

Méthodes :

Algorithme de Simhash :http://www.cs.princeton.edu/courses/archive/spring04/cos598B/bib/CharikarEstim.pdf

Indice et distance de Jaccard :http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard

Similarité Cosinus / Indice de Tanimoto :http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus#indice_de_Tanimoto

Coefficient de Dice :http://en.wikipedia.org/wiki/Dice's_coefficient

Le "duplicate content", c'est quoi ?

Canonique(l'original)

Dupliquée (la copie)

PageRank Date de crawl

Moins de visibilité Crawl affecté

Le "Duplicate Content"

Les différentes formes de "duplicate content"

Les différentes formes de "duplicate content"

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

???

Les différentes formes de "duplicate content"

2. Le DC intersite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.autresiteweb.com/actualites/sarkozy-hollande.html

???

Les différentes formes de "duplicate content"

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing

???

Les différentes formes de "duplicate content"

4. Le DC par similarité des Title et meta "description"

???

Les différentes formes de "duplicate content"

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

???

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

Le "Duplicate Content"

Les solutions contre le "duplicate content"

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

???

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)

"Duplicate content" : les solutions

1. Le DC intrasite

Des outils comme DuplicateContent.net (ou d'autres similaires) peuvent vous aider

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

2ème solution : balise "canonical"

<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">

Canonique

Dupliquée

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

3ème solution : désindexation

Ou <meta name="robots" content="noindex,follow">

Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html (robots.txt)

"Duplicate content" : les solutions

1. Le DC intrasite

Attention aux versions PDF de vos pages HTML (ou inversement) :http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html

En revanche, un contenu traduit n'entre pas en duplicate content avec l'original…

"Duplicate content" : les solutions

2. Le DC intersite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.autresiteweb.com/actualites/sarkozy-hollande.html

Même solution (mais plus compliquée) : balise "canonical"

(ou réécriture ou désindexation)

<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">

Canonique

Dupliquée

"Duplicate content" : les solutions

2. Le DC intersite

Eviter de proposer le contenu complet de vos articles dans vos fils RSS.

Proposer plutôt titre + chapo…

La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing

???

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing

Solution : balise "canonical"

<link rel="canonical" href=" http://www.siteweb.com/actu/france/sarkozy-hollande/" >

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

Solution :

Vérifier dans les Webmaster Tools (Configuration du site > Paramètres d'URL) les paramètres d'URL qui peuvent générer du DC…

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

Solution :

1. Indiquez uniquement les URL canoniques dans votre Sitemap !

2. Faites attention à votre linking interne :

http://www.votresite.com/

vs.

http://www.votresite.com

3. Vérifiez que vos URL réécrites sont redirigées en 301 :

http://www.votresite.fr/index.php?id=4

http://www.votresite.fr/apropos.html

301

"Duplicate content" : les solutions

4. Le DC par similarité des Title et meta "description"

???

"Duplicate content" : les solutions

4. Le DC par similarité des TITLE et meta "description"

Solution :

1. Vérifier dans les Webmaster Tools (Diagnostic > Suggestions HTML)

2. Corriger en différenciant suffisamment les TITLE et meta "description" de chaque page du site.

"Duplicate content" : les solutions

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

???

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

"Duplicate content" : les solutions

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

Solution :

1. Les balises multilingues

<link rel="alternate" hreflang="fr-fr" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

<link rel="alternate" hreflang="fr-be" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

<link rel="alternate" hreflang="fr-ch" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

"Duplicate content" : les solutions

5. Le DC multilingue

Solution :

2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site > Paramètres)

Le "Duplicate Content"

Conclusion

Conclusion

- Le DC n'est pas une pénalité pour un site (sauf spamdexing : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=66359), mais donne une moins bonne visibilité aux pages dupliquées.

- Parfois le simple fait de corriger les problèmes de DC améliore grandement un référencement.

- Il n'est pas nécessaire de faire une demande de reconsidération de site à Google après avoir corrigé du DC.

- Les solutions existent.

- En règle générale, elles fonctionnent, mais c’est souvent très long ;-)

- Google devrait peut-être proposer une assistance adaptée aux gros sites web à ce sujet.

Conclusion

Petite webographie googlienne pour aller plus loin :

New markup for multilingual content (05/12/2011)http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html

More guidance on building high-quality sites (06/05/2011)http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html

Handling legitimate cross-domain content duplication (15/12/2009)http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html

Reunifying duplicate content on your website (06/10/2009)http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html

Duplicate content and multiple site issues (15/09/2009)http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html

Specify your canonical (12/02/2009)http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

Demystifying the "duplicate content penalty" (12/09/2008)http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Duplicate content due to scrapers (09/06/2008)http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html

Deftly dealing with duplicate content (18/12/2006)http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html

Plus d'infos : requête intitle:"duplicate content" site:googlewebmastercentral.blogspot.com

Conclusion

Petite webographie non-googlienne pour aller plus loin :Similarité et Duplicate content : L'indice de Jaccardhttp://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html

Algorithme de Simhash: Script PHP de calcul de similaritéhttp://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/

Ne pas confondre similarité et duplication de contenus; cas d’écolehttp://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/

Détection de duplicate contenthttp://www.webcontentspinning.com/detection/

Dis papa c'est quoi le duplicate content ?http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/

Vol de contenu et duplicate contenthttp://blog.axe-net.fr/duplicate-content-plagiat/

Google lutte contre les scrapers et encourage la dénonciationhttp://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html

Tout savoir sur le filtre Contenus Dupliqués de Googlehttp://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content

Lutter contre le duplicate contenthttp://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content

Google Patent Granted on Duplicate Content Detection in a Web Crawler Systemhttp://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/

Duplicate and Near Duplicate Documents Detection: A Reviewhttp://www.eurojournals.com/ejsr_32_4_08.pdf

The Illustrated Guide to Duplicate Content in the Search Engineshttp://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines

Le "Duplicate Content"

Support proposé par Olivier Andrieu - olivier@abondance.com

Merci :-)