Duplicate Content Seo campus 09-03-2012

37
Le "Duplicate Content" Olivier Andrieu (Abondance) SEO CAMPUS 9 mars 2012 [email protected] http://www.abondance.com/

description

Support de la conférence d'Olivier Andrieu (Abodnance) sur le Duplicate Content au salon SEO Campus le 9 mars 2012.

Transcript of Duplicate Content Seo campus 09-03-2012

Page 1: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Olivier Andrieu (Abondance)

SEO CAMPUS

9 mars [email protected]

http://www.abondance.com/

Page 2: Duplicate Content Seo campus 09-03-2012

Olivier Andrieu ([email protected])

Basé à Heiligenstein (67140)

- Premiers pas sur Internet en 1993

- Création de la société Abondance en 1996

- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)

Présentation

Lettre professionnelle "Recherche et Référencement"

Page 3: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Le "duplicate content", c'est quoi ?

Page 4: Duplicate Content Seo campus 09-03-2012

Le "duplicate content", c'est quoi ?

La gestion du contenu dupliqué par les moteurs

La notion de contenu dupliqué peut être de différents types…

Page 5: Duplicate Content Seo campus 09-03-2012

Le "duplicate content", c'est quoi ?

???

Page 6: Duplicate Content Seo campus 09-03-2012

Le "duplicate content", c'est quoi ?

???

Il peut s'agir de contenus complets ou parfois de "parties de contenus"

Page 7: Duplicate Content Seo campus 09-03-2012

Le "duplicate content", c'est quoi ?

???

Il peut s'agir de contenus complets ou parfois de "parties de contenus"

Méthodes :

Algorithme de Simhash :http://www.cs.princeton.edu/courses/archive/spring04/cos598B/bib/CharikarEstim.pdf

Indice et distance de Jaccard :http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard

Similarité Cosinus / Indice de Tanimoto :http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus#indice_de_Tanimoto

Coefficient de Dice :http://en.wikipedia.org/wiki/Dice's_coefficient

Page 8: Duplicate Content Seo campus 09-03-2012

Le "duplicate content", c'est quoi ?

Canonique(l'original)

Dupliquée (la copie)

PageRank Date de crawl

Moins de visibilité Crawl affecté

Page 9: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Les différentes formes de "duplicate content"

Page 10: Duplicate Content Seo campus 09-03-2012

Les différentes formes de "duplicate content"

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

???

Page 11: Duplicate Content Seo campus 09-03-2012

Les différentes formes de "duplicate content"

2. Le DC intersite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.autresiteweb.com/actualites/sarkozy-hollande.html

???

Page 12: Duplicate Content Seo campus 09-03-2012

Les différentes formes de "duplicate content"

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing

???

Page 13: Duplicate Content Seo campus 09-03-2012

Les différentes formes de "duplicate content"

4. Le DC par similarité des Title et meta "description"

???

Page 14: Duplicate Content Seo campus 09-03-2012

Les différentes formes de "duplicate content"

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

???

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

Page 15: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Les solutions contre le "duplicate content"

Page 16: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

???

Page 17: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)

Page 18: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

Des outils comme DuplicateContent.net (ou d'autres similaires) peuvent vous aider

Page 19: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

2ème solution : balise "canonical"

<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">

Canonique

Dupliquée

Page 20: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html

3ème solution : désindexation

Ou <meta name="robots" content="noindex,follow">

Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollande.html (robots.txt)

Page 21: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

1. Le DC intrasite

Attention aux versions PDF de vos pages HTML (ou inversement) :http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html

En revanche, un contenu traduit n'entre pas en duplicate content avec l'original…

Page 22: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

2. Le DC intersite

http://www.siteweb.com/actu/france/sarkozy-hollande.html

http://www.autresiteweb.com/actualites/sarkozy-hollande.html

Même solution (mais plus compliquée) : balise "canonical"

(ou réécriture ou désindexation)

<link rel="canonical" href="http://www.siteweb.com/actu/france/sarkozy-hollande.html">

Canonique

Dupliquée

Page 23: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

2. Le DC intersite

Eviter de proposer le contenu complet de vos articles dans vos fils RSS.

Proposer plutôt titre + chapo…

La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.

Page 24: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing&pays=fr

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr& source=emailing

???

Page 25: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

http://www.siteweb.com/actu/france/sarkozy-hollande/

http://www.siteweb.com/actu/france/sarkozy-hollande

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailing

Solution : balise "canonical"

<link rel="canonical" href=" http://www.siteweb.com/actu/france/sarkozy-hollande/" >

Page 26: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

Solution :

Vérifier dans les Webmaster Tools (Configuration du site > Paramètres d'URL) les paramètres d'URL qui peuvent générer du DC…

Page 27: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

3. Le DC "DUST" (Duplicate URL, Same Text)

Solution :

1. Indiquez uniquement les URL canoniques dans votre Sitemap !

2. Faites attention à votre linking interne :

http://www.votresite.com/

vs.

http://www.votresite.com

3. Vérifiez que vos URL réécrites sont redirigées en 301 :

http://www.votresite.fr/index.php?id=4

http://www.votresite.fr/apropos.html

301

Page 28: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

4. Le DC par similarité des Title et meta "description"

???

Page 29: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

4. Le DC par similarité des TITLE et meta "description"

Solution :

1. Vérifier dans les Webmaster Tools (Diagnostic > Suggestions HTML)

2. Corriger en différenciant suffisamment les TITLE et meta "description" de chaque page du site.

Page 30: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

???

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

Page 31: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

5. Le DC multilingue

http://www.siteweb.fr/actu/sarkozy-hollande.html

http://www.siteweb.be/actu/sarkozy-hollande.html

http://www.siteweb.ch/actu/sarkozy-hollande.html

Solution :

1. Les balises multilingues

<link rel="alternate" hreflang="fr-fr" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

<link rel="alternate" hreflang="fr-be" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

<link rel="alternate" hreflang="fr-ch" href=" http://www.siteweb.fr/actu/sarkozy-hollande.html " />

Page 32: Duplicate Content Seo campus 09-03-2012

"Duplicate content" : les solutions

5. Le DC multilingue

Solution :

2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site > Paramètres)

Page 33: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Conclusion

Page 34: Duplicate Content Seo campus 09-03-2012

Conclusion

- Le DC n'est pas une pénalité pour un site (sauf spamdexing : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=66359), mais donne une moins bonne visibilité aux pages dupliquées.

- Parfois le simple fait de corriger les problèmes de DC améliore grandement un référencement.

- Il n'est pas nécessaire de faire une demande de reconsidération de site à Google après avoir corrigé du DC.

- Les solutions existent.

- En règle générale, elles fonctionnent, mais c’est souvent très long ;-)

- Google devrait peut-être proposer une assistance adaptée aux gros sites web à ce sujet.

Page 35: Duplicate Content Seo campus 09-03-2012

Conclusion

Petite webographie googlienne pour aller plus loin :

New markup for multilingual content (05/12/2011)http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html

More guidance on building high-quality sites (06/05/2011)http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html

Handling legitimate cross-domain content duplication (15/12/2009)http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html

Reunifying duplicate content on your website (06/10/2009)http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html

Duplicate content and multiple site issues (15/09/2009)http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html

Specify your canonical (12/02/2009)http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

Demystifying the "duplicate content penalty" (12/09/2008)http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Duplicate content due to scrapers (09/06/2008)http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html

Deftly dealing with duplicate content (18/12/2006)http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html

Plus d'infos : requête intitle:"duplicate content" site:googlewebmastercentral.blogspot.com

Page 36: Duplicate Content Seo campus 09-03-2012

Conclusion

Petite webographie non-googlienne pour aller plus loin :Similarité et Duplicate content : L'indice de Jaccardhttp://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html

Algorithme de Simhash: Script PHP de calcul de similaritéhttp://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/

Ne pas confondre similarité et duplication de contenus; cas d’écolehttp://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/

Détection de duplicate contenthttp://www.webcontentspinning.com/detection/

Dis papa c'est quoi le duplicate content ?http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/

Vol de contenu et duplicate contenthttp://blog.axe-net.fr/duplicate-content-plagiat/

Google lutte contre les scrapers et encourage la dénonciationhttp://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html

Tout savoir sur le filtre Contenus Dupliqués de Googlehttp://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content

Lutter contre le duplicate contenthttp://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content

Google Patent Granted on Duplicate Content Detection in a Web Crawler Systemhttp://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/

Duplicate and Near Duplicate Documents Detection: A Reviewhttp://www.eurojournals.com/ejsr_32_4_08.pdf

The Illustrated Guide to Duplicate Content in the Search Engineshttp://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines

Page 37: Duplicate Content Seo campus 09-03-2012

Le "Duplicate Content"

Support proposé par Olivier Andrieu - [email protected]

Merci :-)