Contenu dupliqué

Le mot est assez évocateur. En clair, il s’agit du contenu d’une page web – texte, images, vidéos ou autres – qui se retrouve à l’identique ou sous couvert de quelques modifications ailleurs sur la Toile. Du copié-collé, en somme.

Cette façon de créer du contenu en cédant à la facilité est mauvaise pour le référencement de son site internet, car les moteurs de recherche n’aiment pas cela et pénalisent les sites qui s’y adonnent. À ce propos, le filtre Panda de l’algorithme de Google a été créé exprès pour traquer les contenus dupliqués et sanctionner en conséquence les sites web incriminés.

Le contenu dupliqué, un contenu copié-collé

De manière générale, quand on pense à copié-collé, on pense à du texte. Cela étant, le contenu dupliqué fait également effet avec d’autres éléments, comme des photos ou autres médiums. Même si un seul et petit paragraphe était en cause, Google Panda le qualifierait malgré tout de duplicate content.

Sauf dans de très rares cas, la duplication de contenu n’entraîne pas de problèmes quant au fonctionnement du moteur de recherche de Google, qui continue d’indexer les pages qui lui sont présentées. Le robot de Google essaie surtout de ne prendre qu’une seule et unique fois un contenu, afin de ne pas surclasser un site en l’indexant.

Quand Google détecte une page dont le contenu dupliqué, le plus souvent il la rétrograde. La page coupable recule donc dans la liste des résultats du moteur de recherche. Dans certains cas, elle peut même tout bonnement être supprimée. Cela dit, une erreur d’interprétation peut également amené la page « plagiaire » à devancer sa page source. Cela arrive quand le pagerank joue en défaveur de la page dont le contenu a été recopié. Si cette page a un faible pagerank par rapport à sa « plagiaire », c’est elle qui risque d’être rétrogradée si Google ne fait pas attention.

Cas dans lesquels il y a contenu dupliqué

La duplication de contenu peut advenir dans trois cas :

Lorsque deux contenus sont parfaitement identiques jusque dans les moindres détails. La ressemblance est strictement parfaite entre elles deux. Dans ce cas, c’est la page au pagerank le plus fort qui supplantera l’autre.
Ici, le contenu apparent est identique, mais ce n’est pas le cas pour certaines balises comme la title ou la meta. En fait, pour davantage coller à la vérité, on retrouve une différence sur la SERP, car ces balises sont celles dont le contenu est affiché par les moteurs de recherche quand ils rendent des résultats aux requêtes qu’on leur a soumises. Cependant, pour voit cette différence, il faudra au préalable relancer la recherche en précisant que l’on veut qu’elle inclue aussi les pages qu’elle a ignorées. Cette option se retrouve en bas de page avec Google.
Le troisième et dernier cas est l’inverse du précédent. Cette fois-ci, c’est les balises title et meta qui sont identiques. Par conséquent, c’est ici le contenu qui est différent. Cela dit, il peut également être similaire tant qu’il n’est pas identique lui aussi au contenu de la première page. Dans ce cas, Google peut se permettre de ne pas du tout indexer les pages qu’il estime dupliquées, tout simplement.

Catégories de contenu dupliqué

Il faut également distingué deux catégories de duplication de contenu :

Le contenu dupliqué interne

Il s’agit d’une duplication de contenu à l’intérieur même d’un site internet. On obtient donc des textes contenus sous différentes URL. Ce sont donc des doublons appartenant à un seul et même site internet. En général, ils sont formés à cause d’une maladresse du webmestre ou encore à cause d’un problème ou d’une erreur technique. Dans ce cas, ils peuvent survenir parfois en créant deux versions séparées du site, l’une pour ordinateur et l’autre pour téléphone portable. Une telle duplication de contenu peut également arrivée sur les sites de commerce en ligne avec les fiches produits.

Le contenu dupliqué externe

C’est tout simplement un contenu qui est dupliqué à partir d’un site étranger. Là, on a affaire à un copié-collé qui s’apparente davantage au plagiat. Cela peut même être le cas, d’ailleurs. Néanmoins, pas de conclusion hâtive ! Une redistribution du flux RSS peut tout aussi bien être à l’origine d’une pareille duplication de contenu.

En outre, on parle aussi de duplicate content quand un texte ressemble trop à sa source d’inspiration. Reproduire un texte en changeant un mot par‑ci par‑là avec un synonyme ne compte pas, de même que quelques paraphrases.

Il arrive cependant qu’une duplication de contenu puisse être tout à fait voulue. Souvent, c’est simplement parce que cela ne pourrait pas fonctionner autrement. Pour ce cas-là, Google a tout prévu. Ainsi, il met à disposition la balise rel= »canonical », et ce sera cette page, dès lors considérée par lui comme étant canonique, qu’il indexera.

Conclusion

Le contenu dupliqué déplaît fortement à Google, qui a d’ailleurs développé un filtre (Google Panda) sur son algorithme afin de décourager ceux qui ne feraient pas l’effort de dégager un tel contenu.

La ligne directrice qu’il faut suivre quand on crée du contenu sur son site web en y rajoutant des pages ou autres, c’est de réserver une URL unique à chaque page et pour toutes les fois.

Dans le cas d’un contenu dupliqué de manière volontaire, il faut le préciser au moteur de rechercher de Google en rendant canonique l’URL de la page en question à l’aide de la balise adéquate.

Autres définitions

Vous souhaitez travailler avec NAVIO ? Nous sommes là pour vous !

Parlons-en maintenant