Détection de duplicate content

Une certaine prudence

L’intérêt pour les moteurs de détecter les plagiats (duplicate content) est crucial. On range également dans cette catégorie les contenus pivotés, (content spinning).

Le problème est de connaitre la méthodologie et les critères d’évaluation du taux de similarité. A partir de quel pourcentage les moteurs considèrent-ils une forme de plagiat, et si elle est dégradée, engendre-t-elle une pénalité particulière ? [Google en 2008 déjà, démystifiait]

J’avancerais à pas feutrés sur ce terrain. Car si l’on peut supposer les outils, tels les algorithmes de type Levenstein, les indices de Dice ou de Jaccard, rien ne nous indique vraiment la limite à ne pas dépasser ni à quel degré les moteurs exploitent ces algorithmes.

Puisqu’il faut un chiffre, on citera Olivier Andrieu qui avance une tolérance de 70% de similarité, (mais de quoi exactement?), limite au-delà de laquelle Google se fâche. D’autre avancent que cette tolérance plafonnerait à 50% et d’autres enfin considèrent qu’en deçà de 30% on ne risque rien.

Les détecteurs de plagiat et autre similarités

TestSimilarity
Comparaison de deux textes en vis-à-vis. On se reportera également à deux scripts php du même développeur (Seo Black Inside):

  1. Calcul de similarité par comparaison de mots [script php]
  2. Calcul de similarité par comparaison de chaînes de caractères [script php]

Mypositeo.com
Confronte une url avec un texte. Critères non connus.

Copyscape
Une version free pour 10 tests quotidiens ou une formule payante. [Cf. aussi le plugin copyscape pour wordpress]+

KillDC
Test de similarité en ligne (et un peu plus à découvrir)

OutilsRéférencement
Comparateur à partir d’url ou textes au choix, il présente l’avantage de s’appuyer sur l’indice de Jaccard

Duplicatecontent
Evalue le taux de similarité à partir de deux url

Dupecop
Permet de comparer jusqu’à 4 textes entre eux.

Splat
Une application java qui permet des comparer des textes entre eux et sur la toile

Université de Charlottesville
Propose une applicaition et des liens vers d’autres sites de détection de plagiat (non explorés)

Un.Co.Ver
Une application java qui sert surtout à consommer votre bande passante

13 réflexions au sujet de « Détection de duplicate content »

  1. La comparaison binaire ne présente que peu d’intérêt. Je pense que la bonne technique est de comparer chaque nouvelle variante ajoutée au corpus à l’ensemble des éléments du corpus.

  2. Google est très loin de pouvoir détecter un texte bien spinné en français. Je ne suis pas fan de ces pratiques, mais le moteur de recherche est très loin du compte pour l’instant. Dans les années à venir pourquoi pas. Mais en attendant les Black hat profitent de cette faille qui ne l’est pas en même. L’intelligence d’un humain de peut être dépassée par celle d’une machine.

    • L’argument est souvent plus instructif que la seule conclusion. C’est comme si je disais: « Google a parfaitement la possibilité de détecter les spin ». Ca mérite explication pour éviter le jugement arbitraire.

  3. Vous avez oublié http://utext.rikuz.com/en/ qui se base sur l’algorithme de Shingles.

    Je suis assez d’accord avec Encyclopédie, non pas que l’homme soit plus « intelligent » que la machine, mais tout simplement que les ressources machines nécessaires seraient titanesques pour comparer les textes de spin des milliards de sites web qui peuplent le web. A titre d’exemple, si mon serveur post un de mes texte spinné à raison de 5 post/seconde, il faudrait plus de 400 millions d’années avant de retomber sur le même post (en général mes post font plus de 20 000 lignes). Ou alors il y aura beaucoup de dommages collatéraux.

    Bonne soirée & keep going

  4. Moi j’utilise par habitude positeo mais j’ai bien trop souvent des erreurs 403 qui me parlent de quotas de recherche utilisés ou quelque chose du genre. Du coups, cela ne fonctionne pas… Quelqu’un à t-il la solution ou le nom d’un site aussi efficace en plus de ceux référencés ici ?

  5. En ce qui me concerne, même un bon SEO est en « formation permanente » en quelque sorte, j’ai pris l’habitude de me poser sur OutilsRéférencement. En plus de proposer le calcul du DC, il dispose d’autres outils d’analyse très pratiques dans mon travail quotidien.

  6. Bonjour,
    Merci pour cet article utile mais je ne trouve pas sur le net un Détecteur pour les URL Duplicate existe t-il des logiciels le permettant?
    Je n’arrive pas à savoir si mon site est présent sans le www.
    Bonne continuation à vous
    Cordialement

  7. Et qu’en est-il de vérifier tout un site en entier ? est-ce possible ? ou bien faut-il nécessairement passer chaque page au crible ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *