Ne pas confondre similarité et duplication de contenus; cas d’école

Les filtres visant à détecter le plagiat dans les annuaires deviennent délirants. On ne sait plus quoi faire pour se protéger du duplicate content. On vient de soumettre une description pour un site sur l’annuaire Top Lien. Un texte, parfaitement écrit à la mano et unique, vient d’être refusé ; voici les explications de Top Lien :

Il a été refusé pour la raison suivante :
Trop de phrases de la description proposée existent déjà sur d’autres sites internet (en gras ci-dessous).

Google sanctionne les sites ayant un contenu copié d’un autre. Notre annuaire ne peut donc contenir une description déjà visible sur un autre site (même si vous en être à l’origine)

Tout plagiat comporte des similarités, mais pas le contraire

Le système de reconnaissance de plagiat de l’annuaire est donc mis en échec. En voulant détecter le plagiat, l’algorithme traque apparemment les ressemblances. Or c’est très différent. Et forcément, lorsque vous parlez d’un sujet précis, le vocabulaire, les champs sémantiques, les références parfois, font mécaniquement apparaître des similitudes et des similarités.

Ce que l’algorithme ignore, c’est donc faire la différence entre des sujets similaires et des contenus plagiés. Imaginez que si nous considérions comme plagiat les sujets similaires, avec des mots similaires et des syntaxes communes, alors l’ensemble des articles publiés depuis quelques jours sur l’affaire DSK seraient écartés pour duplicate content (et pour certains c’est vrai).

Google News affiche à ce jour 6 504 articles sur ce sujet depuis 4 jours, dont la majorité indiquerait des taux de similarités de folie. Duplicate content? Non. Sanctions? Non. Similarités? Oui à fond.

Les pseudo outils de détection du duplicate content

Dans la foulée, nous avons donc testé ce texte sur un machin à la mode : Positeo, « trouver le contenu dupliqué ». L’expérience est édifiante. Positeo affiche 7 pages html indiquant une niveau de « duplicate content » allant de 14,89% à 25,58%. C’est ridicule.On ne peut que déplorer ce genre d’outil ou en tout cas reprocher que ses limites, très vite atteintes, ne soient pas indiquées clairement.

Dès lors qu’en testant des textes originaux, ce type de gadget vous indique des taux de plagiat, cela démontre d’emblée qu’il ne sert pas à grand chose. Tout le monde ne peut pas se payer du vecteur multidimensionnel. Mais quand même…

Ne nous incitez pas à gruger comme des gorets

Je respecte sincèrement le boulot qu’il y a derrière pour faire tourner un annuaire comme Top Lien. Mais le filtre automatique sur le duplicate content est out. Pire, on a réitéré l’inscription avec le même texte mais perturbé par des entités html indolores à la lecture [caractères UTF-8 réservés ex. des césures entre les syllabes]. Le texte a été accepté par le premier filtre !

Moralité, je propose un texte nikel, unique, normal: je me fais jeter pour plagiat. Je pourris ce même texte d’entités trompeuses et ça passe comme une lettre à la poste.

[MAJ] Le site a été accepté par l’annuaire. Sans le vouloir, alors que notre texte unique était refusé, nous venons de trouver le moyen de faire avaler n’importe quoi à cet annuaire, y compris un copié/collé de ses propres CGU. Ce n’était pas le but il n’est pas question d’en abuser. On invite cependant les administrateurs à reconsidérer leur pseudo détecteur de contenus dupliqués qui fonctionne à l’envers 😉

Lutter contre le plagiat : aucun problème.

Programmer des outils efficaces pour le détecter : c’est dans la logique.

Mais s’appuyer sur des outils qui ne font pas la différence entre plagiat et similarité est une incitation à la débauche sémantique pour ceux qui tentent de respecter les règles des annuairistes.

16 réflexions au sujet de « Ne pas confondre similarité et duplication de contenus; cas d’école »

  1. Bonjour, je suis le propriétaire de l’outil Positeo et je pense que vous n’avez clairement pas compris son fonctionnement.

    Si l’outil détecte le site comme étant dupliqué, c’est que Google le détecte lui même comme étant dupliqué et inversement. Donc si le texte est clairement du plagiat mais non détecté, c’est que soit Google ne le considère pas comme du plagiat ou bien qu’il n’est pas encore indexé.

    Le but de Positeo est de montrer comment Google pourrait interpréter le texte, c’est tout. Si vous obtenez entre 15 et 20% de similarité pour un texte donné, cela signifie que Google est loin de le considérer comme du plagiat à l’instant t, voila ce que vous pouvez en conclure, rien de plus.

    • « Si l’outil détecte le site comme étant dupliqué, c’est que Google le détecte lui même comme étant dupliqué et inversement ».

      Cette relation de cause à effet est intéressante. Auriez-vous l’amabilité de nous expliquer techniquement sur quoi est fondée votre procédure de reconnaissance de plagiat?

  2. Et je ne comprends pas, vous vous plaignez de vous faire refuser par un annuaire pour cause de duplicate content et vous dites que 14% à 20% de duplicate sur Positeo n’est pas fiable. Pourtant sur positeo c’est à partir de 50% que nous considérons un texte comme dupliqué. Donc en quoi l’outil n’est pas fiable ?

    • Sur quel critère vous fondez-vous pour décréter le seuil fatidique des 50 % ?
      Je ne me plains pas de me faire refuser par un annuaire, je me plains de l’inefficacité de la détection des DC de cet annuaire.

      • Je réponds aux 2 messages ici:

        Tout est fondé sur des suppositions évidemment. On suppose que les mots en gras qui ressortent dans les résultats de Google correspondent à ceux en entrées. Nous avons choisi le pourcentage de 50% du nombre de mots en gras pour établir un certain seuil où on peut considérer qu’il y a duplication de contenu. On fait ensuite une moyenne sur plusieurs recherches avec différents morceaux du texte inséré en entrée. L’outil reste donc assez vague mais avec un peu de réflexion, on voit d’un coup d’oeil s’il s’agit de duplication de contenu ou non.

        • Il y a donc des conséquences entre « savoir » et « supposer » et je vous suis reconnaissant de reconnaître l’aspect « vague » de l’outil. Car au final nous nous rapprochons petit à petit de ce que je disais au début. Conclure le processus de détection d’un DC par « un coup d’œil » va à mon avis dans le même sens.

  3. Bonjour,
    @positeo, j’utilise votre outil depuis peu que je trouve très utile.
    Par contre après quelques test, je ne comprends pas une chose. Je prends le texte de la home d’un de mes sites, je le copie dans votre outil, la recherche trouve donc ma home mais avec 58.6% de duplicate, alors que ça devrait être 100%, puisque c’est le même.
    Comment expliquez vous ceci ?

    Autre chose, le temps entre 2 vérifications est limité apriori ? Si j’en fais 2 à la suite, un message me dit « Quota Exceeded. Please see http://code.google.com/apis/websearch (403) Administrateur déjà alerté ! »
    C’est normal ?

  4. Bonjour,

    Je suis chargé de validation pour le site TopLien.fr. J’ai été plutôt édifié par votre article, car Positeo ou non, 95% des sites refusés le sont par moi personnellement. Seule la réponse est pré écrite, c’est pourquoi on pourrait croire à un système automatique. Je ne pense pas avoir le droit d’en dire plus, mais sachez que si il y a erreur, elle est le plus souvent humaine. Nous traitons des milliers de sites, donc il y a forcément un pourcentage d’erreurs et de fausses manips. Et pour le bien de l’annuaire et des visiteurs, je pense personnellement qu’il vaut mieux trop filtrer que pas assez.

    Cordialement

    Vincent

  5. Trop laisser passer, c’est problématique par rapport aux abus, mais trop filtrer ça dégoute parfois au-delà des spammeurs ceux qui respectent les annuairistes et qui sont un peu dépités de se voir jeter des descriptions pourtant uniques.

  6. je trouve l’outil duplicate content de positeo tres utile surtout si l on fait un content spinning d’un texte master. Pour google s’il veut plus de texte originaux pourquoi alors ne pas nous faire un verificateur Google duplicate content lol

  7. Quota Exceeded. Cela veut dire que le nombre de requêtes pour le temps imparti a été atteint. En gros veuillez patienter jusqu’à ce que Google accepte de nouveaux les requêtes.

    • Je n’ai pas utilisé positeo depuis plusieurs mois, et j’obtiens malgré tout le message « quota exceeded etc ». Quel est le délai imparti ? Merci d’avance

  8. Je comprend votre étonnement et ce petit coup de gueule. Si le webmaster de l’annuaire ne valide pas lui même les sites proposés, qu’il y a une validation automatique alors les mauvaises surprises seront nombreuses. En traitant manuellement une description, en utilisant Positeo on peut se rendre compte que le duplicate ou la similarité ne peuvent pas être traités correctement et ça vous ne pourrez rien y faire, ils ne changeront pas leur manière de travaillé pour vous faire plaisir et ça se comprend.

    Parfois mieux vaut aller chez le petit commerçant que chez Carrefour… hs mais bon…

    Pour ce qui est du: « Quota Exceeded. Please see http://code.google.com/apis/websearch (403) Administrateur déjà alerté ! »
    un refresh et c’est bon!!!!

Les commentaires sont fermés.