Documentation & théorie

L’idée de départ est de programmer un détecteur de duplicate/near content se rapprochant le plus possible de Google. C’est donc déjà très loin du but. Mais en tout cas plus proche que de nombreux outils en ligne, opaques et dont on ignore les seuils d’identification.

Nous laisserons de côté le contenu dupliqué au sens strict, le copié/collé n’étant pas dans notre périmètre. Par contre la question est de savoir à quel stade un texte transformé (near duplicate) est assimilable à un plagiat selon une source identifiée.

Un mot sur la finalité. Il ne s’agit pas de tromper le moteur. De toute façon c’est la définition du SEO. Ni non plus d’abuser de ses faiblesses; et encore moins de « profiter » des textes d’autrui. Le problème est strictement algorithmique.

D’où quelques recherches théoriques sur l’état de l’art, les brevets de Google mais aussi sa capacité  à les mettre en œuvre ; le nerf de la guerre étant la rentabilité.

On va donc stocker sur cette page (presque) toutes les ressources théoriques qui nous servent actuellement dans les recherches. Si ça vous botte, (ça devrait être assez intime ;), les commentaires sont ouverts.

 

Hachage, signatures, rendements

 

Brevets Google

Near Duplicate

 

Similarité et similitude

 

Vectorisation multidimensionnelle

 

Divers

 

 

Une réflexion au sujet de « Documentation & théorie »

  1. Ceci est une superbe bibilographie afin d’aller plus loin dans la compréhension des techniques utilisées pour détecter le duplicate content. Jusqu’ici, je suivais exclusivement les analyses des brevets Google sur le site seobythesea.com, Sympa de trouver un site en français qui aille aussi loin dans la technicité du sujet abordé.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *