Définitions et repères

Le content spinning c’est quoi ?

Terme anglais qui désigne le « pivotage » de contenus. L’opération consiste à mécaniquement substituer des mots, des expressions ou des phrases. Ainsi à partir d’un texte original, on obtient plusieurs textes différents.

A quoi sert-il ?

La production de contenus est une des pierres angulaires du SEO [Search Engine Optimization]. Un texte permet d’insérer des « backlinks » dans un environnement favorable. Problème, écrire des textes est une phase laborieuse. Le content spinning permet une semi-automatisation de cette tâche.

Les risques courants…

L’opération n’est pas naturelle et déborde des usages admis par Google. Le risque est d’être identifié comme un duplicate content, un contenu dupliqué, (ou trop similaire), bien que le terme soit impropre dans le cas du content spinning qui nous intéresse. La lutte contre le plagiat est essentielle à la pertinence des résultats de recherches, et donc au modèle économique.

C’est à la base un problème de ressemblance. Mais il ne faut pas confondre « plagiat » et « corrélation ». Deux textes peuvent avoir un haut degré de corrélation, reprendre les mêmes termes, traiter du même sujet, sans pouvoir être assimilés à des contenus dupliqués. Sinon par exemple les journaux en ligne seraient dévastés…

Autant il est justifié de poursuivre et de condamner le plagiat, autant il est légitime que deux auteurs puissent parler du même sujet sans être suspectés de se copier.

Comment est-il généré?

La plupart du temps le content spinning est généré en html via du php qui recourt à des expressions régulières. Sous cet angle il s’agit d’une analyse syntaxique et non d’une analyse grammaticale.

On utilise généralement des accolades {} pour désigner des groupes et des | pour inclure des disjonctions.

Exemple: {Bonjour tout le monde|Salutations les amis|Bien le bonjour à tous} etc. Les disjonctions s’appliquent donc autant aux mots pour des synonymes que des groupes de mots dont les équivalences sont plus complexes mais plus efficaces.

Lexique autour du content spinning

Heuristique : Méthode -algorithme- empirique qui cherche à obtenir un bon résultat sur un problème donné en un temps raisonnable [et non pas un résultat optimum]. De nombreuses heuristiques fonctionnent en deux temps:

  1. Obtenir une première solution correcte mais insuffisante
  2. Améliorer la première solution de manière itérative (par passes successives). La difficulté de cette phase consiste à définir un critère d’arrêt.

Linguistique: englobe de manière générale les sciences du langage selon une méthode descriptive.

Grammaire: étude systématique des éléments constitutifs d’une langue, description du fonctionnement d’une langue selon une méthode normative

Syntaxe: branche de la linguistique qui étudie la façon dont les mots se combinent pour former des phrases ou des énoncés dans une langue

Lexique: constitue l’ensemble de ses lemmes ou, d’une manière plus courante mais moins précise, « l’ensemble de ses mots »

Sémantique: branche de la linguistique qui étudie les signifiés (concept, représentation mentale d’une chose)

Analyse lexicale: tâche consistant à décomposer une chaîne de caractères en unités lexicales, aussi appelées lexèmes [ou tokens en compilation]. Ce type d’analyse consiste à décomposer un texte en une succession d’entités syntaxiques. La notion d’expression régulière (regex) utilisée en php permet d’extraire des lexèmes. Notament -dans notre application- la notion de « trous » délimités par { et }, pouvant contenir un certain nombre de | séparant les différentes options.

Type de langage reconnu par un aumate pour obtenir une liste de lexèmes.

Analyse grammaticale: en informatique, l’analyse gramaticale a pour but de décomposer une succession de lexèmes (un texte) à l’aide d’une succession de règles grammaticales (souvent sous forme de BNF [Backus-Naur form]) afin de construire un arbre grammatical [arbre de dérivation]. Les règles grammaticales décrivent les règles de dérivation des symboles non terminaux en une succession de symboles non terminaux et/ou terminaux. Cf. Grammaire ETF

Type de langage reconnu par un automate à pile pour obtenir un arbre de dérivation.

En programmation, en particulier dans le domaine de la compilation on utilise les outils Lex et Yacc pour effecture les analyses lexicales et grammaticales.

Grammaire ETF: pour Expression, Terme, Facteur.

6 Commentaires sur Définitions et repères

  1. Article très intéressant, je ne pensais pas qu’il y avait une telle technicité en matière de content spinning , j’en entendu parler également de plusieurs niveaux de spinning, pouvez vous m’en dire plus?

    • cdillat dit :

      Plusieurs niveau ça peut être l’inclusion de spinning récursif du genre {avaler|manger}{de la {choucroute|fondue}|du {choux|boeuf bourguignon}}

      Sinon l’autre possibilité pour expliquer ce « plusieurs niveaux » c’est peut être le spin au niveau du paragraphe=>de la phrase=>du mot.

  2. Christophe dit :

    Bonjour,

    merci pour les explications.
    Pour des besoins de génération de contenu « propre » et « unique », j’ai entendu parler je crois sur le blog de L.Bourrelly et/ou de BlackMelvin, de Chaîne de Markow pour le pivotage non plus au niveau des mots, mais aussi des paragraphes.

    Exemple : un texte avec 2 paragraphes, après moulinette, le texte est scindé en n paragraphes pour feindre un texte unique et original.

    Est-ce une technique que vous utilisez dans vos prestations ?

    Merci

  3. Papy Spinning dit :

    Oui. Car la seule substitution des termes ne suffit pas forcément. La permutation des paragraphes est un élément de complexification qui finit le travail. Cela dit il n’y a pas besoin des chaines de Markov pour ça. Par contre à l’écriture il est essentiel de ne pas lier les paragraphes entre eux par des connexions logiques ou narratives. Les paragraphes doivent se lire indépendamment les uns des autres.

  4. Martin L. dit :

    De « l’analyse lexicale » à base de regexp ? Sérieux ? A ce compte-là, l’étiquetage morpho-syntaxique, c’est de l’intelligence artificielle.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>