Content spinning, le meilleur ami de Google et des White Hat

« Le content spinning est un fléau ! » C’est une technique Black Hat et et et… « c’est maaaal ». Et oui, les spammeurs scrapent des contenus, les spinnent grossièrement et diffusent à gogo. La jolie page laborieusement écrite avec ses petites menottes en vient ainsi à clignoter comme un sapin de noël, noyée dans un marécage de splogs. Et vlan, la sanction tombe…

Il est largement plus louable de faire un copié/collé sur le début d’un article en indiquant l’original (en rel= »nofollow » pourquoi pas). Ca c’est « bien », ce n’est pas profiter du travail des autres, c’est de la « curation ». A chacun sa méthode pour capter du trafic.

« Au village sans prétention, j’ai mauvaise réputation »

Les prédicateurs de la morale White Hat, serviles hérauts du dogme googlien, n’usent d’aucune précaution pour parler de content spinning. Du haut de leur net-influence, de leur audience et de leur agence de com ayant pignon sur web, n’apprennent-ils pas au quidam à faire la différence entre le bien et le mal ?

Passons sur une certaine hypocrisie consistant à tenir un double langage, officiellement « Google friendly », officieusement « réaliste ».

L’usage de l’outil ne sert pas à définir l’outil

Affirmer que le content spinning est une technique Black Hat est faux. Autant le dire aussi des expressions régulières dans ce cas. Ce n’est pas sa finalité, mais un usage possible. La maîtrise de l’atome pour faire des bombes ne permet pas de la définir, elle sert aussi à produire de l’électricité. Or il existe un usage « civil » du content spinning.

De même, la rédaction manuelle de textes n’est pas « bien » en soi. Combien sont rédigés off shore via des sociétés qui exploitent une main d’œuvre sous payée en profitant de la pauvreté et du chômage ? C’est marrant, ce business n’est pas décrié dans les Guidelines de Google.

Et par certains moralistes White Hat non plus, soit dit en passant…

Le content spinning est une discipline scientifique

Le Traitement Automatique du Langage (TAL) est apparu dans les années 50, au carrefour de l’informatique, des mathématiques et de la linguistique. Traduction automatique, correction orthographique, fouille de texte, résumé automatique, synthèse de la parole, reconnaissance vocale, classification des documents, agents conversationnels, OCR et génération automatique de textes…

Ce qu’on désigne vulgairement par content spinning en SEO repose sur l’analyse lexicale d’une chaîne de caractères qui permet de générer des substitutions par une utilisation particulière des expressions régulières du langage PHP.

On peut aussi faire du content spinning à partir d’un langage fondé sur une grammaire générative (comme Prolog ou Datalog). Par exemple en créant un traducteur de langue qui traduit la même langue. Cela dit la maîtrise de la programmation logique est généralement inscrite dans un cursus universitaire.

Dans tous les cas, ça va un peu plus loin que {Bonjour|Coucou|Salut} avec un logiciel de geek à 17$.

Le content spinning n’est pas un plagiat

Toute reformulation n’est pas une contrefaçon. Combien sinon de journalistes perdraient leur carte de presse à spinner quotidiennement des dépêches AFP ?

De même la reformulation d’un texte est loin d’être nécessairement un plagiat. Pour cela il faut qu’il y ait confusion (volontaire ou non) entre un original et une copie. Aussi la reformulation manuelle de dépêches AFP, c’est un métier. Ni copie, ni plagiat, ni contrefaçon. La difficulté pour un lecteur, et donc un algorithme aussi, c’est de savoir où placer le curseur.

Prenons un exemple d’actualité et la dépêche AFP suivante du 03 aout 04 :27 GMT (Cf. SERPs Google)

La justice argentine a maintenu mardi soir en détention le nouveau suspect dans l’enquête sur le meurtre de deux touristes françaises retrouvées sur le site de randonnée du mont San Lorenzo près de Salta (nord).

Nouvel Obs 13h17 (AFP non citée):

La justice argentine a maintenu mardi soir en détention le nouveau suspect dans l’enquête sur le meurtre de deux touristes françaises retrouvées sur le site de randonnée du mont San Lorenzo près de Salta (nord).

France 24 (AFP citée) :

La justice argentine a maintenu mardi soir en détention le nouveau suspect dans l’enquête sur le meurtre de deux touristes françaises retrouvées sur le site de randonnée du mont San Lorenzo près de Salta (nord).

Le Point 06 :57 (AFP citée) :

La justice argentine a maintenu mardi soir en détention le nouveau suspect dans l’enquête sur le meurtre de deux touristes françaises retrouvées sur le site de randonnée du mont San Lorenzo près de Salta (nord).

Le Monde 11 :05 (AFP non cité) :

La justice argentine a maintenu en détention, mardi 2 août, le nouveau suspect dans l’enquête sur le meurtre de deux touristes françaises retrouvées sur le site de randonnée du mont San Lorenzo, près de Salta, dans le nord de l’Argentine.

La dépêche parfois copiée et collée prend aussi corps dans des articles qui développent leur propre contenu après cette introduction. On retrouve de tout. Une source originale citée (France 24 ou le Point), mais un copié/collé. Un plagiat pur et simple avec le Nouvel Obs ou une reformulation timide avec le Monde.

Content is king ? Ecrivez des contenus originaux sous peine de sanctions et de mauvaise haleine Black Hat ?

Non. Plagiats et contenus dupliqués ne sont pas forcément nuisibles pour le lecteur, pas plus que pour les moteurs. En l’occurrence Google se fait un maximum de fric avec Google News qui scrappe les infos sans s’émouvoir d’un quelconque plagiat. Encore une fois, deux poids deux mesures.

Une reformulation automatique dans ce cas, rigoureuse et qualitative, pourrait représenter une réelle valeur ajoutée.

Pour conclure

Le content spinning a toute sa place dans l’industrie de la production de l’information tout comme dans l’acquisition de trafic sur les moteurs.

Si l’on consent à restituer la place qui est la sienne dans le domaine du TAL, laissant de côté mauvaise foi et marketing White Hat, le content spinning peut révéler toute son utilité.

Une reformulation des textes qui exclut tout critère de plagiat et un niveau de lisibilité des contenus transformés équivalent au texte souche sont parfaitement possibles.

Pour ceux qui en doutent, les paris peuvent se jouer en commentaires…

 

 

 

25 réflexions au sujet de « Content spinning, le meilleur ami de Google et des White Hat »

  1. Alors moi qui suis toujours très fière de dire que je lave plus blanc que blanc, ben j’utilise le spinning et je n’ai jamais considéré ça comme un compromis malhonnête, et même je dirais que c’est tout le contraire : je ponds des textes de bien meilleure qualité grâce au spinning, là où je n’arriverai clairement pas à me renouveler si je devais faire ça de façon « plus naturelle ». Et puis un bon spinning c’est aussi beaucoup de travail, mine de rien.

    • Je ne sais pas si on crée de meilleurs textes avec le content spinning mais je suis persuadé que les textes ainsi produit sont bien plus efficace pour éviter le DC que ceux résultant d’une rédaction en série sans technique d’écriture particulière .

  2. Il y aurait eu un temps ou je t’aurais dit … NON, c’est le mal! et tout et tout… mais les années Mr Propres c’est fini déja et ensuite si c’est bien fait, le spinning c’est quasi indetectable de toute facon.

    En outre je suis en train de faire des campagnes de soumission annuaires et croyez moi qu’il faut les trouver les descriptions uniques a chaque fois… Et dans ce cas la le spinning est mon ami

  3. Content de lire ça. J’ajouterai que l’outil ne fait pas forcément le résultat.
    Et aussi, c’est quoi un white hat, mais cette question engendrerait un nouveau débat interminable.

    Rappelons tout de même que la nécessité de produire des textes uniques aura été imposé par Google, auparavant, on ne se cassait pas la tête pour cela. Le bon côté, c’est que ceci a engendré une multitude de création de boites qui font vivre (plus ou moins bien) des plus ou moins rédacteurs.

    Mais je reviens au débat.
    Un texte spinné pour en obtenir 50 exemplaires peut très bien n’être qu’une base de travail qui sera affiné à la main (ou plutôt à la tête et au clavier). On gagnera toujours beaucoup de temps comparativement à la production de 50 textes uniques.

    Et puis sincèrement, qui va lire ces textes ?

    Bref, mon discours surprendra sans doute certains de mes lecteurs habituels, mais ce qui compte, c’est la qualité du résultat (je parle de la qualité des textes). On peut tout à fait obtenir des textes fignolés en étant parti d’un texte initial spinné.

    Après, il y a en effet différentes utilisations.
    Ceux qui fabriquent de la bouillie pour splogs ne vont pas s’encombrer d’avoir des textes lisibles.
    Ceux qui alimenteront des annuaires ou sites de CP chercherons généralement un meilleur niveau de qualité, au moins pour être certain d’être acceptés.

    Bref, l’outil n’est rien, c’est que que l’on en fait qui compte. Si vous pouviez voir la différence entre ce que ma femme fait ou moi même avec une poêle, je vous jure que c’est sa cuisine à elle que vous mangeriez, et pourtant, on utilise la même poêle.

    • J’ai été ambigu sur le WH. Je parlais moins de la personne en tant que prestataire (ou de son action) que du discours tenu. Un discours (souvent commercial) se voulant WH car fondé sur les guidelines pour parler de « bonnes pratiques » en excluant des ressources comme le content spinning, rangées aux côtés du spam.
      (Je me reconnais pleinement dans l’illustration culinaire…)

      • Oui, mais pour être honnête, j’ai un discours WH auprès de mes clients et dans ma com institutionnelle. Ensuite, dans les faits, tout dépend du niveau de maitrise du client, de la confiance qui s’installe au fil du temps.

        Sinon, pour revenir sur le sujet du spinning, je me souviens de 512banque qui disait que parfois, la rédaction humaine ne revient pas forcément beaucoup plus chère que de l’automatisé. C’est vrai lorsque l’on veut un certain niveau de qualité.

        Bon, pour la cuisine, cela veut dire que si nous devons partir toi en et en excursion au Népal, on a intérêt à trouver un 3ème larron meilleur que nous question cuisine, sinon, je te fais des oeufs sur le plat tout le temps du trekking 🙂 Et encore, je suis l’un des rares à faire des oeufs dur à la poêle…

        • Oui la tarification de contenus off shore dans des pays pauvres est très intéressante. Ni chômage, ni retraite, ni sécu, un salaire misérable, forcément c’est compétitif !

          Le Népal ça me va ! Mais pour varier je ne suis pas ridicule sur les omelettes. Bah on saura bien faire griller une entrecôte de yack…

  4. Excellent article, que j’aurais aimé écrire (je vais peut être le spinner d’ailleurs).

    Le spin n’est qu’un outil. Comme la machine à écrire ou l’ordinateur, d’ailleurs « la vraie écriture » c’est à la plume d’oie.

    On peut l’utiliser pour des techniques black, white, grey ou arc en ciel

    Et puis il ne faut pas oublier non plus qu’un bon spin prend du temps.

    Au sujet des dépêches AFP, il y avait eu un excellent article de Frédéric Filloux sur le sujet. Même si c’est un peu hors sujet, je ne résiste pas à mettre le lien
    http://www.mondaynote.com/2010/11/22/fighting-unlicensed-content-with-algorithms/

    • Merci ! Oui, comme tu le dis ainsi que Seo Factory Girl, ça prend du temps, c’est un travail. Incomparable néanmoins avec une rédaction manuelle 😉

      • Incomparable 🙂 J’ai fait les calculs un jour, je pense que je divisais le temps de production par plus de cinquante… sans oublier le facteur « mais j’en ai marre de beauxzyeuter les pupilles de la marquise »

        (et je te rejoins dans les comparaisons culinaires… chez moi c’est le pot au feu )

  5. Pour le cas des dépêches AFP tout est une question de dosage. Si le monde ou les autres ne faisait que du copier/coller il dégagerai des SERPS.

    Je pense qu’il existe une sorte de ratio à ne pas dépasser en fonction de l’autorite du site.

    Concernant la légende spin = black, je vous rejoint. C’est un peu comme limiter imacros à un outil black alors qu’il est très pratique pour faire des jeux de tests pour un dev

  6. L’histoire finalement, c’est où se situe la frontière entre « le bien » et « le mal ». Le référencement, c’est un peu comme le dopage. On fixe des limites bien définies pour certains produits.

    Si je caricature, un plat de pâtes est finalement un produit dopant grâce aux sucres lents… au même titre que rédiger un CP tout proprement est dopant pour le positionnement.

    Il n’y a pas de bien ou de mal, il y a un juge : Google.

    • Sauf que « le juge » vient d’être condamné par la justice belge pour « violation du droit d’auteur » avec GG News 😉
      Et qu’en violation du droit d’auteur, ce même « juge » condamne et pénalise le plagiat d’un côté, mais l’exploite avec boulimie dès qu’il est rentable.
      Je m’estime presque en droit d’attendre un peu plus d’impartialité de la part de ce « juge ».
      Cela étant sur le fond je suis d’accord, c’est un problème de dosage.

  7. J’ai comme dans l’idée que ce qui fait dire par certains que le spinning, c’est le mâââl, c’est qu’il s’agit d’une technique basée sur l’automatisation d’une tâche. Peu importe son affinage.

    Or, de façon générale, tout ce qui est fabriqué de façon automatisée est plus difficile à vendre… C’est une moins-value. Cela fait partie de notre « formatage mercatique » : on donne généralement une valeur plus importante à un produit « fait main » qu’à un produit traité à grande échelle (idem pour les services), car on estime (et la plupart du temps à juste titre, mais il existe de nombreuses exceptions) que la valeur ajoutée d’un produit/service est plus importante si elle « individualisée ».

    Si l’on admet cette référence globale du sur mesure plutôt que de l’industriel comme un gage de qualité supérieure, on peut comprendre (je dis bien comprendre, je ne dis pas cautionner) le discours commercial des agences qui écartent l’utilisation d’outils qui pourraient être perçus par leurs prospects comme un service réduit. Comme l’avoue Sylvain, tout dépend de la relation client. Et au final, chacun a un devoir de formation auprès de ces mêmes clients.

    Bien sûr que l’usage de l’outil ne sert pas à définir l’outil. A chaque utilisateur d’en définir donc l’usage qu’il compte en faire… sans hypocrisie.

    • Tout à fait d’accord. J’ai même hésité à développer un paragraphe sur l’automatisation et les préjugés pouvant en découler. Là aussi pas de double discours. Dans ce cas on élimine les CMS et les librairies. Et tant qu’à faire on se compile son Apache à la mano… Le numérique n’étant pas globalement une économie de la rareté on pourrait préciser ce qu’on entend par « sur mesure » dans une relation client. Si on va jusqu’au bout de la logique la vraie plus-value du « sur mesure » c’est de revenir au langage machine !

    • Et bien voila un excellent commentaire à reprendre et à spinné pour le coller partout ou il est approprié. J’adhère comme de la glue.

  8. Pour se démarquer du spinning, quelques trucs :
    – mettre un titre original
    – incorporer dans le texte des références précises que l’on place en bas de texte
    – élaborer un cheminement logique solide…

    bref ce que fait tout auteur dans une revue académique.

    Mais rien ne vaut une expérience directe et partagée : Un exemple ci après :
    rechercher tous les mots avec google
    « maîtrise d’usage innovante »

    alors :
    qui est l’original ?
    est-ce un plagiat ou un spin ?

  9. Il faut savoir que la plupart des infos de ces « canards » proviennent d’abonnement à l’AFP, tout simplement. C’est pas du plagiat, ce sont des abonnements et autorisations à reprendre. C’est du réchauffé mais tu pourrais reprendre 90% des médias derrière . C’est le « journalisme » de maintenant lol

  10. Personnellement, nous travaillons à la reformulation de nombreux textes plutôt dans le domaine info. La publication n’est pas automatique, chaque texte passant dans l’outil est modifié jusqu’au maximum de ses possibilités et pour l’instant je suis du même avis que web imago.

    nous ne le faisons que sur un seul niveau sans forcément fournir le plus d’expression synonyme pour une succession de mot donné.

  11. D’ailleurs à ce propos, pourriez vous repositionner notre outil dans votre rubrique ressource pour content spinning. Il est possible d’y créer un compte pour ajouter sa propre base de donnée et n’utilisez que celle ci lors des phases de spin.

    Cordialement

    • Avec plaisir. Auriez-vous la gentillesse pour les utilisateurs de décrire la technique que vous avez développé?

  12. Personnellement je n’utilise pas l’article filer comme il change tout le sens de la phrase ou sur un autre côté il faut du temps pour lire le contenu et ne modification qui est processus coûteux en temps.

  13. Et dire que je n’avais toujours pas commenté cet article alors que je suis entièrement d’accord. En plus, article publié le jour de mon anniversaire lol.
    Donc sans reprendre tout ce qui est clairement et rationnellement présenté ci-dessus par notre honorable Papy Spinning, je tiens à insister sur le point suivant qui me tient à cœur: l’information aujourd’hui. Pour bien comprendre, il suffit de faire une analogie en l’information matérialisée (presse irl) et dématérialisée, l’information online. On pressent un point de rupture entre les deux « mondes ».
    Irl, chacun doit avoir l’information « noble » faisant autorité, et la possibilité de lire la même information, quel que soit le journal « papier » (cf exemple AFP). Nous sommes donc dans le cadre du contenu d’autorité.
    Alors qu’est-ce qu’internet change dans ce schéma?
    Eh bien le monde dématérialisé, et plus particulièrement les moteurs de recherche, fonctionne avec une logique différente. Il s’agit de diriger l’information non pas avec l’autorité de contenu « académique » de la presse traditionnelle, mais avec une autorité définie par les moteurs de recherche, et cette autorité « online » suppose deux choses. Une multiplicité des contenus « égaux » et un agencement « informatique » (linking hahahaha).
    C’est là qu’intervient le content spinning. Et là encore, il y a deux manières de procéder, content spinning propre pour avoir de l’autorité par la présence de contenu propre, et content spinning archaïque mot-à-mot voire en auto.
    Bien sûr, nos métiers jouent avec deux notions fondamentales: la liberté d’expression et la liberté des échanges (commerciaux). Mais c’est un autre débat.
    Bref, l’analyse de l’honorable Papy Spinning met le doigt sur des problématiques non encore rationalisées puisque le content spinning réalisé avec méthode et la volonté de générer des textes correspondants aux guide line de @oo@|e pour être considéré comme suffisamment autoritaire par rapport aux objectifs visés.
    Donc comme Papy, je pense que le content spinning est un discipline à part entière, et que selon certains angles, il est l’outil parfait pour les impératifs de transmission de l’information sur internet.
    Bien sûr, tout ceci sous réserve de connaître le sujet et les possibilités offertes par l’outil pour des textes propres, uniques et « humains » peut-être. D’ailleurs je peux me permettre une petite définition du spinneur: c’est une personne qui parle aux humains et aux robots (en tout cas moi oui ). Et comme IRL si on parle mal, c’est la claque.
    Merci pour ce super article, j’ai tout compris !

Les commentaires sont fermés.