Le synonyme est le pire ennemi du content spinning (ou presque)

Oui mais pas que et ça dépend. Disons que c’est un mal nécessaire. N’empêche, le synonyme est au content spinning ce que le souffleur est au théâtre. Là commence une petite gamberge du moment, partagée ici puisque ce blog fait office de labo et d’échanges.

Le synonyme est le paléolithique du content spinning

L’opinion courante veut qu’en content spinning il faut faire des variantes à base des synonymes. On apprend ainsi que les expressions régulières entourent des mots différents ayant la même signification. Ca donne par exemple :

{Beaucoup|Énormément|Profusément}

Nous voilà au paléolithique du content spinning. En réalité, le fait de remplacer un mot par autre n’est guère qu’une cueillette dont les moteurs de recherches savent depuis longtemps identifier les fruits. Les résultats sont assez pauvres, la ressource est sous exploitée.

Je suis en train de me demander si réfléchir en termes de synonymes n’est tout simplement pas une impasse. Comme disait un illustre chercheur avec un zeste de provocation :

« En sémantique, les synonymes n’existent pas »

« terminer » et « achever » auront des accointances si l’on parle d’un travail par exemple ou d’une œuvre. Ils n’auront rien en commun si l’on évoque une mise à mort. Dans ce cas, « terminer le travail » conviendrait à un film sur la mafia, pas à un projet de loi sur l’euthanasie. Tout dans le sens est contexte.

Aujourd’hui l’algorithme de Google ne sait pas [ou mal] « désambiguiser » un mot par exemple. Le mot « couvent » sera traduit de la même manière dans des phrases radicalement différentes : « le curé entre au couvent » et « les poules couvent leurs œufs ».

Hormis l’exemple de base, le nombre de fois où Google Translate indiquera « convent » pour « incubate » est affolant. Et pourtant on a rarement vu un curé couver ou une poule faire vœu de chasteté.

Le synonyme est un mouchard pour moteurs de recherches

Au fond le synonyme est statique et rigide, ne tenant pas compte du contexte sémantique, il se répète mécaniquement. Exactement ce qui facilite une analyse lexicale dans une chaîne de caractères pour un algorithme.

Autre grief, il s’applique mot à mot, par définition: {mot|synonyme1|synonyme2|synonyme3}

Or un masterspin créé uniquement à partir de synonymes ne convient guère que pour du spam. Non seulement un simple lexique de synonymes permet d’identifier le near-duplicate, mais en plus le nombre total de mots ne varie pas, autant que les structures de phrases restent identiques.

Même nombre de mots, mêmes longueurs de phrases, nombre similaire d’occurrences, voilà justement les critères exposés dans les brevets Google pour identifier des near-duplicate.

Pour le fameux algorithme Simhash de Google [Cf. SimHash: Hash-based Similarity Detection et Similarity Estimation Techniques from Rounding Algorithms]censé fonctionner sur le Dupserver dédié aux near-duplicate, Moses Charikar, l’inventeur, nous donnait la clé en même temps qu’il nous posait le problème :

“We focus on syntactic, not semantic, similarity”

Le déclic des cliques

Les cliques sont (pas en théorie des graphes) un groupe de mots dont le sens est corrélé en fonction de certains contextes sémantiques, appelés « espaces sémantiques« . Exemple wikipédia pour le mot « lettre ». Dans certains cas son synonyme sera « caractère » dans d’autres ce sera celui de « missive ».

Prenons un exemple plus complexe, le mot « conscience ». Voilà le résultat pour le thésaurus de Windows :
cognition/lucidité/notion/cœur/hônneteté/connaissance/expérience/intuition

Un peu plus évolué pour un dictionnaire de synonymes en ligne :
> âme: scrupule, vertu, honnêteté, cœur, moralité, sensation, sentiment, soin
> pensée: perception, discernement, idée, jugement, notion, connaissance

Maintenant, si l’on raisonne non à partir de synonymes mais de cliques, en se projetant dans un « espace sémantique », cela devient plus intéressant.

conscience_cliques

Le résultat donne 36 synonymes. Par contre, il indique aussi et surtout 43 cliques, autrement dit 43 contextes sémantiques différents qui permettent d’associer le mot conscience à des occurrences variées.

En guise de conclusion

Évidemment chaque chose a son utilité. Ce n’est pas le synonyme en lui-même qui est visé, mais la manière de l’utiliser ou de n’avoir recourt qu’à lui pour l’écriture d’un masterspin.

Les synonymes sont très pratiques pour le spam. Vite fait bien fait, pour les splogs c’est parfait. Pour le reste, des synonymes utilisés de manière mécanique ou répétitive, c’est plus un handicap. Je ne suis pas certain de leur valeur par rapport à ce que sait faire Google.

Nous verrons bientôt dans le Petit Manuel de Content Spinning en Milieu Hostile, comment utiliser ces cliques pour optimiser la valeur d’un masterspin tout en gagnant du temps si l’on fait ça à la main.

Mise à jour 

Pour faire suite aux demandes en commentaires, voici quelques ressources complémentaires. Tout d’abord La représentation de la sémantique des phrases dans le paradigme géométrique des Atlas sémantiques (Institut des Sciences Cognitives-CNRS, Université de Lyon). A mon humble niveau c’est très complet et on comprend clairement les notions de cliques et d’ espaces sémantiques. On trouvera également du même auteur sous un titre bien fun:  Enrichir automatiquement des dictionnaires électroniques de synonymes et de traduction : une application du modèle d’appariement multilingue des Atlas sémantiques.

Et ça tombe plutôt bien, puisque l’auteur,  Sabine Ploux, était chef de projet sur l’Atlas Sémantique qui reste une énorme référence. Et c’est elle également qui est à l’origine du Dictionnaire Electronique des Synonymes du CRISCO (DES), un outil incomparable à ma connaissance. Pour entrer dans le détail de ce projet, on peut par exemple se reporter au Cahier du Crisco de septembre 2011 et au travail de Gaëlle Doualan Introduction à une approche instrumentée de la synonymie, l’exemple du Dictionnaire Electronique des Synonymes du CRISCO.

Si vous avez d’autres ressources à suggérer, n’hésitez pas et d’ici là bonne lecture !

 

 

24 réflexions au sujet de « Le synonyme est le pire ennemi du content spinning (ou presque) »

  1. Petite question de noob un espace sémantique peut il être vue comme une thématique ?

    Selon toi est il possible d’identifier l’espace sémantique d’un article en se basant sur une analyse via LSA, et ainsi considérer un espace sémantique comme un Concept ?

    J’ai déjà utilisé le LSA pour de l’extraction de mots clés via TF_IDF mais je ne maitrise pas bien la notion d’espace des concepts. Je le vois comme un thématique ou un espace sémantique ce qui pourrait être une piste pour définir des espaces sémantique non ?

    /me à le pré-sentiment que la réponse va être au dessus de ses capacités de compréhension ^^

  2. Belle analyse que je partage complètement, même si moi aussi la notion d’espace sémantique me dépasse un peu…

    Concrètement, il est quasiment impossible de générer du contenu automatiquement si on veut faire quelque chose de propre et le diffuser sur des sites au contenu qualitatif en masse. Il faudrait que l’algo se base sur le contexte et sur la thématique pour donner la bonne base de synonymes. Alors déjà que gérer les genres et les accords c’est pas la joie (bien que ce type d’algo existe dans d’autres domaines, notamment pour la reconnaissance vocale avec Dragon Naturally Speaking…).

    « Or un masterspin créé uniquement à partir de synonymes ne convient guère que pour du spam » : je ne suis pas tout à fait d’accord. Si ce master spin est fait à la mano, à la sueur de nos petits doigts, c’est au rédacteur de bien choisir ses synonymes. Ne peut-on pas alors considérer le content spinning comme une manière de paraphraser son contenu ? Rassurez-moi, c’est pas interdit par les moteurs de faire de la paraphrase 😉 ?

    • Oui j’exagère un peu pour la formule. Je veux dire que des substitutions mot à mot n’offrent que peu de champ. L’idéal je crois étant de ne pas intervenir que sur des mots, c’est la base, mais aussi sur des groupes de mots afin d’élargir le champ des substitutions possibles.

    • Je pense tout de même qu’il est évident qu’il faut aller plus loin que du synonyme. Il y a paraphrase est paraphrase. J’ai à l’inverse tendance à penser que ça ne suffit même plus pour faire du spam, aujourd’hui et surtout pour demain.

      • Je n’en suis pas si sûr (mais ça reste un avis perso). Pour moi, le contenu spam « automatique » doit rester rapide à faire. Si on y passe trop de temps, autant faire du vrai contenu propre à la main ! Après c’est une question de ratio, effectivement, avec uniquement des synonymes, 100% du contenu ne sera pas jugé pertinent, mais dans la masse…

        Ce type de spin n’est qu’une « méthode » (un peu bourrine certes) pour pousser un réseau sur le court terme, pas pour se positionner directement et durablement.

  3. Papy Spinning, merci pour ton billet. La mort des synonymes dans le sninning est plus qu’évidente. S’ils ont bien marché il y a 1-2 ans, à présent ont doit se pencher scrupuleusement et bosser fort pour engendrer des textes dits plus ou moins uniques.

  4. Alekseo j’ai envie de dire n’importe quoi, aller je le dis !
    Les brevets dont parle Papy Spinning (near dc) est sorti il y a bien longtemps. Il faut faire la différence entre brevets/ce que Google peut techniquement faire/ce que Google fait. Entre le brevet et la mise en production il y a un monde : infrastructure, effet de bord…
    Merci pour cet article Papy Spinning, il est vraiment intéressant.

    • Je suis tout à fait d’accord. Le SimHash date de 2002 et le brevet de 2007. On peut pas prendre les brevets de Google au pied de la lettre, ce serait trop facile. On ne peut donc que spéculer à moins de corrompre un Googler.
      Cela dit il me semble que le déploiement d’une ressource au niveau mondial est relativement dépendant de son cout et de l’énergie consommée. A un niveau de complexité quadratique, ça doit faire mal, alors exponentiel je n’y crois pas. Google ne peut pas sacrifier ses actionnaires au prix de la perfection.
      Enfin il y a les fondamentaux des math et de l’informatique. « The Art of Computer Programming » de 1965 n’est pas obsolète. Hamming a reçu le prix Turing en 1968 et Levenstein est de 1965. Ses bases là sont ultra utilisées, connues et incontournables.
      Merci pour le compliment…

  5. Il parait évident que les synonymes seuls donnent des choses pas très propres.
    Aller dans les espaces sémantiques proches n’est pas non plus la solution miracle si on les utilise de la même façon
    les poulent couvent => les coqs couvent
    A mon sens il faut pousser les automatisations beaucoup plus loin mais cela passera par une validation manuelle préalable pour définir les champs sémantiques, les mots « à ne pas toucher » …
    On peut aussi dans de nombreux cas exploiter des figures de style classique (antonime, Antonomase, periphrase …)
    on a encore de quoi s’occuper …

    • Tu veux dire que selon ton avis (d’expert) en la matière, un spin type {mot|syno1|syno2|syno3} suffit à être durablement positionné sans risque de filtrage?

  6. tres vrai – et c’est encore plus vrai en anglais – qui est une langue bien moins riche que le francais. Je me suis mis au spinning recemmet et je peux vous dire qu’on a vite fait le tour (spin – jeu de mot) des synonymes et qu final on se retrouve avec des semi duplicate qui ne valent pas un pet de coyotte – on peut peut etre tirer 2 textes potables sur la multitude de possible.

    Pour avoir un semblant de spinning potable il faut en passer par des réécriture de passage entier du texte tout en incluant des possibilités de spinning dans ces passages – bref implementer du spinning dans du spinning…

    Sur de petits textes y a bon mais quand ca commence a devenir du gros texte… pfiouuuuu – bref le bon spinning c’est po facile

  7. Voila pourquoi a mon avis un logiciel de spin, {un vrai|un bon} n’est pas prêt de voir le jour. Ils ne nous reste plus que le bon vieux spin a la main qui prends du temps, ami rédacteurs vous avez encore de belles années devant vous

  8. Je ne suis pas sûr d’avoir tout saisi, mais j’ai trouvé l’article très intéressant.

    Question : comment font les Shadok pour spinner convenablement ? GA, BU, ZO MEUH ça ne laisse pas beaucoup de possibilités …

    Plus sérieusement et rationnellement, en ce qui me concerne je ne vais bien entendu pas aussi loin dans la réflexion spinning car à partir du moment ou la duplication reste limitée je me sort du lot des 80 autres %. En d’autres terme si Google considère comme duplicate des trucs du type :{Aujourd’hui|Ce jeudi|Ce matin|Scoop :} la {bourse de Paris|le CAC 40} {perd|dégringole de|clôturait à moins} 5,48{%| points} etc …. je pense que pas mal de sites se feraient allumer.

    En tout cas jusqu’à présent je suis toujours passé à travers les mailles du filet … pour combien de temps …

  9. Le LSA est très parlant pour démontrer que le spinning est vain. Les scores obtenus sont forcément identiques, malgré l’utilisation de synonymes et même tout ce qui se trouve dans ce fameux champ sémantique. Bien entendu, tout dépend de la base de donnée de référence, mais c’est plutôt massif si on veut biaiser un moteur de recherche.
    La seule solution consiste à travailler sur du volume en espérant passer sur des zones de l’index qui ne sont pas filtrées à outrance au niveau du duplicate. En effet, spinner uniquement avec des synonymes n’est pas plus évolué que faire un copier coller…

    • Entièrement d’accord avec toi Laurent, écrire « Le {chien|chat|dromadaire} {bois|se désaltère} {à la fontaine|au bord de la rivière} n’a aucun intérêt. D’ailleurs je pense qu’automatiser du spin autour d’une base de donnée sémantique est vain (je ne cite personne …).

      Mais qu’est-ce qui fait fondamentalement qu’un écrit est différent ? Qu’est-ce qui fait qu’on reconnait un poème d’amour d’Appolinaire d’un poème d’amour de C.Bukowski au premier coup d’œil ? La sémantique justement ! Le style !

      Le problème de certains spin actuellement et qu’ils nivellent la langue : qu’on en lise un ou cent c’est le même balabla. Pourquoi ? Parce qu’il intégré une sémantique de niveau 1 qui est fixe (ex: les chaussures nike) et le reste n’a aucun lien de sémantique au sein du même article, mais en a beaucoup avec ses confrère spinnés …
      Mais il est tout a fait possible d’avoir un niveau 1 (la sémantique commune) et un niveau 2 (sémantiques multiples). Ce qui permet d’avoir des milliers d’articles qui parlent de la même thématique, mais dans un style radicalement différent.

      Ex: « Le petit chat gentillet courrait après un papillon et bien mal lui en a pris »
      Ex: « Il vient de dégueuler sur mon calbar tout neuf ! Quel abrutis ce chat ! »

      Dans les 2 cas on parle de chat mais la sémantique autour du chat et radicalement différente et cela pour Google ça ne sera jamais du duplicate.

      Il est tout a fait possible de générer ce type de texte en spin sur la même base avec des variables de référence par sémantique de niveau 2.

      Bref, je ne suis pas sûr d’être très clair … dans tous les cas pour l’instant on en est loin.

    • En fait je ne vois pas très bien en quoi l’analyse sémantique latente serait un problème pour le spinning. Saut erreur, cette méthode se fonde sur la co occurrence contextuelle naturelle des mots. La détermination des valeurs singulières (Cf. SVD) ou des vecteurs permet d’indexer des documents en fonction de leurs sujet. Par contre la LSA ne tient pas compte (à ma connaissance) des relations d’ordre entre les mots ni de la syntaxe.
      Autrement dit, un texte A original et son « doublon-voisin » B seront bien analysés comme traitant du même sujet, en effet quelque soit la nature des synonymes employés (ou presque). Par contre je ne comprends pas en quoi les vecteurs générés permettraient de révéler une similarité structurelle entre A et B telle que B serait le produit de A.

  10. Mince vous parlez tous comme des gens qui n’ont jamais fait de tests seo… :s

    Dupliquez une page de A à Z, mélanger le contenu dans n’importe quel ordre et publiez le une centaine de fois, les mots seront exactement les mêmes mais jamais dans le ordre, toutes vos publication vont passer comme une lettre à la poste!

    Vous êtes vraiment loin du comptes vis à vis de ce que l’on peux servir en content à Gégé.

  11. Je suis d’accord avec Discodog pour les tests effectués :
    CS + quelques rectifications à la main pour parfaire le tout, cela n’a jamais déplu à gégé… par contre les tests sont selon moi à refaire, à cause de la nouvelle mise à jour Penguin… Quelqu’un s’y est collé ? Mais je pense que les résultats sont identiques…

  12. rien ne vaut une bonne réécriture à la main, c’est fastidieux mais au moins on est sûr de ne pas se planter. De toute façon, google change les règles tous les jours, il y a même de l’intox quand on voit les vidéos de Matt Cutts.

Les commentaires sont fermés.