Latent Semantic Indexing l’arme fatale contre le content spinning ?

Cette note fait suite à un commentaire de Laurent Bourrelly dans le billet consacré au content spinning et aux synonymes. Elle n’a pas valeur d’explication mais d’interrogation partagée. Pourrais-je disconvenir respectueusement? Reformulons encore, d’autant que ce billet relaie également une critique de Seomoz [blasphème en live]. Oh pétard c’est la retraite assurée pour Papy!

Disons plutôt que je n’ai pas bien compris la question, et que je tente de la reformuler dans l’espoir insensé  de toucher du doigt, un jour, (pas avant midi si possible), ne serait-ce qu’un fragment de token en guise de réponse.

Ceci étant posé, repartons du commentaire de Laurent Bourrelly :

« Le LSA est très parlant pour démontrer que le spinning est vain. Les scores obtenus sont forcément identiques, malgré l’utilisation de synonymes et même tout ce qui se trouve dans ce fameux champ sémantique ».

Partant de l’idée que l’Analyse Sémantique Latente [LSA] ou Latent Semantic Indexing [LSI] met en échec le content spinning, nous poserons donc en prérequis que Google l’utilise (on laisse de côté Baidu pour l’instant).

SEO et Latent Semantic Indexing

La LSA, ou disons plutôt LSI a déclenché de vives controverses il y a quelques années. Certains commerçants SEO/M en avaient fait un produit marketing juteux. Joie du marketing quand tu nous tiens, ils affirmaient que Google utilisait cette méthode, renforçant instinctivement l’attractivité du bébé. Du coup c’était la question en vogue. Au niveau français, en 2006, Sébastien Billard avait fait intervenir Philippe Yonnet sous un titre évocateur: Ne prenez pas LSI pour des lanternes.

Mais c’est des USA surtout que sonnait le tocsin de l’eldorado sémantique avec le professeur E. Garcia dont le site Mi Islita est une référence en la matière. On trouvera sur ce site un tutoriel (très) complet sur LSI, démystifiant aussi certaines « croyances » SEO:

  1. A tutorial on Singular Value Decomposition (SVD) and Latent Semantic Indexing (LSI), its advantages, applications and limitations. Covers LSI myths and misconceptions from search engine marketers.
  2. This SVD tutorial revisits matrix decomposition and transpositions, the Frobenius Norm and provides stepwise calculations for computing singular values and singular matrices.
  3. A Tutorial for computing the full SVD of a matrix the easy way. A handy shortcut for computing « left » eigenvectors is described.
  4. A tutorial on Latent Semantic Indexing How-to Calculations. Learn how LSI scores documents and queries. Includes SEO LSI myths and do-it-yourself procedures for ranking documents.
  5. In this LSI tutorial you will learn how to cluster keywords in a k-dimensional reduced space. You will also learn how first- and second-order co-occurrence affects LSI scores.

Sur le fond, E. Garcia épinglait les sites sur lesquels étaient colportés tout et n’importe quoi sur LSI, y compris Seomoz. En suivant, Rand Fishkin donna raison au chercheur avec son billet Dr. Garcia is Getting Tired of LSI Marketing.

Malgré son habile réplique, Fishkin si fit mettre à l’amende par E. Garcia sur son blog  avec cette note : On Statistical Significance and SEO Statistical “Studies”. Il pointait cette fois les limites de Seomoz sur leurs propres études et statistiques associées à des « légendes urbaines« . Premier visé, un article sur la LDA Latent Dirichlet Allocation (LDA) and Google’s Rankings are Remarkably Well Correlated.

Là on fait une pause en image

Source: http://www.seobook.com/rand-fishkin-interview

Si Fishkin jouit parfois de l’aura d’un faiseur d’opinion SEO en France particulièrement, (en grande partie grâce à la qualité de son travail), quand il la ramène un peu trop, certains scientifiques le remettent à sa place de « search engine optimization marketer« . Ainsi prudence avec les annonces fracassantes retweetées comme des petits pains, idem quand on fait mumuse avec le LDA Tool – Latent Direchlet Allocation Research de Seomoz.

Google et LSI

Je suis à la recherche de la certitude que Google utilise bien cette méthode statistique. Peut-être fait-il mieux, ou différement, ou moins bien parce que c’est trop couteux en ressources, je n’en sais rien. Si vous avez des réponses (des vraies), je suis preneur d’infos que j’ai du surement rater quelque part.

On peut cependant retenir par rapport à Google que LSI (Cf. E. Garcia) peut poser des problèmes en termes de:

  • difficultés dans le maintien et mise à jour des bases de données
  • coût de calcul et consommation de ressources (prétraitement)
  • efficacité aléatoire dans le traitement de très larges collections

C’est pourquoi l’auteur attire l’attention sur ce qu’en ligne, les moteurs de recherches ont mis en œuvre LSI sur des périmètres limités (petites collections) en tant que « techniques auxiliaires« .

Conclusion: « Search engines using such approach to retrieve results from billion document collections under less than a second? Theoretically speaking, perhaps. Practically speaking, nope –at least not at the time of writing this tutorial ».

Mais admettons l’hypothèse que Google utilise cette méthode et l’a généralisé.

Latent Content Spinning Indexing ?

Pour identifier un near-duplicate, un texte mécaniquement tiré à partir d’un original, son analyse sémantique serait loin de suffire. Tout au plus nous pourrions dire que les deux textes abordent des sujets communs et partagent des vocabulaires proches par exemple. Cela n’en ferait pas des near-duplicate « pénalisables » pour autant.

La méthode LSI est là pour extraire la substantifique moelle sémantique.  Son but est d’atteindre, via une méthode statistique, la signification latente d’un texte, sous-jacente, en dégageant des « concepts » à partir des unités primitives que sont les mots et en appliquant une technique dite de décomposition en valeurs singulières [SVD].

Et le but, à ce que j’en ai compris, est bien d’établir différents niveaux des corrélations entre les termes afin de caractériser les significations supérieures d’un texte (sémantique), par des « marqueurs » indépendants des mots eux-mêmes. Le but est d’identifier, en gros, des sujets (topic) communs à l’intérieur d’un vaste corpus de textes. C’est pourquoi la méthode LSI semble s’écarter de la détection des near-duplicate:

  1. L’ordre dans lequel sont agencés les mots n’est pas pris en compte (« sac de mots »)
  2. Le texte est « arrangé » pour ne conserver que les mots jugés pertinents au niveau sémantique (porteurs de sens)

Par conséquent, pour la détection de near-duplicate (volontaires), si l’on ne tient pas compte de :

  1. La structure syntaxique du texte (l’agencement de la chaîne de caractères et les occurrences non pondérées)
  2. La structure grammaticale et l’ensemble du niveau normatif

Comment dans ce cas m’expliquer que le texte B est le produit de A ? LSI nous montrera qu’ils traitent d’un sujet commun et alors ?

Prenons un exemple. Soit le texte original A = « J’achète une prestation seo pour faire ranker mon site web ». Une version spinnée pourrait être B= « Je loue les services d’un référenceur dans le but d’acquérir du trafic ».

Sur le plan sémantique on peut envisager ceci:

A: achète/prestation/seo/ranker/site web

B: loue/services/référenceur/acquérir/trafic

On peut sémantiquement trouver des signatures proches à ces « sacs de mots ». Ca ne nous dira pas grand chose sur le fait que l’un est mécaniquement tiré de l’autre. C’est sur ce point que tout renseignement complémentaire et surtout contradictoire serait le bienvenu.

La vectorisation, un vecteur de confusion ?

Pour finir, lorsqu’on parcourt des articles comme « Comparaison de documents : mesures de similarité et mesures de distance » portant uniquement sur les techniques de calculs de similarité entre des textes, il n’y a pas de référence à la LSI. Est-ce un hasard ? D’ailleurs si l’on en croit Sophie Rosset et Michele Jardino dans leur article:

Pour pouvoir comparer deux vecteurs, il faut que les mots de chacun des vecteurs soient dans le même ordre et que s’il y a indexation, à un même mot corresponde un même index. L’indexation peut être faite par le mot lui-même soit par une clef.

Vecteur, le mot est lâché. Car dans tous les cas, c’est bien lui qui permet, de mesurer la distances et donc le niveau, ou de similarité syntaxique, ou de corrélation sémantique. Effectivement dans les deux cas on obtiendra un score, associé au cosinus et à la distance. Mais ils ne parleront pas de la même chose ni ne poursuivront le même but.

En guise de mot de la fin quelques notes tirées du paragraphe « LSI and Adversarial Practices: When Web Spammers Strike » encore de ce E. Garcia qui devrait en faire sourire plus d’un.

However, terms occur in different topics. In this case LSI similarity scores based on word counts do not reflect the actual relationship between terms. Add polysems and the scenario worsens.

What does this has to do with spammers?

Incidentally, more and more spammers are realizing this flaw and that spurious induced similarity can be injected into Web collections in at least three different ways:

  1. by creating documents with several topics and selectively optimizing these for ranking purposes.
  2. by writing content rich in related terms and synonyms.
  3. by creating a network of such documents pointing to a target document.

If you still want to trust SEO « LSI based » tools then be my guest.

***

La discussion se poursuit sur le blog de Didier Sampaolo : Latent Semantic Indexing et content spinning

 

 

 

 

 

 

 

 

 

15 réflexions au sujet de « Latent Semantic Indexing l’arme fatale contre le content spinning ? »

  1. C’est difficile à lire, Papy Spinning. Difficile.

    Ce que j’en retiens, corrige moi si je me trompe (je ne fais pas de résumé, je dis jusque ce que j’en conclus) :

    – Google fais surtout du « near duplicate » à faible dose, car c’est très coûteux en ressource.
    – que le type content spinning que tu donnes comme exemple (« achète/prestation/seo/ranker/site web » etc.) est indétectable dans un processus d’analyse global industriel pour Google.
    – que la méthode d’analyse LSI est par conséquent une méthode irréaliste à appliquer globablement.

    Donc : Ok pour continuer à spinner du moment que ça ne se réduit à pas à un simple spin sur des synonymes. Il faut aller plus loin : portion de phrases, phrases, idées, paragraphes (à spinner). Et non plus au niveau du mot *seulement*.

    • – Google. Je ne peux pas savoir. Simplement dire que je ne connais pas de technique simple, peu couteuse et très efficace pour détecter des near-duplicate volontaires dans l’étendue du web.
      – L’exemple de content spinning… Sur l’ensemble d’un texte (et + de variations) avec un bon spinneur… Niet
      – Sur LSI c’est les conclusions de ce scientifique E. Garcia à un instant T.

      Selon les commentaires de Rudy (et d’autres spammeurs de renom) GG indexe à peu près n’importe quoi. Tout dépend si l’on veut aussi satisfaire un lecteur humain.

  2. Article très bien rédigé, tu as traduit ce que j’en pensais dans ma petite tête, mais avec bien plus de détails et de connaissance sur le sujet ! Bel article
    Pour moi il est clair que le content spinning a encore de beaux jours devant lui ! STRIKE !

  3. Merci à Yohann.seo, qui, il y a quelques mois, m’avait donné ceci. On peut mieux appréhender certaines méthodes de calcul. http://lsa.colorado.edu/

    Merci Papy pour tous ces éléments. Moi qui n’entends rien aux chiffres, je peux toutefois me faire une idée plus précise, tout en restant abstraite, de la manière dont il faut procéder pour avoir les bonnes méthodes de composition de spins propres.
    En conclusion, un bon spinneur doit désormais être un bon rédacteur, le content spinning se « white hatise » par la force des choses. Il semble que c’est ce que tu penses aussi Papy Toto, non?

  4. Humm je crois que tu es mûr pour une petite démo 😀
    A ta dispo (tu as mon mail) pour discuter de vive voix du truc car je n’ai pas l’envie/le courage/ le temps de disserter par écrit.
    Seul reproche au billet sont certaines sources trop orientés « LSI for SEO ». Il vaut mieux se faire sa propre idée à partir de la base, plutôt que de partir sur des interprétations dérivées. D’autant plus que la mode du LSI est bien passée, donc les articles datent bien trop pour être pertinents en ce moment.

  5. Je connaissais déjà ce tool grâce à Laurent et après l’avoir quelque peu étudié, j’arrive à des scores en dessous des 0,3 pour du texte à texte… Moi, ça me va !

  6. Bon, que dire si ce n’est que je partage ta conclusion sur les near duplicate. Tout comme l’indice de jaccard le LSI (ou LSA comme tu veux) ne tient pas en compte du placement et ils utilisent la même base de calcul (la fréquence des mots). Pour moi c’est juste bon pour classifier ou pour faire des requêtes mais en aucun cas cela permet de calculer la similarité dans le cadre de la lutte contre le spam.

    Il ne faut pas confondre similarité sémantique (deux textes qui parlent de la même chose) et similarité textuelle (ou grammaticale je ne sais pas trop, deux textes qui sont écrit de la même manière). Après la classification sémantique des textes peut certainement aider à limiter les comparaisons aux textes partageant des concepts communs.

    Par contre comme je l’avais noté sur ton article concernant le spinning et les synonymes, j’ai toujours dans l’idée que le LSA convient parfaitement pour donner un sens sémantique à tes synonymes (tes cliques ;)).

  7. Hi, there:

    Thank you for referencing my work. I don’t know french, but would like to post here (my primary languages are spanish and english). Feel free to translate this post to french.

    Fishkin and SEOmoz « study » on LDA is flawed for many reasons. First they claimed correlation coefficients are additive and then based their results on this wrong assumption. Second, they misinterpreted very little correlations as evidence of google ranks and lda scores as being « highly » correlated. Eventually they realized their initial calculations were flawed, but then insist in the first and second point.

    Correlation coefficients are not additive at all. See a tutorial on this subject at http://www.miislita.com/statistics/on-the-non-additivity-correlation-coefficients.pdf

    Regards

    Dr. Edel Garcia

  8. Bon, et bien même si c’est un peu rude de découvrir ce concept à 1 heure du mat, je dois avouer que j’ai appris pas mal de choses…
    Et tu as une réponse de Dr. Edel Garcia… La classe 🙂

    Bref, je continuerai la lecture des sources et des autres intervenants sur ce sujet à tête reposé.

  9. A mon avis, si le texte spinné ne dépasse pas les 35 % de similarité et que les textes spinnés ne se répètent pas trop sur un même site. La tache risque d’être compliqué pour Google.

    Article très intéressant, très précis, comme d’habitude.

  10. A mon avis, Google ne peut pas utiliser le LSI pour l’analyse des contenus (et donc du spinning), pour la simple et bonne raison que les ressources demandées seraient considérables, surtout si l’on prend en compte le nombre de pages qu’il lui faut indexer par jour.

    Déjà que Google ne parvient pas à analyser de simple fermes de contenus (certains annuaires, certaines suites de commentaires sur des blogs, …), je le vois mal pouvoir consacrer des ressources telles qu’une analyse LSI pour contrer le spinning sur l’ensemble de son index.

    • Je suis assez d’accord. C’est comme si deux idées s’affrontaient. L’une dans laquelle on pense que Google a les moyens, vu qu’il a déjà indexé et sous les mains une incroyable matière première, l’autre dans laquelle le coût d’exploitation serait bien trop élevé (ce que je pense) pour être crédible. A fortiori pour une société comme Google dont la forte croissance est quasiment une obligation, une question de survie dans le contexte web.

Les commentaires sont fermés.