Quelques repères pour évaluer le potentiel d’un masterspin

Une fois n’est pas coutume, cette note s’adresse aux spinneurs en quête de repères lors de la rédaction de leur masterspin. Pas toujours facile de savoir où l’on en est. A-t-on assez de groupes d’accolades ? Le nombre de substitutions dans ces groupes est-il correct ? Pour tant de substitutions, combien de tirages puis-je effectuer sans taquiner les limites de l’acceptable ?

Il y a plusieurs niveaux d’appréciation. On ne parle pas de textes pour le spam ni de textes borderline, mais de contenus destinés à des plates-formes de communiqués de presse par exemple qui vérifient les near-duplicate.

Nous allons laisser ici l’aspect sémantique et s’occuper uniquement de statistiques pour évaluer le potentiel de tirage d’un masterspin. Dernière précaution, nous parlons d’outils pour la génération de textes qui permettent de maîtriser un tirage complet, de calculer et d’optimiser les distances pour sélectionner les textes les plus éloignés. Pas de tirages successifs et aveugles, c’est de l’amateurisme en matière de content spinning.

Pour donner un repère à ceux qui utilisent The Best Spinner (le Windows Vista du spinning), notre algorithme est grosso modo 20% plus exigeant. Vous ferez la pondération quand je parle de 65% chez nous. Enfin tout cela n’engage que moi, me croire est à vos risques et périls.

Les principaux critères

Partons sur un texte original d’environ 300 mots, les plus pratiques. Dans ce cas prévoyez trois séquences descriptives de 100 mots, faciles à découper pour de l’annuaire ou du Digg-Like. Avec la technique de « l’entonnoir inversé » c’est assez simple à réaliser.

Enfin disons que nos textes à la sortie doivent avoir, au minimum, dans le pire des cas entre deux textes, 65% de différences.

Les « variables d’ajustement »

Le nombre de mots du masterspin ? Non. C’est un effet, pas une cause, cause qui est

  • le nombre de groupes d’accolades (ex. {})
  • le nombre de substitutions dans ces groupes (ex. {a|b|c})

C’est par ces variables que l’on obtiendra un masterspin dont le volume est doublé, triplé ou plus, par rapport au texte original.

Les principes de base

Bien sur on ne se contente pas d’un fruste remplacement de synonymes mot à mot. On s’attachera à varier le nombre de mots dans les groupes de substitutions afin de varier la longueur des phrases.

Ex. {a+b+c|d|e+f+g+h}

C’est plus contraignant mais autrement plus efficace. Le texte présentera toujours des similarités, mais comme tous les textes qui parlent du même sujet. Ce n’est donc pas problématique.

Quelques exemples

A partir de différents projets destinés à des tirages lourds voici quelques repères « hauts ».
A votre avis lequel de ces projets a le plus fort potentiel de tirage ?


{Gagné|Perdu}, c’est le n°2 avec 72.55% ! Le plus faible est le n°7 avec 51.55%.

Quelques observations sur le n°2

Le niveau de perforation (nombre de groupes d’accolades) est de 36%. Il indique par exemple que pour 285 mots vous avez formé 102 trous dans le texte. En somme il exprime les mots ou groupes de mots « spinnables ».

Vient le nombre de substitutions possibles dans ces 102 trous. Pour des raisons algorithmiques, je le calcule en « équivalent binaire ». Un binaire = {a|b}. Ce qui donne en équivalent binaire pour {a|b|c} = 1.58 et 2 pour {a|b|c|d}. Cela donne pour ce qui nous intéresse 284.03 équivalents binaires pour 285 mots à l’origine, soit près de 100%.

En fait, ça fait 2 puissance 284.03 possibilités de tirage au total, bien plus que le nombre d’atomes calculé dans l’univers !

On descend d’un étage

Ce type de masterspin correspond à de la commande un peu spéciale, disons velue. Pour tout dire, certains sont utilisés pour un tirage « long courrier » (un peu expérimental) à 1 800 000 exemplaires en ligne. On verra à l’autopsie…

Mais il donne une fourchette haute. Celle au-delà de laquelle on sue inutilement si on veut tirer 50 textes.

A mon sens le taux de perforation est important. Il évite de laisser traîner des chaînes de caractères orphelines, non spinnées, les guirlandes de noël. Mais pas besoin non plus de bourriner à 50% si c’est pour faire de la substitution mot à mot ou un tirage modeste.

Potentiel de tirages et perforation

Le tout est d’équilibrer le taux de perforation avec le volume d’équivalents binaires à introduire. L’exemple n°8 est parlant. 47% de perforation pour 79% de substitutions, c’est un déséquilibre.

Un grand nombre de perforations peu enrichies en substitutions serait préjudiciable pour le potentiel de tirage.  Autrement dit il présenterait trop de similarités.

  • Ex. {Coucou|Salut} les {amis|copains} {ça va|ça farte} ?

Similarités et nombre de substitutions

Par ailleurs un trop faible taux de perforation même assorti d’un grand volume de substitutions  serait handicapant. Ou bien il laisserait trop de mots orphelins (I), ou bien il embrasserait des groupes de mots trop longs, représentant des blocs de caractères non modifiés (II).

  • Ex. I : Salut les amis nous allons parler de {content spinning|pivotage de contenus|transformation de textes}
  • Ex. II : {Bienvenus sur mon nouveau site internet les amis|Vous êtes chez vous sur mon site ouéb les copains}

Dans tous les cas on parle de similarités et c’est l’équilibre numéraire entre perforation et substitutions qui fait l’objet de toute l’attention. Mais la sur-optimisation de l’un ne compensera pas les défauts de l’autre.

Des repères chiffrés ?

Il est délicat de conseiller des chiffres; donc avec toutes les réserves d’usage, disons que pour un tirage tranquille mais correct, une perforation de 15% à 20% pour 50% d’équivalents binaires devrait suffire. A chacun ensuite ses exigences et ses choix.

Ca se traduirait pour un texte de 300 mots et quelques dizaines de tirages : entre 45 et 60 groupes d’accolades, composées d’environ 150 équivalents binaires, en en gardant sous la pédale. C’est affaire de dosage, car les substitutions doivent bien sur être équitablement réparties dans les groupes de perforation.

Après si les substitutions sont pauvres sur le plan sémantique, c’est une autre histoire.

24 réflexions au sujet de « Quelques repères pour évaluer le potentiel d’un masterspin »

    • Même s’il change la structure de la phrase/paragraphe.
      Car j’ai l’habitude lorsque je spin un texte de prendre chaque paragraphe et d’en trouver un équivalent (texte différent), donc premier niveau qui change la structure, ensuite je prend chaque phrase (forme active/passive/ajout d’expressions) donc un deuxième niveau qui déforme la structure.
      Donc, je suis d’accord avec toi, mais il différent type de multi niveaux

    • Le multi niveau est une factorisation. Autrement dit à partir d’une séquence comme celle-ci:
      {a|b|c d|cef|ceg|ceh}, on peut obtenir {a|b|c {d|e {f|g|h}}}. Ca change pour l’œil, mais le nombre de tirages possibles est exactement le même. Si donc le potentiel de tirage est identique dans un cas comme dans l’autre, je ne vois pas quoi ajouter.

      • On est bien d’accord sur la récursivité mais la question que je soulevais est celle de la prise en compte de l’ordre des mots (permutation) dans l’évaluation des spins.

  1. Merci pour cet article très intéressant : grâce à Aurélien Bardon (@Aurélien : coucou :)) j’avais appris que 65% de différence suffisait pour passer le filtre du DP dans les sites Communiqués de Presse et tu le redis ici, cela semble donc être vraiment vrai alors. Je vais donc pouvoir me permettre de baisser un peu mon niveau de similarité, je ciblais plutôt 75% jusqu’à maintenant

    • Hum il y a autant d’algorithmes que de critères. Et le plus important de tous, celui de Google on ne le connait pas. Il y a toujours de l’arbitraire dans la détermination d’un seuil et c’est souvent au doigt mouillé. Ce qui compte, c’est d’être dans l’index et de s’afficher dans les SERPs (AMHA).

  2. C’est dommage que TBS, qui est pourtant interfacé avec CopyScape, ne propose pas une fonction qui permettrait, à partir d’un master-spin, de générer autant de variantes qu’il est possible en les comparant les unes aux autres via CopyScape afin de ne conserver que celles qui passent l’examen.

  3. Moi ce qui me gêne ce n’est pas la définition de la qualité du masterspin mais bien des résultats ! Comment procédez vous pour ne sélectionner que les meilleures versions / les plus uniques ?
    Et puis comme le dis Papy Spinning, ça ne flatte que l’oeil de mettre de la récursivité, si on n’a aucun moyen de déterminer les versions les plus uniques.

    Pour moi un bon masterspin peut générer 10 à 15 versions uniques d’un autre texte mais en générer 100 « partiellement uniques », ça n’a à mon sens … pas de sens :o)

    • On utilise une euristique itérative plus quelques autres fonctions comme Hamming.
      Après un bon spin dépend de l’objectif de tirage en fonction du temps passé à produire les substitutions suffisantes… c’est très concret et ça se calcule 🙂

  4. Existe t il un logiciel de spin qui permette de sortir uniquement les textes les plus uniques (ex : il choisit une seule fois chaque synonyme entré) ou définir un niveau de qualité (deux fois maxi)?
    A moins que la quête de qualité ne se fasse autrement ?

    Papy, tu as des fonctions à toi ou tu te sers d’un logiciel pour définir les meilleurs spun ?

    Pour ma part, j’utilise Magic Article Rewriter pour mes masterspin.

  5. Des outils maison. Ca pourrait se régler comme tu l’indiques. Mon avis c’est que la qualité est d’abord dans l’écriture et les variations syntaxiques et sémantiques. Optimiser un percheron n’en fait pas un pure sang. Après le bon réglage à trouver c’est un niveau de similarité inférieur ou égal à ce qui fait la similarité de deux textes originaux qui parlent du même sujet. Et là…

  6. François à raison. Pour des tirage à faible volume, le plus important serait de faire des tirage intelligents qui mémorisent les occurrences (substitutions) déjà utilisées pour ne pas les utiliser à nouveau immédiatement.

    Cela permettrait de sortir au début des textes complétements uniques, puis, une fois que toutes les occurrences des accolades sont utilisées, sortir des textes de plus en plus identiques. Le tout classé dans l’ordre inverse de similarité pour utiliser les meilleurs textes en premier.

    Existe-t-il déjà des un soft ou service pour faire cela ?

  7. Ce serait effectivement pas mal Jonathan !

    TBS propose dans sa dernière version (béta) un tableau qui indique le taux de similarité entre les différentes variantes que tu as produites à partir de ton spin-master. Cela te permet de choisir ceux qui correspondent à tes critères d’unicité puis de remouliner ensuite ton spin-master si tu as besoin d’un supplément d’articles.

  8. Merci « Création sites web 74 », qui plus est voisin.

    TBS semble un bon allié pour avoir un visibilité sur le pb, mais ne corrige pas le pb. Il y a un créneau si des développeurs veulent s’y atteler. Je suis prêt à financer la R&D (pas bien lourd tout de même) puis à commercialiser le soft ou le service ensuite. Des développeurs en mal de projets à se mettre sous la dent intéressés ?

  9. Je pense que si c’était si simple à faire ou faisable à un coût en rapport avec le marché les leaders proposeraient déjà cette fonctionnalité…

    Le content-spinning demande beaucoup de travail à la mano soit dit en passant !

    Ce qui serait déjà bien ce serait un thésaurus en français pour TBS (merci de ne pas me renvoyer vers le bricolage proposé par certains avec RefHotKey).

    Rudy nous a montré un truc qui avait l’air intéressant il y a quelques semaines (avec accord du genre, singulier / pluriel et conjugaison, le tout en français) mais il n’est pas encore dispo pour l’instant…

    J’ai l’impression que le content-spinning va se faire rattraper d’ici un an ou deux par la génération automatique de contenu avant même d’avoir atteint son apogée !

    • Il y a des thésaurus FR qui trainent….
      Par contre ce sont soit des fichiers texte à plat (genre csv) ou des fichiers sql.
      Et je n’ai trouvé aucune explication sur comment importer l’un ou l’autre dans TBS…

      Une explication serait bienvenue 🙂

  10. 新モデル 素敵 幅広い アイデンティティ 独特 正規通販 快適で コート 甘さ 雰囲気 スパン糸 安売りをする -コート-outlet-1.html »>デュベティカ ベスト ハンドバッグ 人気火 若い 優先的な ナチュラル 新モデル 通販 胭脂 割引 週末限定衝撃プライス アイデンティティ 新しい コート 焦点 デュベティカ-メンズダウンベスト デュベティカ 店舗 よく販売 は好き 不朽 正規通販 カジュアル ダウンして 紳士服 貴族の品質 精巧な 最新登場 簡潔な 激安 公式通販店舗
    足取り 最上級 ダウンして 恋 高い味 通常価格 高く評価さ 高級感はある ぬのじ 全品送料無料 サンダル 最高位 ホック スラックス 彼 人気新作 高品質 ロングコートレディース-outlet-4.html »>デュベティカ ダウン 注目を集める 世界的な 棉 ラウンドネック 店舗 ウーリー糸 の格安 妻 リンネル 大規模 一番 華麗登場 着払い 保温性 飾り 実用性が高く 先端に走る 純粋 バックパック しょうてん 安い つ星 焦点 若い ポリエステル 最低価格 最も優遇の価格 ヨーロッパ ワールドワイド 快適さ 愛用

Les commentaires sont fermés.