Google, le Turc Mécanique et la tour de Babel

« Internet n’a pas d’avenir ». Cette phrase mémorable de Bill Gates invite à la prudence et m’impose la quasi certitude de dire des conneries dans ce billet.

Avec son Panda, la campagne de communication orchestrée par Google est réussie, relayée frénétiquement par des médias incantatoires, des blogueurs et vendeurs de blabla 2.0: « Google améliore la qualité des résultats de recherches » ; [#Pandaranol en est la preuve^^].

Quelques exemples de sites « flingués » pour générer de la crainte ont permis d’ouvrir un business opportuniste. Certains vous vendent leur formule « SEO Pro Gold Anti Panda » quand d’autres inventent des formations spéciales Panda (l’on ne demande pas à un revendeur de Coca-Cola d’en connaitre la recette).

Google a réussi le tour de force de communiquer sur un code devant être secret. Et on le sait bien (j’ai oublié l’auteur) : « La fiabilité d’un système de sécurité est inversement proportionnelle au secret qui l’entoure ».

Au début nous étions avertis que Panda devait améliorer la pertinence des résultats en opérant un tri qualitatif des contenus, dixit « fermes de contenus ». Sur le coup j’ai fait l’erreur d’imaginer une opération sémantique dans un texte, comme si Google pouvait se transformer en Philippe Sollers du web. Naïveté.

Je viens de tomber sur le brevet accordé à Google intitulé Determining semantically distinct regions of a document et je suis rassuré. Google ne comprend toujours rien à un texte mais essaie de contourner le problème.

Le problème de Google serait IA-complet

Google essaie de se mettre à la place d’un utilisateur humain pour interpréter la notion (complexe) de pertinence. Cela implique ni plus ni moins que de reproduire les modalités de la perception.

Le robot doit donc faire l’inverse de ce qu’il sait faire simplement, c’est-à-dire éliminer le contenant pour opérer une simple analyse syntaxique du contenu. Google se fabrique des yeux.

Il faut donc donner du sens et une hiérarchie aux différentes parties d’une page. Et c’est le domaine de l’invention dans le brevet qui m’arrête :

FIELD OF THE INVENTION

The present invention relates generally to the field of computational linguistics, and in particular, to a system and method of determining semantically distinct regions of a document.

Linguistique computationnelle… ou linguistique informatique.  L’enjeu consiste à obtenir par un système informatique la compréhension de tout énoncé compréhensible par un être humain.

Or ce problème est réputé IA-complet. Il correspond par analogie au NP-complet dans la théorie de la complexité des algorithmes. On se retrouve donc avec un problème de décision dit indécidable.

Pour l’illustration, je fais un détour par les jeux de stratégie. Les Echecs par exemple sont bien maîtrisés et les algorithmes battent les meilleurs humains. Les possibilités aux échecs sont de l’ordre de 10 (puissance) 150.

Par contre c’est l’inverse avec le Go, l’arbre de décision perd ses feuilles. Les meilleurs calculateurs, y compris avec de l’IA, produisent un niveau de jeu assez médiocre. Les possibilités au Go sont de l’ordre de 10(puissance)600. [Désolé j’ai un problème avec la balise <sup> et je ne sais pas pourqoi]

L’analyse d’un contexte sémantique se fonde sur le même principe de décision. La valeur d’une pièce aux Echecs dépend de sa place sur l’échiquier, tout comme le sens d’un mot dépend de la phrase qui l’englobe.

Autrement dit en matière de linguistique informatique Google amène son algorithme aux frontières du possible (aujourd’hui). Ajoutant à cela qu’il veut lui donner une dimension universelle pour l’ensemble du web et la messe est dite.

Google a beau avoir entre les mains la plus grande puissance de calcul jamais atteinte, c’est peanuts !

Google se replie sur le Mechanical Turc

Toujours aux Echecs, le « Turc Mécanique » était un dispositif où un homme dissimulé sous un échiquier donnait les coups à jouer, alors que son complice faisait croire que les décisions étaient prises par la machine.

En concédant un recours important à des googler pour générer des décisions et leurs propres critères de pertinence, en déployant des bidules 2.0 comme le bouton +1 qui ressemble à une base de données d’avis de consommateurs d’informations, Google montre qu’il a besoin de turcs pour jouer les bons coups.

C’est moins une critique faite à Google qu’aux tenants d’un classement social de l’information. Car s’il y a une ambition folle à s’attaquer pour l’ensemble d’internet à un problème IA-complet, (ou pour le contourner intelligemment), c’est en revanche très différent pour le référencement social, qui n’est jamais que l’Eden des vendeurs de tapis.

In fine, si Google devait parvenir à l’arbre de décision ultime en matière de linguistique informatique, il ne ferait pas moins que proposer un langage qui permette de décrypter et comprendre tous les autres. Ce succès aurait des accents bibliques.

 

7 réflexions au sujet de « Google, le Turc Mécanique et la tour de Babel »

  1. Je sens que je ne vais pas me faire que des amis en réagissant à ton billet. Genre : tu vas hésiter à me bannir de ton site. Voilà pour le préambule.

    Je suis un humain. Je suis un homme. Je suis moyennement intelligent. Je suis référenceur. Je suis incapable de dire de quoi parle tout ce charabia qui précède.

    Je veux dire : c’est quoi la construction, ou encore le but de cet article ? De partager avec les lecteurs une lapalissade en guise de découverte du jour ?

    Google tente de se mettre à la place d’un être humain, et pour cela, il met en place des algorithmes aux solutions… impliquant des humains.

    Pourtant, ce ne sont pas les offres d’emploi de Google qui manquent dans ce domaine : Google emploie des armées de testeurs pour s’aider à améliorer ses algorithmes. Oui, des testeurs qu’ils payent pour dire si une page de résultats A est « meilleure » qu’une page de résultats B sur la base de critères se voulant objectifs, mais impliquant nécessairement des humains. Oui, « nécessairement », car il ne s’agit pas de fournir des résultats « corrects », mais des résultats qui « plaisent » à des êtres humains sur des critères qui impliquent aussi des critères subjectifs. C’est aussi pour cela qu’on ne peut se satisfaire d’un unique testeur, mais qu’il faille en employer plusieurs, voire en masse.

    Les offres d’emploi de Google, sans parler des documents publics ou internes, confirment donc l’évidence : oui, Google fait appel au facteur humain pour créer et évaluer ses algorithmes. Et il y a fort à parier que cela ne change pas à l’avenir, même dans un lointain futur où les ordinateurs devaient surpasser en intelligence ou en autonomie les humains, il faille encore faire appel aux humains.

    Par exemple, quand des humains étudient des fourmis, ils ont besoin de fourmis. Et pour savoir quels produits attirent les fourmis, ils le demandent encore et toujours à des fourmis, sur la base d’expériences que les fourmis n’ont même pas à comprendre pour être efficaces. Je veux dire : une goutte d’eau sucrée, une goutte d’eau salée est présentée à une colonie de fourmis. Celle qui les attire le plus est celle qu’ils préfèrent. Ce pourquoi l’expérience est faite et les intérêts qu’elle sert n’ont pas à être comprises des fourmis pour que l’expérience soit un succès, quel qu’en soit le résultat.

    Revenons à Google. Tu connais peut-être le « jeu » Google Image Labeler qui consiste à faire travailler des humains au profit de Google. Deux « joueurs » voient une même image et doivent lister des mots-clefs que cette image leur évoque, chacun de son côté, sans voir ce que fait l’autre joueur. Les mots communs aux deux joueurs sont récompensés par un « score » élevé. Eventuellement, certains mots sont interdits, à savoir qu’ils ne rapportent pas de points aux joueurs même si les deux les suggèrent. Ils faut donc en proposer d’autres, nouveaux.

    Du coup, quand on voit une photographie d’oiseau volant dans le ciel bleu, on propose « oiseau », « bleu », éventuellement « vol », mais encore ? À moins d’être ornithologue, difficile d’en dire plus. Et l’absence d’information est elle-même utile : tiens, un humain n’est pas capable de donner le nom de cette espèce, pourrait se dire un robot, c’est que pour un humain, cette information n’est peut-être pas pertinente, hors contexte. Bref, il faut un test pour le « comprendre ».

    Ce que je veux dire par là, c’est que la sémantique n’est pas un jeu d’échecs. Une langue vivante évolue suivant l’usage qu’en font les humains qui la pratiquent, et non suivant des règles logiques ou justes. Il faut donc observer les humains pour en comprendre le sens. Et par conséquent, il est essentiel de faire faire des tests aux humains pour imaginer, créer, affiner des algorithmes et leurs paramètres.

    Maintenant, quels sont les résultats obtenus par Google ? Plutôt bons, je trouve. Oh, je ne parle pas du moteur de recherche, en l’occurrence, qui ne me semble pas vraiment exprimer l’état de l’art de l’analyse sémantique par Google, les paramètres pris en compte dans les SERP sont largement faussés par la popularité relativement aisée à manipuler. Je fais référence à Google Actualités. Alors que les résultats de recherche web doivent manipuler des milliards de pages aux contenus souvent spammés, Google Actualités intègre un filtre humain a priori, choisissant une poignée de sources triées sur le volet (dont relativement peu de spam, même s’il y en a même là). Et puisque ton site traite de « content spinning », intéressons-nous à ce que Google sait correctement identifier sur son service d’actualités : du contenu similaire, agrégé sur sa page de une, classé par type. Les actualités ont beau être issues de sources distinctes, rédigées par des journalistes indépendants les uns des autres, présentant des opinions parfois très différentes, ces contenus sont habituellement correctement agrégés sous un même titre principal. Or, cela se fait bien même hors intervention humaine, probablement par des algorithmes d’analyse sémantiques préalablement entraînés par des équipes humaines.

    Pour conclure sans être Dieu, Google s’en sort pas trop mal, en matière d’analyse sémantique. Ce que l’on peut souhaiter, à l’avenir, en matière de qualité des résultats de recherche web, c’est que Google sache mieux filtrer le spam, notamment en optimisant ses algorithmes pour faire sur des milliards de pages ce que l’entreprise sait déjà faire sur quelques milliers.

  2. Je n’ai jamais « banni » personne parce qu’il manifestait de l’incompréhension; fut-elle rhétorique pour la valorisation de son propre égo. Au contraire, je te souhaite la bienvenue Martin. Et que dire, pourquoi n’aurais-tu pas raison? Cette quête n’est pas la mienne.

    Je me permets de te freiner dans tes ardeurs sur un point. Nulle part tu ne trouveras écrit que « la sémantique est un jeu d’échecs ». Pour éclairer ta lanterne, cette comparaison vient de Wittgenstein et elle a trouvé corps dans les recherches linguistiques de Ferdinand de Saussure.

    Je ne voulais pas en venir là mais cette comparaison n’était pas employée au hasard. Aussi avant de caricaturer mes propos pour imaginer mettre en valeur les tiens, ce qui n’est pas nécessaire, merci par avance de ne pas prendre l’autre pour plus imprécis qu’il n’est.

  3. Hey Papy, ne te fatigue pas, Martin est devenu un maitre en trollerie dans le milieu seo.
    Concernant ton article, je suis assez d’accord avec toi. Par contre, pour avoir lu le brevet il y a quelques temps, je n’étais pas arrivé aux mêmes conclusions que toi (j’ai plutôt validé l’endroit où insérer un lien).
    Google ne peut gérer ses milliards de documents avec des humains (même s’il emploie de nombreux Indiens (et il le fait)), il doit passer par un algo qui, de ce fait est faillible.
    Enfin le +1 donne un côté social, qui va afficher un +1 sur antidépresseur, mutuelle, conseils hémorroïdes et compagnie ? Clickjacking, achat de clics nous voila !

  4. Merci pour l’info, je le pressentais sans vouloir y croire à ce point là!
    Oui, je comprends le besoin du facteur humain. Mais justement, ça reste un défi immense d’ingénieurs et d’universitaires lancé à la recherche info/math/langage du monde.
    Si effectivement ils engagent une stratégie sociale à long terme, non seulement seront bricolés des codes marrants, mais le défi ne résonnera plus de la même manière. Après j’ignore, (je pense comme beaucoup), où ils placeront le curseur.

  5. tiens là aussi tu t’attaques à quelqu’un d’autre ??? mais tu sais faire quoi à part cracher ta merde sur les autres ?

    T’as pas un truc personnel ? un machin que t’aurais inventé toi avec ton petit cerveau d’attardé ?? sur lequel tu pourrais te branler un p’tit coup ???

    ha ces merdeux de bouseux de seo-man des cavernes… toujours à faire les marioles…
    bon un de ces 4 tu te fera péter les genoux, c’est toujours ça de pris…

    • Super classe le commentaire anonyme; quel courage! Menace à deux francs (pas €uros), jugement de valeurs…
      L’important est d’échanger des idées même si le lecteur lambda ne comprend pas tout en détail (comme moi) cela permet d’appréhender un peu les concepts d’algorithme vs sémantique informatique et Française.

      Donc en gros dégage 🙂

      Ps, mes excuses à l’admin de ce site pour mon coup de sang mais la bêtise me fait sortir un tantinet de mes gonds.

Les commentaires sont fermés.