Google: le moteur qui tourne carré

13 avril 2009 | par | 3 commentaires Plus loin

On peut être fervent admirateur de ce que fait Google, l’utiliser au quotidien et même passer des accords de partenariat avec le géant des médias électroniques, on doit cependant pouvoir, comme à l’interne dans la firme, garder un esprit critique sur ses réalisations et dire tout haut ce qui manifestement pêche dans les cuisines de Larry et Sergey.

Or dans les casseroles de Google se mijotent souvent d’excellentes nouveautés, mais son produit phare, le moteur de recherches, reste depuis des années une soupe d’algorithmes relativement mauvaise, indigeste et peu convaincante. Le moteur de recherches de Google, c’est un peu comme un grossiste en informations : il fournit des tonnes de minerai brut duquel le client devra encore extraire lui-même en self service l’infométal réel, qui lui possède de la véritable valeur ajoutée.

« Google, la fin du chaos dans l’information, le champion de la pertinence, la proximité, le contexte en direct « , quelques qualificatifs parmi d’autres dont le géant glouton de Mountain View n’hésite pas à se parer dans sa page « Why to use Google ».

On y apprend aussi que « l’élément fondamental est PageRank, un système de classement des pages Web mis au point par les fondateurs de Google (Larry Page et Sergey Brin) à l’université de Stanford. Et pendant que plusieurs dizaines d’ingénieurs et de spécialistes consacrent leurs journées à améliorer les différents aspects de Google, PageRank reste la pierre angulaire des outils de recherche« .

S’il est au monde un secret bien gardé, c’est bien celui de l’algorithme de Google, dont toutefois on a quelques idées, par des indiscrétions mais aussi par l’analyse des résultats qu’il fournit. Et c’est bien sur l’aspect des résultats fournis que le moteur de recherche californien n’est pas à la hauteur.

S’il est le champion toutes catégories du nombre de pages indexées, il est aussi le champion toutes catégories du nombre de résultats de recherche non topiques et parfaitement inutiles. Sur le plan comportemental tout d’abord, la très grande majorité des internautes ne considèrent que la partie supérieure de la page de résultats d’une recherche et ne cliqueront jamais plus loin.

Or cette partie de résultats, selon la configuration employée, représente une dizaine de liens tout au plus. On s’aperçoit donc que les ingénieurs du fameux moteur privilégient la quantité des données fournies plutôt que la qualité et la pertinence des résultats. Et ceci dans un but tout simple, d’ailleurs partiellement démenti par l’usage, qui est de « faire de la page vue » en forçant le curieux à s’attarder sur un nombre de pages plus importants sur lesquelles figurent les fameuses publicités contextuelles.

Sur le plan du tri sélectif par pertinence, il existe manifestement deux types de recherche: la simple et la complexe. Mais que faire des 393’000 résultats que donne une recherche sur les « pommes vertes » ce lundi de Pâques ? rien, strictement rien. Mais au moins sur une recherche simple, on trouve une certaine pertinence dans les premiers résultats.

S’agissant d’une recherche plus « complexe », portant aléatoirement sur le « concombre masqué », on peut se demander sur les près de 90’000 résultats retournés quelle est la pertinence du masque hydratant au concombre présenté comme « résultat de recherche » par le moteur en page 19 des résultats …

Méthodologiquement, le moteur de recherche doit s’améliorer, et ceci au moins sur cinq points:

– cesser de confondre PageRank avec pertinence;
– permettre de mieux affiner les recherches en fonction de critères multiples;
– diminuer la quantité au profit de la qualité de l’information fournie;
– éliminer le contenu dupliqué avec beaucoup plus de vigueur
– utiliser plus intelligemment le comportement de l’internaute lors d’une recherche pour qu’il participe à l’amélioration de la topicité des résultats.

Sur ce dernier point on s’étonne que les ingénieurs qui sont si prompts à introduire différents cookies dont le fameux DART dans la gestion publicitaire n’aient pas encore trouvé que du minerai extrait en gros on peut tirer notamment grâce à une meilleure application sémantique et un algorithme renouvelé une véritable source d’informations sans parasites.

A croire presque que cette option de type de recherche relève d’une politique interne non dévoilée.

Dommage.

Tags: , , ,

Catégorie: Médias

Commentaires (3)

Trackback URL | Comments RSS Feed

  1. wallen dit :

    Très bons points Kalvin! Je rejoins tout à fait vos « griefs ». La généralisation de la création de contenus web par l’utilisateur a entrainé une explosion des contenus de qualité. De par leur nature centralisée et « objective », les moteurs de recherche ne sont plus adaptés au nombre et à la richesse de ces contenus. Du coup, les internautes ne trouvent pas les contenus susceptibles de les intéresser.
    En fait, c’est dans la subjectivité et la décentralisation que se trouve une réponse possible. Ce qui est intéressant pour vous, ne l’est pas nécessairement pour moi. Hors, non seulement, Google nous retourne les mêmes résultats mais il ne montre que le sommet de l’iceberg.
    Il serait tout de même plus pertinent que les utilisateurs soient guider à travers le web par… les utilisateurs aux goûts et intérêts similaires. C’est après tout le sens profondément démocratique du web. Mais pour faire cela encore faut-il avoir un moyen, un format pour le faire.
    C’est de ces problèmes qu’est né l’idée de Pearltrees – fournir ce maillon manquant: le moyen pour chacun d’éditer son propre web, c’est-à-dire, de sélectionner et d’organiser des contenus web existants pour guider les autres internautes – et se repérer soi-même… – sur le web.

    Vous l’aurez compris je suis biaisé puisque cofondateur de Pearltrees… mais je ne peux que vous inviter à l’essayer. Pearltrees vous permettra de 1) organiser votre carte du web, 2) guider vos amis avec ces cartes, et 3) explorer le web profond avec les cartes des autres utilisateurs.
    Désolé pour ce long laïus sur votre blog mais votre billet était tellement « dans le mil » que je n’ai pu m’empêcher.

  2. michael dit :

    Sans vouloir être méchant cet article manque singulièrement de sérieux…

    Déjà, il y a longtemps que le lien entre pagerank et positionnement a disparu. Ce sont 2 concepts différents. De plus, il faut faire la différence entre pagerank « visible » et le véritable pagerank d’une page, connu seulement de Google.

    Il existe également de nombreux critères de recherche. Mettre « concombre masqué » entre guillemets recherche uniquement cette phrase, ce qui est un gage de pertinence. A requêtes vagues, résultats vagues! Bien sûr Google est loin d’être parfait. Mais pour moi, ça a un sens de retourner une page parlant de masques au concombres pour une telle requête….Google prend en compte l’ordre des mots, mais le « trustrank » (en gros la réputation d’un site) du site entre aussi en ligne de compte. Oubliez le PageRank, c’est dépassé…

    Concernant l’interaction des utilisateurs avec les résultats, ça fait un moment que c’est à l’étude, au grand dam des référenceurs de sites. Comparez simplement vos résultats en étant connecté à votre compte Google ou pas. C’est un aperçu des évolutions à venir.

    Le nombre de résultats (par ex. 395’000) est approximatif (sans doute pour ne pas devoir attendre 3 plombes avant que les calculs tombent)! Essayez d’aller jusqu’à la page 20, vous verrez que Google affine sensiblement ce nombre.

    A mon avis ce qui pose vraiment problème avec Google est son énorme appétit monopolistique, son « biais » quand il s’agit de classer ses propres sites. Bientôt, une recherche Google ne retournera plus qu’une Google Map, Knol (le clône de Wikipedia made in Google), Google News et Google Code! A quand des résultats ne pointant QUE sur les domaines @google.com… D’ailleurs, Google souhaite augmenter la taille de la description des sites dans les pages de résultats, ce qui pose de gros problèmes de copyright, et de traffic! Imaginez que vous n’ayez plus à quitter la page de résultats pour trouver votre réponse. ça m’arrive déjà souvent, vu que le terme/la phrase est affiché(e) en gras là où il apparaît dans la page.

    Et n’oubliez pas que chaque jour, partout dans le monde, des milliers de personnes tentent d’abuser de l’algorythme…ce qui explique une partie des résultats non pertinents. Etant donné le volume de merde que Google avale chaque jour, je trouve qu’il s’en sort encore assez bien, du point de vue strictement recherche/alogrythme, encore faut-il qu’il communique mieux sur les façons d’utiliser son moteur (les caractères spéciaux, etc.)

  3. kalvin dit :

    Algorythme ???? kesako : algorithme c’est plus sérieux. 😉

Laisser un commentaire