Utsav Gandhi discute des conclusions de la fuite Google SEO de mai 2024, qui a donné aux analystes un aperçu novateur, bien que spéculatif, de la manière dont Google pourrait choisir de promouvoir et de rétrograder du contenu. Les résultats ont des implications possibles pour les entreprises et les agences de presse qui luttent pour rivaliser pour obtenir des opinions et suggèrent que la transparence pourrait devenir un facteur croissant sur le futur marché de la recherche à mesure que de nouveaux concurrents basés sur l’intelligence artificielle entrent sur le marché.
Depuis le lancement de Google en 1998 jusqu’à l’adoption généralisée de la technologie mobile, en passant par l’essor des assistants vocaux et l’évolution rapide du paysage actuel de l’intelligence artificielle, l’expérience de recherche d’informations en ligne semble être restée cohérente et fiable. Mais peut-être pour la première fois, la recherche Google, qui domine le marché de la recherche sur Internet depuis plus de deux décennies, se trouve à un tournant décisif et pourrait basculer sous nos yeux dans les prochaines années.
Google est confronté à plusieurs écueils sur le marché en évolution soudaine de son produit principal : il a fait l’objet d’une surveillance étroite pour avoir monopolisé le marché de la recherche, réduire clique sur les sites d’information en faveur des résumés générés par l’IA et joue librement avec la confidentialité des données. En outre, les utilisateurs, en particulier les entreprises qui s’appuient sur la recherche Google pour la publicité et la diffusion de contenu, sont depuis longtemps frustrés par la structure secrète de l’architecture sous-jacente de la recherche Google et par les signaux qu’ils doivent envoyer pour aider les utilisateurs à trouver leur contenu, ou « optimisation pour les moteurs de recherche ». (Référencement).
Jouant un rôle crucial dans la façon dont les informations sont classées, présentées et affichées aux consommateurs, le référencement a engendré un 74 milliards de dollars secteur, principalement dans les pratiques de conseil et de marketing qui exploitent les règles de Google pour organiser le contenu du Web. Les règles et les algorithmes qui déterminent le référencement de Google entraînent souvent des moments décisifs pour les petites entreprises ou les organisations médiatiques. Au fil des ans, Google est resté plutôt discret sur le fonctionnement du référencement, mais un récent fuir de documents internes (code daté de mars 2024) pourraient fournir certaines des révélations les plus complètes à ce jour. Bien que la fuite ne comporte que des noms de variables utilisés dans les données brutes pour le référencement, mais rien sur les algorithmes sous-jacents en soi, elle pourrait avoir des implications pour l’avenir de la recherche Google dans un marché qui flirte avec l’introduction de nouveaux concurrents sérieux. Google, de son côté, a confirmé l’authenticité de la fuite, mais a indiqué que certains documents pourraient être obsolètes ou incomplets.
Les informations issues de la fuite peuvent être considérées comme les ingrédients de la manière dont Google gère le référencement plutôt que comme la recette de la façon dont ces différents ingrédients sont pesés dans le résultat final. Plus de 2 500 modules (ou pages représentant différents composants du référencement) ont été divulgués dans la documentation du code API du « Content API Warehouse » interne de Google, mettant en lumière plus de 14 000 attributs (caractéristiques ou signaux que Google peut utiliser pour déterminer le classement). Une documentation telle que cet « entrepôt » existe dans presque toutes les entreprises technologiques, aidant à familiariser le personnel interne d’un projet avec les données disponibles pour celui-ci. Cependant, il est rarement vu par le public. Experts en référencement Rand Fishkin et Mike Roi a d’abord révélé des informations sur la fuite et publié de manière indépendante des analyses des documents et de leur contenu.
Les nouvelles informations révèlent des attributs dont les spécialistes du marketing et les experts en référencement soupçonnaient l’existence, ainsi que des éléments dont ils ignoraient même qu’ils pouvaient être suivis :
1. Elle a confirmé l’existence de « twiddlers » – des algorithmes de reclassement qui peuvent améliorer ou rétrograder le contenu avec des pénalités ou des récompenses. Il semble intuitif que ces algorithmes définissent la manière dont Internet nous est structuré et présenté, mais le problème ici est le manque de transparence supplémentaire sur la nature, la portée et l’impact de ces algorithmes. S’il s’agit d’algorithmes de « reclassement », quand et comment sont-ils déployés exactement ? Quand précisément le contenu est-il rétrogradé ou amélioré ?
2. Certains attributs exposés dans la fuite suggèrent que Google détecte le caractère commercial d’une page ou d’un document, ce qui peut être utilisé pour empêcher qu’une page soit prise en compte pour une requête à visée informative. Prenons, par exemple, un utilisateur recherchant la « Coupe Stanley » (le trophée décerné au vainqueur du championnat de la Ligue nationale américaine de hockey) ou recherchant des coupes Stanley (des gobelets géants devenus viraux sur TikTok). Cela semble utile, mais des données supplémentaires sur les taux d’erreur (faux positifs et faux négatifs) seraient utiles, en particulier pour les chercheurs.
3. La fuite a confirmé l’importance de facteurs de classement précédemment connus, tels que la qualité du contenu (« EAT » ou expérience-autorité-confiance comme décrit dans le monde du référencement), les backlinks (hyperliens d’un site Web à un autre), le contenu régulièrement mis à jour et mesures d’interaction des utilisateurs (clics, temps passé sur le site, etc.) Plus le nombre de ces facteurs inclus dans une page de site Web est élevé, plus son classement est élevé. La fuite a également montré que Google garde une trace des sujets publiés par une page Web (par exemple, ProMarket publiant de manière approfondie sur l’antitrust) et dans quelle mesure chaque page (sur ProMarket, par exemple) diffère de ce sujet plus large (antitrust). Encore une fois, c’est dans ces facteurs que la valeur de la fuite est notable, même si elle se limite aux « ingrédients » mais pas à la « recette ».
La fuite révèle également des informations contraires à plusieurs affirmations sur le référencement faites par Google au fil des ans :
1. Historiquement, Google a refusé que les taux de clics sont importants dans le classement SEO (c’est-à-dire que si le troisième résultat d’une page est cliqué plus souvent que le premier, il passera, au fil du temps, au deuxième ou au premier résultat). Selon les analystes SEO, la fuite suggère le contraire. Cela pourrait avoir des conséquences (au moins à l’ère de l’aperçu de la recherche avant l’IA) pour le « clickbait », car essentiellement, ce que les utilisateurs cliquent sur une page de résultats de recherche est le titre des pages Web.
2. Google a revendiqué que le classement des sites Web ne suit pas un modèle de « bac à sable » ; qu’il n’y a pas de règle pour que les sites Web les plus récents attendent d’être mieux classés. La fuite suggère le contraire en révélant une métrique appelée « hostAge ». Pourquoi Google collecterait-il des données sur l’âge d’un site Web s’il ne les utilise pas ?
3. Google a également affirmé que si de nombreuses personnes cliquent sur un site Web, sa page Web sera bien classée et qu’il n’utilisera pas les données de Google Chrome pour son classement. La fuite suggère le contraire : de nombreux mécanismes ont été mis en place pour que Google puisse collecter des données Chrome depuis des années, et soulève des questions sur la finalité de la collecte des données, voire de leur utilisation. Par exemple, la motivation initiale derrière le lancement de Google Chrome était de collecter davantage de données sur le parcours, un journal détaillé de l’activité d’un utilisateur, y compris les pages qu’il visite, le temps qu’il passe sur chaque page et où il va ensuite. Des recherches récentes ont également mis en lumière la manière dont Chrome aide Google à consolider sa domination.
4. Peut-être plus important encore pour les petits sites Web, les documents divulgués indiquent que même si Google ne met pas nécessairement le feu à leur visibilité, il ne fait pas non plus tout son possible pour les valoriser. En un morceau publié récemmentune entreprise appelée HouseFresh qui évalue et examine les purificateurs d’air, décrit comment ils ont « pratiquement disparu » des résultats de recherche : le trafic de recherche a diminué de 91 % ces derniers mois, passant d’environ 4 000 visiteurs par jour en octobre 2023 à 200 par jour en 2024. La baisse du trafic vers HouseFresh a coïncidé avec une série de modifications de l’algorithme de Google, après quoi les critiques de HouseFresh ont commencé à être enterrées sous les recommandations des publications de marque. “Il semblait que les sociétés de médias s’emparaient des revenus de leurs affiliés sans l’expertise que des sites comme HouseFresh avaient travaillé dur pour cultiver – et il semblait que Google les récompensait pour cela”, explique ceci. analyse.
D’autres chercheurs ont exprimé d’importantes inquiétudes quant à l’emprise de Google sur les informations politiques et sanitaires, simplement en raison de sa domination dans la recherche. De même, la fuite a révélé que pendant la pandémie de Covid-19, Google a utilisé des listes blanches pour les sites Web qui pouvaient figurer en bonne place dans les résultats des recherches liées au Covid. De même, lors d’élections démocratiques, Google a utilisé des listes blanches pour les sites qui devraient être affichés (ou rétrogradés) pour obtenir des informations liées aux élections. Il y a des références à plusieurs endroits aux indicateurs pour « isCovidLocalAuthority » et « isElectionAuthority » dans la documentation. Encore une fois, la fuite ne fournit pas d’informations supplémentaires sur la manière dont ces autorités sont déterminées.
La fuite souligne la complexité et l’opacité dans lesquelles les propriétaires de petites entreprises et les organisations médiatiques doivent composer pour maintenir une présence en ligne et générer des revenus. En tant que moteur de recherche (avec plus de 90 % du marché de la recherche aux États-Unis), Google détermine le contenu des actualités et les entreprises que les gens voient. Le référencement de Google est l’un des principaux déterminants de la concurrence dans l’économie en ligne et hors ligne. Sans accès à ses règles, les entreprises se livrent à un jeu de devinettes pour rivaliser entre elles.
La fuite soulève également des inquiétudes quant à la prise au pied de la lettre de la messagerie d’entreprise et à la nécessité pour les spécialistes du marketing de continuer à expérimenter en coordination avec la conception de l’expérience utilisateur et les communications de contenu. Cela soulève la question de savoir si les mêmes règles s’appliquent aux propriétés Web de Google, telles que Travel, Shopping et Flights.
La fuite a également des conséquences sur la position précaire de Google dans le paysage de la recherche en évolution rapide. Un groupe de nouveaux concurrents ont émergé et fonctionnent sur des logiciels d’IA naissants. Il s’agit notamment du concurrent direct d’OpenAI récemment annoncé par Google (« SearchGPT »), du moteur de recherche longtemps ignoré de Microsoft, Bing (maintenant alimenté par ChatGPT) et de son assistant d’IA Copilot, et de Perplexity, un chatbot de haut niveau alimenté par l’IA. La qualité de ces nouveaux moteurs de recherche varie, mais ils injectent de la concurrence sur un marché depuis longtemps stagnant. Le manque de transparence de Google sur ses règles de référencement en matière de recherche a frustré ses utilisateurs. Pendant plus d’une décennie, les utilisateurs n’avaient que peu de choix dans leur moteur de recherche, et Google pouvait potentiellement manipuler son référencement sans perdre de consommateurs. Ce n’est peut-être plus le cas.
Au récent Lors de la conférence antitrust et sur la concurrence du Stigler Center, l’auteur et défenseur Cory Doctorow a révélé qu’il avait commencé à payer 10 $ par mois pour utiliser un nouveau moteur de recherche appelé Kagi. Au lieu de monétiser les utilisateurs à des fins de marketing ciblé, Kagi propose trois niveaux de tarification mensuels qui offrent une expérience de recherche personnalisée et sans publicité. où les « incitations de votre fournisseur d’informations sont alignées sur ce qui est le mieux pour vous, et non sur ce qui est le mieux pour les annonceurs ». Doctorow a déclaré lors de la conférence : « Le problème n’est pas que Google nous gratte. Le problème est que nous ne pouvons pas supprimer Google. En d’autres termes, nous ne savons pas pourquoi Google nous montre les informations qu’il nous montre. La fuite SEO de Google n’a pas suscité d’indignation, mais elle a soulevé des questions sur la transparence. Même si Google ignore la fuite et les questions qu’elle soulève, il aura beaucoup plus de mal à ignorer les nouveaux concurrents de recherche qui pourraient offrir aux consommateurs des services de meilleure qualité et peut-être plus transparents.
Divulgation de l’auteur : l’auteur ne signale aucun conflit d’intérêts. Vous pouvez lire notre politique de divulgation ici.
Les articles représentent les opinions de leurs auteurs, pas nécessairement celles de l’Université de Chicago, de la Booth School of Business ou de ses professeurs.