que nous apprenons la fuite de données Google ?


Edit du 30/05/2024 : Google a confirmé l’authenticité des documents. Le porte parole de la firme, Davis Thompson, contacté par The Vergea toutefois mis en garde contre « les hypothèses inexactes sur Search basées sur des informations hors contexte, obsolètes ou incomplètes ».

Google : 2500 pages de documents internes ont été finies

Rand Fishkin, spécialiste du référencement et fondateur de SparkToro, a annoncé ce mardi 28 mai 2024 avoir reçu, de la part d’une source anonyme, une fuite de 2 500 pages de documents internes à Google. Ces documents sont vraisemblablement du Content API Warehouse de l’entreprise et offrent un aperçu du fonctionnement de l’algorithme du moteur de recherche.

Ils laissent entendre que la firme aurait dissimulé certains aspects de son système de référencement, notamment concernant NavBoost, l’outil développé pour améliorer la qualité des résultats de recherche grâce aux données de clics, et l’utilisation des données de Google Chrome pour le classement. des contenus. Rand Fishkin précise avoir consulté des employés de Google ainsi que l’expert technique du référencement, Mike King, pour confirmer la fiabilité des documents.

Il semble s’agir d’un ensemble légitime de documents provenant de la division Recherche de Google et qui contient une quantité extraordinaire d’informations non confirmées auparavant sur le fonctionnement interne de Google, affirme Rand Fishkin.

À cette heure, Google n’a effectué aucune déclaration relative à cette fuite.

Google leak : les informations contenues dans les documents

Les documents révélés sont de nature technique et fournissent principalement des informations sur les données recueillies par Google concernant les pages web et les utilisateurs. Ces éléments permettent de déduire certains critères utiles pour le classement. Voici certaines informations dévoilées.

Google utilise les données de Chrome

Google a toujours affirmé ne pas utiliser les flux de clics issus de Chrome pour réaliser ses classements, mais les documents s’approchent de l’inverse. Rand Fishkin déclare : «Selon moi, Google utilise probablement le nombre de clics sur les pages dans les navigateurs Chrome pour déterminer les URL les plus populaires/importantes d’un site, qui entrent dans le calcul des URL à inclure dans la fonctionnalité sitelinks. »

Selon le spécialiste, la volonté d’analyser les flux de clics était un des principaux motifs ayant mené à la création de Google Chrome en 2008. Par ailleurs, Rand Fishkin indique que « Google utilise probablement le nombre de clics sur les pages des navigateurs Chrome. et l’utiliser pour déterminer les URL les plus populaires/importantes sur un site », afin de définir les pages à inclure dans les liens annexes.

NavBoost utilise les données de clics

L’existence de NavBoost a été révélée en octobre 2023 par Pandu Nayak, vice-président de la recherche chez Google, lors d’un témoignage devant le département de la Justice des États-Unis. Les documents apportent des précisions supplémentaires sur son fonctionnement, indiquant que NavBoost comptabilise le nombre de clics, analyse le taux de rebond sur les pages et évalue la fiabilité des clics. À nouveau, Google avait jusqu’ici toujours démenti utiliser des signaux utilisateur centrés sur le clic.

Des filtres sont ajoutés sur certains sujets sensibles

Pour certaines requêtes sensibles, telles que celles liées au COVID ou aux élections, Rand Fishkin souligne que Google a mis en place des « listes blanches ». Celles-ci visent à privilégier des sites jugés fiables, tels que des autorités gouvernementales. Cette liste peut également s’étendre au domaine privé, comme des sites de voyage.

Google identifie les auteurs de contenus

Selon Rand Fishkin, le critère EEAT (expérience, expertise, autorité et fiabilité), pourtant mis en avant par Google, pourrait « ne pas avoir d’importance aussi directe que certains référenceurs le pensent », étant donné qu’il n’est mentionné. dans aucun des documents divulgués. En revanche, la fuite révèle que Google collecte des données relatives aux auteurs, notamment un champ destiné à identifier si une entité sur la page est l’auteur de celle-ci. Jusqu’à présent, Google affirmait que les pages d’auteurs visaient principalement à améliorer l’expérience des visiteurs, sans influencer le classement.

Les index de liens sont classés selon trois niveaux

Google classe ses index de liens en trois niveaux : faible, moyen et élevé. Selon le nombre de clics et la source des clics, les liens seront pris en compte ou non dans le classement du site. Rand Fishkin illustre cette information avec l’exemple suivant :

« – Si Forbes.com/Cats/ n’a aucun clic, il entre dans l’index de mauvaise qualité et le lien est ignoré,
– Si Forbes.com/Dogs/ enregistre un volume élevé de clics provenant d’appareils vérifiables (…), il entre dans l’index de haute qualité et le lien transmet les signaux de classement.

Les liens privilégiés comme « fiables » peuvent transmettre du PageRank, tandis que ceux de mauvaise qualité sont ignorés et n’affectent donc pas négativement le classement du site.



Source link

Click to rate this post!
[Total: 0 Average: 0]

Leave a Reply

Your email address will not be published. Required fields are marked *

Sorry this site disable right click
Sorry this site disable selection
Sorry this site is not allow cut.
Sorry this site is not allow copy.
Sorry this site is not allow paste.
Sorry this site is not allow to inspect element.
Sorry this site is not allow to view source.
Index