Comment la compression peut être utilisée pour détecter les pages de mauvaise qualité


Le concept de compressibilité en tant que signal de qualité n’est pas largement connu, mais les référenceurs devraient en être conscients. Les moteurs de recherche peuvent utiliser la compressibilité des pages Web pour identifier les pages en double, les pages de porte avec un contenu similaire et les pages avec des mots-clés répétitifs, ce qui en fait une connaissance utile pour le référencement.

Bien que le document de recherche suivant démontre une utilisation réussie des fonctionnalités sur la page pour détecter le spam, le manque délibéré de transparence de la part des moteurs de recherche rend difficile de dire avec certitude si les moteurs de recherche appliquent cette technique ou des techniques similaires.

Qu’est-ce que la compressibilité ?

En informatique, la compressibilité fait référence à la mesure dans laquelle un fichier (des données) peut être réduit en taille tout en conservant les informations essentielles, généralement pour maximiser l’espace de stockage ou pour permettre la transmission de davantage de données sur Internet.

TL/DR de compression

La compression remplace les mots et expressions répétés par des références plus courtes, réduisant ainsi la taille du fichier de manière significative. Les moteurs de recherche compressent généralement les pages Web indexées pour maximiser l’espace de stockage, réduire la bande passante et améliorer la vitesse de récupération, entre autres raisons.

Voici une explication simplifiée du fonctionnement de la compression :

Identifiez les modèles :
Un algorithme de compression analyse le texte pour trouver des mots, des modèles et des phrases répétés. Les codes plus courts prennent moins de place :
Les codes et symboles utilisent moins d’espace de stockage que les mots et expressions d’origine, ce qui entraîne une taille de fichier plus petite. Les références plus courtes utilisent moins de bits :
Le « code » qui symbolise essentiellement les mots et expressions remplacés utilise moins de données que les originaux.

Un avantage supplémentaire de l’utilisation de la compression est qu’elle peut également être utilisée pour identifier les pages en double, les pages de porte avec un contenu similaire et les pages avec des mots-clés répétitifs.

Document de recherche sur la détection du spam

Ce document de recherche est important car il a été rédigé par d’éminents informaticiens connus pour leurs percées dans les domaines de l’IA, de l’informatique distribuée, de la recherche d’informations et d’autres domaines.

Marc Najork

L’un des co-auteurs du document de recherche est Marc Najork, un éminent chercheur scientifique qui détient actuellement le titre de chercheur émérite chez Google DeepMind. Il est co-auteur des articles pour TW-BERT, a contribué recherche pour accroître la précision de l’utilisation des commentaires implicites des utilisateurs, comme les clicset a travaillé sur la création d’une récupération d’informations améliorée basée sur l’IA (DSI++ : mise à jour de la mémoire du transformateur avec de nouveaux documents), parmi de nombreuses autres avancées majeures dans la recherche d’informations.

Dennis Fetterly

Un autre des co-auteurs est Dennis Fetterlyactuellement ingénieur logiciel chez Google. Il est répertorié comme co-inventeur dans un brevet pour un algorithme de classement qui utilise des lienset est connu pour ses recherches sur l’informatique distribuée et la recherche d’informations.

Ce ne sont là que deux des éminents chercheurs répertoriés comme co-auteurs du document de recherche Microsoft de 2006 sur l’identification du spam grâce aux fonctionnalités de contenu sur la page. Parmi les nombreuses fonctionnalités du contenu de la page analysées par le document de recherche, il y a la compressibilité, qui, selon eux, peut être utilisée comme classificateur pour indiquer qu’une page Web contient du spam.

Détection des pages Web de spam grâce à l’analyse de contenu

Bien que le document de recherche ait été rédigé en 2006, ses conclusions restent pertinentes aujourd’hui.

À l’époque comme aujourd’hui, les utilisateurs tentaient de classer des centaines ou des milliers de pages Web géolocalisées dont le contenu était essentiellement dupliqué en dehors des noms de villes, de régions ou d’États. À l’époque comme aujourd’hui, les référenceurs créaient souvent des pages Web pour les moteurs de recherche en répétant excessivement des mots-clés dans les titres, les méta-descriptions, les titres, le texte d’ancrage interne et dans le contenu pour améliorer les classements.

La section 4.6 du document de recherche explique :

« Certains moteurs de recherche accordent un poids plus élevé aux pages contenant plusieurs fois les mots-clés de la requête. Par exemple, pour un terme de requête donné, une page qui le contient dix fois peut être mieux classée qu’une page qui ne le contient qu’une seule fois. Pour tirer parti de ces moteurs, certaines pages de spam répliquent leur contenu plusieurs fois pour tenter d’obtenir un meilleur classement.

Le document de recherche explique que les moteurs de recherche compressent les pages Web et utilisent la version compressée pour référencer la page Web originale. Ils notent qu’un nombre excessif de mots redondants entraîne un niveau de compressibilité plus élevé. Ils ont donc commencé à tester s’il existait une corrélation entre un niveau élevé de compressibilité et le spam.

Ils écrivent :

« Notre approche dans cette section pour localiser le contenu redondant dans une page consiste à compresser la page ; pour économiser de l’espace et du temps disque, les moteurs de recherche compressent souvent les pages Web après les avoir indexées, mais avant de les ajouter à un cache de pages.

…Nous mesurons la redondance des pages Web par le taux de compression, la taille de la page non compressée divisée par la taille de la page compressée. Nous avons utilisé GZIP… pour compresser les pages, un algorithme de compression rapide et efficace.

Une compressibilité élevée est en corrélation avec le spam

Les résultats de la recherche ont montré que les pages Web présentant un taux de compression d’au moins 4,0 avaient tendance à être des pages Web de mauvaise qualité, appelées spam. Cependant, les taux de compressibilité les plus élevés sont devenus moins cohérents car il y avait moins de points de données, ce qui les rendait plus difficiles à interpréter.

Figure 9 : Prévalence du spam par rapport à la compressibilité de la page.

Les chercheurs ont conclu :

“70 % de toutes les pages échantillonnées avec un taux de compression d’au moins 4,0 ont été considérées comme du spam.”

Mais ils ont également découvert que l’utilisation du taux de compression seul entraînait toujours des faux positifs, dans lesquels les pages non spam étaient identifiées à tort comme spam :

« L’heuristique du taux de compression décrite dans la section 4.6 a donné les meilleurs résultats, identifiant correctement 660 (27,9 %) des pages de spam de notre collection, tout en identifiant mal 2 068 (12,0 %) de toutes les pages jugées.

En utilisant toutes les fonctionnalités mentionnées ci-dessus, la précision de la classification après le processus de validation croisée dix fois est encourageante :

95,4 % de nos pages jugées ont été classées correctement, tandis que 4,6 % ont été mal classées.

Plus précisément, pour la classe de spam 1, 940 des 2 364 pages ont été correctement classées. Pour la classe non-spam, 14 440 des 14 804 pages ont été classées correctement. Par conséquent, 788 pages ont été mal classées.

La section suivante décrit une découverte intéressante sur la façon d’augmenter la précision de l’utilisation des signaux sur la page pour identifier le spam.

Aperçu des classements de qualité

Le document de recherche a examiné plusieurs signaux sur la page, y compris la compressibilité. Ils ont découvert que chaque signal individuel (classificateur) était capable de détecter du spam, mais que le fait de s’appuyer sur un signal unique entraînait le signalement de pages non spam comme spam, communément appelées faux positifs.

Les chercheurs ont fait une découverte importante que toute personne intéressée par le référencement devrait connaître : l’utilisation de plusieurs classificateurs augmente la précision de la détection du spam et diminue le risque de faux positifs. Tout aussi important, le signal de compressibilité identifie uniquement un type de spam, mais pas la gamme complète des spams.

Ce qu’il faut retenir, c’est que la compressibilité est un bon moyen d’identifier un type de spam, mais qu’il existe d’autres types de spam qui ne sont pas détectés par ce signal unique. D’autres types de spam n’ont pas été détectés par le signal de compressibilité.

C’est la partie que tout référenceur et éditeur devrait connaître :

« Dans la section précédente, nous avons présenté un certain nombre d’heuristiques pour analyser les pages Web de spam. Autrement dit, nous avons mesuré plusieurs caractéristiques des pages Web et trouvé des plages de caractéristiques corrélées avec une page considérée comme du spam. Néanmoins, lorsqu’elle est utilisée individuellement, aucune technique ne révèle la plupart du spam dans notre ensemble de données sans signaler de nombreuses pages non spam comme spam.

Par exemple, si l’on considère l’heuristique du taux de compression décrite dans la section 4.6, l’une de nos méthodes les plus prometteuses, la probabilité moyenne de spam pour des taux de 4,2 et plus est de 72 %. Mais seulement 1,5 % environ de toutes les pages se situent dans cette fourchette. Ce nombre est bien inférieur aux 13,8 % de pages de spam que nous avons identifiées dans notre ensemble de données.

Ainsi, même si la compressibilité était l’un des meilleurs signaux pour identifier le spam, elle n’a toujours pas permis de découvrir l’ensemble du spam dans l’ensemble de données utilisé par les chercheurs pour tester les signaux.

Combinaison de plusieurs signaux

Les résultats ci-dessus indiquent que les signaux individuels de faible qualité sont moins précis. Ils ont donc testé en utilisant plusieurs signaux. Ce qu’ils ont découvert, c’est que la combinaison de plusieurs signaux sur la page pour détecter le spam entraînait un meilleur taux de précision avec moins de pages classées à tort comme spam.

Les chercheurs ont expliqué avoir testé l’utilisation de plusieurs signaux :

« Une façon de combiner nos méthodes heuristiques consiste à considérer le problème de détection du spam comme un problème de classification. Dans ce cas, nous souhaitons créer un modèle de classification (ou classificateur) qui, étant donné une page Web, utilisera conjointement les fonctionnalités de la page afin de (correctement, nous l’espérons) la classer dans l’une des deux classes suivantes : spam et non-spam. .»

Voici leurs conclusions sur l’utilisation de plusieurs signaux :

« Nous avons étudié divers aspects du spam basé sur le contenu sur le Web à l’aide d’un ensemble de données réelles provenant du robot d’exploration MSNSearch. Nous avons présenté un certain nombre de méthodes heuristiques pour détecter le spam basé sur le contenu. Certaines de nos méthodes de détection du spam sont plus efficaces que d’autres. Toutefois, lorsqu’elles sont utilisées isolément, nos méthodes peuvent ne pas identifier toutes les pages de spam. Pour cette raison, nous avons combiné nos méthodes de détection de spam pour créer un classificateur C4.5 très précis. Notre classificateur peut identifier correctement 86,2 % de toutes les pages de spam, tout en signalant très peu de pages légitimes comme spam.

Aperçu clé :

L’identification erronée de « très peu de pages légitimes comme spam » a constitué une avancée significative. L’idée importante que toutes les personnes impliquées dans le référencement devraient retenir est qu’un signal à lui seul peut entraîner des faux positifs. L’utilisation de plusieurs signaux augmente la précision.

Cela signifie que les tests SEO de signaux de classement ou de qualité isolés ne donneront pas de résultats fiables auxquels on peut se fier pour prendre des décisions stratégiques ou commerciales.

Points à retenir

Nous ne savons pas avec certitude si la compressibilité est utilisée dans les moteurs de recherche, mais il s’agit d’un signal facile à utiliser qui, combiné à d’autres, pourrait être utilisé pour détecter des types simples de spam, comme des milliers de pages de noms de villes avec un contenu similaire. Pourtant, même si les moteurs de recherche n’utilisent pas ce signal, cela montre à quel point il est facile de détecter ce type de manipulation des moteurs de recherche et que c’est quelque chose que les moteurs de recherche sont parfaitement capables de gérer aujourd’hui.

Voici les points clés de cet article à garder à l’esprit :

Les pages de porte avec du contenu en double sont faciles à détecter car elles se compressent à un taux plus élevé que les pages Web normales. Les groupes de pages Web présentant un taux de compression supérieur à 4,0 étaient principalement du spam. Les signaux de qualité négative utilisés par eux-mêmes pour détecter le spam peuvent conduire à des faux positifs. Dans ce test particulier, ils ont découvert que les signaux de qualité négative sur la page ne détectent que des types spécifiques de spam. Lorsqu’il est utilisé seul, le signal de compressibilité détecte uniquement le spam de type redondance, ne parvient pas à détecter les autres formes de spam et conduit à des faux positifs. Le regroupement des signaux de qualité améliore la précision de la détection du spam et réduit les faux positifs. Les moteurs de recherche ont aujourd’hui une plus grande précision dans la détection du spam grâce à l’utilisation d’une IA comme Spam Brain.

Lisez le document de recherche, accessible depuis la page Google Scholar de Marc Najork :

Détection des pages Web de spam grâce à l’analyse du contenu

Image en vedette par Shutterstock/pathdoc



Source link

Click to rate this post!
[Total: 0 Average: 0]

Leave a Reply

Your email address will not be published. Required fields are marked *

Sorry this site disable right click
Sorry this site disable selection
Sorry this site is not allow cut.
Sorry this site is not allow copy.
Sorry this site is not allow paste.
Sorry this site is not allow to inspect element.
Sorry this site is not allow to view source.
Index