Articles

Optimisation des moteurs de recherche

Les webmasters et les fournisseurs de contenu ont commencé à optimiser les sites Web pour les moteurs de recherche au milieu des années 1990, alors que les premiers moteurs de recherche cataloguaient les premiers sites Web. Initialement, tous les webmasters n’avaient besoin que de soumettre l’adresse d’une page, ou d’une URL, aux différents moteurs qui enverraient un robot d’exploration Web pour explorer cette page, en extraire des liens vers d’autres pages et renvoyer les informations trouvées sur la page à indexer. Le processus implique qu’une araignée de moteur de recherche télécharge une page et la stocke sur le propre serveur du moteur de recherche. Un deuxième programme, appelé indexeur, extrait des informations sur la page, telles que les mots qu’elle contient, leur emplacement et le poids de mots spécifiques, ainsi que tous les liens que contient la page. Toutes ces informations sont ensuite placées dans un planificateur pour une exploration ultérieure.

Les propriétaires de sites Web ont reconnu la valeur d’un classement élevé et d’une visibilité dans les résultats des moteurs de recherche, créant une opportunité pour les praticiens du référencement White hat et black hat. Selon l’analyste de l’industrie Danny Sullivan, l’expression « optimisation des moteurs de recherche » est probablement entrée en usage en 1997. Sullivan attribue Bruce Clay comme l’une des premières personnes à populariser le terme.

Les premières versions des algorithmes de recherche reposaient sur des informations fournies par les webmasters, telles que la balise meta ou les fichiers d’index dans des moteurs comme ALIWEB. Les balises meta fournissent un guide pour le contenu de chaque page. Cependant, l’utilisation de métadonnées pour indexer les pages s’est avérée moins fiable, car le choix des mots-clés par le webmaster dans la balise meta pourrait potentiellement être une représentation inexacte du contenu réel du site. Des données inexactes, incomplètes et incohérentes dans les balises meta pouvaient et causaient un classement des pages pour des recherches non pertinentes. Les fournisseurs de contenu Web ont également manipulé certains attributs dans la source HTML d’une page pour tenter de bien se classer dans les moteurs de recherche. En 1997, les concepteurs de moteurs de recherche ont reconnu que les webmasters faisaient des efforts pour bien se classer dans leur moteur de recherche et que certains webmasters manipulaient même leur classement dans les résultats de recherche en bourrant les pages de mots clés excessifs ou non pertinents. Les premiers moteurs de recherche, tels que Altavista et Infoseek, ont ajusté leurs algorithmes pour empêcher les webmasters de manipuler les classements.

En s’appuyant fortement sur des facteurs tels que la densité de mots clés, qui étaient exclusivement sous le contrôle d’un webmaster, les premiers moteurs de recherche ont souffert d’abus et de manipulation du classement. Pour fournir de meilleurs résultats à leurs utilisateurs, les moteurs de recherche ont dû s’adapter pour s’assurer que leurs pages de résultats affichaient les résultats de recherche les plus pertinents, plutôt que des pages sans rapport remplies de nombreux mots-clés par des webmasters peu scrupuleux. Cela signifiait s’éloigner de la forte dépendance à la densité des termes pour adopter un processus plus holistique de notation des signaux sémantiques. Étant donné que le succès et la popularité d’un moteur de recherche sont déterminés par sa capacité à produire les résultats les plus pertinents pour une recherche donnée, des résultats de recherche de mauvaise qualité ou non pertinents pourraient amener les utilisateurs à trouver d’autres sources de recherche. Les moteurs de recherche ont réagi en développant des algorithmes de classement plus complexes, en tenant compte de facteurs supplémentaires plus difficiles à manipuler pour les webmasters.

Les entreprises qui utilisent des techniques trop agressives peuvent faire bannir les sites Web de leurs clients des résultats de recherche. En 2005, le Wall Street Journal a fait état d’une entreprise, Traffic Power, qui aurait utilisé des techniques à haut risque et omis de divulguer ces risques à ses clients. Le magazine Wired a rapporté que la même société avait poursuivi le blogueur et SEO Aaron Wall pour avoir écrit sur l’interdiction. Matt Cutts de Google a confirmé plus tard que Google interdisait en fait la puissance du trafic et certains de ses clients.

Certains moteurs de recherche ont également contacté l’industrie du référencement, et sont des sponsors et des invités fréquents lors de conférences, de webchats et de séminaires sur le référencement. Les principaux moteurs de recherche fournissent des informations et des directives pour aider à l’optimisation du site Web. Google a un programme de Sitemaps pour aider les webmasters à savoir si Google rencontre des problèmes d’indexation de leur site Web et fournit également des données sur le trafic Google vers le site Web. Bing Webmaster Tools permet aux webmasters de soumettre un plan du site et des flux Web, permet aux utilisateurs de déterminer le « taux d’exploration » et de suivre l’état de l’index des pages Web.

En 2015, il a été signalé que Google développait et promouvait la recherche mobile comme une fonctionnalité clé dans les futurs produits. En réponse, de nombreuses marques ont commencé à adopter une approche différente de leurs stratégies de marketing Internet.

Relation avec Google

En 1998, deux étudiants diplômés de l’Université de Stanford, Larry Page et Sergey Brin, ont développé « Backrub », un moteur de recherche qui s’appuyait sur un algorithme mathématique pour évaluer l’importance des pages Web. Le nombre calculé par l’algorithme, PageRank, est fonction de la quantité et de la force des liens entrants. PageRank estime la probabilité qu’une page donnée soit atteinte par un internaute qui navigue au hasard sur le web et suit des liens d’une page à l’autre. En effet, cela signifie que certains liens sont plus forts que d’autres, car une page PageRank plus élevée est plus susceptible d’être atteinte par l’internaute aléatoire.

Page et Brin ont fondé Google en 1998. Google a attiré un public fidèle parmi le nombre croissant d’internautes, qui ont aimé son design simple. Les facteurs hors page (tels que l’analyse de PageRank et d’hyperliens) ont été pris en compte ainsi que les facteurs sur la page (tels que la fréquence des mots clés, les balises méta, les titres, les liens et la structure du site) pour permettre à Google d’éviter le type de manipulation vu dans les moteurs de recherche qui ne prenaient en compte que les facteurs sur la page pour leur classement. Bien que le PageRank soit plus difficile à jouer, les webmasters avaient déjà développé des outils et des schémas de création de liens pour influencer le moteur de recherche Inktomi, et ces méthodes se sont révélées également applicables au PageRank de jeu. De nombreux sites se sont concentrés sur l’échange, l’achat et la vente de liens, souvent à grande échelle. Certains de ces systèmes, ou fermes de liens, impliquaient la création de milliers de sites dans le seul but de spam de liens.

En 2004, les moteurs de recherche avaient intégré un large éventail de facteurs non divulgués dans leurs algorithmes de classement afin de réduire l’impact de la manipulation des liens. En juin 2007, Saul Hansell du New York Times a déclaré que Google classait les sites en utilisant plus de 200 signaux différents. Les principaux moteurs de recherche, Google, Bing et Yahoo, ne divulguent pas les algorithmes qu’ils utilisent pour classer les pages. Certains praticiens du référencement ont étudié différentes approches de l’optimisation des moteurs de recherche et ont partagé leurs opinions personnelles. Les brevets liés aux moteurs de recherche peuvent fournir des informations pour mieux comprendre les moteurs de recherche. En 2005, Google a commencé à personnaliser les résultats de recherche pour chaque utilisateur. En fonction de l’historique des recherches précédentes, Google a créé des résultats pour les utilisateurs connectés.

En 2007, Google a annoncé une campagne contre les liens payants qui transfèrent le PageRank. Le 15 juin 2009, Google a révélé avoir pris des mesures pour atténuer les effets de la sculpture de PageRank en utilisant l’attribut nofollow sur les liens. Matt Cutts, un ingénieur logiciel bien connu chez Google, a annoncé que Google Bot ne traiterait plus les liens nofollow, de la même manière, pour empêcher les fournisseurs de services de référencement d’utiliser nofollow pour la sculpture de PageRank. À la suite de ce changement, l’utilisation de nofollow a entraîné l’évaporation du PageRank. Afin d’éviter ce qui précède, les ingénieurs SEO ont développé des techniques alternatives qui remplacent les balises non suivies par du JavaScript obscurci et permettent ainsi la sculpture de PageRank. De plus, plusieurs solutions ont été suggérées qui incluent l’utilisation d’iframes, de Flash et de JavaScript.

En décembre 2009, Google a annoncé qu’il utiliserait l’historique de recherche Web de tous ses utilisateurs afin de remplir les résultats de recherche. Le 8 juin 2010, un nouveau système d’indexation Web appelé Google Caffeine a été annoncé. Conçu pour permettre aux utilisateurs de trouver des résultats d’actualités, des publications sur le forum et d’autres contenus beaucoup plus tôt après la publication qu’auparavant, Google Caffeine a été un changement dans la façon dont Google a mis à jour son index afin de rendre les choses plus rapides sur Google qu’auparavant. Selon Carrie Grimes, l’ingénieur logiciel qui a annoncé Caffeine pour Google, « La caféine fournit des résultats 50% plus frais pour les recherches sur le Web que notre dernier indice… »Google Instant, la recherche en temps réel, a été introduite fin 2010 dans le but de rendre les résultats de recherche plus opportuns et pertinents. Historiquement, les administrateurs de sites ont passé des mois, voire des années à optimiser un site Web pour augmenter le classement des recherches. Avec la croissance de la popularité des sites de médias sociaux et des blogs, les principaux moteurs ont apporté des modifications à leurs algorithmes pour permettre au contenu frais de se classer rapidement dans les résultats de recherche.

En février 2011, Google a annoncé la mise à jour Panda, qui pénalise les sites Web contenant du contenu dupliqué à partir d’autres sites Web et sources. Historiquement, les sites Web ont copié du contenu les uns des autres et ont bénéficié du classement des moteurs de recherche en s’engageant dans cette pratique. Cependant, Google a mis en place un nouveau système qui punit les sites dont le contenu n’est pas unique. Le Pingouin Google de 2012 a tenté de pénaliser les sites Web qui utilisaient des techniques de manipulation pour améliorer leur classement sur le moteur de recherche. Bien que Google Penguin ait été présenté comme un algorithme visant à lutter contre le spam sur le Web, il se concentre vraiment sur les liens de spam en évaluant la qualité des sites d’où proviennent les liens. La mise à jour de Google Hummingbird de 2013 comportait un changement d’algorithme conçu pour améliorer le traitement du langage naturel et la compréhension sémantique des pages Web de Google. Le système de traitement du langage de Hummingbird relève du terme nouvellement reconnu de « recherche conversationnelle » où le système accorde plus d’attention à chaque mot de la requête afin de mieux faire correspondre les pages au sens de la requête plutôt que quelques mots. En ce qui concerne les modifications apportées à l’optimisation des moteurs de recherche, pour les éditeurs de contenu et les rédacteurs, Hummingbird vise à résoudre les problèmes en se débarrassant du contenu non pertinent et du spam, permettant à Google de produire du contenu de haute qualité et de compter sur eux pour être des auteurs « de confiance ».

En octobre 2019, Google a annoncé qu’il commencerait à appliquer des modèles BERT pour les requêtes de recherche en langue anglaise aux États-Unis. Les représentations par encodeur bidirectionnel à partir de transformateurs (BERT) étaient une autre tentative de Google pour améliorer leur traitement du langage naturel, mais cette fois-ci afin de mieux comprendre les requêtes de recherche de leurs utilisateurs. En termes d’optimisation des moteurs de recherche, BERT avait l’intention de connecter plus facilement les utilisateurs à des contenus pertinents et d’augmenter la qualité du trafic vers les sites Web qui se classent dans la Page de résultats des moteurs de recherche.