Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».
Un élément meta (ou métaélément, ou balise meta, ou meta tag par analogie avec l’anglais) est une information qui porte sur la nature et le contenu d’une page web, ajoutée dans l’en-tête de la page au moyen de marqueurs HTML.
Cependant, tous les moteurs de recherche n’emploient pas des balises meta. Il existe d'ailleurs d’autres utilisations possibles des balises meta (classifications, travail collaboratif, etc.).
Paramétrages
La structure des métaéléments est beaucoup plus simple que celle de tous les autres éléments HTML, avec seulement deux attributs nécessaires pour fonctionner[1] :
<meta name="propriété" content="valeur" />
L'attribut name indique le type de contenu d'information dans la balise.
L'attribut content fait référence au contenu d'information.
Les premiers attributs sont codifiés par un numéro limité et exprimés par un mot spécifique, les seconds sont variables et sont contextualisés en fonction du site ou de la page auquel ils font référence.
Les métaéléments fournissent de l'information sur une page web donnée, le plus souvent pour aider les moteurs de recherche à les catégoriser correctement. Ils sont insérés dans le document HTML, mais, le plus souvent, ne sont pas directement visibles pour un utilisateur qui visite le site.
Ils ont fait l'objet d'un champ de recherche marketing, connu sous le nom d'optimisation pour les moteurs de recherche (Search Engine Optimization, SEO), dans lequel on explore différentes méthodes pour fournir au site web d'un utilisateur un meilleur rang dans les moteurs de recherche. Dans le milieu des années 1990 et jusqu'à 1999, les moteurs de recherche s'appuyaient sur les métadonnées pour classifier correctement une page web et les webmasters apprenaient rapidement l'importance commerciale qu'il y avait à placer le bon métaélément, puisque cela menait fréquemment à un rang élevé dans les moteurs de recherche — et ainsi apportait un gros trafic sur le site web.
Puisque le trafic sur les moteurs de recherche prenait de plus en plus d'importance dans les plans de marketing en ligne, les consultants ont été amenés à étudier comment les moteurs de recherche percevaient un site web. Ces consultants utilisaient diverses techniques (légitimes et autres) pour améliorer le rang pour trouver des clients.
Les métaéléments ont aujourd'hui perdu de leur efficacité sur les pages de résultats des moteurs de recherche par rapport aux années 1990, et leur utilité a considérablement diminué alors que les robots des moteurs de recherche sont devenus plus sophistiqués. En 2009, Google a même expliqué qu'il ne tenait plus compte des métadonnées "keywords" dans le classement de ses résultats[2]. Ceci est dû en partie à la re-occurrence presque infinie (key stuffing) des métaéléments et/ou aux tentatives, de la part de consultants en installation de sites web peu scrupuleux, de manipuler (référencement abusif) ou de modifier les algorithmes sur le rang d'un moteur de recherche. Alors que l'optimisation d'un site web peut améliorer le rang d'un moteur de recherche, les consommateurs de tels services devraient prendre soin de n'employer que des fournisseurs fiables.
Les principaux robots des moteurs de recherche ont plus d'aptitude à quantifier des facteurs tels que le volume des liens entrants de sites web sans rapport, la quantité et la qualité du contenu, la précision technique du code source, l'orthographe, les hyperliens en fonction par rapport aux liens inactifs, le volume et la cohérence des recherches et/ou du trafic des internautes, le temps passé sur le site web, les visites, revisites, clics, caractéristiques techniques, l'unicité, la redondance, la pertinence, le champ de revenu pour la publicité, freshness, géographie, la langue et d'autre caractéristiques intrinsèques.
Influence sur la performance de visibilité
Des travaux académiques, par exemple ceux de Zhang & Dimitroff, en 2004, ont abouti à la conclusion que « les pages web comportant des éléments de métadonnées obtiennent une meilleure performance de visibilité que celles qui n'ont pas d'éléments de métadonnées ».
Google n'utilise pas d'éléments de mots-clés HTML pour l'indexation. On a rapporté une citation de Monika Henziger, directrice de recherche de Google, en 2002, qui disait : « Actuellement nous ne faisons pas confiance aux métadonnées » [3].
D'autres moteurs de recherche ont développé des techniques pour pénaliser les sites web considérés comme « truquant le système ». Par exemple, un site web qui répète le même meta keyword plusieurs fois peut voir son rang décroître par un moteur de recherche qui essaie d'éliminer cette pratique, bien que cela soit improbable. Il est plus probable qu'un moteur de recherche va ignorer complètement l'élément meta keyword, et la plupart le font sans se préoccuper du nombre de mots utilisés dans l'élément.
En plus des systèmes complètement automatisés comme les moteurs de recherche, les métadonnées fournies par des auteurs de sites web peuvent être utilisées dans les cas où le contenu de la page a été validé comme fiable par un lecteur.
Cette pratique s'appelle le partage de signets. Le partage de signets peut avoir une finalité sociale (social bookmarking en anglais) ou professionnelle (collaborative bookmarking). Il existe des outils capables de faire du partage de signets.
Utilisation dans les classifications
Les éléments meta sont largement utilisés dans les classifications, telles que Thésaurus, Taxonomies ou encore Ontologies.
Plus le niveau de formalisation et de structuration du schéma de classification employé est élevé, plus les éléments meta, alliés aux éléments de lien (élément link) ont de valeur ajoutée.
Attributs
Avertissement
La liste d'attributs ci-dessous est donnée à titre informatif.
Il n'existe pas de normalisation sur l'utilisation des attributs, sauf peut-être, pour le gouvernement des États-Unis, le standard Dublin Core (attributs commençant par "DC" dans la liste ci-dessous).
En France, les webmestres emploient en général les métaéléments par rapport à des communautés relativement restreintes (limitées aux entreprises et leurs partenaires, ou à un domaine particulier de l'entreprise).
Si par exemple on prend le Dublin Core qualifié (rappel : non officiel dans l'Union européenne), on constate que les métaéléments peuvent être des éléments de données ou bien des raffinements d'éléments de données.
Description des principaux attributs et de leurs utilisations
L'attribut keywords
L'attribut keywords a été popularisé par les moteurs de recherche comme Infoseek ou AltaVista en 1995, et sa popularité a augmenté rapidement jusqu'à ce qu'il devienne l'un des éléments meta les plus utilisés. Vers fin la fin de l'année 1997, cependant, les fournisseurs de moteurs de recherche ont réalisé que l'information enregistrée dans les éléments meta, tout particulièrement l'attribut keywords, n'était pas souvent fiable et pouvait induire en erreur, et au pire, pouvait entraîner les utilisateurs dans des sites spam (des webmestres peu scrupuleux pouvaient placer facilement de faux keywords dans leurs métaéléments pour attirer les gens vers leur site).
Les moteurs de recherche ont commencé à diminuer le support sur les métadonnées fournies par les métaéléments en 1998 et, vers le début des années 2000, la plupart des moteurs de recherche ne s'appuyaient plus du tout sur les métaéléments. En juillet 2002, AltaVista, l'un des derniers moteurs de recherche à offrir encore un support, a finalement arrêté de les prendre en compte. Les nouveaux moteurs de recherche tels que Google et FAST ont toujours analysé les attributs keywords : Google a déclaré publiquement qu'il utilise largement l'attribut keywords comme une méthode de détection des sites web de spam .
L'attribut news_keywords
L'attribut news_keywords a été introduit en 2012 par Google pour aider à classifier les thématiques des articles référencés dans Google Actualités[4]. Elle n'a un impact que pour ce moteur spécialisé (et donc uniquement pour les sites qui font partie des sources prises en compte).
L'attribut description
L'attribut description contient une description concise du contenu d'une page web. À la différence de l'attribut keyword, il est reconnu par la plupart des principaux moteurs de recherche, comme Yahoo et Windows Live Search ; Google s'y réfère lorsqu'une information sur la page est demandée (par exemple avec la requête related:).
Cette balise permet donc aux auteurs de la page de fournir plus d'information que le moteur de recherche ne pourrait en donner automatiquement à partir du contenu de la page. La description est souvent, mais pas toujours, affichée sur les pages de résultat du moteur de recherche, de sorte qu'il peut avoir un impact sur les taux de clics. Au début des années 2000, les commentateurs de l'industrie ont « suggéré » que les principaux moteurs de recherche considèrent aussi les mots-clés situés dans l'attribut description lorsqu'ils classent les pages[5]. Mais en ce qui concerne Google, la balise meta description n'est pas prise en compte dans l'algorithme de classement[6],[7],[8]. Mais grâce à l'impact sur le taux de clics dans les pages de résultats, cette balise aide indirectement à un bon référencement[9].
la valeur noindex empêche une page d'être indexée,
la valeur nofollow empêche les liens d'être suivis par les robots d'indexation,
la valeur noarchive empêche le moteur de recherche d'archiver (mettre en cache) une page.
D'autres valeurs sont disponibles pour influencer l'indexation des pages des moteurs de recherche, et la façon dont ces pages apparaissent dans les résultats de recherche. Pour Google, ces valeurs sont index, follow, all, none, nosnippet, nocache, notranslate, noimageindex, noodp, noydir et unavailable_after[10]. L'attribut robots est supporté par plusieurs moteurs de recherche majeurs[11],[12].
L'attribut lang
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?
Si l'attribut lang est proposé à un moteur uniquement anglophone, paramétré pour refuser les sites d'autres langues, il peut être refusé.
L'attribut coverage
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?
On peut utiliser des éléments Meta refresh pour demander à l'agent utilisateur de rafraîchir automatiquement une page web après un intervalle de temps donné. Il est aussi possible de spécifier une URL alternative et d'utiliser cette technique pour rediriger l'utilisateur vers un site différent.
Cependant, ces redirections et rafraîchissements seront ignorés par une partie des agents utilisateurs (robot d'indexation) et pourront être désactivés dans d'autres (navigateur web). De plus, les rafraîchissement et redirections automatiques gérées de cette manière (côté client) sont explicitement interdites par les normes d'accessibilité des contenus web. En effet, le changement de page non sollicité et non anticipable par l'utilisateur peut le désorienter, et provoque une perte irréparable d'information si son mode d'accès (lecteur d'écran, loupe d'écran, accès clavier, etc.) entraîne un temps de consultation plus long que celui qui est ainsi imposé.
Messages d'en-tête http
Les éléments meta de la forme :
<meta http-equiv="name" content="bar">
peuvent être utilisés comme rappel de l'en-tête http.
Par exemple :
<meta http-equiv="expires" content="Wed, 21 Jun 2006 14:25:27 GMT">
voudrait dire au navigateur web que la page "expire" le 14:25:27 GMT et qu'il peut cacher la page jusqu'à ce moment.
En 1994, Aliweb, qui était pratiquement le premier moteur de recherche, utilisait aussi un fichier d'index pour fournir le type d'information que l'on trouve communément dans les attributs de mots-clés meta.