PageRank

Illustration du PageRank.

Le PageRank[a] ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google. Il mesure quantitativement la popularité d'une page web. Le PageRank n'est qu'un indicateur parmi d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google[1]. Ce mot est une marque déposée.

Le théorème du point fixe pour les applications contractantes garantit que le calcul du PageRank est possible et donne un résultat fini[réf. nécessaire].

Fonctionnement

Le PageRank d'une page a tendance à être d'autant plus élevé que la somme des PagesRanks des pages qui pointent vers elle est élevée.

Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes). Le PageRank est une mesure de centralité sur le réseau du web.

Plus formellement, le déplacement de l'utilisateur est une marche aléatoire sur le graphe du Web, c'est-à-dire le graphe orienté dont les sommets représentent les pages du Web et les arcs les hyperliens. En supposant que l'utilisateur choisisse chaque lien indépendamment des pages précédemment visitées (le réalisme d'une telle hypothèse pouvant être discuté), il s'agit d'un processus de Markov. Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web[2],[3]. La taille (gigantesque) de ce graphe et son évolution dynamique (modifications de pages et hyperliens, connexion ou déconnexion de serveur web…) rendent cependant impossible un calcul direct de ce vecteur propre : des algorithmes d'approximation sont utilisés.

De nombreuses corrections et améliorations ont été apportées à cet algorithme, certaines étant décrites dans le brevet déposé le [4], d'autres ne restant connues que de Google. En particulier, il est important de garantir que des modifications trop locales du graphe du Web n'entraînent pas d'augmentation disproportionnée du PageRank de certaines pages, ceci afin d'éviter que des utilisateurs (par exemple des sites commerciaux) ne « boostent » artificiellement leur PageRank. Par exemple, dans l'algorithme de base décrit ci-dessus, ajouter de nombreux liens internes sur une page Web (ce qui est très simple à faire pour un particulier) permet d'augmenter son PageRank (cette stratégie ne fonctionne plus avec le PageRank actuel de Google).

Jusqu'en 2016, les internautes pouvaient obtenir une approximation du classement de chaque page en consultant la zone PageRank de la barre d'outils Google, laquelle indiquait sa valeur sur une échelle de 0 à 10 (échelle logarithmique). Jusqu'à cette date, il existait aussi de nombreux outils pour l'obtenir sans afficher la toolbar, même s'ils se basaient eux aussi sur la valeur renvoyée par la barre d'outils de Google. Depuis 2016[5], Google ne fournit plus aucune valeur de PageRank, il est donc impossible de le connaître désormais. Ainsi, certaines sociétés privées telles que Moz et Majestic SEO tentent de s'en approcher par le biais de leurs indicateurs (citation flow, trust flow, domain authority, page authority) afin d'avoir une idée du PageRank Réel et permettent aux webmasters de comparer les différents sites[réf. souhaitée].

Historique

Les précurseurs

Avant l’invention du PageRank, il y eut les tentatives d’Archie en 1990 et de Veronica en 1992 ; le WebCrawler de Brain Pinkerton en 1994 ; et le moteur d’AltaVista de Louis Monier en 1995[6].

L’algorithme de Google s’inspire du Science Citation Index (SCI), fondé par Eugène Garfield en 1964, un indice de classement des articles scientifiques en fonction du nombre de citations produit par l'Institute for Scientific Information (ISI)[6],[7]. Google reprend le principe de la citation et y substitue la notion de lien entrant.

En 1996, Jon Kleinberg soulève à IBM l’idée d’un classement à partir de la structure des liens hypertextes (par opposition à l’analyse sémantique). Le chercheur de l’université Cornell sera lui aussi une source d’inspiration pour les créateurs de PageRank[6].

La naissance de PageRank

L’idée de PageRank est officiellement présentée pour la première fois en 1998 par Sergey Brin et Larry Page, les fondateurs de Google, dans « The Anatomy of a Large-Scale Hypertextual Web Search Engine[8] »[6].

Le premier brevet, Method for Node Ranking in a Linked Database[9], est cependant déposé dès avant d’être enregistré le . Il est d’abord la propriété de l'université Stanford[10], qui octroie ensuite la licence à Google la même année (amendée en 2000 et 2003), deux mois après sa fondation. Il s'agissait d'une licence exclusive jusqu'en 2011[11]. Les recherches qui ont abouti au développement de la technologie du PageRank ont été financées en partie par la National Science Foundation[12]. Il est donc précisé dans le brevet que le gouvernement a certains droits sur cette invention[13].

Principaux critères du score d'une page web

Selon le brevet Google[9], les critères de classement sont :

  • les liens entrants et sortants;
  • les ancres;
  • le trafic associé à la page[réf. souhaitée];
  • le comportement des internautes : le choix de la page dans les résultats;
  • le nom de domaine.

Outils et valeurs

Le TrustRank

Il s'agit d'un critère d'autorité accordé aux pages, du fait que l'auteur dispose d'une qualité de sérieux et de compétence reconnue. Ce critère est associé aux sites gouvernementaux, et aux sites de référence tels le W3C. Le terme TrustRank vient de Yahoo! et non pas de Google, qui cependant inclut aussi un critère de confiance dans le calcul du positionnement.

Le PageRank thématique

Le monde du référencement s'accorde à dire aujourd'hui que Google a introduit des valeurs sémantiques dans le calcul du PageRank[14]. Le vote d'une page vers une autre, représenté par un lien, est pondéré par la thématique de la page émettrice. Le corpus de mots utilisés influence le classement d'une page dans les résultats du moteur de recherche, mais aussi la valeur des liens qu'elle transmet.

nofollow

La valeur nofollow de l'attribut HTML rel a été définie par Google en 2005, hors des processus normatifs du W3C. Selon Google, un lien ainsi qualifié dans une page Web ne transmet aucune valeur de PageRank aux pages ainsi liées[15],[3]. Le , Matt Cutts, responsable de qualité de l'index de Google, a annoncé[16] un changement de traitement des liens en nofollow. Ce type de lien continuera à être ignoré mais sera indirectement pris en compte dans la formule de calcul. Ce changement de traitement est une réaction à l'usage abusif effectué par les webmestres (PageRank Sculpting). D'une manière générale, la nouvelle formule prend en compte tous les liens présents dans une page (même les liens javascript[17] ou publicitaires).

Futur PageRank

Beaucoup d'outils proposent de calculer le futur classement d'une page après le prochain passage du googlebot. Ces outils ne sont pas fiables car ils se basent uniquement sur la valeur « RK » de la somme de contrôle de Google. L'utilité de cette donnée n'est connue que de Google et n'a rien à voir avec un futur PageRank, sauf sur les analyses transactionnelles.

La balise Canonical

La balise Canonical[18], qui doit être incluse entre les balises <head> et </head>, permet de faire le tri entre plusieurs pages qui ont le même contenu et ne donner aux moteurs de recherche qu'une seule page à crawler. On va alors transférer la valeur des doublons à une seule page, la page canonique. La balise canonique peut aussi être utilisée d'un site A vers un site B.

Critique

La façon de classer, de trier et de hiérarchiser des algorithmes n'est pas objective. Elle est toujours fondée sur une conception particulière de ce qui est important et légitime[19]. PageRank ne fait pas exception à ce constat.

Le premier critère de PageRank renvoie au classement des pages à partir des liens entrants : plus le nombre de pages citant un document est grand, plus ce document est considéré comme important. Ce principe de classement n’est pas neutre ou objectif. Il renvoie à une conception de la crédibilité des contenus, qui s’oppose à un autre principe de légitimation : l’autorité — principe pris en compte par le TrustRank. Le principe de classement de PageRank fait correspondre visibilité — plutôt que qualité — et légitimité. Le principal problème est que l'algorithme ne prend pas en considération les raisons pour lesquelles un article est cité[19], et il arrive couramment qu'un contenu soit cité justement parce qu’il est faux, ce qui lui fait inopportunément gagner de l'importance dans le classement de PageRank.

La course aux liens et le Matthew Effect

L'autre problème possible correspond au Matthew Effect[20] : le classement élevé — en fonction de la fréquence de citation — d'un article entraîne d’autres citations, ce qui crée une boucle qui rend de plus en plus visible — et donc légitime — un ensemble restreint de contenus.

Aussi, les référenceurs et les webmestres créent parfois massivement des liens retour, par échanges de liens ou en inscrivant un site sur une quantité d'annuaires, ce qui permettait de gonfler artificiellement l'indice de popularité d'un contenu. Toutefois, Google réagit, d'une part en instaurant des filtres, tels que la Sandbox, et d'autre part en détectant et sanctionnant les campagnes massives de liens artificiels ; par ailleurs, il intègre des critères qualitatifs à l'analyse sémantique de la confiance, comme l'indice TrustRank qui, entre autres, étudie le comportement des utilisateurs.

Sources

  • (en) Sergey Brin et Lawrence Page, « The Anatomy of a Large-Scale Hypertextual Web Search Engine », université Stanford,‎ (lire en ligne)
  • Dominique Cardon, « Dans l'esprit du PageRank : Une enquête sur l'algorithme de Google », Réseaux, vol. 1, no 177,‎ , p. 63-95 (DOI 10.3917/res.177.0063, lire en ligne)
  • Matteo Pasquinelli (trad. Clément Blachier, Victor Lockwood et Xiaomeng Zuo), « Google PageRank : une machine de valorisation et d'exploitation de l'attention », dans Yves Citton, L'économie de l'attention : Nouvel horizon du capitalisme ?, Paris, La Découverte, coll. « Sciences humaines », , 328 p. (ISBN 9782707178701, lire en ligne), p. 161-178
  • Henk van Ess (trad. du néerlandais de Belgique par Jean-Marc Delprato), Da Google Code, Montreuil, Pearson Education France, , 157 p. (ISBN 978-2-7440-2460-3 et 2744024600, lire en ligne)

Notes et références

Notes

  1. Antonomase du nom de marque inventé par Larry Page, cofondateur de Google, composé des mots anglais page (« page ») et rank (« rang »).

Références

  1. TIC Mag, « Le Top 10 des milliardaires high tech les plus riches du monde en 2016 - TIC Mag », TIC Mag,‎ (lire en ligne, consulté le )
  2. [PDF] Le théorème de Perron-Frobenius, document pour l'agrégation de mathématiques par B. Bekka, université de Rennes 1.
  3. a et b [PDF] Comment fonctionne le PageRank ?, explication mathématique de l'algorithme PageRank par M. Eisermann, université Grenoble 1.
  4. Comment Google attribue un score à une page Web.
  5. « Tout savoir sur le PageRank de Google »
  6. a b c et d Dominique Cardon, « Dans l'esprit du PageRank : Une enquête sur l'algorithme de Google », Réseaux, vol. 1, no 177,‎ , p. 63-95 (DOI 10.3917/res.177.0063, lire en ligne)
  7. (en) Eugene Garfield, « The evolution of the Science Citation Index », International Microbiology, vol. 20,‎ , p. 65-69 (ISSN 1139-6709, lire en ligne)
  8. (en) Sergey Brin et Lawrence Page, « The Anatomy of a Large-Scale Hypertextual Web Search Engine », université Stanford,‎ (lire en ligne)
  9. a et b US 6.285.999 B1.
  10. Le texte du brevet est accessible sur le site du bureau des brevets des États-Unis (l'USPTO).
  11. Le texte du contrat de licence, dans sa version amendée de 2003, est accessible à cette adresse.
  12. (Grant NSF - IRI-9411306-4).
  13. « The Government has certain rights in the invention. » Voir le texte du brevet.
  14. Définition du PageRank thématique.
  15. « From now on, when Google sees the attribute (rel="nofollow") on hyperlinks, those links won't get any credit when we rank websites in our search results. This isn't a negative vote for the site where the comment was posted; it's just a way to make sure that spammers get no benefit from abusing public areas like blog comments, trackbacks, and referrer lists », source.
  16. (en) Matt Cutts, « PageRank sculpting », sur MattCutts.com, (consulté le ).
  17. SEOLand (13 juillet 2010), [1].
  18. « Utiliser des URL canoniques », sur google.com.
  19. a et b Benoît Epron et Marcello Vitali-Rosati, L'édition à l'ère du numérique, Paris, Édition La Découverte, , 114 p. (ISBN 978-2-7071-9935-5, lire en ligne), p. 77
  20. (en) Robert K. Merton, « The Matthew Effect in Science: The reward and communication systems of science are considered », Science, vol. 159, no 3810,‎ , p. 56–63 (ISSN 0036-8075 et 1095-9203, PMID 5634379, DOI 10.1126/science.159.3810.56, lire en ligne, consulté le )

Liens externes

Read other articles:

Bagian dari seri mengenai Sejarah Jerman Topik Kronologi Historiografi Sejarah militer Sejarah ekonomi Sejarah wanita Perubahan wilayah Daftar penguasa Jerman Sejarah awal Bangsa Jermanik Periode Migrasi Kerajaan Franka Abad Pertengahan Franka Timur Kerajaan Jerman Kekaisaran Romawi Suci Ostsiedlung Modern Awal Sektionalisme Abad ke-18 Kerajaan Prusia Unifikasi Konfederasi Rhein Konfederasi JermanZollverein Revolusi Jerman 1848 Konfederasi Jerman Utara Reich Jerman Kekaisaran Jerman1871–...

 

  Santa Lucía de Tirajanaسانتا لوثيا دي تيراخانا (بالإسبانية: Santa Lucía de Tirajana)‏[1]  مقاطعة لاس بالماس - منطقة جزر الكناري (إسبانيا) سانتا لوثيا دي تيراخانا سانتا لوثيا دي تيراخانا موقع سانتا لوثيا دي تيراخانا في جزيرة كناريا الكبرى الواقعة في مقاطعة لاس بالماس (إسبانيا) تقسيم إدا

 

桃田 賢斗 ヨネックス・ドイツ・オープン2019での桃田賢斗基本情報生年月日 (1994-09-01) 1994年9月1日(29歳)性別 男性国籍 日本出身地 香川県三豊郡三野町(現:三豊市)身長 175 cm体重 72 kg血液型 A選手情報利き腕 左種目 シングルス日本代表歴 2011-2016,2018-主な戦績世界ランク(最高) 1位日本ランク(最高) 1位国際大会 * 世界選手権 2連覇(2018年-2019年)* アジア選手...

Form of church steeple Crown spire, Newcastle Cathedral (1448) A crown steeple, or crown spire, is a traditional form of church steeple in which curved stone flying buttresses form the open shape of a rounded crown. Crown spires first appeared in the Late Gothic church architecture in England and Scotland during the Late Middle Ages, continued to be built through the 17th century and reappeared in the late 18th century as part of the Gothic Revival. Gothic crown spires Crown steeple of St Gil...

 

Artikel ini membutuhkan penyuntingan lebih lanjut mengenai tata bahasa, gaya penulisan, hubungan antarparagraf, nada penulisan, atau ejaan. Anda dapat membantu untuk menyuntingnya. GrimesGrimes pada tahun 2013 di festival Way out WestLahirClaire Elise Boucher17 Maret 1988 (umur 35)Vancouver, British Columbia, KanadaNama lainc[1]Pekerjaan Musisi penyanyi penulis lagu produser rekaman direktur video musik seniman visual Tahun aktif2007–sekarangPasanganElon Musk (2018–...

 

Em simbolismo, fita azul é o termo usado para descrever algo de alta qualidade. O uso veio da banda Azul, um prêmio concedido, por linhas de passageiros, a barcos que cruzam em menor tempo o Oceano Atlântico ou o primeiro barco a cruzar a linha de chega de uma regata [1], a famosa Blue Riband - Fita Azul. A fita azul também simboliza o câncer de próstata. Referências ↑ Laire José Giraud (28 de julho de 2009). «A Fita Azul do Atlântico Norte». PortoGente. Consultado em 18 de març...

Fortum Siège de Fortum Création 1998 Forme juridique Entreprise publique Action OMX : FORTUM Siège social Espoo Finlande Direction M. Markus Rauramo (directeur général) et M. Matti Lievonen (présidente du conseil d’administration) Actionnaires État finlandais (50,76 %)[1] Activité Production et distribution d’électricité, de gaz, de vapeur et climatisation (en)[2] Produits énergie, production annuelle de 69,8 TWh (2010) Filiales Fortum Markets AB, Fortu...

 

جمعة جينارو معلومات شخصية الميلاد 28 فبراير 1988 (35 سنة)  أم درمان  الطول 1.78 م (5 قدم 10 بوصة) مركز اللعب حارس مرمى الجنسية جنوب السودان  معلومات النادي النادي الحالي Hay Al Wadi SC الرقم 1 المسيرة الاحترافية1 سنوات فريق م. (هـ.) 2004–2007 Al-Nijoom SC 0 (0) 2007–2009 Al-Alamein SC 0 (0) 2010 الأهلي ...

 

Karl-Friedrich-Gymnasium Mannheim Schulform Gymnasium Schulnummer 04105375 Gründung 1664 Adresse Roonstraße 4–668165 Mannheim Land Baden-Württemberg Staat Deutschland Koordinaten 49° 28′ 55″ N, 8° 28′ 34″ O49.4820694444448.4760305555556Koordinaten: 49° 28′ 55″ N, 8° 28′ 34″ O Schüler rund 780 (Stand: Schuljahr 2011/12) Lehrkräfte rund 80 (Stand: Schuljahr 2011/12) Leitung Alexander Sauter Website www.k...

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (نوفمبر 2019) دوري غوام لكرة القدم 2014–15 تفاصيل الموسم دوري غوام لكرة القدم  البلد الولايات المتحدة  دوري غوام لكر...

 

Yang MuliaJosé Tolentino de MendonçaT.O.S.D. ComSE ComIHPrefek Dikasteri untuk Kebudayaan dan PendidikanMendonça pada 6 Oktober 2019GerejaGereja Katolik RomaPenunjukan26 September 2022Jabatan lainKardinal-Diakon Santi Domenico e Sisto (2019-)ImamatTahbisan imam28 Juli 1990oleh Teodoro de FariaTahbisan uskup28 Juli 2018oleh Manuel III, Kardinal-Patriark LisboaPelantikan kardinal5 Oktober 2019oleh Paus FransiskusPeringkatKardinal-DiakonInformasi pribadiNama lahirJosé Tolentino Cal...

 

LightyearPoster rilis bioskopSutradara Angus MacLane Produser Galyn Susman Ditulis olehPete Docter[1]BerdasarkanBuzz Lightyearoleh John LasseterPete DocterAndrew StantonJoe RanftPemeran Chris Evans Keke Palmer Dale Soules Taika Waititi Peter Sohn Uzo Aduba James Brolin Mary McDonald-Lewis Efren Ramirez Isiah Whitlock Jr. Penata musikMichael GiacchinoPerusahaanproduksi Walt Disney Pictures Pixar Animation Studios DistributorWalt Disney StudiosMotion PicturesTanggal rilis 17 Juni ...

Sri Lankan government agency Ministry of Irrigationවාරිමාර්ග අමාත්‍යාංශයநீர்ப்பாசன அமைச்சுMinistry overviewJurisdictionGovernment of Sri LankaHeadquartersNo. 500, T.B. Jaya Mawatha, Colombo 10Minister responsibleHon. Roshan Ranasinghe[1], Minister of IrrigationMinistry executiveAnura Dissanayake, SecretaryChild agenciesDepartment of IrrigationMahaweli Authority of Sri LankaCentral Engineering Consultancy Bureau ...

 

Battery I, 1st Illinois Light Artillery Regiment14-pounder James rifle at Vicksburg National Military ParkActive10 Feb. 1862 – 26 July 1865Country United StatesAllegiance Union IllinoisBranchUnion ArmyTypeField ArtillerySizeArtillery BatteryEquipment4 x 14-pounder James riflesEngagements American Civil War Battle of Shiloh (1862) Siege of Corinth (1862) Siege of Vicksburg (1863) Jackson Expedition (1863) Battle of Missionary Ridge (1863) Knoxville campaign (1863) Battle of Frankli...

 

Se ha sugerido que «Medio natural» sea fusionado en este artículo o sección. Motivo: los argumentos están expuestos en la página de discusión.Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí.Este aviso fue puesto el 20 de agosto de 2023. «Medio ambiente» redirige aquí. Para otras acepciones, véase Medio ambiente (desambiguación). Para el término biológico, véase Ambiente biofísico. La gestión de la tierra ha conservado las caracterís...

You can help expand this article with text translated from the corresponding article in German. (March 2013) Click [show] for important translation instructions. View a machine-translated version of the German article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated text into the English Wikipedi...

 

Early line of personal computers This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Sharp MZ – news · newspapers · books · scholar · JSTOR (January 2013) (Lea...

 

International cricket tour New Zealand cricket team in the West Indies in 2022    West Indies New ZealandDates 10 – 21 August 2022Captains Nicholas Pooran[n 1] Kane Williamson[n 2]One Day International seriesResults New Zealand won the 3-match series 2–1Most runs Nicholas Pooran (121) Finn Allen (124)Daryl Mitchell (124)Most wickets Jason Holder (7) Trent Boult (8)Player of the series Mitchell Santner (NZ)Twenty20 International seriesResults New Zealand won ...

Township in Burlington County, New Jersey, United States Township in New Jersey, United StatesSouthampton Township, New JerseyTownshipBishop–Irick Farmstead in Vincentown SealSouthampton Township highlighted in Burlington County. Inset map: Burlington County highlighted in the State of New Jersey.Census Bureau map of Southampton Township, New JerseySouthampton TownshipLocation in Burlington CountyShow map of Burlington County, New JerseySouthampton TownshipLocation in New JerseyShow map of ...

 

此生者传记条目需要补充更多可供查證的来源。 (2016年9月12日)请协助補充可靠来源,无法查证的在世人物内容将被立即移除。 此條目需要擴充。 (2012年10月26日)请協助改善这篇條目,更進一步的信息可能會在討論頁或扩充请求中找到。请在擴充條目後將此模板移除。 葉月里緒菜女演员原文名葉月 里緒奈罗马拼音Hazuki Riona别名葉月里緒菜(旧艺名)[1][2]国籍 ...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!