Algoritmo HITS

El algoritmo HITS (acrónimo del inglés Hypertext Induced Topic Selection, también conocido como hubs y autoridades) es un algoritmo de análisis de enlaces que valora las páginas web, desarrollado por Jon Kleinberg. La idea detrás de Hubs y Autoridades surgió de una visión particular de la creación de páginas web cuando Internet se estaba formando originalmente; Es decir, ciertas páginas web, conocidas como hubs, servían como grandes directorios que no eran realmente autoritativos en la información que tenían, sino que se usaban como compilaciones de un amplio catálogo de información que conducía a los usuarios a otras páginas autorizadas. En otras palabras, un buen hub representaba una página que señalaba muchas otras páginas, y una buena autoridad representaba una página que estaba vinculada por muchos hubs diferentes.[1]

El esquema asigna dos puntajes para cada página: su autoridad, que estima el valor del contenido de la página, y su valor de concentrador, que estima el valor de sus enlaces a otras páginas.

Historia

En revistas

Anteriormente, se utilizaron muchos métodos para clasificar la importancia de las revistas científicas. Uno de estos métodos fue el factor de impacto de Garfield. Sin embargo, muchas revistas como Science y Nature están llenas de numerosas citas, haciendo que estas revistas tengan factores de impacto muy altos. Por lo tanto, al comparar dos revistas más oscuras que han recibido aproximadamente el mismo número de citas, pero una de estas revistas ha recibido muchas citas de las revistas Science y Nature, esta revista necesita ser clasificado más alto. En otras palabras, es mejor recibir citas de una revista importante que de una no importante.[2]

En la Web

Este fenómeno también ocurre en Internet. Contar el número de enlaces a una página puede darnos una estimación general de su importancia en la Web, pero una página con muy pocos enlaces entrantes también puede ser prominente, si dos de estos enlaces provienen de las páginas de inicio de sitios como Yahoo !, Google o MSN. Debido a que estos sitios son de gran importancia, pero también son motores de búsqueda, una página se puede clasificar mucho más alto que su relevancia actual.

Algoritmo

En el algoritmo HITS, el primer paso es recuperar las páginas más relevantes de la consulta de búsqueda. Este conjunto se denomina conjunto de raíces y se puede obtener tomando las primeras páginas devueltas por un algoritmo de búsqueda basado en texto. Un conjunto de base se genera aumentando el conjunto de raíces con todas las páginas web que están enlazadas desde él y algunas de las páginas que enlazan con él. Las páginas web en el conjunto de base y todos los hipervínculos entre esas páginas forman un subgrafo enfocado. El cálculo HITS se realiza sólo en este subgrafo enfocado. Según Kleinberg, la razón para construir un conjunto base es asegurar que la mayoría (o muchas) de las autoridades más fuertes están incluidas.

Los valores de autoridad y concentrador se definen en términos recíprocos entre sí. Se calcula un valor de autoridad como la suma de los valores de concentrador escalados que apuntan a esa página. Un valor de concentrador es la suma de los valores de autoridad escalados de las páginas a las que apunta. Algunas implementaciones también consideran la relevancia de las páginas enlazadas.

El algoritmo realiza una serie de iteraciones, cada una de las cuales consta de dos pasos básicos:

  • Actualización de autoridad: actualiza la puntuación de Autoridad de cada nodo para que sea igual a la suma de las puntuaciones de Concentrador de cada nodo que apunta a ella. Es decir, a un nodo se le da una alta puntuación de autoridad al estar vinculado desde páginas que se reconocen como Concentradores para obtener información.
  • Actualización de concentrador (Hub): actualiza la puntuación de concentrador de cada nodo para que sea igual a la suma de las puntuaciones de autoridad de cada nodo al que apunta. Es decir, a un nodo se le da una puntuación alta de concentrador si enlaza a nodos que se consideran autoridades sobre un tema.

La puntuación de Concentrador y la puntuación de Autoridad para un nodo se calcula con el siguiente algoritmo:

  • Comience con cada nodo que tenga una puntuación de concentrador y de autoridad de 1.
  • Ejecute la regla de actualización de Autoridad.
  • Ejecute la regla de actualización de Concentrador.
  • Normalizar los valores dividiendo cada puntuación de Concentrador por la raíz cuadrada de la suma de los cuadrados de todas las puntuaciones de Concentrador y dividiendo cada puntuación de Autoridad por la raíz cuadrada de la suma de los cuadrados de todas las puntuaciones de Autoridad.
  • Repita desde el segundo paso según sea necesario.

HITS, como el algoritmo PageRank de Google, es un algoritmo iterativo basado en la vinculación de los documentos en la web. Sin embargo, tiene algunas diferencias importantes:

  • Es dependiente de la consulta, es decir, las puntuaciones (Concentrador y Autoridad) resultantes del análisis de vínculos están influenciadas por los términos de búsqueda.
  • Como corolario, se ejecuta en el momento de la consulta, no en el tiempo de indexación, con el costo en rendimiento asociado que acompaña al procesamiento en tiempo de consulta.
  • No es comúnmente utilizado por los motores de búsqueda. (Aunque un algoritmo similar fue considerado para ser utilizado por Teoma, que fue adquirido por Ask Jeeves / Ask.com.)
  • Calcula dos puntuaciones por documento, concentrador y autoridad, en lugar de una sola puntuación.
  • Se procesa en un pequeño subconjunto de documentos "relevantes" (un "subgrafo enfocado" o conjunto base), no todos los documentos como en PageRank.

En detalle

Para comenzar el ranking, , y . Consideramos dos tipos de actualizaciones: Regla de actualización de autoridad y Regla de actualización de concentrador. Para calcular las puntuaciones de concentrador / autoridad de cada nodo, se aplican iteraciones repetidas de la Regla de Actualización de Autoridades y la Regla de Actualización de Concentrador. Una aplicación en k-pasos del algoritmo HITS implica solicitar k veces primero la Regla de Actualización de Autoridades y luego la Regla de Actualización de Concentrador.

Regla de actualización de autoridad

, actualizamos para que sea la sumatoria:

donde n es el número total de páginas conectadas a p e i es una página conectada a p. Es decir, la puntuación de la Autoridad de una página es la suma de todas las puntuaciones de concentrador de las páginas que apuntan a ella.

Regla de actualización de concentrador (Hub)

, actualizamos para que sea la sumatoria:

donde n es el número total de páginas enlazadas desde p e i es una página enlazada desde p. Así, la puntuación de una página en el Concentrador es la suma de las puntuaciones de la Autoridad de todas sus páginas de enlace.

Normalización

Las puntuaciones finales de autoridad-concentrador de los nodos se determinan tras repeticiones infinitas del algoritmo. Como aplicación directa e iterativa de la regla de actualización de concentrador y la regla de actualización de la autoridad conduce a valores divergentes, es necesario normalizar la matriz después de cada iteración. Así, los valores obtenidos a partir de este proceso en algún momento convergerán.[3]

Pseudocódigo

 1 G := set of pages
 2 for each page p in G do
 3   p.auth = 1 // p.auth es la puntuación de autoridad de la página p
 4   p.hub = 1 // p.hub es la putuación de concentrador (Hub) de la página p
 5 function HubsAndAuthorities(G)
 6   for step from 1 to k do // correr k iteraciones
 7     norm = 0
 8     for each page p in G do  // actualizar las puntuaciones de autoridad primero
 9       p.auth = 0
10       for each page q in p.incomingNeighbors do // p.incomingNeighbors es el conjunto de páginas que enlazan con p
11          p.auth += q.hub
12       norm += square(p.auth) // calcular la suma de los cuadrados de las puntuaciones de autoridad para normalizar
13     norm = sqrt(norm)
14     for each page p in G do  // actualizar las puntuaciones de autoridad 
15       p.auth = p.auth / norm  // normalizar las puntuaciones de autoridad
16     norm = 0
17     for each page p in G do  // actualizar las puntuaciones de concentrador (Hub)
18       p.hub = 0
19       for each page r in p.outgoingNeighbors do // p.outgoingNeighbors es el conjunto de páginas enlazadas desde p
20         p.hub += r.auth
21       norm += square(p.hub) // calcular la suma de los cuadrados de las puntuaciones de concentrador (Hub) para normalizar
22     norm = sqrt(norm)
23     for each page p in G do  // actualizar las puntuaciones de concentrador (Hub)
24       p.hub = p.hub / norm   // normalizar las puntuaciones de concentrador (Hub)

Los valores de concentrador y de autoridad convergen en el pseudocódigo anterior.

El código siguiente no converge, porque es necesario limitar el número de pasos que ejecuta el algoritmo. Sin embargo, una manera de evitar esto sería normalizar los valores de los concentradores y de las autoridades después de cada "paso" dividiendo cada valor de autoridad por la raíz cuadrada de la suma de los cuadrados de todos los valores de autoridad y dividiendo cada valor de concentrador por la raíz cuadrada de la suma de los cuadrados de todos los valores de concentrador. Esto es lo que hace el pseudocódigo anterior.

Pseudocódigo no convergente

 1 G := set of pages
 2 for each page p in G do
 3   p.auth = 1 // p.auth es la puntuación de autoridad de la página p
 4   p.hub = 1 // p.hub es la putuación de concentrador (Hub) de la página p
 5 function HubsAndAuthorities(G)
 6   for step from 1 to k do // correr k iteraciones
 7     for each page p in G do  // actualizar las puntuaciones de autoridad primero
 8       p.auth = 0
 9       for each page q in p.incomingNeighbors do // p.incomingNeighbors es el conjunto de páginas que enlazan con p
10         p.auth += q.hub
11     for each page p in G do  // actualizar las puntuaciones de concentrador (Hub)
12       p.hub = 0
13       for each page r in p.outgoingNeighbors do // p.outgoingNeighbors es el conjunto de páginas enlazadas desde p
14         p.hub += r.auth

Véase también

Referencias

  1. Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). «Introduction to Information Retrieval». Cambridge University Press. Consultado el 9 de noviembre de 2008. 
  2. Kleinberg, Jon (December 1999). «Hubs, Authorities, and Communities». Cornell University. Consultado el 9 de noviembre de 2008. 
  3. von Ahn, Luis (19 de octubre de 2008). «Hubs and Authorities» (PDF). 15-396: Science of the Web Course Notes. Carnegie Mellon University. Archivado desde el original el 19 de enero de 2015. Consultado el 19 de enero de 2015. 

Enlaces externos

Read other articles:

Gravir baja adalah sebuah teknik mencetak ilustrasi berbahan baja alih-alih perunggu. Ini jarang dipakai dalam pembuatan cetak artistik, meskipun ini dipakai untuk reproduksi pada abad ke-19. Referensi Gascoigne, Bamber. How to Identify Prints: A Complete Guide to Manual and Mechanical Processes from Woodcut to Inkjet, 1986 (2nd Edition, 2004), Thames & Hudson, ISBN 050023454X Antony Griffiths, Prints and Printmaking, British Museum Press (in UK), 2nd edn, 1996, ISBN 071412608X Bartrick, ...

PoetryTheatrical release posterSutradara Lee Chang-dong Produser Lee Joon-dong Ditulis oleh Lee Chang-dong PemeranYoon Jeong-heeSinematograferKim Hyun-seokPenyuntingKim HyeonPerusahaanproduksiPine House FilmDistributorNext Entertainment WorldTanggal rilis 13 Mei 2010 (2010-05-13) Durasi139 minutesNegara Korea Selatan Bahasa Korea AnggaranUS$1.150.015(₩1.3 billion)PendapatankotorUS$2,230,640[1] Poetry (bhs. Indonesia: Puisi, Hangul: 시; Hanja: 詩; RR&...

Untuk kegunaan lain, lihat Lampung (disambiguasi). Kabupaten Lampung UtaraKabupatenTranskripsi bahasa daerah • Aksara Lampung LambangMotto: Ragem tunas lampung(Lampung) Masyarakat Lampung yang menerima keberagamanPetaKabupaten Lampung UtaraPetaTampilkan peta SumatraKabupaten Lampung UtaraKabupaten Lampung Utara (Indonesia)Tampilkan peta IndonesiaKoordinat: 4°49′00″S 104°48′00″E / 4.81667°S 104.8°E / -4.81667; 104.8Negara Indonesia...

بيب روث معلومات شخصية اسم الولادة (بالإنجليزية: George Herman Ruth, Jr.)‏  الميلاد 6 فبراير 1895(1895-02-06)بالتيمور، ماريلاند الوفاة 16 أغسطس 1948 (53 سنة)مدينة نيويورك سبب الوفاة سرطان المريء  مواطنة الولايات المتحدة  استعمال اليد أعسر  الزوجة كلير ميريت روث  الأولاد دوروثي روث 

Hymnus Componist Christian Sinding Gecomponeerd voor orgel Opusnummer 124 Compositiedatum 1920 Opgedragen aan George Eastman Vorige werk opus 123: Suite in d-mineur voor viool solo Volgende werk opus 125: Drei Klavierstücke Oeuvre Oeuvre van Christian Sinding Portaal    Klassieke muziek Hymnus is een compositie van Christian Sinding. George Eastman Het is zijn enige compositie voor orgel solo. Het is een dankbetuiging van Sinding aan George Eastman, de leider van Eastman School of ...

Tom Brokaw Brokaw in 2007 Achtergrondinformatie Geboorteplaats Webster (South Dakota) Beroep Journalist, schrijver (en) IMDb-profiel Portaal    Media Tom Brokaw, geboren als Thomas John Brokaw (Webster (South Dakota), 6 februari 1940), is een Amerikaans journalist, tv-presentator en schrijver. Hij werd vooral bekend als anchorman van de nieuwsrubriek Nightly News van het televisienetwerk NBC. Daarnaast kwam hij ook met andere tv-producties en schreef hij boeken en bijdragen voor kra...

Schuldturm in Nürnberg Ein Schuldgefängnis (auch „Schuldturm“) war bis ins 19. Jahrhundert hinein ein Sondergefängnis für Personen, die ihren Zahlungsverpflichtungen nicht nachgekommen waren. Inhaltsverzeichnis 1 Mittelalter 2 Neuzeit 3 Gegenwart 4 Literatur 5 Weblinks 6 Einzelnachweise Mittelalter Vor der Einführung der öffentlichen Schuldhaft kannte man für säumige Schuldner die Schuldknechtschaft. Im späten Mittelalter und zu Beginn der frühen Neuzeit wurde die öffentliche S...

Carl Graebe en 1860 Carl Graebe o Carl Gräbe (Fráncfort del Meno, 24 de febrero de 1841 - 19 de enero de 1927) fue un químico alemán. Graebe era hijo de un comerciante y cónsul de la provincia de Hesse, que hizo mucho por el distrito de Praunheim, donde una calle, la Graebe-Straße, todavía lleva su nombre. Estudió por un breve período en una escuela de arte en Fráncfort del Meno y luego en el Politécnico de Karlsruhe, y finalmente en la Universidad de Heidelberg. Trabajó para una ...

This article uses bare URLs, which are uninformative and vulnerable to link rot. Please consider converting them to full citations to ensure the article remains verifiable and maintains a consistent citation style. Several templates and tools are available to assist in formatting, such as reFill (documentation) and Citation bot (documentation). (September 2022) (Learn how and when to remove this template message) Indian Railways Institute of Signal Engineering and TelecommunicationsEstablishe...

France vehicle license plates French front plate with local reference to a Department number (from 2009). In this example, 00 is used as a placeholder. There is a regional logo at the top right and the number of the department below it.CountryFranceCountry codeFCurrent seriesSize520 mm × 110 mm20.5 in × 4.3 inSerial formatAA-123-AAColour (front)Black on whiteColour (rear)Black on whiteIntroduced2009HistoryFirst issued1901vte Vehicle registration plates are mand...

Bagian dari seriPendidikan di Indonesia Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi Republik Indonesia Pendidikan anak usia dini TK RA KB Pendidikan dasar (kelas 1–6) SD MI Paket A Pendidikan dasar (kelas 7–9) SMP MTs Paket B Pendidikan menengah (kelas 10–12) SMA MA SMK MAK SMA SMTK SMAK Utama Widya Pasraman Paket C Pendidikan tinggi Perguruan tinggi Akademi Akademi komunitas Institut Politeknik Sekolah tinggi Universitas Lain-lain Madrasah Pesantren Sekolah alam Sekolah ru...

Al-Qur'an Sejarah Wahyu Kesejarahan Asbabunnuzul Nuzululqur'an Manuskrip Samarkand Sanaa Birmingham Topkapi Pembagian Hizb Juz Manzil Muqatta'at Surah Daftar Makiyah Madaniyah Isi Eskatologi Hewan Keajaiban Ketuhanan Ilmu pengetahuan Legenda Nabi dan Rasul Nama lain Perumpamaan Wanita Membaca Taawuz Basmalah Hafiz Qiraat Qari Tajwid Tartil Khatam Terjemahan Daftar terjemahan Al-Qur'an Tafsir Daftar karya tafsir Hermeneutika Takwil Nasakh Hubungan dengan kitab lain Orang yang disebut namanya K...

Наро́дний коміте́т за́хисту Украї́ни — громадсько-політичний орган[1], утворений 10 травня 2010 року з метою координації дій опозиції щодо «супротиву антиукраїнській політиці президента України Віктора Януковича». Зміст 1 Історія 2 Критика 3 Примітки 4 Посилання Іст...

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018) برادلي مونت الإحداثيات 53°17′N 2°08′W / 53.29°N 2.13°W / 53.29; -2.13  تقسيم إداري  البلد المملكة المت...

1990 live album by TeslaFive Man Acoustical JamLive album by TeslaReleasedNovember 9, 1990[1]RecordedJuly 2, 1990VenueTrocadero Theatre in Philadelphia, Pennsylvania, U.S.GenreAcoustic rockLength67:34LabelGeffenTesla chronology The Great Radio Controversy(1989) Five Man Acoustical Jam(1990) Psychotic Supper(1991) Singles from Five Man Acoustical Jam SignsReleased: December 1990 ParadiseReleased: 1991 Professional ratingsReview scoresSourceRatingAllmusic [2]Entertainmen...

Bistum Belfort-Montbéliard Karte Bistum Belfort-Montbéliard Basisdaten Staat Frankreich Metropolitanbistum Erzbistum Besançon Diözesanbischof Denis Jachiet Emeritierter Diözesanbischof Claude Schockert Gründung 3. November 1979 Fläche 1471 km² Pfarreien 130 (2018 / AP 2019) Einwohner 324.394 (2018 / AP 2019) Katholiken 247.500 (2018 / AP 2019) Anteil 76,3 % Diözesanpriester 60 (2018 / AP 2019) Ordenspriester 9 (2018 / AP 2019) Katholiken je Priester 3587 Ständige Diakone 15 (20...

Freistaat Sachsen-Altenburg Wappen Flagge Das bisherige kleine sachsen-altenburgische Wappen (das sogenannte sächsische Rautekranzwappen) Weiß-Grün (Artikel 1 des Gesetzes zur vorläufigen Regelung der Verfassung vom 27. März 1919) Lage im Deutschen Reich Entstanden aus Fürstentum Sachsen-Altenburg Aufgegangen in Land Thüringen Daten aus dem Jahr 1919 Landeshauptstadt Altenburg Regierungsform Republik Bestehen 1918–1920 Fläche 1.323 km² Einwohner 209.904 Einwohner Bevölkerungsdicht...

2023 film by Jonás Cuarón ChupaPromotional release posterDirected byJonás CuarónScreenplay by Sean Kennedy Moore Joe Barnathan Marcus Rinehart Story by Sean Kennedy Moore Joe Barnathan Marcus Rinehart Brendan Bellomo Produced by Chris Columbus Mark Radcliffe Michael Barnathan Starring Demián Bichir Evan Whitten Christian Slater Ashley Ciarra Nicolas Verdugo CinematographyNico AguilarEdited byDan ZimmermanMusic byCarlos Rafael RiveraProductioncompany26th Street PicturesDistributed byNetfl...

Trois Chansons de France L 115 (102) Page de titre du manuscrit autographe. Genre Cycle de mélodies Nb. de mouvements 3 Musique Claude Debussy Texte Charles d'Orléans (no 1)Tristan L'Hermite (no 2)Charles d'Orléans (no 3) Langue originale moyen français Effectif Voix et piano Durée approximative 6 min 30 s Dates de composition 1904 Dédicataire Emma Bardac Création 15 mai 1905 (nos 1 et 2)6 février 1906 (cycle complet)Paris, théâtre des Mathurins (n...

Kerschbaum SaddleKerschbaumer SattelTop of the passElevation1,111 mATTraversed bylocal roadLocationAustriaRangeKitzbühel AlpsCoordinates47°23′15″N 11°52′35″E / 47.38754°N 11.87649°E / 47.38754; 11.87649 The Kerschbaum Saddle (German: Kerschbaumer Sattel) is a 1,111 m (AA) high mountain pass between Alpbachtal and Zillertal in the Austrian federal state of Tyrol.[1][2] Location and area The pass road runs from Reith im Alpbachtal (...