Arhiva de Internet Wayback Machine este un serviciu de arhivare a paginilor de internet care a fost înființat în 1996[3] și lansat public în 2001. Acest serviciu ajută utilizatorii să „călătorească în timp” pentru a vedea cum arătau unele pagini de internet în trecut. Întemeietorii serviciului, Brewster Kahle și Bruce Gilliat, au spus că au dezvoltat Arhiva de Internet Wayback Machine pentru a oferi „acces universal la toată cunoașterea”, prin păstrarea unor versiuni arhivate ale unor pagini de internet dispărute.[4]
Pînă în noiembrie 2023 Wayback Machine salvase 866 miliarde de pagini de internet.[5]
Istorie
Brewster Kahle și Bruce Gilliat au lansat Wayback Machine în octombrie 2001 în San Francisco[6]. Scopul proiectului e să rezolve problema conținutului de pe internet care dispare ori de câte ori un site suferă modificări ori e închis[7].
Între 1996 și 2001 informația a fost păstrată pe bandă digitală, Kahle îngăduind ocazional accesul unor cercetători. Când arhiva a ajuns la a 5-a aniversare, ea a fost deschisă publicului printr-o ceremonie la Universitatea din Berkeley, California.[8] În momentul lansării baza de date conținea deja 10 miliarde de pagini internet arhivate.
Informații tehnice
Software-ul pentru Wayback Machine a fost dezvoltat pentru a „scana” internetul și a descărca toate informațiile publice de pe site-uri. Informația colectată de „scanere” nu include toată informația disponibilă pe internet, deoarece multe date sunt restricționate de deținătorii site-urilor ori stocate în baze de date care nu sunt accesibile. Site-urile pot fi arhivate și manual, prin introducerea adresei site-ului în căsuța de căutare, dacă site-ul acceptă să fie scanat și să se salveze datele de pe el[9]
Documentele sunt stocate cu o „ștampilă” a momentului arhivării precum 20231119180837.
Începând cu octombrie 2019 utilizatorii sunt limitați la 15 cereri de arhivare sau vizualizare pe minut.[10]
Folosiri
De la lansarea sa în 2001, Wayback Machine a fost studiată de cercetători atât pentru felul cum adună și stochează datele cât și pentru paginile conținute în arhivă. Până în 2013 existau vreo 350 de articole despre Wayback Machine, majoritatea din domeniile de tehnologie a informației, științe sociale și biblioteconomie.
Când Wayback Machine arhivează un site, de obicei include cea mai mare parte din hiperlinkuri, păstrând aceste linkuri active când ele ar putea fi lesne distruse de instabilitatea internetului. Cercetători din India care au studiat capacitatea Wayback Machine de a salva hiperlinkuri din publicațiile științifice de pe internet au găsit că sunt salvate puțin mai mult decât jumătate din ele[11].
Ziariștii folosesc Wayback Machine pentru a vedea site-uri dispărute, reportaje de știri vechi ori schimbări în conținutul site-urilor. Conținutul său a fost folosit pentru a-i face pe politicieni răspunzători de afirmațiile lor. În 2014 o pagină arhivată din rețeaua de socializare a lui Igor Girklin, lider separatist rebel din Ucraina, a arătat că acesta se lăuda că trupele sale au doborât un avion militar ucrainean care s-a dovedit a fi de fapt un avion civil (Zborul 17 Malaysia Airlines), după care acesta a șters mesajul și a învinuit armata ucraineană pentru doborârea avionului[12][13].
De asemenea, site-ul e folosit în mod constant pentru verificare și asigurarea accesului la referințe de către editorii Wikipedia[14].
În septembrie 2020 s-a anunțat un parteneriat cu Cloudfare pentru arhivarea automată a site-urilor prin serviciului acestuia „Always Online”, care va direcționa utilizatorii către o copie arhivată a site-ului dacă originalul nu mai este disponibil.
Limitări
În 2014 exista un timp de așteptare de 6 luni de la scanarea unui site până acesta devenea disponibil pentru public[15]. Acum acest timp de așteptare este între 3 și 10 ore.[16]
Wayback Machine nu include orice pagină de internet care a fost vreodată creată, datorită limitărilor scanerului său de internet. Wayback Machine nu poate arhiva complet pagini de internet care conțin aplicații interactive precum Flash sau instrucțiuni în JavaScript. Asta înseamnă, de pildă, că după 9 iulie 2013 Wayback Machine nu a fost în stare să înfpțișeze comentariile de la paginile cu filmări pe Youtube, deoarece comentariile nu sunt încărcate împreună cu pagina.[17] Scanerul Wayback Machine are greutăți în a extrage orice nu este codat în limbajul HTML ori una din variantele sale, ceea ce are ca rezultat că unele din linkurile din paginile scanate nu funcționează ori unele imagini lipsesc. Scanerul Wayback Machine urmărește doar un număr predeterminat de hiperlinkuri, astfel încât nu poate arhiva fiecare hiperlink de pe fiecare pagină.[18]
Folosire în justiție
Cazul Netbula LLC împotriva Chordiant Software Inc.
Într-un proces din 2009, Netbula LLC împotriva Chordiant Software Inc., pârâtul Chordiant a depus o cerere pentru a obliga Netbula să dezactiveze fișierul robots.txt de pe site-ul său web, care a determinat Wayback Machine să elimine retroactiv accesul la versiunile anterioare ale paginilor pe care le avea arhivate de pe site-ul Netbula, pagini despre care Chordiant credea că le-ar susține cazul.[19] Netbula s-a opus moțiunii pe motiv că pârâții solicitau modificarea site-ului Netbula și că ar fi trebuit să citeze direct Internet Archive pentru pagini. Un angajat al Internet Archive a depus o declarație sub jurământ susținând moțiunea lui Chordiant, în care afirmă că nu poate produce paginile web prin niciun alt mijloc „fără o povară considerabilă, cheltuieli și întreruperi ale operațiunilor sale.”[19] Judecătorul Howard Lloyd din Districtul de Nord al Californiei, Divizia San Jose, a respins argumentele Netbula și le-a ordonat să dezactiveze temporar blocarea robots.txt pentru a permite Choordiant să recupereze paginile arhivate pe care le căutau.[19]
Legea brevetelor
Oficiul de brevete al Statelor Unite ale Americii și Oficiul European de Brevete vor accepta ștampile cu data din Arhiva Internet ca dovadă a momentului în care o anumită pagină Web a fost accesibilă publicului, în examinarea unei cereri de brevet.[20]
Probleme legale
În Europa, se poate interpreta că Wayback Machine încalcă legile despre drepturi de autor. Numai creatorul unui conținut poate hotărî dacă conținutul său este publicat sau copiat, așadar Arhiva va trebui să șteargă paginile la cererea creatorului.[21]. Wayback Machine a fost acționată în judecată în mai multe rânduri anume pentru eforturile sale de arhivare a unor pagini internet.
Biserica Scientologică
În 2002 Arhiva de Internet a șters din Wayback Machine mai multe site-uri critice față de Biserica Scientologică. Mesajul care apărea spunea că site-urile au fost șterse la cererea proprietarului. Mai târziu s-a lămurit că avocați ai Bisericii Scientologice au cerut ștergerea acelor site-uri și nu proprietarii lor[22].
Healthcare Advocates, Inc.
În 2003, Harding Earley Follmer & Frailey au apărat un client dintr-o dispută privind mărcile comerciale folosind Arhiva de Internet Wayback Machine. Avocații au putut demonstra că pretențiile formulate de reclamantă erau nevalabile, pe baza conținutului site-ului lor de mai mulți ani înainte. Reclamantul, Healthcare Advocates, și-a modificat apoi plângerea pentru a include Arhiva de Internet, acuzând organizația de încălcarea drepturilor de autor, precum și de încălcarea legii de copyright Digital Milenium Copyright Act și a Legii privind frauda și abuzul informatic. Healthcare Advocates Inc. a susținut că, din moment ce au instalat un fișier robots.txt pe site-ul lor web, chiar dacă după depunerea procesului inițial, Arhiva ar fi trebuit să elimine toate copiile anterioare ale site-ului reclamantului de pe Wayback Machine, totuși, unele materiale au continuat să fie să fie vizibile public. Procesul a fost soluționat prin înțelegere a părților în afara instanței după ce Wayback a remediat problema.[23]
Cenzură
Arhiva de Internet este blocată în China și a fost în trecut blocată în India și Rusia[24].
Există cel puțin un caz în care un articol a fost eliminat din arhivă la scurt timp după eliminarea de pe saitul original. Un articol scris de un reporter de la Daily Beast care dezvăluia orientarea homosexuală a mai multor sportivi de la Jocurile Olimpice după ce își făcuse un profil fals pe un sait de întâlniri romantice între homosexuali a fost șters de Daily Beast după ce a provocat indignare, scurt timp după asta și Arhiva de Internet l-a șters, explicând că a acționat pentru a apăra siguranța sportivilor dezvăluiți[25].
^Brewster Kahle (0000-00-00 00:00:00), Universal Access to all Knowledge, Sanford Rockowitz, accesat în 21 noiembrie 2023Verificați datele pentru: |date= (ajutor)
^Sampath Kumar, B.T.; Prithviraj, K.R. „(October 21, 2014). "Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs". Journal of Information Science. 41 (1): 71–81. doi:10.1177/0165551514552752. ISSN 0165-5515. S2CID 28320982”.Mentenanță CS1: Nume multiple: lista autorilor (link)