Internet Archive é uma organização sem fins lucrativos dedicada a manter um arquivo multimídia de informações.[3] Ela foi fundada por Brewster Kahle em 1996 e se localiza em São Francisco, Califórnia. O arquivo inclui "capturas" (ou snapshots) de páginas da internet. Essas capturas são cópias arquivadas das páginas e podem estar disponíveis em mais de uma versão, caso tenham sido arquivadas em momentos diferentes. Isso permite observar sua evolução.[4] O arquivo inclui também software, filmes, livros, e gravações de áudio (inclusive gravações de shows/concertos ao vivo de bandas que o permitem). O acervo pretende manter uma cópia digital desses materiais para consulta histórica.[5]
A organização, para justificar sua missão, faz referência ao caso da Biblioteca de Alexandria. Pois ela tem o objetivo de preservar o conhecimento humano e disponibilizá-lo a todos, evitando que ele se perca por razões diversas (como ocorreu, tragicamente, no caso da biblioteca supracitada).[6]
Seu acervo abriga um grande número de arquivos de vários tipos, como áudio, vídeo e texto, a grande maioria deles no domínio público, com licenças Creative Commons ou outras licenças que permitem a distribuição gratuita.
Cyberataques
Em 9 de outubro de 2024, a biblioteca Internet Archive sofreu um ataque distribuído de negação de serviço (DDoS-Attack) que tornou o site inutilizável. 31 milhões de contas de usuários do Internet Archive foram afetadas pelo ataque.[7][8] Os cibercriminosos acessaram a base de dados de autenticação desses usuários.[9]
Em 13 de outubro de 2024, a Wayback Machine voltou ao ar (online), embora no modo "somente leitura".[10] Os outros sites gerenciados pelo Internet Archive, como o OpenLibrary.org, permanecem inativos desde 18 de outubro de 2024.[11]
Em 20 de outubro, os agentes de ameaça roubaram tokens de API não rotacionados para violar a plataforma de suporte por e-mail Zendesk do Internet Archive; eles também reivindicaram a responsabilidade pelas violações, mas afirmaram que o SN_BlackMeta estava por trás apenas dos ataques DDoS.[12][13]
Foi a primeira vez, em seus quase 30 anos de existência, que o site sofre uma interrupção maior do que algumas horas, segundo seu fundador Brewster Kahle. O Internet Archive foi fundado em 1996 e mantém o maior e mais antigo arquivo da Internet. Tem como missão constituir-se em uma "biblioteca de tudo", garantindo que os registros sejam mantidos em um ambiente on-line, onde os sites mudam e desaparecem de um dia para o outro. Uma semana depois do ataque, ainda não havia sido restaurado o acesso ao Internet Archive e às mais de 900 bilhões de páginas da Web preservadas no Wayback Machine. Mas, mesmo antes desses ataques, o Internet Archive já enfrentava sérios problemas, tais como as ações judiciais, movidas em 2020 e 2023, pelas editoras de livros e gravadoras de música, por digitalizar livros e músicas protegidos por direitos autorais, o que a organização argumentou que deveria ser permitido para fins não comerciais e de arquivamento. Kahle acredita que as multas de centenas de milhões de dólares decorrentes dessas ações judiciais, ainda em andamento, possam afundar o Internet Archive. Scott Helme, um pesquisador de cibersegurança, declarou que o episódio demonstra a vulnerabilidade de serviços sem fins lucrativos, como o Internet Archive - e do ecossistema maior de informações on-line que depende deles. "Talvez esses serviços consigam mais financiamento agora, com todas essas manchetes", disse ele, "e que as pessoas, de repente, percebam como seria ruim se tais serviços desaparecessem."[14]
O Internet Archive tem capitalizado sobre o uso popular do termo "WABAC Machine" de um segmento do desenho animado The Rocky and Bullwinkle Show, e usa o nome "Wayback Machine" para o seu serviço que permite que arquivos da World Wide Web possam ser pesquisados e acessados.[15] Este serviço permite aos usuários visualizarem páginas da web arquivadas. O Wayback Machine foi criado como um esforço conjunto entre a Alexa Internet e o Internet Archive quando um índice tridimensional foi construído para permitir a navegação no conteúdo de paginas da web arquivadas.[16] Milhões de sites e seus dados associados (imagens, código fonte, documentos, etc) são salvos em um banco de dados gigantesco. O serviço pode ser usado para ver as versões anteriores de sites usados para parecer, para pegar o código fonte original a partir de sites que podem não ser diretamente disponíveis, ou a visitar sites que já nem sequer existem. O Termos de Uso do Internet Archive especifica que os usuários do Wayback Machine não são livres para baixar os dados da coleção. Nem todos os sites estão disponíveis porque muitos donos de sites optam por excluir os seus sites. Como em todos os sites com base em dados de crawlers, o Internet Archive perde grandes áreas da web para uma variedade de outras razões. Polarizações internacionais também foram encontrados na sua cobertura, embora isto não parece ser o resultado de uma política deliberada.[17]
O uso do termo "Wayback Machine" no contexto da Internet Archive tem se tornado tão comum que "Wayback Machine" e "Internet Archive" são quase sinônimos. Este uso ocorre na cultura popular, por exemplo, no programa de televisão Law & Order: Criminal Intent (no episódio "Legacy", que foi ao ar pela primeira vez em 3 de agosto de 2008), em que um técnico de computador usa o "Wayback Machine" para encontrar um arquivo de um estudante em um website similar ao Facebook.
O Internet Archive fornece páginas impressas e uma declaração padrão de autenticidade como provas para os tribunais de justiça.[18]
Open Library
O Open Library é outro projeto da Internet Archive. O site pretende incluir um banco de dados de páginas da web para todos os livros já publicados, uma espécie de versão do WorldCat em código aberto. Possui 23 milhões de registros de catálogos de livros, além de textos completos de cerca de 1,6 milhão de livros de domínio público, que são plenamente legíveis e disponíveis para download.[19][20] Open Library é um projeto de software livre, com seu código-fonte livremente disponível no site da Open Library.
Nasa Images
O projeto Nasa Images foi criado através de um acordo do Space Act entre o Internet Archive e a NASA para levar o acesso público as imagens, vídeos e coleções de áudio da NASA produzidos ao longo dos anos através de um único arquivo totalmente indexado e acessível através de pesquisas. A equipe de imagens da NASA trabalha em estreita colaboração com todos os centros da NASA para continuar a acrescentar à coleção cada vez maior de imagens da NASA.[21] O site foi lançado em julho de 2008 e agora tem mais de 100 mil itens online.