Media

Cyfrowe sita rdzewieją. Dlaczego media blokują dostęp do Internet Archive?

Paradoks współczesnego dziennikarstwa rzadko bywa tak jaskrawy jak w przypadku niedawnego śledztwa „USA Today”. Dziennikarze tej redakcji, wykorzystując Internet Archive i jego flagowe narzędzie Wayback Machine, obnażyli mechanizmy opóźniania informacji przez amerykańskie służby imigracyjne (ICE). Artykuł stał się dowodem na to, jak kluczowa dla transparentności władzy jest społeczna kontrola nad cyfrowymi śladami. Problem w tym, że USA Today Co. – wydawca posiadający ponad 200 tytułów – jednocześnie blokuje botom Internet Archive dostęp do swoich serwisów. To sytuacja, w której reporterzy gaszą pożary narzędziem, które ich własni pracodawcy starają się wycofać z rynku.

Strach przed sztuczną inteligencją uderza w rzetelność

Zjawisko nie ogranicza się do jednego koncernu. Według analiz startupu Originality AI, już 23 czołowe serwisy informacyjne, w tym „The New York Times”, aktywnie blokują bota ia_archiver. Przyczyny tej defensywy są jasne: wydawcy panicznie boją się, że ich treści zostaną nieodpłatnie wykorzystane do trenowania modeli sztucznej inteligencji. Ponieważ Internet Archive gromadzi dane od blisko trzech dekad, stanowi kuszące źródło dla gigantów technologicznych szukających wysokiej jakości danych tekstowych.

Przedstawiciele „The New York Times” sugerują, że obecność ich materiałów w archiwum pozwala firmom AI na łamanie prawa autorskiego i bezpośrednią konkurencję z redakcją. Choć argument o ochronie własności intelektualnej jest zrozumiały, krytycy zauważają, że uderza on rykoszetem w fundamenty cyfrowej historii. Internet Archive to instytucja non-profit, która od 30 lat pełni rolę globalnej biblioteki. Blokowanie jej botów to nie tylko utrudnienie dla algorytmów Big Tech, ale przede wszystkim odebranie obywatelom możliwości weryfikacji faktów.

Gdy historia znika na żądanie

Ryzyko jest realne. W 2016 roku to właśnie dzięki Wayback Machine udało się wykazać, jak „New York Times” dokonywał istotnych zmian redakcyjnych w tekście o Berniem Sandersie bez informowania o tym czytelników. Dzisiaj przeprowadzenie takiej analizy byłoby niemal niemożliwe. Zjawisko to z niepokojem obserwują organizacje takie jak Electronic Frontier Foundation, które wraz z setką czołowych dziennikarzy – od Rachel Maddow po Taylor Lorenz – podpisały list otwarty w obronie archiwum.

„W poprzednich pokoleniach dziennikarze sięgali do fizycznych archiwów gazet lub bibliotek publicznych. Dziś, gdy wiele redakcji znika, a biblioteki nie mają środków na archiwizację treści cyfrowych, ta rola spada na Internet Archive” – czytamy w liście. Nie chodzi tu jednak wyłącznie o wielką politykę. Micco Caporale, reporter z „Chicago Reader”, wskazuje na praktyczny wymiar narzędzia w pracy związkowej: archiwum pozwala śledzić zmiany w ogłoszeniach o pracę, co pomaga weryfikować realne zarobki i obowiązki narzucane przez korporacje, które z czasem „czyszczą” swoje strony z niewygodnych dowodów.

Architektura powolnej erozji

Niektórzy wydawcy, jak brytyjski „The Guardian”, wybierają model pośredni – nie blokują samego bota, ale ograniczają dostęp do zarchiwizowanych treści przez interfejs API, co drastycznie zawęża krąg osób mogących korzystać z danych. Robert Hahn z „Guardiana” przyznaje, że trwają rozmowy z archiwum, a problemem jest właśnie potencjalne nadużycie zasobów przez firmy AI. Mark Graham, dyrektor Wayback Machine, potwierdza prowadzenie dialogu z wydawcami, ale nie ukrywa pesymizmu. Jego zdaniem postępujące grodzenie publicznego internetu drastycznie ogranicza zdolność społeczeństwa do rozumienia mechanizmów rządzących światem.

Efektem ubocznym tej wojny może być paraliż systemu prawnego. Zarchiwizowane strony z Internet Archive są w USA regularnie dopuszczane jako dowody w procesach sądowych. Jeśli proces blokowania crawlerów będzie postępował, zniknie jedyne obiektywne narzędzie pozwalające na ustalenie, co faktycznie znajdowało się w sieci w danym momencie. W świecie, w którym informacja staje się coraz bardziej płynna, niszczenie cyfrowych archiwów przypomina palenie bibliotek w imię ochrony krótkoterminowych zysków.