Starcia botów w sieci: Czy Perplexity łamie zasady, czy zmienia internet?
W poniedziałek Cloudflare, gigant w dziedzinie bezpieczeństwa sieciowego, oskarżył wyszukiwarkę AI Perplexity o potajemne indeksowanie stron internetowych i celowe ignorowanie mechanizmów blokujących, takich jak pliki robots.txt. Zarzut ten, opublikowany przez CEO Cloudflare Matthew Prince’a, wywołał falę kontrowersji i pokazał narastające napięcie na styku technologii AI i tradycyjnych zasad funkcjonowania internetu.
Cloudflare przedstawiło dowody, że Perplexity, mimo wdrożonych przez witrynę zabezpieczeń, w tym blokady dla znanych botów indeksujących Perplexity, zdołało uzyskać dostęp do treści. Co więcej, w celu obejścia blokady, mechanizm Perplexity miał podszywać się pod przeglądarkę Google Chrome na systemie macOS. Prince nie przebierał w słowach, porównując praktyki Perplexity do działań hakerów.
Jednakże, reakcja na zarzuty Cloudflare była daleka od jednomyślnej. Znaczna część społeczności technologicznej, w tym użytkownicy platform takich jak X i Hacker News, stanęła w obronie Perplexity. Argumentowali, że jeśli użytkownik zleca AI dostęp do konkretnej, publicznie dostępnej strony, to ta interakcja powinna być traktowana jak działanie człowieka, a nie złośliwego bota. „Jeśli ja jako człowiek żądam dostępu do strony, to powinienem zobaczyć jej zawartość,” napisał jeden z użytkowników na Hacker News, pytając retorycznie, dlaczego LLM (duże modele językowe) działające w jego imieniu miałyby podlegać innej kategorii prawnej niż jego własna przeglądarka Firefox.
Perplexity początkowo odrzuciło oskarżenia Cloudflare, twierdząc, że rzekome boty nie należą do nich, a całą sprawę określiło jako „ofertę sprzedażową” Cloudflare. Dzień później Perplexity opublikowało oficjalne oświadczenie, w którym stwierdziło, że za zauważone zachowania odpowiedzialna jest okazjonalnie używana przez nich usługa strony trzeciej. Jednocześnie, Perplexity podważyło zdolność systemów Cloudflare do rozróżniania pomiędzy „uzasadnionymi asystentami AI a rzeczywistymi zagrożeniami”, sugerując, że systemy te są fundamentalnie nieadekwatne do nowych wyzwań generowanych przez AI.
To postawiło pytania o przyszłość protokołów takich jak robots.txt. Cloudflare wskazuje na OpenAI jako przykład firmy stosującej najlepsze praktyki w zakresie respektowania robots.txt i niepróbowania omijania blokad. Co więcej, OpenAI aktywnie angażuje się w rozwój otwartego standardu Web Bot Auth, wspieranego przez Cloudflare, który ma na celu stworzenie kryptograficznej metody identyfikacji żądań webowych agentów AI. To pokazuje, że są dostępne metody, by boty działały w zgodzie z regułami.
Debata ta nabiera znaczenia w kontekście rosnącej aktywności botów w internecie. Według raportu Imperva „Bad Bot” z ubiegłego miesiąca, po raz pierwszy w historii internetu, aktywność botów przewyższa aktywność ludzką, a ruch generowany przez AI stanowi ponad 50% całego ruchu online. Znaczna część tego ruchu pochodzi z dużych modeli językowych. Jednak raport wskazuje również, że złośliwe boty odpowiadają za 37% całego ruchu internetowego, co obejmuje nie tylko agresywne scraping, ale również nieautoryzowane próby logowania.
Tradycyjnie, witryny internetowe używały narzędzi takich jak CAPTCHA czy usługi Cloudflare do blokowania większości aktywności botów, zwłaszcza tej złośliwej. Miały też motywację do współpracy z „dobrymi aktorami”, takimi jak Googlebot, który indeksował internet i generował ruch. Jednak dynamiczny rozwój LLM-ów zmienia ten paradygmat. Prognozy Gartnera wskazują, że do 2026 roku ruch pochodzący z wyszukiwarek może spaść o 25%, ponieważ coraz więcej użytkowników korzysta z AI do znajdowania informacji.
Pojawia się fundamentalne pytanie: jeśli użytkownicy, zgodnie z przewidywaniami branży technologicznej, będą masowo korzystać z agentów AI do realizacji codziennych zadań, takich jak rezerwacja podróży czy zakupów, czy blokowanie tych agentów przez właścicieli witryn nie zaszkodzi ich własnym interesom? Ta dychotomia doskonale ilustruje rdzeń obecnego konfliktu. Z jednej strony, właściciele stron pragną pełnej kontroli nad treścią i przepływem danych, oczekując, że to oni będą beneficjentami ruchu i, co za tym idzie, potencjalnych przychodów z reklam. Z drugiej strony, użytkownicy oczekują, że ich agenci AI będą w stanie swobodnie uzyskiwać dostęp do publicznych informacji, niezależnie od blokad skierowanych do botów.
Ten spór pokazuje, że obecne ramy regulujące dostęp do treści w internecie, stworzone w erze, gdzie boty indeksujące miały jednoznacznie zdefiniowane role, stają się niewystarczające. Debata pomiędzy Cloudflare a Perplexity to jedynie wierzchołek góry lodowej. W miarę jak agenci AI będą stawać się coraz bardziej wszechobecni, internet będzie musiał zrewidować swoje fundamentalne zasady, aby zrównoważyć prawo do swobodnego dostępu do informacji z prawem właścicieli treści do ochrony swoich zasobów i interesów biznesowych.