Perplexity oskarżone o ignorowanie blokad stron internetowych
W świecie, gdzie algorytmy sztucznej inteligencji wymagają olbrzymich zbiorów danych do trenowania, kwestia dostępu do internetowych zasobów staje się areną narastających napięć. Cloudflare, globalny dostawca usług internetowych, publicznie oskarżył firmę Perplexity, rozwijającą rozwiązania AI, o systematyczne ignorowanie protokołów mających na celu ochronę treści online. Jak wynika z opublikowanych badań, Perplexity miałoby świadomie omijać blokady, zmieniając własną tożsamość w sieci w celu pozyskiwania danych nawet z tych domen, które wyraźnie zaznaczyły swoje niechęć do indeksowania przez boty AI.
Problem nie jest nowy. Firmy AI od dawna wykorzystują dostępne w internecie teksty, obrazy i wideo, często bez wyraźnej zgody właścicieli. W odpowiedzi na te praktyki, twórcy stron internetowych coraz częściej sięgają po standard Robots.txt, plik instruujący wyszukiwarki i boty AI, które części witryny mogą być indeksowane. Efekty tych działań są jednak, jak dotąd, mieszane.
Omijanie standardów i zmiana tożsamości bota
Według Cloudflare, Perplexity miało świadomie omijać te zabezpieczenia, manipulując sygnałami identyfikującymi ich boty – tzw. „user agent” oraz zmieniając autonomiczne numery systemów (ASN). To pozwoliło im ukryć swoją aktywność i pozyskiwać dane z dziesiątek tysięcy domen, generując miliony zapytań dziennie. Cloudflare twierdzi, że zdołało zidentyfikować te działania dzięki zaawansowanym technikom uczenia maszynowego i analizie sygnałów sieciowych.
Jesse Dwyer, rzecznik Perplexity, w odpowiedzi na zarzuty Cloudflare, określił blogowy wpis firmy jako „ofertę sprzedażową”, sugerując, że zamieszczone zrzuty ekranu wcale nie potwierdzają dostępu do treści. W kolejnej korespondencji Dwyer dodał, że bot, o którym mowa w raporcie Cloudflare, „nawet nie należy do nas”. Ta postawa budzi pytania o transparentność działań Perplexity i ich odpowiedzialność za ruch w sieci generowany przez swoje systemy.
Kontekst sprawy i wcześniejsze zarzuty
Cloudflare odkryło nieprawidłowości po tym, jak klienci zgłosili, że mimo zastosowania blokad w plikach Robots.txt, Perplexity nadal indeksuje ich strony. Przeprowadzone testy potwierdziły, że boty Perplexity omijają te zabezpieczenia. Nie jest to pierwszy raz, kiedy Cloudflare zajmuje publiczne stanowisko w sprawie botów AI. W ubiegłym miesiącu firma uruchomiła platformę, która umożliwia właścicielom witryn pobieranie opłat od firm AI za dostęp do ich treści. Matthew Prince, CEO Cloudflare, ostrzegał wówczas, że AI może naruszać dotychczasowy model biznesowy internetu, zwłaszcza w kontekście wydawców.
Sam Perplexity ma już na swoim koncie wcześniejsze oskarżenia o nieautoryzowane pobieranie treści. W ubiegłym roku, m.in. magazyn Wired, zarzucał firmie plagiatowanie ich materiałów. Te zarzuty osiągnęły kulminację, gdy na konferencji Disrupt 2024, dyrektor generalny Perplexity, Aravind Srinivas, nie był w stanie jednoznacznie zdefiniować plagiatu, co obniżyło wiarygodność firmy w oczach opinii publicznej.
Opisana sytuacja podkreśla rosnące napięcie między firmami AI, które potrzebują ogromnych ilości danych, a właścicielami treści, którzy pragną chronić swoją własność intelektualną. Kwestia przestrzegania zasad etyki i prawa w pozyskiwaniu danych do trenowania modeli AI pozostaje jednym z najbardziej palących wyzwań w dynamicznie rozwijającym się świecie sztucznej inteligencji.