Twórca RSS prezentuje RSL: Nowy protokół licencjonowania danych dla AI
Branża sztucznej inteligencji staje w obliczu narastającego problemu: legalności danych wykorzystywanych do trenowania modeli. Ugoda firmy Anthropic opiewająca na 1,5 miliarda dolarów w związku z naruszeniem praw autorskich, to jedynie wierzchołek góry lodowej. W toku są dziesiątki podobnych spraw, w tym pozew przeciwko Midjourney za generowanie obrazów Supermana. Bez jasnych zasad licencjonowania, firmy AI mogą zostać zasypane falą pozwów, co zagraża rozwojowi całego sektora.
Odpowiedzią na to wyzwanie ma być Real Simple Licensing (RSL), system stworzony przez grupę technologów i wydawców internetowych. Jego celem jest umożliwienie licencjonowania danych na masową skalę. Projekt zyskał już poparcie takich gigantów jak Reddit, Quora i Yahoo. Pytanie brzmi, czy to wystarczy, aby skłonić największe laboratoria AI do negocjacji.
RSL: Jak to działa?
Eckart Walther, współtwórca RSL i standardu RSS, podkreśla, że celem było stworzenie systemu licencjonowania danych treningowych, który można by zastosować w całym internecie. „Potrzebujemy czytelnych maszynowo umów licencyjnych dla internetu” – powiedział Walther w rozmowie z TechCrunch. „To właśnie rozwiązuje RSL”.
Protokół RSL określa konkretne warunki licencyjne, jakie wydawca może ustalić dla swoich treści. Mogą one obejmować konieczność uzyskania indywidualnej licencji przez firmy AI lub zastosowanie się do postanowień Creative Commons. Uczestniczące strony internetowe będą umieszczać te warunki w pliku „robots.txt” w ustandaryzowanym formacie, co ułatwi identyfikację danych objętych określonymi zasadami.
Kolektywne licencjonowanie i wyzwania związane z wdrożeniem
RSL to nie tylko technologia, ale także infrastruktura prawna. Zespół stojący za projektem powołał RSL Collective, organizację zbiorowego zarządzania prawami autorskimi. Będzie ona negocjować warunki licencji i pobierać opłaty licencyjne, podobnie jak ASCAP dla muzyków czy MPLC dla filmów. Celem jest stworzenie jednego punktu kontaktowego dla licencjodawców i licencjobiorców, co ułatwi ustalanie warunków współpracy na dużą skalę.
Do RSL Collective dołączyło już wielu wydawców internetowych, w tym Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (właściciel Mashable i Cnet), Internet Brands (właściciel WebMD), People Inc. i The Daily Beast. Inni, jak Fastly, Quora i Adweek, wspierają standard bez przystępowania do kolektywu.
Jednym z wyzwań jest określenie, kiedy konkretne dane treningowe zostały wykorzystane, co jest niezbędne do naliczania opłat licencyjnych. O ile w przypadku produktów takich jak AI Search Abstracts Google’a, które pobierają dane z sieci w czasie rzeczywistym i przypisują każde źródło informacji, jest to stosunkowo proste, o tyle w przypadku modeli językowych (LLM) sprawa się komplikuje. Trudno jest zweryfikować, czy dany dokument został „wchłonięty” przez model, jeśli proces trenowania nie jest monitorowany.
Czy firmy AI zdecydują się na współpracę?
Kluczowe pytanie brzmi, czy firmy zajmujące się rozwojem AI zdecydują się na wdrożenie RSL. Jak pokazuje sukces firm takich jak ScaleAI i Mercor, laboratoria nie mają problemu z płaceniem za dane. Jednak internet tradycyjnie był postrzegany jako źródło tanich danych niskiej jakości. Mając dostęp do zbiorów danych takich jak Common Crawl, pozyskiwanie opłat licencyjnych za coś, co firmy dotychczas otrzymywały za darmo, może być trudne.
Doug Leeds, współzałożyciel RSL i były CEO IAC Publishing, powołuje się na niedawne wypowiedzi liderów branży AI, którzy wzywali do stworzenia systemu takiego jak RSL. Czy te wezwania są szczere, czy nie, twórcy RSL zamierzają ich do tego zobowiązać.
„Publicznie mówili, że coś takiego powinno istnieć” – powiedział Leeds. „Potrzebujemy protokołu. Potrzebujemy systemu.” Teraz być może go dostaną.
