Adobe pod ostrzałem: Pozew zbiorowy o naruszenie praw autorskich w szkoleniu AI
W obliczu rosnącej roli sztucznej inteligencji w branży technologicznej, Adobe, podobnie jak wielu innych gigantów, intensywnie rozwija swoje usługi oparte na AI. Od 2023 roku firma wprowadziła na rynek szereg narzędzi wykorzystujących sztuczną inteligencję, w tym pakiet Firefly do generowania treści medialnych. To właśnie to głębokie zaangażowanie w technologię AI może teraz przysporzyć firmie problemów. Nowo złożony pozew zbiorowy zarzuca Adobe wykorzystanie nielegalnie pozyskanych książek do szkolenia jednego ze swoich modeli AI.
Zarzuty autorki i zbiór danych SlimPajama
Pozew zbiorowy, złożony w imieniu autorki Elizabeth Lyon z Oregonu, rzuca światło na praktyki Adobe w zakresie pozyskiwania danych treningowych. Zgodnie z zarzutami, Adobe miało użyć pirackich wersji licznych książek, w tym także dzieł samej Lyon, do trenowania swojego programu SlimLM. Adobe opisuje SlimLM jako serię małych modeli językowych (Small Language Models – SLM), zoptymalizowanych pod kątem zadań związanych z obsługą dokumentów na urządzeniach mobilnych.
Według informacji firmy, SlimLM był wstępnie trenowany na SlimPajama-627B – „zdeduplikowanym, wielokorpusowym, otwartym zbiorze danych”, opublikowanym przez Cerebras w czerwcu 2023 roku. Lyon, będąca autorką wielu przewodników dotyczących pisania non-fiction, twierdzi, że jej prace znalazły się w zbiorze danych wykorzystanym przez Adobe do wstępnego treningu.
Pochodzenie danych i kolekcja Books3
Pozew Lyon, o którym jako pierwszy poinformował Reuters, wskazuje, że jej twórczość znalazła się w przetworzonym podzbiorze zmodyfikowanego zbioru danych, który stanowił podstawę programu Adobe. W pozwie czytamy: „Zbiór danych SlimPajama został stworzony poprzez skopiowanie i manipulowanie zbiorem danych RedPajama (w tym skopiowanie Books3). W ten sposób, ponieważ jest to pochodna kopia zbioru danych RedPajama, SlimPajama zawiera zbiór danych Books3, w tym dzieła chronione prawem autorskim powódki i członków klasy [powodów]”.
„Books3” to ogromna kolekcja 191 000 książek, która była wykorzystywana do szkolenia systemów generatywnej sztucznej inteligencji i od dawna stanowi źródło problemów prawnych dla firm technologicznych. RedPajama również pojawiał się w licznych sprawach sądowych. We wrześniu pozew przeciwko Apple zarzucił firmie wykorzystanie materiałów chronionych prawem autorskim do szkolenia modelu Apple Intelligence. W pozwie tym wspomniano o zbiorze danych i oskarżono firmę technologiczną o kopiowanie chronionych dzieł „bez zgody i bez uznania autorstwa lub wynagrodzenia”. W październiku podobny pozew przeciwko Salesforce również oskarżał firmę o wykorzystanie RedPajama do celów szkoleniowych.
Rosnąca fala pozwów i precedensy
Dla branży technologicznej tego typu pozwy stają się niestety coraz bardziej powszechne. Algorytmy sztucznej inteligencji są trenowane na gigantycznych zbiorach danych, a w niektórych przypadkach te zbiory rzekomo zawierały materiały pirackie. We wrześniu Anthropic zgodził się zapłacić 1,5 miliarda dolarów autorom, którzy pozwali firmę, oskarżając ją o wykorzystanie pirackich wersji ich prac do szkolenia chatbota Claude. Sprawa ta została uznana za potencjalny punkt zwrotny w toczących się bataliach prawnych dotyczących materiałów chronionych prawem autorskim w danych treningowych AI, których jest coraz więcej.
