Wirująca galaktyka z książek i danych symbolizuje otwarty zbiór danych do treningu AI.

Naukowcy tworzą ogromny zbiór danych do treningu AI z otwartych źródeł

2025-06-07 AI Sight

Zbiór danych, nazwany open source, ma stanowić alternatywę dla komercyjnych zbiorów danych wykorzystywanych do treningu modeli językowych. Jak dotąd, modele takie jak ChatGPT były trenowane na ogromnych zbiorach danych, często zawierających chronione treści, co budziło kontrowersje wokół praw autorskich i prywatności.

Nowy zbiór danych został stworzony z myślą o transparentności i dostępności. Zawiera on ponad 7 miliardów tokenów, co stawia go w rzędzie największych dostępnych zbiorów danych. Co istotne, cały zbiór został utworzony z materiałów dostępnych na licencji Creative Commons oraz treści dostępnych w domenie publicznej, co minimalizuje ryzyko naruszenia praw autorskich.

Twórcy zbioru podkreślają, że ich praca ma na celu promowanie otwartości i współpracy w dziedzinie badań nad sztuczną inteligencją. Dzięki wykorzystaniu otwartych źródeł, ich projekt ma szansę stać się kamieniem milowym w demokratyzacji dostępu do zaawansowanych technologii AI.

Zbiór ten może przyczynić się do rozwoju bardziej etycznych i transparentnych modeli AI, które nie będą zależne od danych objętych restrykcjami. To z kolei może wesprzeć rozwój nowych, innowacyjnych aplikacji, które będą mogły korzystać z tych modeli.

Udostępnij:

Zobacz również

PadChest-GR: przełom w radiologii dzięki danym oznaczonym przez ekspertów

ZAYA1: przełom w trenowaniu modeli AI na GPU AMD

Nowe badania: Modele językowe wykazują problem z pewnością siebie

Dodaj komentarz Anuluj pisanie odpowiedzi