Etyka AIGen AIR & D

Naukowcy tworzą ogromny zbiór danych do treningu AI z otwartych źródeł

Zbiór danych, nazwany open source, ma stanowić alternatywę dla komercyjnych zbiorów danych wykorzystywanych do treningu modeli językowych. Jak dotąd, modele takie jak ChatGPT były trenowane na ogromnych zbiorach danych, często zawierających chronione treści, co budziło kontrowersje wokół praw autorskich i prywatności.

Nowy zbiór danych został stworzony z myślą o transparentności i dostępności. Zawiera on ponad 7 miliardów tokenów, co stawia go w rzędzie największych dostępnych zbiorów danych. Co istotne, cały zbiór został utworzony z materiałów dostępnych na licencji Creative Commons oraz treści dostępnych w domenie publicznej, co minimalizuje ryzyko naruszenia praw autorskich.

Twórcy zbioru podkreślają, że ich praca ma na celu promowanie otwartości i współpracy w dziedzinie badań nad sztuczną inteligencją. Dzięki wykorzystaniu otwartych źródeł, ich projekt ma szansę stać się kamieniem milowym w demokratyzacji dostępu do zaawansowanych technologii AI.

Zbiór ten może przyczynić się do rozwoju bardziej etycznych i transparentnych modeli AI, które nie będą zależne od danych objętych restrykcjami. To z kolei może wesprzeć rozwój nowych, innowacyjnych aplikacji, które będą mogły korzystać z tych modeli.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *