Szwajcarskie instytuty prezentują otwartoźródłowy LLM z unikalnym wsparciem językowym
W środowisku sztucznej inteligencji zdominowanym przez komercyjne rozwiązania, często rozwijane za zamkniętymi drzwiami, nadchodząca premiera nowego dużego modelu językowego (LLM) ze Szwajcarii stanowi interesujący kontrapunkt. Instytucje, takie jak EPFL i ETH Zurich, zapowiedziały udostępnienie otwartoźródłowego modelu, który został opracowany na publicznej infrastrukturze i ma zadebiutować tego lata.
Model, szkolony na superkomputerze Alps w Szwajcarskim Narodowym Centrum Superkomputerowym (CSCS), jest owocem współpracy badaczy z EPFL, ETH Zurich oraz innych szwajcarskich uniwersytetów. Jego kluczowe cechy to pełna otwartość — kod źródłowy, wagi modelu i dane treningowe będą publicznie dostępne, a także nacisk na przejrzystość procesów. Jest to podejście mające na celu nie tylko wspieranie innowacji, ale również zapewnienie odpowiedzialności i zgodności z regulacjami, takimi jak unijne prawo o AI. Imanol Schlag, naukowiec z ETH AI Center, podkreśla, że otwarte modele są niezbędne dla zaawansowanych badań nad ryzykami i możliwościami AI.
Jednym z najbardziej wyróżniających się aspektów nowego LLM jest jego wielojęzyczność. Model ma zapewnić płynne wsparcie dla ponad 1000 języków. Trening modelu bazowego odbywał się na gigantycznym zbiorze danych tekstowych obejmującym ponad 1500 języków, z czego około 60% stanowił język angielski, a 40% języki inne niż angielski. Dodatkowo uwzględniono dane związane z kodem i matematyką. Antoine Bosselut z EPFL AI Center, jeden z liderów projektu, zaznaczył, że ogromna wielojęzyczność była priorytetem od samego początku developmentu.
Model zostanie udostępniony w dwóch wariantach: z 8 miliardami i 70 miliardami parametrów. Wersja 70B ma plasować się wśród najpotężniejszych w pełni otwartych modeli na świecie, oferując szeroki zakres zastosowań. Wykonano trening na ponad 15 bilionach tokenów wysokiej jakości, co ma zapewnić wysoką niezawodność i wszechstronność rozumienia języka. Co ważne, projekt uwzględniał szwajcarskie przepisy dotyczące ochrony danych i prawa autorskiego, a także wymogi dotyczące transparentności wynikające z unijnego aktu o AI. Co istotne, wstępne badania pokazały, że przestrzeganie klauzul 'opt-out’ podczas zbierania danych z sieci nie prowadzi do zauważalnego spadku wydajności modelu w większości codziennych zadań.
Trening modelu odbył się na superkomputerze Alps w CSCS, jednej z najbardziej zaawansowanych platform AI na świecie, wyposażonej w ponad 10 000 superchipów NVIDIA Grace Hopper. Skala i architektura systemu umożliwiły efektywny trening w 100% z wykorzystaniem energii neutralnej węglowo. Thomas Schulthess, dyrektor CSCS i profesor ETH Zurich, podkreślił strategiczną wartość superkomputera Alps i długotrwałej współpracy z NVIDIĄ i HPE/Cray, która przyczyniła się do powstania tej infrastruktury.
Premierę modelu, który zostanie udostępniony na licencji Apache 2.0, przewidziano na późne lato. Do modelu dołączona zostanie szczegółowa dokumentacja, obejmująca architekturę, metody treningowe i wytyczne użytkowania, co ma ułatwić dalszy rozwój i ponowne wykorzystanie. Naukowcy z publicznych instytucji, tacy jak Bosselut i Jaggi, wyrażają nadzieję, że pełna otwartość tego modelu, w przeciwieństwie do rozwiązań komercyjnych, będzie stymulować innowacje w Szwajcarii, Europie i poprzez międzynarodowe kolaboracje, a także przyczyni się do przyciągania i rozwijania najlepszych talentów w dziedzinie AI.
