Baidu udostępnia ERNIE 4.5: ewolucja modeli LLM od 0.3B do 424B parametrów
Decyzja Baidu o udostępnieniu rodziny modeli ERNIE 4.5 świadczy o rosnącym trendzie w kierunku otwartości w segmencie sztucznej inteligencji. Ta seria, dostępna od teraz poprzez platformę Hugging Face, ma na celu nie tylko rozszerzenie dostępu do zaawansowanych technologii językowych, ale także stymulowanie innowacji w zakresie badań nad AI, szczególnie w kontekście języka chińskiego i zastosowań wielojęzycznych.
Kluczowym elementem architektury ERNIE 4.5 jest zastosowanie zarówno gęstych modeli, jak i rozrzedzonych architektur Mixture-of-Experts (MoE). Modele MoE, takie jak ERNIE 4.5-MoE-3B czy ERNIE 4.5-MoE-47B, selektywnie aktywują podzbiór ekspertów (zazwyczaj 2 z 64) dla każdego tokenu wejściowego. Takie podejście pozwala na efektywne skalowanie liczby parametrów, jednocześnie utrzymując optymalną wydajność i zdolność do generalizacji, co przekłada się na efektywność obliczeniową, szczególnie podczas wnioskowania.
Szkolenie modeli ERNIE 4.5 to złożony proces, obejmujący nadzorowane dostrajanie (SFT), uczenie ze wzmocnieniem z informacją zwrotną od człowieka (RLHF) oraz techniki wyrównywania kontrastowego (contrastive alignment). Zbiór danych treningowych obejmuje aż 5.6 biliona tokenów z różnorodnych dziedzin, zarówno w języku chińskim, jak i angielskim. Całość realizowana jest z wykorzystaniem autorskiego wieloetapowego potoku wstępnego treningu Baidu, co zapewnia modelom wysoką wierność w rozumieniu instrukcji, zarządzaniu wieloetapową konwersacją, generowaniu długich tekstów oraz zdolnościach rozumowania.
W obrębie serii ERNIE 4.5 Baidu udostępnia dziesięć zróżnicowanych wariantów. Cztery z nich to modele gęste: ERNIE 4.5-0.3B, 0.5B, 1.8B i 4B. Pozostałe sześć to modele MoE: ERNIE 4.5-MoE-3B, 4B, 6B, 15B, 47B oraz największy z nich, liczący łącznie 424 miliardy parametrów. Warto podkreślić, że nawet w przypadku modelu MoE-47B, podczas wnioskowania aktywowanych jest jedynie 3 miliardy parametrów. Analogicznie, model 424B, największa dotychczasowa propozycja Baidu, wykorzystuje strategie rozrzedzonej aktywacji, aby wnioskowanie było wykonalne i skalowalne. Wszystkie modele obsługują kwantyzację FP16 i INT8, co dodatkowo zwiększa efektywność ich wdrożenia.
Modele ERNIE 4.5 wykazują znaczące postępy w kluczowych zadaniach przetwarzania języka naturalnego, zarówno w kontekście chińskim, jak i wielojęzycznym. Według oficjalnego raportu technicznego, na benchmarku CMMLU ERNIE 4.5 przewyższa poprzednie wersje ERNIE, osiągając najnowocześniejszą dokładność w chińskim rozumieniu języka. Na wielojęzycznym benchmarku MMLU, ERNIE 4.5-47B prezentuje konkurencyjne wyniki w porównaniu z wiodącymi modelami, takimi jak GPT-4 i Claude. W przypadku generowania długich form tekstowych, ERNIE 4.5 osiąga wyższą spójność i faktograficzność, co wynika z wewnętrznych metryk Baidu. Co więcej, w zadaniach związanych z podążaniem za instrukcjami, modele znacząco zyskują dzięki dostrojeniu kontrastowemu, wykazując lepsze dopasowanie do intencji użytkownika i redukcję występowania halucynacji w porównaniu z wcześniejszymi iteracjami ERNIE.
Rodzina modeli ERNIE 4.5 jest zoptymalizowana pod kątem szerokiego zakresu zastosowań. Ich wielojęzyczne wsparcie i zdolność do precyzyjnego rozumienia instrukcji sprawiają, że są one idealne dla chatbotów i asystentów AI. Wysoka wierność w odnajdywaniu i generowaniu informacji pozwala na ich integrację z potokami RAG (Retrieval Augmented Generation), co jest kluczowe w systemach wyszukiwania i odpowiedzi na pytania. Generowanie tekstów o długiej formie oraz treści bogatych w wiedzę również jest usprawnione dzięki lepszemu ugruntowaniu faktograficznemu. Choć obecne udostępnienie koncentruje się na treściach tekstowych, Baidu sygnalizuje, że ERNIE 4.5 jest kompatybilny z rozszerzeniami multimodalnymi. Dodatkowo, wsparcie dla długości kontekstu do 128 tys. tokenów w niektórych wariantach umożliwia wykorzystanie rodziny ERNIE 4.5 w zadaniach wymagających pamięci i rozumowania na podstawie długich dokumentów lub sesji. Ta kompleksowość pozycjonuje ERNIE 4.5 jako znaczący krok w rozwoju otwartej sztucznej inteligencji, oferując wszechstronny zestaw narzędzi skalowalnych, wielojęzycznych i dostosowanych do szerokiego spektrum zadań.
