Baidu prezentuje ERNIE-4.5-21B-A3B-Thinking: Kompaktowy model MoE do zaawansowanego wnioskowania
Baidu wchodzi na rynek zaawansowanych modeli językowych z ERNIE-4.5-21B-A3B-Thinking, modelem, który ma konkurować z rozwiązaniami OpenAI, Anthropic i DeepSeek AI. Kluczowym wyróżnikiem jest tutaj architektura MoE (Mixture-of-Experts), która pozwala na osiągnięcie wysokiej efektywności obliczeniowej przy zachowaniu konkurencyjnych możliwości w zakresie wnioskowania.
Model, udostępniony na licencji Apache-2.0, jest dostępny zarówno do celów badawczych, jak i komercyjnych za pośrednictwem platformy Hugging Face. Co to oznacza w praktyce? Dostępność i otwartość, elementy kluczowe dla szybkiego rozwoju i adaptacji technologii.
Architektura i efektywność
ERNIE-4.5-21B-A3B-Thinking bazuje na architekturze MoE z 21 miliardami parametrów, z czego aktywne jest jedynie 3 miliardy na token. Zamiast aktywować wszystkie parametry, model inteligentnie wybiera podzbiór ekspertów, co minimalizuje obciążenie obliczeniowe bez uszczerbku dla specjalizacji poszczególnych komponentów. To swego rodzaju inteligentny kompromis między rozmiarem a wydajnością.
Zespół badawczy zastosował straty ortogonalizacji routera i straty zbalansowane tokenami, aby promować zróżnicowaną aktywację ekspertów i stabilne uczenie. Według twórców, aktywacja około 3 miliardów parametrów na token to optymalny punkt, jeśli chodzi o wydajność wnioskowania i efektywność wdrożenia.
Długi kontekst ma znaczenie
Jedną z kluczowych cech ERNIE-4.5-21B-A3B-Thinking jest obsługa kontekstu o długości 128 tysięcy tokenów. Pozwala to modelowi na przetwarzanie obszernych dokumentów, wykonywanie wieloetapowego wnioskowania i integrowanie ustrukturyzowanych danych, takich jak artykuły naukowe czy bazy kodu. Implementacja tak długiego kontekstu to spore wyzwanie inżynieryjne.
Osiągnięto to poprzez stopniowe skalowanie Rotary Position Embeddings (RoPE) oraz dodatkowe optymalizacje, takie jak FlashMask attention. Dzięki temu operacje na długim kontekście są obliczeniowo wykonalne.
Strategia uczenia
Model wykorzystuje wieloetapowy proces uczenia, charakterystyczny dla rodziny ERNIE-4.5: pre-trening na tekście, a następnie dostrajanie (fine-tuning) pod kątem konkretnych zadań rozumowania, takich jak matematyka, logika, kodowanie i nauka.
Po etapie pre-treningu następuje uczenie przez wzmacnianie (reinforcement learning), zaczynając od logiki, a następnie przechodząc do matematyki, programowania i szerszych zadań rozumowania. Całość jest wspierana przez Unified Preference Optimization (UPO), co stabilizuje proces dopasowywania modelu i redukuje tzw. reward hacking.
Integracja z narzędziami
ERNIE-4.5-21B-A3B-Thinking wspiera wywoływanie zewnętrznych narzędzi i funkcji, co czyni go przydatnym w sytuacjach, gdy wymagane jest dodatkowe przetwarzanie lub pobieranie informacji. Model można zintegrować z vLLM, Transformers 4.54+ i FastDeploy. Funkcjonalność ta jest szczególnie przydatna w syntezie programów, rozumowaniu symbolicznym i workflowach wieloagentowych.
Wbudowane wywoływanie funkcji umożliwia modelowi wnioskowanie w oparciu o długi kontekst przy jednoczesnym dynamicznym wywoływaniu zewnętrznych API. To kluczowa cecha dla zastosowań w systemach korporacyjnych.
Jak wypada na tle konkurencji?
ERNIE-4.5-21B-A3B-Thinking plasuje się w tym samym segmencie co OpenAI o3, Anthropic Claude 4, DeepSeek-R1 i Qwen-3. Wiele z tych modeli opiera się na gęstych architekturach lub większej liczbie aktywnych parametrów. Wybór kompaktowego MoE przez Baidu oferuje inne zalety:
- Skalowalność: Rzadka aktywacja zmniejsza narzut obliczeniowy przy jednoczesnym skalowaniu pojemności ekspertów.
- Długi kontekst: 128K kontekstu jest trenowane bezpośrednio, a nie adaptowane.
- Otwartość komercyjna: Licencja Apache-2.0 obniża barierę wejścia dla przedsiębiorstw.
Podsumowanie
ERNIE-4.5-21B-A3B-Thinking pokazuje, że zaawansowane wnioskowanie można osiągnąć bez ogromnej liczby parametrów. Łącząc wydajne routowanie MoE, uczenie na 128K kontekście oraz integrację z narzędziami, Baidu oferuje model, który łączy zaawansowane możliwości wnioskowania z wykonalnością wdrożenia.
