IBM wprowadza Granite 4.0: Hybrydowa architektura rewolucjonizuje modele językowe
IBM ogłosił premierę Granite 4.0, rodziny modeli językowych (LLM) open-source, która ma potencjał zrewolucjonizować sposób, w jaki podchodzimy do przetwarzania języka naturalnego. Zamiast tradycyjnych, monolitycznych architektur Transformer, Granite 4.0 wprowadza hybrydowe rozwiązanie, łączące Mamba-2 z Transformer. Ma to na celu zmniejszenie zapotrzebowania na pamięć operacyjną, przy jednoczesnym zachowaniu wysokiej jakości generowanego tekstu.
Nowa rodzina modeli obejmuje kilka wariantów, dostosowanych do różnych potrzeb i zasobów obliczeniowych: 3B „Micro”, 3B hybrydowy „H-Micro”, 7B hybrydowy MoE „H-Tiny” (~1B aktywnych parametrów) oraz 32B hybrydowy MoE „H-Small” (~9B aktywnych parametrów). Co istotne, modele są udostępniane na licencji Apache-2.0, posiadają podpisy kryptograficzne i, jak twierdzi IBM, są pierwszymi otwartymi modelami objętymi akredytowanym certyfikatem ISO/IEC 42001:2023 dla systemów zarządzania AI.
Modele Granite 4.0 są dostępne za pośrednictwem platformy watsonx.ai oraz poprzez Docker Hub, Hugging Face, LM Studio, NVIDIA NIM, Ollama, Replicate, Dell Pro AI Studio/Enterprise Hub, Kaggle oraz Azure AI Foundry. Dostępność w tak wielu miejscach podkreśla zaangażowanie IBM w szeroką dostępność i łatwość integracji tych modeli.
Hybrydowa architektura kluczem do efektywności
Kluczową innowacją w Granite 4.0 jest hybrydowa architektura, która łączy niewielką liczbę bloków self-attention z większością warstw state-space Mamba-2 (w proporcji 9:1). Według IBM, w porównaniu z tradycyjnymi modelami Transformer, Granite 4.0-H może zredukować zużycie pamięci RAM o ponad 70% w przypadku długiego kontekstu i wnioskowania wielosesyjnego. To przekłada się na niższe koszty GPU przy zachowaniu docelowej przepustowości i opóźnień. Wewnętrzne testy IBM wskazują również, że najmniejsze modele Granite 4.0 przewyższają wydajnością Granite 3.3-8B, pomimo wykorzystania mniejszej liczby parametrów.
Warianty modeli i ich dostępność
IBM udostępnia zarówno wersje Base, jak i Instruct dla czterech początkowych modeli:
- Granite-4.0-H-Small: 32B łącznie, ~9B aktywnych (hybrydowy MoE).
- Granite-4.0-H-Tiny: 7B łącznie, ~1B aktywnych (hybrydowy MoE).
- Granite-4.0-H-Micro: 3B (hybrydowy dense).
- Granite-4.0-Micro: 3B (dense Transformer).
Wszystkie modele są dostępne na licencji Apache-2.0 i posiadają podpisy kryptograficzne. IBM podkreśla, że Granite to pierwsza rodzina modeli open source z akredytacją ISO/IEC 42001 dla systemu zarządzania AI (AIMS). Modele zoptymalizowane pod kątem rozumowania („Thinking”) są planowane na późniejszy okres w 2025 roku.
Szczegóły dotyczące treningu i wydajności
Granite 4.0 został wytrenowany na próbkach o długości do 512 tys. tokenów i oceniany do 128 tys. tokenów. Publiczne wersje modeli na Hugging Face są w formacie BF16 (dostępne są również konwersje do formatów quantized i GGUF), natomiast FP8 jest opcją wykonawczą na obsługiwanym sprzęcie – nie jest to format udostępnianych wag.
IBM zwraca uwagę na wyniki w benchmarkach istotnych dla zastosowań korporacyjnych:
- IFEval (HELM): Granite-4.0-H-Small przewodzi większości modeli z otwartymi wagami (ustępując jedynie Llama 4 Maverick).
- BFCLv3 (Function Calling): H-Small konkuruje z większymi modelami open/closed przy niższych kosztach.
- MTRAG (multi-turn RAG): Poprawiona niezawodność w złożonych workflowach wyszukiwania.
Dostępność i ekosystem
Granite 4.0 jest dostępny na platformie IBM watsonx.ai oraz dystrybuowany przez Dell Pro AI Studio/Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE i Replicate. IBM zapowiada również wsparcie dla vLLM, llama.cpp, NexaML i MLX.
Podsumowanie i perspektywy
Hybrydowa architektura Mamba-2/Transformer i MoE z aktywnymi parametrami w Granite 4.0 wydają się być praktycznym podejściem do obniżenia całkowitego kosztu posiadania (TCO). Redukcja zużycia pamięci o ponad 70% i wzrost przepustowości w długim kontekście przekładają się bezpośrednio na mniejsze zapotrzebowanie na GPU, bez poświęcania dokładności w zadaniach takich jak śledzenie instrukcji czy korzystanie z narzędzi (IFEval, BFCLv3, MTRAG). Dostępność checkpointów BF16 z konwersjami GGUF upraszcza lokalne pipeline ewaluacyjne, a certyfikat ISO/IEC 42001 i podpisane artefakty adresują problemy z pochodzeniem i zgodnością, które często opóźniają wdrożenia w przedsiębiorstwach.
