Gen AINarzędzia

GLM-4.5: Chiński gracz redefiniuje możliwości otwartych modeli agentowych

W dynamicznie ewoluującym krajobrazie sztucznej inteligencji, chińska firma Zhipu AI przedstawia modele GLM-4.5 i GLM-4.5-Air, które mogą znacząco wpłynąć na rozwój otwartych systemów agentowych. Ich premiera w 2025 roku, choć nieco zaskakująca, biorąc pod uwagę bieżący kalendarz, koncentruje się na unifikacji możliwości wnioskowania, kodowania oraz działania inteligentnych agentów, udostępniając zaawansowane narzędzia na skalę dotąd rzadko spotykaną poza zamkniętymi ekosystemami.

Architektura i parametry: Moc i dostępność

GLM-4.5, zbudowany w oparciu o architekturę Mixture of Experts (MoE), dysponuje imponującą liczbą 355 miliardów całkowitych parametrów, z czego 32 miliardy są aktywne jednocześnie. To plasuje go wśród największych dostępnych modeli o otwartych wagach, projektowanych z myślą o najbardziej wymagających zastosowaniach w obszarze rozumowania i przetwarzania agentowego.

Równolegle, GLM-4.5-Air, z 106 miliardami parametrów całkowitych i 12 miliardami aktywnych, stanowi lżejszą, ale równie ambitną alternatywę. Jego zredukowane wymagania sprzętowe i obliczeniowe sprawiają, że zaawansowane zdolności AI stają się dostępne także dla użytkowników dysponujących mniej zasobnymi platformami, w tym poprzez kompatybilność z konsumenckimi kartami graficznymi (32–64 GB VRAM) i możliwość kwantyzacji.

Hybrydowe rozumowanie: Elastyczność działania

Oba modele wprowadzają innowacyjne podejście do hybrydowego rozumowania, oferując dwa komplementarne tryby pracy:

  • Tryb myślenia (Thinking Mode): Umożliwia złożone, krok po kroku wnioskowanie, wykorzystanie narzędzi zewnętrznych, wieloetapowe planowanie oraz autonomiczne zadania agentowe. Tryb ten jest kluczowy dla skomplikowanych przepływów pracy wymagających głębokiej analizy.
  • Tryb bezmyślny (Non-Thinking Mode): Zoptymalizowany pod kątem natychmiastowych, bezstanowych odpowiedzi, idealny do zastosowań konwersacyjnych i przypadków wymagających niskich opóźnień.

Takie połączenie umożliwia elastyczne dostosowanie modelu do różnorodnych scenariuszy, od zaawansowanych aplikacji agentowych po szybkie interakcje.

Wyniki benchmarków: Globalna konkurencja

Zhipu AI opublikowało wyniki osiągnięte przez GLM-4.5 w 12 standardowych testach branżowych, w tym MMLU, GSM8K i HumanEval. GLM-4.5 uzyskał średni wynik 63.2%, co plasuje go na trzeciej pozycji globalnie i drugiej ogólnie, jednocześnie czyniąc go liderem wśród modeli open-source. GLM-4.5-Air, z wynikiem 59.8%, wyprzedza większość modeli w swojej kategorii (~100B parametrów).

Warto zwrócić uwagę na znaczącą przewagę wskaźnika sukcesu w wywoływaniu narzędzi, który dla GLM-4.5 wynosi 90.6%, przewyższając takie modele jak Claude 3.5 Sonnet czy Kimi K2. Modele wykazują również wyjątkową skuteczność w zadaniach związanych z językiem chińskim oraz programowaniem, osiągając stan wiedzy (SOTA) w wielu publicznych benchmarkach.

Zdolności agentowe i innowacje techniczne

Architektura GLM-4.5 jest projektowana jako „agent-natywna”, co oznacza, że kluczowe funkcjonalności agentowe, takie jak rozumowanie, planowanie i wykonywanie działań, są wbudowane bezpośrednio w model. Obejmuje to możliwość dekompozycji złożonych zadań, integracji z zewnętrznymi API oraz zarządzania przepływami pracy z wizualizacją danych. To otwiera drogę do kompleksowych zastosowań agentowych, które wcześniej były domeną mniejszych, często zamkniętych, rozwiązań.

Szybkość inferencji została znacząco zwiększona dzięki technologii Multi-Token Prediction (MTP) i dekodowaniu spekulatywnemu, co umożliwia generowanie ponad 100 tokenów na sekundę (do 200 tokenów/sek. w praktyce). Modele zostały wytrenowane na zbiorze danych liczącym 15 bilionów tokenów, z obsługą okien kontekstowych do 128 tys. tokenów wejściowych i 96 tys. wyjściowych.

Otwartość i koszty

Seria GLM-4.5 jest udostępniana na licencji MIT, co pozwala na nieograniczone komercyjne wykorzystanie i dalszy rozwój. Modele bazowe, hybrydowe (myślące/niemyślące) i wersje FP8 są zintegrowane z głównymi frameworkami LLM, takimi jak transformers, vLLM czy SGLang, a kod i narzędzia są dostępne na GitHubie i Hugging Face. Ta otwartość stanowi istotny kontrast wobec coraz bardziej zamkniętej polityki wielu zachodnich konkurentów.

W zakresie kosztów, API oferuje konkurencyjne ceny, zaczynające się od 0.11 USD za milion tokenów wejściowych i 0.28 USD za milion tokenów wyjściowych, co czyni je dostępnymi dla szerokiego grona deweloperów. GLM-4.5 i GLM-4.5-Air stanowią nie tylko technologiczny skok, ale również ważny krok w kierunku demokratyzacji dostępu do zaawansowanych możliwości sztucznej inteligencji, potwierdzając rosnącą rolę chińskich innowatorów na globalnej arenie AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *