GLM-4.6V: Obraz jako Natywny Język Wizji AI

GLM-4.6V od Zhipu AI. Kiedy obraz staje się natywnym językiem dla maszyn

2025-12-18 AI Sight

Firma Zhipu AI, jeden z czołowych graczy na chińskiej scenie sztucznej inteligencji, udostępniła na zasadach open source nową serię multimodalnych modeli GLM-4.6V. To ruch, który może znacząco zmienić sposób, w jaki agenci AI postrzegają świat i wchodzą z nim w interakcje. Kluczowa innowacja polega na odejściu od traktowania obrazu jako dodatku do tekstu na rzecz uczynienia go podstawowym, natywnym typem danych wejściowych.

Koniec z tekstowym pośrednikiem

Dotychczasowe modele multimodalne, próbując wykonać zadanie związane z obrazem, najpierw musiały go „przetłumaczyć” na opis tekstowy. Dopiero ten opis stawał się argumentem dla wywoływanej funkcji lub narzędzia, a odpowiedź również wracała w formie tekstu. Taki proces był nie tylko powolny, ale przede wszystkim prowadził do utraty informacji – żaden opis nie zastąpi w pełni oryginalnego obrazu.

GLM-4.6V zrywa z tym paradygmatem, wprowadzając natywne, multimodalne wywoływanie funkcji (Function Calling). W praktyce oznacza to, że obrazy, zrzuty ekranu, strony dokumentów czy klatki wideo mogą być przekazywane bezpośrednio jako parametry do narzędzi. Co więcej, narzędzia te mogą zwracać wyniki w formie wizualnej – wykresy, siatki z wynikami wyszukiwania czy wyrenderowane fragmenty stron internetowych. Model potrafi je następnie zinterpretować i włączyć w dalszy ciąg rozumowania, płynnie łącząc percepcję wizualną z wykonaniem konkretnych działań. Z technicznego punktu widzenia umożliwia to rozszerzenie protokołu Model Context Protocol o obsługę multimodalnych danych opartą na adresach URL, co omija problemy z limitami rozmiaru plików.

Od analizy raportów po kodowanie interfejsów

Zespół Zhipu AI zademonstrował cztery główne scenariusze użycia, które pokazują potencjał nowego podejścia. Pierwszy to zaawansowane rozumienie i tworzenie złożonych dokumentów. Model może analizować publikacje naukowe czy raporty, rozumiejąc jednocześnie tekst, wykresy, tabele i wzory. Podczas generowania odpowiedzi potrafi samodzielnie wyszukiwać i wstawiać adekwatne grafiki w odpowiednich miejscach, tworząc spójny, bogaty w treść dokument.

Drugim obszarem jest wizualne przeszukiwanie sieci. GLM-4.6V potrafi zinterpretować intencje użytkownika, zaplanować użycie odpowiednich narzędzi (łącząc wyszukiwanie tekstem i obrazem), a na koniec przedstawić odpowiedź w formie ustrukturyzowanej, na przykład wizualnego porównania produktów.

Trzeci scenariusz to replikacja i modyfikacja interfejsów użytkownika. Na podstawie zrzutu ekranu model jest w stanie wygenerować dokładny kod HTML, CSS i JavaScript. Co ciekawsze, deweloper może następnie zaznaczyć fragment interfejsu i wydać polecenie w języku naturalnym, np. „przesuń ten przycisk w lewo” lub „zmień tło tej karty”, a model zaktualizuje odpowiedni fragment kodu.

Czwartym, kluczowym zastosowaniem jest analiza długich, wielostronicowych dokumentów dzięki kontekstowi o długości 128 tys. tokenów. Traktując każdą stronę jako osobny obraz, model jest w stanie przetworzyć w jednym przebiegu np. raporty finansowe czterech różnych firm i stworzyć na ich podstawie tabelę porównawczą lub streścić cały mecz piłki nożnej, zachowując zdolność do odpowiadania na pytania o konkretne bramki i sygnatury czasowe.

Architektura zbudowana dla agentów AI

Seria GLM-4.6V składa się z dwóch wariantów: potężnego modelu bazowego o 106 miliardach parametrów, przeznaczonego dla chmury i klastrów obliczeniowych, oraz znacznie mniejszej wersji „Flash” (9 mld parametrów), zoptymalizowanej pod kątem wdrożeń lokalnych i niskich opóźnień.

U podstaw ich działania leżą trzy filary. Po pierwsze, modelowanie długich sekwencji, osiągnięte przez ciągły pre-trening na ogromnych, długokontekstowych korpusach danych obraz-tekst. Po drugie, wzbogacenie o wiedzę o świecie dzięki zastosowaniu zbioru danych o skali miliarda przykładów, obejmującego zarówno pojęcia encyklopedyczne, jak i codzienne obiekty wizualne. Po trzecie, wykorzystanie syntetycznych danych i uczenia przez wzmacnianie (RL) do trenowania modelu w zakresie planowania i poprawnego korzystania ze złożonych łańcuchów narzędzi.

Udostępnienie wag modeli GLM-4.6V na licencji MIT to ważny sygnał dla rynku. Zhipu AI nie tylko rzuca wyzwanie zachodnim gigantom, ale także dostarcza społeczności open source potężne narzędzie, które może przyspieszyć rozwój nowej generacji agentów AI – takich, które nie tylko rozumieją, co widzą, ale potrafią na tej podstawie bezpośrednio działać.

Koniec z tekstowym pośrednikiem

Od analizy raportów po kodowanie interfejsów

Architektura zbudowana dla agentów AI

Udostępnij:

Zobacz również

Sierra, startup AI prowadzony przez Breta Taylora, pozyskuje 350 mln USD przy wycenie 10 mld USD

RouteLLM: Nowa strategia optymalizacji kosztów w użyciu dużych modeli językowych

Lumana redefiniuje nadzór wizyjny z AI: interpretacja obrazu zamiast pasywnego nagrywania

Dodaj komentarz Anuluj pisanie odpowiedzi