LLMObrazR & D

Glyph: Przełom w przetwarzaniu długich kontekstów dzięki kompresji wizualno-tekstowej

W miarę jak modele sztucznej inteligencji stają się coraz potężniejsze, wyzwaniem pozostaje efektywne przetwarzanie bardzo długich sekwencji tekstowych. Tradycyjne podejścia, takie jak rozszerzanie kodowań pozycyjnych czy modyfikowanie mechanizmów uwagi, często skutkują nieproporcjonalnym wzrostem kosztów obliczeniowych i pamięciowych wraz ze wzrostem liczby tokenów. W odpowiedzi na to wyzwanie, zespół badawczy z Zhipu AI opracował Glyph – nowy framework, który zmienia perspektywę i traktuje problem długiego kontekstu jako zadanie kompresji wizualno-tekstowej.

Od tekstu do obrazu: Nowa strategia

Kluczową innowacją Glyph jest transformacja długich sekwencji tekstowych w obrazy stron, które następnie są przetwarzane przez model wizualno-językowy (VLM). Ta z pozoru prosta zmiana pozwala na znaczną kompresję tokenów. Każdy wizualny token, zamiast reprezentować pojedynczy znak czy słowo, może kodować znacznie więcej informacji, skutecznie skracając sekwencję tokenów i jednocześnie zachowując pełnię znaczenia. Zhipu AI twierdzi, że Glyph osiąga 3-4-krotną kompresję tokenów bez utraty dokładności, co przekłada się na zwiększenie efektywności pamięci, przepustowości treningowej i szybkości wnioskowania.

Przewaga Glyph nad konwencjonalnymi metodami polega na tym, że zmienia on reprezentację danych. Zamiast operować na czystym tekście, przenosi ciężar przetwarzania na VLM, który z natury jest już wyposażony w umiejętności optycznego rozpoznawania znaków (OCR), analizy układu strony i rozumowania wizualnego. To zwiększa gęstość informacji na token, co oznacza, że stały budżet tokenów może objąć znacznie większy oryginalny kontekst. Badania zespołu pokazują, że VLM działający w kontekście 128 tys. tokenów, wspierany przez Glyph, jest w stanie wykonywać zadania wymagające zazwyczaj przetwarzania miliona tokenów.

Trzyfazyjne podejście: Projekt i trening systemu

Architektura Glyph obejmuje trzy główne etapy. Pierwszym jest ciągłe wstępne szkolenie, podczas którego VLM jest eksponowany na obszerne korpusy renderowanych długich tekstów z różnorodną typografią i stylami. Celem jest tu wyrównanie reprezentacji wizualnych i tekstowych oraz przeniesienie umiejętności przetwarzania długich kontekstów z tokenów tekstowych na wizualne.

Drugi etap to wyszukiwanie parametrów renderowania, realizowane za pomocą pętli genetycznej kierowanej przez duży model językowy (LLM). LLM mutuje takie parametry jak rozmiar strony, DPI, rodzina i rozmiar czcionki, wysokość linii, wyrównanie, wcięcia i odstępy. Kandydaci są oceniani na zbiorze walidacyjnym w celu optymalizacji zarówno dokładności, jak i kompresji.

Ostatnim etapem jest post-trenowanie, wykorzystujące nadzorowane dostrajanie (SFT) i uczenie ze wzmocnieniem z wykorzystaniem Group Relative Policy Optimization (GRPO), uzupełnione o dodatkowe zadanie wyrównywania OCR. To zadanie ma na celu poprawę wierności znaków, szczególnie w przypadku małych czcionek i ciasnych odstępów.

Wyniki i wydajność

Testy na benchmarkach LongBench i MRCR potwierdziły znaczną kompresję i zachowanie dokładności. Model osiągnął średni współczynnik kompresji około 3,3 na LongBench (z wartościami bliskimi 5 dla niektórych zadań) oraz około 3,0 na MRCR. Co istotne, zyski te skalują się wraz z długością danych wejściowych. Przyspieszenie w przetwarzaniu danych 128K jest znaczące: około 4,8-krotnie szybsze wstępne wypełnianie (prefill), około 4,4-krotnie szybsze dekodowanie i około dwukrotnie większa przepustowość przy nadzorowanym dostrajaniu.

Benchmark Ruler wykazał, że wyższe DPI w czasie wnioskowania poprawia wyniki, ponieważ ostrzejsze glify ułatwiają OCR i analizę układu. Zespół badawczy odnotował, że przy 72 DPI osiągnięto średnią kompresję 4,0 (maksymalnie 7,7 w specyficznych podzadaniach), przy 96 DPI średnią 2,2 (maksymalnie 4,4), a przy 120 DPI średnią 1,2 (maksymalnie 2,8). Należy jednak zaznaczyć, że maksymalna wartość 7,7 dotyczy Ruler, a nie MRCR.

Zastosowania i ograniczenia

Glyph otwiera nowe możliwości w dziedzinie multimodalnego rozumienia dokumentów. Szkolenie na renderowanych stronach poprawia wydajność w zadaniach dokumentowych MMLongBench Doc, co sugeruje, że cel renderowania jest użytecznym pretekstem dla rzeczywistych zadań związanych z dokumentami zawierającymi figury i złożone układy.

Główną wadą systemu jest jego wrażliwość na agresywną typografię. Bardzo małe czcionki i ciasne odstępy mogą pogarszać dokładność rozpoznawania znaków, zwłaszcza w przypadku rzadkich ciągów alfanumerycznych. Zespół badawczy wykluczył podzadanie UUID z testów na Rulerze, co wskazuje na świadomość tych ograniczeń. Podejście to zakłada również renderowanie po stronie serwera i wykorzystanie VLM z silnymi predefiniowanymi umiejętnościami w zakresie OCR i układu strony.

Podsumowując, Glyph przedstawia konkretną ścieżkę do skalowania długiego kontekstu, jednocześnie kontrolując wymagania obliczeniowe i pamięciowe. Traktowanie skalowania długiego kontekstu jako kompresji wizualno-tekstowej, poprzez renderowanie długich sekwencji w obrazy, a następnie przetwarzanie ich za pomocą VLM, stanowi nowatorskie i obiecujące rozwiązanie dla obecnych wyzwań w dziedzinie AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *