LLM

T5Gemma 2: Google przedstawia multimodalne modele z długim kontekstem

Wraz z dynamicznym rozwojem sztucznej inteligencji, Google wprowadza na rynek T5Gemma 2 – nową rodzinę transformatorów o architekturze enkoder-dekoder. Modele te stanowią adaptację wstępnie wytrenowanych wag z Gemma 3, a następnie są poddawane dalszemu treningowi z wykorzystaniem UL2. Google podkreśla, że udostępniono jedynie wstępnie wytrenowane punkty kontrolne, co oznacza, że twórcy i badacze będą musieli samodzielnie dostosować je do konkretnych zadań po wstępnym treningu.

Architektura i efektywność

T5Gemma 2 to odpowiednik Gemma 3 w kontekście architektury enkoder-dekoder, zachowujący te same podstawowe bloki konstrukcyjne. Wprowadzono jednak dwie kluczowe zmiany strukturalne, mające na celu zwiększenie efektywności, szczególnie w mniejszych modelach. Modele dziedziczą kluczowe cechy Gemma 3, takie jak multimodalność, obsługa długiego kontekstu (do 128 tysięcy tokenów) oraz szeroki zakres języków – ponad 140.

Wśród udostępnionych wersji T5Gemma 2 znajdują się trzy rozmiary: 270M-270M, 1B-1B oraz 4B-4B, gdzie liczby oznaczają identyczny rozmiar dla enkodera i dekodera. Zespół badawczy szacuje całkowitą liczbę parametrów (z wyłączeniem enkodera wizyjnego) na około 370M, 1.7B i 7B. W kontekście multimodalności, model ten zawiera 417M-parametrowy enkoder wizyjny, obok parametrów enkodera i dekodera podzielonych na komponenty osadzające i nieosadzające.

Adaptacja modeli T5Gemma 2 opiera się na idei zapoczątkowanej w T5Gemma, polegającej na inicjalizacji modelu enkoder-dekoder z wcześniej wytrenowanego modelu o architekturze tylko-dekoderowej, a następnie adaptacji z wykorzystaniem UL2. Ten podział obowiązków między enkoderem a dekoderem, gdzie enkoder przetwarza dane wejściowe dwukierunkowo, a dekoder koncentruje się na generowaniu autoregresywnym, ma potencjalnie zwiększyć wydajność w zadaniach wymagających długiego kontekstu, gdzie model musi wydobyć istotne informacje z obszernego wejścia przed generowaniem odpowiedzi.

Innowacje w efektywności

Dwie kluczowe zmiany, choć subtelne, mają znaczący wpływ na mniejsze modele. Po pierwsze, T5Gemma 2 wykorzystuje współdzielone osadzenia słów (tied word embeddings) zarówno dla osadzeń wejściowych enkodera, osadzeń wejściowych dekodera, jak i osadzeń wyjściowych (softmax) dekodera. To rozwiązanie redukuje redundancję parametrów, a badania ablacyjne wskazują na niewielki spadek jakości przy jednoczesnym zmniejszeniu liczby parametrów osadzających.

Po drugie, wprowadzono tzw. „merged attention” w dekoderze. Zamiast oddzielnych podwarstw samo-uwagi i uwagi krzyżowej, dekoder wykonuje jedną operację uwagi, gdzie klucze (K) i wartości (V) są tworzone przez konkatenację wyjść enkodera i stanów dekodera. Maskowanie zachowuje przyczynową widoczność dla tokenów dekodera. To rozwiązanie ułatwia inicjalizację, zmniejszając różnice między adaptowanym dekoderem a oryginalnym dekoderem Gemma, i generuje oszczędności w parametrach przy niewielkim spadku jakości, co potwierdzają badania ablacyjne.

Multimodalność i długi kontekst

Multimodalność w T5Gemma 2 jest realizowana poprzez ponowne wykorzystanie enkodera wizyjnego z Gemma 3, który pozostaje zamrożony podczas treningu. Tokeny wizyjne są zawsze podawane do enkodera, a tokeny enkodera mają pełną widoczność dla siebie nawzajem w samo-uwadze. Ten pragmatyczny projekt enkoder-dekoder pozwala enkoderowi na łączenie tokenów obrazu z tokenami tekstowymi w reprezentacje kontekstowe, do których dekoder może następnie odwoływać się podczas generowania tekstu.

Implementacja T5Gemma 2 w narzędziach wpisuje się w potok przetwarzania obrazu-tekstu-na-tekst, co odpowiada oryginalnemu zamysłowi badaczy: obraz i tekst wejściowy, tekst wyjściowy. Taki scenariusz jest najszybszym sposobem walidacji całego multimodalnego przepływu, włączając w to takie aspekty jak wybór typów danych (np. bfloat16) i automatyczne mapowanie urządzeń.

Długi kontekst, sięgający 128 tysięcy tokenów, jest możliwy dzięki mechanizmowi naprzemiennej uwagi lokalnej i globalnej zastosowanemu w Gemma 3. Mechanizm ten charakteryzuje się powtarzającym się wzorcem 5 do 1: pięć warstw uwagi lokalnej z przesuwnym oknem, po których następuje jedna warstwa uwagi globalnej, z rozmiarem okna lokalnego wynoszącym 1024. Ten projekt redukuje wzrost pamięci podręcznej KV w porównaniu z użyciem uwagi globalnej w każdej warstwie, co jest kluczowe dla możliwości obsługi długiego kontekstu przy mniejszych rozmiarach modelu.

W T5Gemma 2 zespół badawczy zastosował również metody interpolacji pozycyjnej dla długiego kontekstu. Modele były wstępnie trenowane na sekwencjach do 16 tysięcy tokenów wejściowych sparowanych z 16 tysiącami tokenów wyjściowych, a następnie oceniane pod kątem wydajności długiego kontekstu do 128 tysięcy tokenów na benchmarkach takich jak RULER i MRCR. Szczegółowe tabele wyników wstępnego treningu zawierają oceny dla 32 tysięcy i 128 tysięcy tokenów, wykazując przewagę nad Gemma 3 w tym samym zakresie.

Ustawienia treningowe i implikacje dla użytkowników

Modele były wstępnie trenowane na 2 bilionach tokenów. Konfiguracja treningowa obejmowała rozmiar partii wynoszący 4.2 miliona tokenów, kosinusowy spadek współczynnika uczenia z 100 krokami rozgrzewkowymi, globalne obcinanie gradientów przy 1.0 oraz uśrednianie punktów kontrolnych z ostatnich pięciu iteracji.

Warto podkreślić, że Google udostępniło wyłącznie wstępnie wytrenowane punkty kontrolne. Oznacza to, że nie ma gotowych wersji dostrojonych do konkretnych instrukcji ani post-treningowych w tej puli. Użytkownicy będą musieli samodzielnie przeprowadzić dalsze dostrajanie i walidację modeli do swoich specyficznych zastosowań. Ten kierunek dystrybucji wskazuje na strategię, w której Google dostarcza solidne fundamenty, pozostawiając szczegółowe adaptacje w rękach społeczności badawczej i deweloperskiej.