LLMNarzędziaNews

Alibaba prezentuje QwenLong-L1: przełom w rozumieniu długich tekstów przez AI

Alibaba Group zaprezentowała QwenLong-L1, innowacyjny framework, który znacząco rozszerza możliwości dużych modeli językowych (LLM) w zakresie rozumowania na podstawie wyjątkowo długich tekstów. To osiągnięcie może zrewolucjonizować zastosowania AI w przedsiębiorstwach, gdzie kluczowe jest dogłębne zrozumienie i interpretacja rozbudowanych dokumentów, takich jak sprawozdania finansowe, umowy prawne czy obszerne analizy korporacyjne.

Wyzwania związane z rozumowaniem długich form tekstowych dla AI

Postęp w dziedzinie dużych modeli rozumujących (Large Reasoning Models – LRM), zwłaszcza dzięki uczeniu przez wzmacnianie (Reinforced Learning – RL), znacząco poprawił ich zdolność do rozwiązywania problemów. Badania pokazują, że LRM trenowane z wykorzystaniem RL wykazują umiejętności zbliżone do ludzkiego „powolnego myślenia”, opracowując złożone strategie do realizacji zadań. Jednak te postępy są najbardziej widoczne, gdy modele pracują z krótszymi fragmentami tekstu, zwykle do 4000 tokenów. Skalowanie opcji rozumowania na znacznie dłuższe konteksty (np. 120 000 tokenów) pozostaje poważnym wyzwaniem.

„Rozumowanie” długich form wymaga solidnego zrozumienia całego kontekstu i zdolności do wieloetapowej analizy. „To ograniczenie stanowi znaczącą barierę dla praktycznych zastosowań wymagających interakcji z wiedzą zewnętrzną, takich jak dogłębne badania, gdzie LRM muszą gromadzić i przetwarzać informacje z wiedzochłonnych środowisk” – podkreślają twórcy QwenLong-L1.

QwenLong-L1: wieloetapowe podejście

QwenLong-L1 to framework uczenia przez wzmacnianie, mający na celu ułatwienie LRM przejścia od biegłości w krótkich tekstach do solidnego uogólniania w długich kontekstach. Framework ten ulepsza istniejące LRM poprzez starannie ustrukturyzowany, wieloetapowy proces:

  • Warm-up Supervised Fine-Tuning (SFT): Model jest początkowo trenowany na przykładach rozumowania długich kontekstów, co pozwala na dokładne osadzenie informacji z długich danych wejściowych.
  • Curriculum-Guided Phased RL: Model jest trenowany w kilku fazach, stopniowo zwiększając długość danych wejściowych. To systematyczne podejście pomaga modelowi stabilnie dostosowywać strategie rozumowania od krótszych do coraz dłuższych kontekstów.
  • Difficulty-Aware Retrospective Sampling: Ostatni etap szkolenia obejmuje trudne przykłady z poprzednich faz, zapewniając, że model nadal uczy się na najtrudniejszych problemach.

Oprócz strukturalnego treningu, QwenLong-L1 wykorzystuje system nagród, który łączy weryfikację opartą na regułach z modelem oceniającym LLM, który porównuje semantykę wygenerowanej odpowiedzi z prawdą, pozwalając na większą elastyczność i lepsze radzenie sobie z różnymi sposobami wyrażania poprawnych odpowiedzi w długich, zniuansowanych dokumentach.

Testowanie QwenLong-L1

Zespół Alibaba ocenił QwenLong-L1, wykorzystując test odpowiadania na pytania dotyczące dokumentów (DocQA). Wyniki eksperymentalne w siedmiu benchmarkach DocQA w długim kontekście pokazały możliwości QwenLong-L1. Model QWENLONG-L1-32B osiągnął wydajność porównywalną z Claude-3.7 Sonnet Thinking firmy Anthropic i przewyższył modele takie jak o3-mini OpenAI i Qwen3-235B-A22B. Mniejszy model QWENLONG-L1-14B natomiast swoimi osiągami pokonał Gemini 2.0 Flash Thinking Google i Qwen3-32B.

Istotnym ciekawym spostrzeżeniem jest, jak trening RL prowadzi do rozwoju przez model specjalnych zachowań związanych z rozumowaniem długich kontekstów. Modele trenowane z QwenLong-L1 lepiej „zakotwiczają” (łączą odpowiedzi z określonymi częściami dokumentu), wyznaczają sub cele, cofają się (rozpoznają i poprawiają własne błędy) i weryfikują odpowiedzi.

Potencjalne zastosowania

QwenLong-L1 może znacząco rozszerzyć użyteczność AI w przedsiębiorstwach. Potencjalne aplikacje obejmują analizę prawną (tysiące stron dokumentów prawnych), finanse (dogłębne badania raportów rocznych i dokumentów finansowych) i obsługę klienta (analiza historii interakcji z klientami).

Kod QwenLong-L1 i wagi dla przeszkolonych modeli są dostępne publicznie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *