Arch-Router: Nowe podejście do efektywnego routingu w ekosystemach wielomodelowych
Wraz z dynamicznym rozwojem sztucznej inteligencji, firmy coraz częściej odchodzą od monolitycznych architektur opartych na pojedynczych modelach językowych (LLM) na rzecz systemów wielomodelowych. Takie podejście pozwala na wykorzystanie unikalnych zalet poszczególnych LLM-ów, specjalizujących się w różnych zadaniach – od generowania kodu po edycję obrazów. Jednakże, rośnie również złożoność związana z inteligentnym kierowaniem zapytań użytkowników do najbardziej odpowiedniego modelu.
Obecne metody routingu, takie jak routing oparty na zadaniach lub na wydajności, wykazują znaczące ograniczenia. Routing zadaniowy często gubi się w obliczu niejasnych intencji użytkownika, zwłaszcza w konwersacjach wieloetapowych. Z kolei routing oparty na wydajności, choć opierający się na twardych danych, sztywno priorytetyzuje wyniki benchmarków, ignorując subiektywne preferencje użytkowników i wymagając kosztownego dostrajania przy każdej modyfikacji systemu.
Naukowcy z Katanemo Labs, dostrzegając te bolączki, opracowali Arch-Router, nowatorski model i framework routingu, który ma szansę zrewolucjonizować zarządzanie systemami LLM. Ich podejście, nazwane „routingiem dopasowanym do preferencji”, koncentruje się na rzeczywistych potrzebach użytkowników i pozwala na elastyczne dostosowywanie przepływu danych bez konieczności kosztownego i czasochłonnego retrenningu.
Rewolucja w routingu: Preferencje użytkowników ponad wszystko
Rdzeniem innowacji Katanemo Labs jest zdolność Arch-Routera do interpretowania intencji użytkownika i polityk routingu zdefiniowanych w języku naturalnym. Użytkownicy określają swoje preferencje za pomocą dwupoziomowej hierarchii, nazwanej „Taksonomią Domeny-Akcji”. Na pierwszym poziomie znajduje się ogólna domena (np. „prawo”, „finanse”), a na drugim konkretne działanie (np. „sumaryzacja”, „generowanie kodu”). Każda z takich polityk jest powiązana z preferowanym modelem, co pozwala na podejmowanie decyzji routingowych w oparciu o realne potrzeby, a nie tylko wyniki benchmarków.
Proces routingu dzieli się na dwa etapy: Arch-Router najpierw analizuje zapytanie użytkownika i kompleksowy zestaw polityk, a następnie wybiera najbardziej dopasowaną politykę. W drugim etapie, funkcja mapowania łączy wybraną politykę z przypisanym jej modelem LLM. Kluczowe jest oddzielenie logiki wyboru modelu od polityki. Dzięki temu, dodawanie, usuwanie czy zamiana modeli sprowadza się do edycji polityk routingu, bez konieczności modyfikowania czy retreningu samego routera. Ta elastyczność jest nieoceniona w środowiskach, gdzie modele i przypadki użycia stale ewoluują.
Arch-Router: Niezrównana precyzja i efektywność
Arch-Router, będący kompaktowym modelem językowym o 1,5 miliarda parametrów, został dostrojony do routingu dopasowanego do preferencji. Model ten, bazujący na architekturze Qwen 2.5, przetwarza zapytanie użytkownika wraz z pełnym opisem polityk w ramach pojedynczego prompta, a następnie generuje identyfikator najlepiej pasującej polityki. Ponieważ polityki są integralną częścią danych wejściowych, system może adaptować się do nowych lub zmodyfikowanych tras w czasie wnioskowania (inference time) poprzez uczenie w kontekście, bez potrzeby retreningu.
To podejście generatywne pozwala Arch-Routerowi wykorzystywać swoją wstępnie wytrenowaną wiedzę do zrozumienia semantyki zarówno zapytania, jak i polityk, oraz przetwarzać całą historię konwersacji jednocześnie. Autorzy rozwiązania zwracają uwagę na potencjalne obawy dotyczące latency wynikające z dużej długości polityk zawartych w promptach. Jednakże, Salman Paracha, współautor publikacji i CEO Katanemo Labs, zapewnia, że Arch-Router został zaprojektowany z myślą o wysokiej efektywności. Długość wyjścia, która jest głównym czynnikiem wpływającym na opóźnienia, jest w przypadku Arch-Routera minimalna, sprowadzając się jedynie do krótkiej nazwy polityki.
Testy polowe i praktyczne zastosowania
Aby ocenić wydajność Arch-Routera, naukowcy dostroili model na zbiorze 43 000 przykładów, a następnie przetestowali go na czterech publicznych zbiorach danych służących do ewaluacji systemów konwersacyjnych. Wyniki okazały się imponujące: Arch-Router osiągnął ogólny wynik routingu na poziomie 93,17%, przewyższając wszystkie testowane modele, w tym wiodące komercyjne rozwiązania OpenAI, Anthropic i Google, średnio o 7,71%. Co istotne, przewaga modelu rosła wraz z wydłużaniem się konwersacji, co świadczy o jego zdolności do efektywnego śledzenia kontekstu wieloetapowego.
W praktyce, Arch-Router jest już wykorzystywany w różnorodnych scenariuszach. Przykładowo, w narzędziach do kodowania open-source, deweloperzy używają Arch-Routera do kierowania różnych etapów pracy, takich jak projektowanie kodu, rozumienie kodu czy generowanie kodu, do LLM-ów najlepiej przystosowanych do każdego z tych zadań. Podobnie, przedsiębiorstwa mogą kierować zapytania dotyczące tworzenia dokumentów do modelu takiego jak Claude 3.7 Sonnet, podczas gdy zadania edycji obrazów trafiają do Gemini 2.5 Pro.
Salman Paracha podkreśla, że system ten idealnie sprawdza się również w przypadku asystentów osobistych w różnych dziedzinach, gdzie użytkownicy wykonują zróżnicowane zadania, od sumaryzacji tekstu po zapytania faktograficzne. W takich scenariuszach Arch-Router pomaga deweloperom ujednolicić i poprawić ogólne doświadczenie użytkownika.
Framework ten jest również zintegrowany z Arch, serwerem proxy AI-native Katanemo Labs dla agentów, co pozwala deweloperom na implementację zaawansowanych reguł kształtowania ruchu. W przypadku integracji nowego LLM-a, zespół może skierować niewielką część ruchu dla konkretnej polityki routingu do nowego modelu, zweryfikować jego wydajność za pomocą wewnętrznych metryk, a następnie z pełnym zaufaniem przełączyć cały ruch. Firma pracuje również nad integracją swoich narzędzi z platformami ewaluacyjnymi, aby jeszcze bardziej usprawnić ten proces dla deweloperów korporacyjnych.
Nadrzędnym celem Katanemo Labs jest odejście od fragmentarycznych implementacji AI. Jak podsumowuje Paracha, „Arch-Router – i Arch szerzej – pomaga deweloperom i przedsiębiorstwom przejść od fragmentarycznych implementacji LLM do ujednoliconego, opartego na politykach systemu. W scenariuszach, gdzie zadania użytkownika są zróżnicowane, nasz framework pomaga przekształcić tę fragmentację zadań i LLM-ów w ujednolicone doświadczenie, sprawiając, że finalny produkt jest płynny dla użytkownika końcowego.”
