xRouter Salesforce’a: inteligentne zarządzanie kosztami w orkiestracji modeli językowych
W obliczu rosnącej złożoności aplikacji sztucznej inteligencji, które coraz częściej korzystają z wielu modeli językowych (LLM) o zróżnicowanych możliwościach i cenach, kluczowe staje się efektywne zarządzanie tym ekosystemem. Zespół badawczy Salesforce AI odpowiedział na to wyzwanie, prezentując xRouter, router oparty na uczeniu ze wzmocnieniem (reinforcement learning), mający na celu optymalizację wyboru odpowiedniego LLM dla każdego zapytania, z uwzględnieniem kosztów na poziomie tokena.
xRouter to system orkiestracji oparty na wywoływaniu narzędzi, którego podstawą jest model Qwen2.5-7B-Instruct. Działając jako model routera, jest on dostrojony instrukcyjnie i wyposażony w możliwości wywoływania narzędzi, co pozwala mu decydować, który model zostanie wywołany, jak zostanie sprowokowany, a także czy ma syntetyzować odpowiedź, czy wybrać ją spośród dostępnych. Implementacja wykorzystuje algorytm DAPO (Distributional Advantage Policy Optimization) w ramach frameworku uczenia ze wzmocnieniem Verl i jest kompatybilna z API OpenAI.
System xRouter zarządza ponad 20 różnymi narzędziami LLM, obejmującymi modele premium, standardowe, budżetowe oraz specjalistyczne, takie jak GPT-5, GPT-4.1, GPT-5-Mini, o3, Kimi K2 czy warianty Qwen3-235B. Pula modeli do przekierowywania (offloading pool) to podzbiór 12 modeli, w tym GPT-5, GPT-5-Mini, GPT-4o i dwie wersje Gemini-2.5.
Uczenie ze wzmocnieniem z uwzględnieniem kosztów
Routing w xRouterze został sformułowany jako problem uczenia ze wzmocnieniem. Dla każdego „epizodu” nagroda jest kombinacją binarnego sygnału sukcesu i kary kosztowej. Zespół badawczy zdefiniował nagrodę, która przyznaje stały bonus, gdy ostateczna odpowiedź jest poprawna, a następnie odejmuje termin proporcjonalny do całkowitego znormalizowanego kosztu wszystkich wywołań modelu. W przypadku błędnej odpowiedzi, nagroda wynosi zero, niezależnie od niskiej ceny. Ta „ukierunkowana na sukces, kształtowana kosztem” funkcja celu zmusza router do najpierw osiągnięcia poprawności, a następnie optymalizacji kosztów wśród udanych strategii. W praktyce szkolenie wykorzystuje trzy ustawienia kary kosztowej, co prowadzi do powstania wariantów xRouter-7B-1, xRouter-7B-2 i xRouter-7B-3.
Dane treningowe dla xRoutera pochodzą z bazy Reasoning360, zawierającej zadania z matematyki, kodowania i ogólnego rozumowania, z szacunkami trudności pochodzącymi z referencyjnego modelu Qwen3-32B. Zespół badawczy podzielił próbki na trzy kategorie trudności: łatwe, średnie i trudne, dodając również prostsze zadania czatowe, wyszukiwania i pytania faktograficzne, aby nauczyć router, kiedy może odpowiedzieć bezpośrednio, bez delegowania zadania. Każda próbka zawiera opisy i ceny dla modeli z różnych poziomów. System na bieżąco aktualizuje katalog modeli i wprowadza zakłócenia w kosztach, aby uniknąć nadmiernego dopasowania do statycznej tabeli cenowej.
Tryby działania i wyniki
Router obsługuje trzy tryby wykonania: może odpowiadać bezpośrednio z głównego modułu bez wywoływania narzędzi; może wywoływać jeden lub więcej modeli podrzędnych, a następnie syntetyzować odpowiedź, wykorzystując własne rozumowanie na podstawie ich wyników; lub może wywoływać modele podrzędne i używać specjalnego narzędzia do wyboru jednej z odpowiedzi jako ostatecznej. Empirycznie szkolone instancje xRoutera wykorzystują mieszankę odpowiedzi bezpośrednich i syntetyzowanych. Standardowe routery, takie jak GPT-4o czy GPT-5, mają tendencję do odpowiadania bezpośrednio przez większość czasu, nawet gdy są instruowane do przekierowywania, co wskazuje na ważną różnicę w zachowaniu i tłumaczy część osiągniętej efektywności.
W testach porównawczych na zestawach danych takich jak Minerva, MATH-500 czy Olympiad Bench, warianty xRouter-7B konsekwentnie poprawiały dokładność w porównaniu z użyciem tego samego modelu bazowego jako nieprzeszkolonego routera. Na przykład xRouter-7B-2 osiągnął dokładność zbliżoną do GPT-5 na Olympiad Bench, zużywając jednocześnie około jednej ósmej kosztów ewaluacji GPT-5. W systemowej ocenie na LivingCodeBenchv5, GPQADiamond i innych, xRouter-7B-3 uzyskał najwyższą średnią dokładność na LiveCodeBenchv5 spośród wszystkich testowanych systemów, przy umiarkowanych kosztach. Zespół badawczy podsumowuje, że ich funkcja nagrody uwzględniająca koszty może zredukować koszty inferencji nawet o 80 procent przy podobnych wskaźnikach ukończenia zadań. Karta wag modelu HF podaje do 60 procent redukcji kosztów dla porównywalnej jakości w innych ustawieniach.
Przyszłość orkiestracji LLM
Badacze zdefiniowali również „użyteczność kosztową” jako stosunek dokładności do kosztów. Chociaż otwarte modele jednobazowe o bardzo niskich cenach API często osiągają wyższą użyteczność kosztową, ich bezwzględna dokładność jest niższa. xRouter plasuje się w środku, oferując pewien kompromis między użytecznością kosztową a silniejszą wydajnością zadaniową, co jest zazwyczaj kluczowe dla systemów produkcyjnych.
xRouter stanowi znaczący krok w kierunku orkiestracji systemów językowych z uwzględnieniem kosztów dla heterogenicznych flot LLM. Pokazuje, że router średniej wielkości, wyszkolony z użyciem DAPO na Reasoning360 z nagrodą ukierunkowaną na sukces i kształtowaną kosztem, może konsekwentnie zbliżać się do dokładności GPT-5, jednocześnie redukując koszty offloadingu o 60 do 80 procent.
