Agentic-R1: Nowe podejście AI do rozwiązywania problemów matematycznych łączy rozumowanie i użycie narzędzi
Istniejące modele sztucznej inteligencji, szczególnie te oparte na długich łańcuchach myślowych (long-CoT), osiągnęły imponujące wyniki w rozumowaniu matematycznym. Polegały one na generowaniu ścieżek rozumowania z iteracyjną samoweryfikacją. Jednak otwarte modele long-CoT, bazujące wyłącznie na rozumowaniu w języku naturalnym, bywają kosztowne obliczeniowo i podatne na błędy, zwłaszcza bez mechanizmów weryfikacji.
Alternatywnie, podejścia wspomagane narzędziami, takie jak te wykorzystujące interpretery kodu poprzez frameworki jak OpenHands, oferują większą efektywność i niezawodność w przypadku obliczeń numerycznych. Mimo to, te agentowe metody zmagają się z problemami abstrakcyjnymi lub koncepcyjnie złożonymi, gdzie wymagane jest bardziej subtelne rozumowanie.
Innowacja z Carnegie Mellon: DualDistill i Agentic-R1
Naukowcy z Carnegie Mellon University przedstawili framework DualDistill oraz model Agentic-R1, które mają na celu połączyć moc obu tych podejść. DualDistill to mechanizm destylacji wiedzy, który wykorzystuje dwie uzupełniające się „nauczycielki” – jedną nastawioną na rozumowanie (DeepSeek-R1), a drugą na wykorzystanie narzędzi (OpenHands). Celem jest stworzenie jednego „ucznia”, Agentic-R1, który dynamicznie wybiera najodpowiedniejszą strategię dla każdego typu problemu.
Agentic-R1 jest zdolny do wykonania kodu w przypadku zadań arytmetycznych i algorytmicznych, jednocześnie angażując rozumowanie w języku naturalnym dla problemów abstrakcyjnych. Proces uczenia obejmuje kompozycję ścieżek rozumowania od obu nauczycielek, a następnie autodestylację. To pozwala modelowi na efektywne zbalansowanie precyzji z efektywnością obliczeniową.
Odmienne wyniki: Weryfikacja na benchmarkach
Kluczowym elementem weryfikacji każdego nowego modelu jest jego wydajność w rzeczywistych zastosowaniach. Analiza modelu Agentic-R1, przeprowadzona na wielu benchmarkach matematycznych, w tym DeepMath-Land Combinatorics300, pokazuje znaczące usprawnienia. Model został porównany z DeepSeek-R1-Distill oraz Qwen-2.5-Instruct, udowadniając swoją wyższość.
Co istotne, Agentic-R1 przewyższa inne modele podobnej wielkości, specjalizujące się w użyciu narzędzi lub w czystym rozumowaniu. Jego zdolność do inteligentnego użycia strategii rozumowania, gdy jest to potrzebne, przy jednoczesnym utrzymaniu wysokiej efektywności w standardowych zadaniach matematycznych, stawia go przed konkurencją.
Inteligentne użycie narzędzi i odporność na niedoskonałości nauczycieli
Analiza jakościowa ujawnia, że Agentic-R1 wykazuje inteligentne wzorce użycia narzędzi. Przykładowo, w 79,2% problemów Combinatorics300, które są wymagające obliczeniowo, model aktywował narzędzia do wykonywania kodu. W przypadku łatwiejszych problemów z zestawu danych AMC, aktywacja spadła do 52,0%. To pokazuje, że Agentic-R1 uczy się efektywnie wywoływać narzędzia poprzez samo nadzorowane dostrajanie, bez jawnych instrukcji.
Co więcej, framework DualDistill okazał się odporny na niedoskonałych nauczycieli. Nawet gdy nauczyciel nastawiony na użycie narzędzi osiągał zaledwie 48,4% dokładności na Combinatorics300, model ucznia poprawił się z 44,7% do 50,9%, ostatecznie przewyższając samego nauczyciela. To podkreśla potencjał adaptacyjnych agentów AI zdolnych do integracji heterogenicznych strategii rozwiązywania problemów, co prowadzi do bardziej niezawodnego i efektywnego rozumowania.
