Meta AI prezentuje DeepConf: przełom w efektywności rozumowania modeli językowych
Sztuczna inteligencja poczyniła ogromne postępy w dziedzinie rozumowania, głównie dzięki modelom językowym (LLM). Jednak popularne metody, takie jak równoległe myślenie i samo-spójność, często wiążą się z kompromisem: zwiększenie dokładności wymaga znacznych zasobów obliczeniowych. Naukowcy z Meta AI i UCSD przedstawili innowacyjne rozwiązanie – Deep Think with Confidence (DeepConf) – które minimalizuje ten problem.
DeepConf oferuje najnowocześniejsze wyniki w rozumowaniu, przy jednoczesnej redukcji kosztów. Wykorzystując otwarty model GPT-OSS-120B, DeepConf osiągnął imponującą dokładność 99,9% w konkursie matematycznym AIME 2025, generując przy tym do 85% mniej tokenów niż konwencjonalne metody równoległego myślenia.
Dlaczego DeepConf jest tak istotny?
Równoległe myślenie, oparte na generowaniu wielu potencjalnych rozwiązań i wyborze najczęściej powtarzającej się odpowiedzi, stało się standardem w poprawianiu rozumowania LLM. Niestety, ta metoda ma swoje ograniczenia. Wraz ze wzrostem liczby rozważanych ścieżek rozumowania, dokładność przestaje rosnąć, a nawet może zacząć spadać, ponieważ mniej trafne ścieżki zaburzają wynik końcowy. Generowanie setek lub tysięcy ścieżek dla każdego zapytania jest ponadto kosztowne, zarówno pod względem czasu, jak i zasobów obliczeniowych.
DeepConf rozwiązuje te problemy, wykorzystując wewnętrzne wskaźniki pewności modelu LLM. Zamiast traktować wszystkie ścieżki rozumowania jednakowo, dynamicznie odfiltrowuje te o niskiej pewności – albo podczas generowania (online), albo po jego zakończeniu (offline). Dzięki temu do wyboru ostatecznej odpowiedzi wykorzystywane są tylko najbardziej wiarygodne ścieżki rozumowania. Ta strategia jest niezależna od modelu, nie wymaga treningu ani dostrajania hiperparametrów i może być zaimplementowana w dowolnym istniejącym modelu lub frameworku.
Jak działa DeepConf? Pewność jako przewodnik
DeepConf wprowadza kilka ulepszeń w sposobie pomiaru i wykorzystania pewności modelu:
- Pewność tokenu: Dla każdego wygenerowanego tokenu obliczana jest średnia negatywna log prawdopodobieństwa kandydata. Daje to lokalny pomiar pewności.
- Pewność grupy: Uśredniona pewność tokenów w przesuwnym oknie (np. 2048 tokenów), dająca wygładzony, pośredni sygnał jakości rozumowania.
- Pewność ogonowa: Skupienie się na końcowym segmencie ścieżki rozumowania, gdzie często znajduje się odpowiedź, aby wychwycić późne załamania.
- Najniższa pewność grupy: Identyfikacja najmniej pewnego segmentu w ścieżce, który często sygnalizuje załamanie rozumowania.
- Pewność dolnego percentyla: Podświetlenie najgorszych segmentów, które najlepiej przewidują błędy.
Wymienione metryki są następnie wykorzystywane do ważenia głosów (ścieżki o wysokiej pewności liczą się bardziej) lub do filtrowania ścieżek (zachowywane jest tylko η% ścieżek o najwyższej pewności). W trybie online DeepConf przerywa generowanie ścieżki, gdy tylko jej pewność spadnie poniżej dynamicznie kalibrowanego progu, co znacznie redukuje marnotrawstwo zasobów.
Kluczowe wyniki: wydajność i efektywność
DeepConf został przetestowany na wielu modelach (DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B) i zbiorach danych (AIME 2024/2025, HMMT 2025, BRUMO25, GPQA-Diamond). Wyniki są imponujące:
- Wzrost wydajności: DeepConf poprawia dokładność nawet o ~10 punktów procentowych w porównaniu ze standardowym głosowaniem większościowym, często osiągając górną granicę możliwości danego benchmarku.
- Ultra-efektywność: Przez wczesne zatrzymywanie ścieżek o niskiej pewności, DeepConf redukuje całkowitą liczbę generowanych tokenów o 43–85%, bez utraty (a często z zyskiem) dokładności końcowej.
- Plug & play: DeepConf działa od razu z każdym modelem – bez dostrajania, wyszukiwania hiperparametrów i zmian w architekturze.
Prosta integracja: minimalny kod, maksymalny wpływ
Implementacja DeepConf jest prosta. Wymaga jedynie dostępu do prawdopodobieństwa tokenów i kilku linii kodu do obliczania pewności i wczesnego zatrzymywania. Pozwala to dowolnemu endpointowi kompatybilnemu z OpenAI obsługiwać DeepConf za pomocą jednego dodatkowego ustawienia, co ułatwia wdrożenie w środowiskach produkcyjnych.
Wnioski
DeepConf od Meta AI stanowi krok naprzód w rozumowaniu LLM, zapewniając zarówno wysoką dokładność, jak i niezrównaną efektywność. Dynamicznie wykorzystując pewność modelu, DeepConf osiąga to, co wcześniej było poza zasięgiem modeli open-source: niemal idealne wyniki w elitarnych zadaniach rozumowania, przy ułamku kosztów obliczeniowych. Czy to realna szansa na upowszechnienie zaawansowanych modeli AI?
