Wielopłaszczyznowa, odblaskowa kryształowa kula MetaStone-S1 w eterycznej, fioletowo-niebieskiej nebulii, symbolizująca efektywność i innowacyjność AI.

MetaStone-S1. Nowy kierunek w rozwoju AI: efektywność zamiast surowej mocy

2025-07-15 AI Sight

W świecie sztucznej inteligencji dominującym trendem jest dążenie do coraz większych modeli, które, choć potężne, wymagają olbrzymich zasobów obliczeniowych. Jednakże, pojawienie się MetaStone-S1, odblaskowego modelu generatywnego opracowanego przez badaczy z MetaStone-AI oraz USTC, rzuca nowe światło na tę narrację. Model ten osiąga wydajność porównywalną z OpenAI o3-mini, jednocześnie wprowadzając innowacyjne podejście do procesowania, nazwane refleksyjną formą generatywną.

Innowacje kluczowe dla wydajności

Sercem MetaStone-S1 jest refleksyjna forma generatywna, która integruje model polityki z modelem nagrody procesowej (PRM) w jedną, spójną architekturę. To unikalne połączenie minimalizuje koszty obliczeniowe, wymagając jedynie niewielkiego zwiększenia liczby parametrów (zaledwie 53 miliony w werifikatorze przy głównym modelu 32B), co stanowi drastyczną redukcję w porównaniu do tradycyjnych, samodzielnych PRM-ów.

Kluczowym elementem jest również samonadzorowany model nagrody procesowej (SPRM), który eliminuje potrzebę kosztownych, ręcznie etykietowanych danych na poziomie procesu. Wykorzystuje on funkcję straty samonadzorowanej, oceniając jakość pośrednich kroków rozumowania wyłącznie na podstawie poprawności ostatecznej odpowiedzi. Całość wspiera dynamiczny mechanizm ważenia, skutecznie odfiltrowujący szumy.

Redefinicja skalowania w czasie testu (TTS)

Tradycyjne duże modele językowe (LLM) zyskują na wydajności głównie poprzez skalowanie parametrów podczas treningu. MetaStone-S1 proponuje odmienną strategię – skalowanie w czasie testu (TTS), które polega na zwiększaniu głębokości obliczeniowej, a nie jedynie rozmiaru modelu, w celu poprawy wydajności wnioskowania.

Wyróżniamy tu dwa podejścia. Wewnętrzne TTS rozszerza łańcuch myśli, prowadząc do głębszego, sekwencyjnego rozwiązywania problemów, choć może wiązać się z wysokimi kosztami obliczeniowymi. Z kolei zewnętrzne TTS generuje wiele ścieżek rozumowania równolegle, wybierając najlepszą za pomocą PRM-ów, co zazwyczaj wymaga dodatkowych modeli i osobnego etykietowania. MetaStone-S1 łączy oba te paradygmaty w jednej architekturze, oferując efektywny i precyzyjny wybór trajektorii przy minimalnych dodatkowych zasobach.

Wyniki i efektywność

MetaStone-S1 jest dostępny w trzech rozmiarach: 1.5B, 7B i 32B parametrów. Największy z nich, MetaStone-S1-32B, osiąga lub przewyższa wydajność wiodących modeli komercyjnych i otwartych, w tym OpenAI o3-mini, w kluczowych zadaniach rozumowania i matematyce. Wszystkie rozmiary wykazują silne właściwości skalowania i efektywne wykorzystanie parametrów, co stanowi dowód na to, że innowacje architektoniczne mogą konkurować z brutalną siłą obliczeniową.

Integracja SPRM w MetaStone-S1 dodaje zaledwie ułamek parametrów w porównaniu do tradycyjnych rozwiązań, zyskując jednocześnie imponujące wyniki. Co ciekawe, analiza treningu ujawnia wyraźny punkt, w którym model zaczyna precyzyjnie oceniać poprawne i niepoprawne ścieżki rozumowania, co prowadzi do znaczącej poprawy dyskryminacji i ostatecznej wydajności.

Elastyczne tryby rozumowania

MetaStone-S1 oferuje trzy tryby wnioskowania TTS, pozwalające na zbalansowanie wydajności i zużycia zasobów:

Niski (k=2): Najszybsze wnioskowanie dla szybkiego reagowania.
Średni (k=8): Lepsza dokładność przy umiarkowanych obliczeniach.
Wysoki (k=32): Maksymalna głębokość dla trudnych zadań.

MetaStone-S1, dzięki swojej nowatorskiej, refleksyjnej strukturze generatywnej, unifikuje rozwiązywanie problemów i weryfikację rozwiązań w jednym, efektywnym środowisku. Osiągając wydajność porównywalną z OpenAI o3-mini przy znacznie mniejszych zasobach, dowodzi, że innowacje w architekturze LLM mogą skutecznie konkurować z bezwzględnym skalowaniem, otwierając nowe ścieżki dla rozwoju i dostępności sztucznej inteligencji.

Innowacje kluczowe dla wydajności

Redefinicja skalowania w czasie testu (TTS)

Wyniki i efektywność

Elastyczne tryby rozumowania

Udostępnij:

Zobacz również

GPT-5.2 od OpenAI. Nowy model ma być koniem pociągowym dla biznesu i nauki

Bariera błędów. Dlaczego współczesna sztuczna inteligencja wciąż nie potrafi się uczyć?

MCP: Czy protokół Anthropic zrewolucjonizuje integrację narzędzi AI?

Dodaj komentarz Anuluj pisanie odpowiedzi