LLMProgramowanie

X-Coder rzuca wyzwanie gigantom. Jak syntetyczne dane Microsoftu i Tsinghua zmieniają reguły gry w kodowaniu

Ewolucja zamiast replikacji

Od lat piętą achillesową modeli językowych przeznaczonych do programowania była ograniczona dostępność unikalnych zadań treningowych. Przeczesywanie publicznych repozytoriów i konkursów programistycznych prowadziło do zjawiska „przetrenowania” na tych samych przykładach, co ograniczało realną zdolność AI do rozwiązywania nowych problemów. Projekt SynthSmith, efekt współpracy Microsoftu i chińskiego Uniwersytetu Tsinghua, przełamuje ten impas. Zamiast szukać gotowych rozwiązań, system tworzy je od zera.

Kluczem do sukcesu okazał się generatywny potok, który wyodrębnia cechy istotne dla algorytmiki – takie jak struktury danych czy techniki optymalizacji – z 10 tysięcy istniejących przykładów kodu. Następnie proces ewolucyjny rozszerza tę bazę do blisko 177 tysięcy unikalnych wpisów algorytmicznych. To podejście pozwala tworzyć zadania o wysokim stopniu skomplikowania, których łańcuchy rozumowania są ponad dwukrotnie dłuższe niż w obecnie dostępnych bazach publicznych.

Różnorodność cenniejsza niż powtarzalność

Badania przeprowadzone w ramach projektu SynthSmith przyniosły istotną obserwację metodologiczną: w procesie uczenia maszynowego wariancja zadań jest znacznie ważniejsza niż wielokrotne analizowanie tego samego problemu. Eksperymenty wykazały, że zestaw 64 tysięcy unikalnych wyzwań z pojedynczymi rozwiązaniami daje lepsze efekty niż mniejszy zbiór zadań z wieloma alternatywnymi ścieżkami ich realizacji.

Przekłada się to bezpośrednio na twarde dane. Przy 32 tysiącach syntetycznych zadań model osiągał skuteczność 43,7 proc. Zwiększenie tej puli do 192 tysięcy pozwoliło wyśrubować wynik do poziomu 62,7 proc. Co istotne, proces ten wykazuje liniową korelację między objętością danych a wynikami w benchmarkach, co sugeruje, że sufit możliwości tej architektury znajduje się jeszcze wyżej.

Starcie z gigantami i odporność na memoryzację

Model X-Coder, mimo posiadania zaledwie 7 miliardów parametrów, w testach LiveCodeBench v6 deklasuje jednostki o rozmiarze 14 miliardów parametrów, takie jak DeepCoder-14B czy AReal-boba2. To zjawisko rzuca nowe światło na efektywność mniejszych modeli – jeśli dane są czyste i odpowiednio wymagające, rozmiar sieci schodzi na dalszy plan.

Inżynierowie zwracają uwagę na jeszcze jeden krytyczny aspekt: odporność na „zapamiętywanie” odpowiedzi. Podczas gdy popularne modele bazowe, takie jak Qwen3-8B, zaliczają drastyczne spadki wydajności przy nowszych wersjach testów (z 88,1 do 57,5 pkt), X-Coder wykazuje znacznie większą stabilność. Fakt, że trenował wyłącznie na danych wygenerowanych syntetycznie, wyklucza ryzyko, iż zadania z benchmarków znalazły się w jego zbiorze uczącym.

Architektura sukcesu

Proces kontroli jakości w SynthSmith opiera się na dwuetapowej weryfikacji. Najpierw system wybiera poprawne wyjścia testowe poprzez głosowanie większościowe między różnymi kandydatami rozwiązań, a następnie waliduje najlepsze z nich na oddzielnym zbiorze testowym. Pozwala to uniknąć zjawiska overfittingu, czyli dopasowania modelu wyłącznie pod specyficzne, wąskie reguły.

Trening tak zaawansowanego systemu wymagał jednak potężnej infrastruktury – wykorzystano 128 procesorów graficznych H20 przez ponad 200 godzin do precyzyjnego strojenia oraz 32 jednostki H200 do fazy uczenia ze wzmocnieniem (reinforcement learning). To inwestycja, która potwierdza szerszy trend w branży AI: firmy takie jak Nvidia czy Datology AI coraz częściej zamieniają „problem braku danych” w „zadanie obliczeniowe”, ufając, że syntetycznie wytworzona inteligencja jest w stanie samodzielnie wytyczyć granice swojego rozwoju.