Abstrakcyjna wizualizacja AI Sakana optymalizującego: wirujące linie i węzły w błękitach, zieleniach i purpurach.

Agent AI Sakana AI w czołówce programistów – nowe horyzonty optymalizacji

2025-06-21 AI Sight

W obliczu rosnącej złożoności wyzwań inżynieryjnych i biznesowych, zdolność do szybkiego i efektywnego rozwiązywania problemów optymalizacyjnych staje się kluczowa. Japońska firma Sakana AI udowodniła, że sztuczna inteligencja może stać się nieocenionym narzędziem w tej dziedzinie, wprowadzając agenta AI o nazwie ALE.

Agent ALE, opracowany przez Sakana AI i bazujący na Google Gemini 2.5 Pro, zajął 21. miejsce w 47. Konkursie Heurystycznym AtCoder, gdzie konkurował z ponad tysiącem ludzkich programistów. Wydarzenia AtCoder to jedne z najbardziej prestiżowych japońskich zawodów programistycznych, w których uczestnicy mierzą się z wyjątkowo trudnymi problemami matematycznymi, często klasyfikowanymi jako NP-trudne. Są to zagadnienia, dla których nie istnieją znane, efektywne algorytmy gwarantujące optymalne rozwiązanie w rozsądnym czasie.

Zastosowania przemysłowe i wyzwania problemów NP-trudnych

Problemy rozwiązywane podczas konkursów AtCoder nie są jedynie abstrakcyjnymi łamigłówkami. Odzwierciedlają one realne wyzwania przemysłowe, takie jak planowanie tras dostaw, organizacja zmian pracowniczych, zarządzanie produkcją w fabrykach czy optymalizacja działania sieci energetycznych. Ludzcy uczestnicy często poświęcają na takie zadania tygodnie intensywnej pracy, doskonaląc swoje algorytmy i testując różne rozwiązania.

W odpowiedzi na potrzebę rzetelnej oceny wydajności systemów AI w tej niszy, Sakana AI stworzyła ALE-Bench. To, jak określa firma, pierwszy benchmark do programowania algorytmicznego opartego na punktacji. ALE-Bench czerpie z 40 trudnych problemów optymalizacyjnych z przeszłych konkursów AtCoder. W przeciwieństwie do tradycyjnych testów, które jedynie weryfikują poprawność odpowiedzi, ALE-Bench wymaga ciągłego doskonalenia rozwiązań przez dłuższy czas. Sam framework jest dostępny jako biblioteka Pythona z wbudowanym środowiskiem „code sandbox” do bezpiecznego testowania, wspierając C++, Pythona i Rust, oraz działając na standardowej infrastrukturze chmurowej Amazon. Dane z 40 problemów konkursowych są dostępne na platformie Hugging Face, a kod projektu na GitHubie, co sprzyja transparentności i dalszym badaniom.

Innowacyjne strategie agenta ALE

Sukces agenta ALE wynika z połączenia dwóch głównych strategii. Po pierwsze, agent integruje w swoich instrukcjach ekspercką wiedzę na temat sprawdzonych metod rozwiązywania problemów. Zaliczają się do nich techniki takie jak symulowane wyżarzanie (simulated annealing), które polega na wprowadzaniu losowych zmian do rozwiązań i akceptowaniu nawet gorszych wyników, aby uniknąć utknięcia w lokalnych ekstremach i zwiększyć szanse na znalezienie globalnego optimum.

Po drugie, system wykorzystuje systematyczny algorytm przeszukiwania, nazywany „best-first search”, który zawsze wybiera najbardziej obiecujące częściowe rozwiązanie i rozwija je dalej. Agent rozszerza to podejście o metodę przypominającą „beam search”, równocześnie analizując do 30 różnych ścieżek rozwiązania. Dodatkowo, mechanizm „tabu search” zapamiętuje wcześniej przetestowane rozwiązania, aby unikać ich ponownego rozpatrywania, co przyspiesza proces poszukiwania.

W wewnętrznych testach najlepszy model (o4-mini-high) osiągnął 1411 punktów, stopniowo poprawiając swoje wyniki. Dla porównania, w tych samych warunkach GPT-4.1 mini uzyskał 1016 punktów, Deepseek-R1 – 1150 punktów, a Gemini 2.5 Pro – 1198 punktów. Pełny agent ALE znacząco przewyższył te wyniki, osiągając 1879 punktów, co plasowałoby go w top 6.8% wszystkich uczestników. W jednym z konkretnych problemów agent zdobył 2880 punktów, co dałoby mu 5. miejsce w pierwotnej konkurencji.

Przewaga szybkości nad intuicją

Największa różnica między podejściem AI a ludzkich programistów objawia się w szybkości iteracji. Podczas gdy człowiek w czterogodzinnym konkursie jest w stanie przetestować kilkanaście różnych rozwiązań, agent Sakana AI w tym samym czasie może przetworzyć około 100 wersji. Co więcej, agent ALE był w stanie wygenerować setki, a nawet tysiące potencjalnych rozwiązań – skala nieosiągalna dla ludzkiego umysłu w tak krótkim czasie.

Wyniki agenta ALE nie tylko potwierdzają dynamiczny postęp w dziedzinie sztucznej inteligencji, ale również wskazują na potencjał AI w usprawnianiu procesów przemysłowych, gdzie precyzyjna i szybka optymalizacja jest kluczowa dla efektywności i konkurencyjności.

Zastosowania przemysłowe i wyzwania problemów NP-trudnych

Innowacyjne strategie agenta ALE

Przewaga szybkości nad intuicją

Udostępnij:

Zobacz również

Xiaomi rzuca wyzwanie gigantom AI: debiut rodziny modeli MiMo-V2

Poza prostą automatyzacją: jak architektura ClawTeam redefiniuje orkiestrację rojów agentów AI

Amazon wprowadza Kiro, konkurenta dla Windsurf i Codex w świecie AI-powered coding

Dodaj komentarz Anuluj pisanie odpowiedzi