Przełom w AI: systemy kodujące, elastyczne modele językowe i agenci do badań
Branża sztucznej inteligencji nieustannie poszukuje metod na zwiększanie efektywności i autonomii swoich systemów. Ostatnie publikacje naukowe rzucają światło na trzy kluczowe obszary, które mogą zrewolucjonizować podejście do optymalizacji algorytmów, przetwarzania języka naturalnego oraz prowadzenia badań.
ALE-Agent: gdy kodowanie staje się inżynierią algorytmów
Tradycyjne benchmarki dla dużych modeli językowych (LLM) w obszarze programowania konkursowego często zawodzą w weryfikacji rzeczywistych umiejętności inżynierii algorytmów. Problemy ograniczone do krótkich testów typu „zdane/niezdane” nie oddają złożoności zadań optymalizacyjnych, gdzie znalezienie idealnego rozwiązania jest obliczeniowo niewykonalne. W odpowiedzi na to wyzwanie powstał ALE-Bench, nowy benchmark oparty na konkursach AtCoder Heuristic, które wymagają wielotygodniowej, iteracyjnej pracy nad doskonaleniem rozwiązań.
ALE-Agent, system zaprezentowany w ramach ALE-Bench, rozwiązuje ten problem poprzez połączenie dwóch synergicznych metod. Po pierwsze, wstrzykuje wiedzę dziedzinową bezpośrednio do promptów, dostarczając wskazówek dotyczących standardowych technik inżynierii algorytmów, takich jak symulowane wyżarzanie czy przeszukiwanie wiązkowe. Po drugie, wykorzystuje przeszukiwanie zorientowane na różnorodność (diversity-oriented search) z szeroką wiązka (beam width 30), co umożliwia generowanie wielu węzłów potomnych jednocześnie i unikanie utknięcia w lokalnych optymalach. To podejście pozwoliło na wygenerowanie około 1000 wariantów kodu w porównaniu do około 100 w standardowych metodach iteracyjnego doskonalenia, z równoległą generacją kandydatów minimalizującą opóźnienia API.
Wyniki są jednoznaczne: ALE-Agent zdeklasował konkurencję, osiągając średni wynik 1879 punktów, co plasuje go w czołowych 6,8% wyników. Dla porównania, rozwiązania takie jak o4-mini-high, Gemini 2.5 Pro czy GPT-4.1 mini osiągały znacząco niższe rezultaty (odpowiednio 1411, 1198 i 1016). Największym sukcesem ALE-Agenta było zdobycie 2880 punktów w problemie AHC039, co dało mu 5. miejsce w pierwotnym konkursie z udziałem ludzi. Te osiągnięcia pokazują, że precyzyjne „rusztowanie” (scaffolding) i architektura systemu mają większe znaczenie niż sama surowa moc modelu, otwierając drogę do praktycznych zastosowań AI w optymalizacji przemysłowej, np. w logistyce czy zarządzaniu siecią energetyczną.
Od bitów do idei: modelowanie języka bez tokenizacji
Większość współczesnych modeli językowych opiera się na wstępnej tokenizacji tekstu, np. za pomocą metody Byte Pair Encoding (BPE). Ten proces dzieli tekst na predefiniowane jednostki słownikowe, unieruchamiając model w określonej granularności. Powoduje to problemy na poziomie znaków (np. w pisowni), a także dla języków o niskich zasobach danych czy tych charakteryzujących się bogatą morfologią. Tokenizer staje się często wąskim gardłem, wymuszającym sztywne mappingi i ignorującym naturalne powiązania między słowami.
AU-Net (Autoregressive U-Net) to nowatorska architektura, która pomija tradycyjną tokenizację, przetwarzając surowe bajty i ucząc się własnej, hierarchicznej reprezentacji języka podczas treningu. Architektura U-Net z drogami kontraktującymi i ekspandującymi pozwala na przetwarzanie danych na wielu poziomach abstrakcji: od pojedynczych bajtów, poprzez granice słów, ich pary, aż po czterowyrazowe fragmenty. Kluczową innowacją jest zastosowanie mechanizmów uwagi zamiast tablic lookup oraz automatyczne przewidywanie dalszych sekwencji na głębszych poziomach hierarchii. Na przykład, podczas gdy pierwszy etap przewiduje następny bajt, czwarty efektywnie przewiduje kolejne cztery słowa, tworząc niejawną, wieloskalową optymalizację bez dodatkowych strat.
Testy wykazały, że AU-Net dorównuje lub przewyższa silne baseliny oparte na BPE w różnych benchmarkach, szczególnie te z głębszymi hierarchiami (2-3 etapy). Architektura wyróżnia się w zadaniach manipulacji na poziomie znaków oraz w uogólnianiu krzyżowym na niskich zasobach językowych, co jest kluczowe dla języków rzadziej reprezentowanych w danych treningowych. Wynik 72,9% na HellaSwag dla modelu 1B parametrów (AU-Net-3) w porównaniu do 70,2% dla BPE czy 31,7% na MMLU dla AU-Net-4 wobec 27,0% dla BPE jasno pokazuje przewagę. Podejście to podważa fundamentalne założenia o konieczności wstępnej tokenizacji, otwierając drogę do bardziej elastycznych i wydajnych modeli językowych, które poradzą sobie z różnorodnością językową i kodem.
DeepResearchBench: rzetelna ocena agentów badawczych
Agenci do głębokich badań (DRAs) to jedna z najczęściej wdrażanych kategorii agentów opartych na LLM, zdolnych do autonomicznej orkiestracji eksploracji sieci, wyszukiwania i syntezy informacji. Jednak kompleksowa ocena ich wydajności pozostaje wyzwaniem. Istniejące benchmarki często skupiają się na izolowanych zdolnościach, takich jak przeglądanie stron internetowych, ignorując procesy rozumowania i syntezowania informacji w kompleksowe raporty. Dodatkowo, ocena jakości długich raportów badawczych jest z natury subiektywna, a wewnętrzne procesy rozumowania agentów pozostają nieprzejrzyste.
DeepResearchBench powstał w odpowiedzi na te problemy, bazując na analizie 96 147 rzeczywistych zapytań użytkowników, z których 44 019 zidentyfikowano jako zadania badawcze. Eksperci na poziomie doktoranckim z 22 dziedzin stworzyli 100 wysokiej jakości zadań benchmarkowych, odzwierciedlających te rzeczywiste potrzeby. Do oceny DRAs opracowano dwa nowatorskie frameworki: RACE (Reference-based Automatic Comprehensive Evaluation), który dynamicznie generuje specyficzne dla zadania kryteria oceny i waży je, porównując raporty do wysokiej jakości referencji, oraz FACT, który weryfikuje poprawność cytatów i ilość weryfikowalnych informacji.
W ocenie czołowych DRAs, Gemini-2.5-Pro Deep Research osiągnął najwyższą ogólną wydajność ze wynikiem 48,88 w RACE i imponującymi 111,21 efektywnymi cytatami na zadanie. Jednak dokładność cytowania była zróżnicowana: Perplexity Deep Research osiągnął 90,24%, podczas gdy Gemini i oferta OpenAI oscylowały wokół 77-81%. Co istotne, framework RACE wykazał wysoką zgodność z ocenami ekspertów (71,33% zgodności dwustronnej), przewyższając nawet zgodność między samymi ekspertami (68,44%). Niespodzianką była dobra wydajność ogólnego LLM – Claude-3.7-Sonnet, który przewyższył niektóre specjalizowane DRAs.
Wysoka spójność ludzka w ramach oceny oznacza, że deweloperzy mogą teraz opierać się na wiarygodnych benchmarkach, eliminując potrzebę kosztownych ocen ludzkich na dużą skalę. Wyniki ujawniają krytyczny kompromis: modele, które pozyskują najwięcej informacji, nie zawsze cytują je najdokładniej, co wskazuje na różnice w ich architekturze. Badanie to dostarcza konkretnego celu dla rozwoju DRAs, zmierzając w kierunku praktycznych i godnych zaufania systemów, które mogą realnie wspomagać ludzkie zdolności badawcze.
