Agenci AIR & D

ServiceNow Research udostępnia DRBench — benchmark dla „głębokich badań” w środowisku korporacyjnym

ServiceNow Research opublikował DRBench — zestaw testów i środowisko testowe, którego celem jest weryfikacja tzw. deep research agents, czyli agentów zdolnych do prowadzenia złożonych, otwartych analiz wymagających syntezy dowodów zarówno z publicznych stron internetowych, jak i z wewnętrznych zasobów przedsiębiorstwa. DRBench nie ogranicza się do klasycznego benchmarku przeglądarkowego: zadania umieszczono w heterogenicznym, korporacyjnym kontekście, gdzie dowody rozproszone są po dokumentach, mailach, kanałach czatu i systemach plików.

Zawartość i sposób przygotowania danych

Pierwsza edycja DRBench obejmuje 15 zadań w 10 obszarach biznesowych (między innymi sprzedaż, cyberbezpieczeństwo, zgodność regulacyjna). Dla każdego zadania przygotowano kontekst — firmę i personę — oraz zestaw tzw. groundtruth insights w trzech klasach: publiczne, wewnętrzne relewantne i wewnętrzne rozpraszacze. Łącznie pipeline tworzenia danych łączy generowanie przez duże modele językowe z weryfikacją ludzką i zawiera 114 odniesionych insightów.

Istotny zabieg projektowy to celowe „szukanie igły w stogu siana”: relewantne informacje wstrzyknięto do realistycznych formatów (PDF, DOCX, PPTX, XLSX), archiwów czatowych i wątków mailowych, a obok nich umieszczono wiarygodnie brzmiące, lecz nieistotne treści. To wymusza na agentach selekcję, filtrowanie i poprawne przypisywanie źródeł — a nie tylko skuteczne indeksowanie publicznego webu.

Środowisko techniczne: kontener z usługami korporacyjnymi

DRBench jest dostarczany jako obraz Dockerowy, który orkiestruje zestaw usług typowych dla firm: Nextcloud (współdzielone dokumenty, WebDAV), Mattermost (czat zespołowy), Roundcube z SMTP/IMAP (poczta), FileBrowser (lokalny system plików) oraz wirtualny pulpit dostępny przez VNC/NoVNC. Zadania inicjalizowane są przez rozmieszczenie danych po tych usługach i przydzielenie kont użytkowników o spójnych poświadczeniach. Agent może operować poprzez interfejsy webowe lub API specyficzne dla aplikacji, co pozwala testować zarówno interakcję GUI, jak i modele programatyczne.

Metryki oceny: nie tylko przeglądanie sieci

DRBench ocenia agentów w czterech wymiarach odpowiadających pracy analityka: Insight Recall, Distractor Avoidance, Factuality i Report Quality. Insight Recall rozkłada raport agenta na atomowe insighty z cytowaniami i porównuje je z zestawem groundtruth za pomocą sędziego‑LLM, mierząc odtwarzalność relewantnych informacji (recall, a nie precision). Distractor Avoidance karze za uwzględnianie w raporcie wstrzykniętych rozpraszaczy. Factuality i Report Quality sprawdzają poprawność faktograficzną oraz strukturę i czytelność końcowego raportu według przygotowanego rubryku.

Baseline: DRBench Agent (DRBA)

Autorzy udostępnili też zadaniowego agenta bazowego, DRBA, który działa wewnątrz środowiska DRBench. Architektura agenta składa się z planowania badawczego, planowania akcji, iteracyjnej pętli badawczej z Adaptive Action Planning (AAP) oraz modułu pisania raportu. Planowanie występuje w trybach: Complex Research Planning (szczegółowe obszary badawcze, spodziewane źródła, kryteria sukcesu) i Simple Research Planning (lekkie podzapytania). W pętli agent wybiera narzędzia, przetwarza treści (często przechowując wektory w pamięci wektorowej), identyfikuje luki informacyjne i kontynuuje poszukiwania do wyczerpania budżetu iteracji. Finalny raport agreguje ustalenia i śledzi cytowania.

Dlaczego to ważne dla zastosowań korporacyjnych

Większość dotychczasowych benchmarków deep‑research jest zorientowana na publiczny web — daje złudne wrażenie kompetencji. W produkcji krytyczne są trzy elementy, które DRBench adresuje jednocześnie: umiejętność znajdowania właściwych, wewnętrznych „igieł”, ignorowania wiarygodnie brzmiących rozpraszaczy oraz poprawne cytowanie źródeł w środowisku obarczonym autoryzacją i frakcją UI. Dzięki rozproszeniu dowodów po wielu aplikacjach i ocenie recallu oraz jakości raportu, DRBench dostarcza bardziej praktycznego, end‑to‑end sprawdzianu przydatnego dla zespołów wdrożeniowych.

Krytyczne uwagi i ograniczenia

DRBench to krok w dobrą stronę, ale nie jest rozwiązaniem kompletnym. 15 zadań w 10 domenach to skala wystarczająca do wykazania wąskich gardeł, lecz nadal ograniczona, jeśli celem jest uogólnienie wydajności agentów na różnorodne konteksty korporacyjne. Kolejna kwestia to zależność oceny od sędziów‑LLM — automatyczna walidacja insightów może wprowadzać własne uprzedzenia i błędy klasyfikacji. Ponadto sztuczne wstrzyknięcie rozpraszaczy oraz dopasowany scenariusz środowiskowy stwarzają ryzyko, że systemy zoptymalizują się pod specyfikę benchmarku zamiast osiągnąć rzeczywistą odporność na nieustrukturyzowane dane.

Znaczenie praktyczne i dalsze kroki

Dla deweloperów systemów agentowych DRBench oferuje wartość praktyczną: konteneryzowane środowisko, otwarte repozytorium z kodem i materiałami oraz zestaw metryk, które lepiej odzwierciedlają wymagania produkcyjne niż same testy webowe. Repozytorium jest otwarte, co umożliwia reprodukcję eksperymentów i rozszerzanie zadań. W perspektywie pożądaną ewolucją są większe i bardziej zróżnicowane zbiory zadań, mechanizmy oceny redukujące wpływ błędów LLM‑sędziego oraz scenariusze uwzględniające polityki dostępu i audytowalność wyników.

DRBench nie rozwiązuje wszystkich problemów, ale ustawia użyteczny punkt odniesienia: verifikowalny, heterogeniczny i realistyczny — dokładnie tam, gdzie często upadają agenty dobrze radzące sobie jedynie z publicznymi źródłami. Dla zespołów przygotowujących systemy do pracy w przedsiębiorstwach będzie to narzędzie diagnostyczne do wykrywania słabych ogniw w procesie pozyskiwania dowodów, przypisywania źródeł i syntezy końcowych raportów.

Kod i zasoby są dostępne w otwartym repozytorium projektu, co ułatwia adaptację i dalsze prace badawcze oraz inżynierskie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *