Anthropic przedstawia Bloom: Nowe narzędzie do oceny modeli AI
Wraz z dynamicznym rozwojem sztucznej inteligencji rośnie znaczenie precyzyjnej oceny zachowań modeli. Anthropic, jeden z liderów w dziedzinie AI, odpowiedział na to wyzwanie, prezentując Bloom – otwarty framework, który ma zrewolucjonizować sposób przeprowadzania behawioralnych ewaluacji zaawansowanych systemów AI.
Ocena bezpieczeństwa i zgodności modeli AI z pożądanymi standardami to proces kosztowny i czasochłonny. Zespoły badawcze borykają się z ręcznym tworzeniem scenariuszy, analizą długich transkrypcji interakcji oraz agregowaniem wyników. Problem ten staje się jeszcze bardziej złożony w miarę ewolucji modeli, gdy dotychczasowe benchmarki szybko tracą aktualność, a nawet mogą skazić dane treningowe. Anthropic, identyfikując to jako kluczowy problem skalowalności, dąży do stworzenia metody szybszego generowania świeżych ocen, przy jednoczesnym zachowaniu ich merytorycznej wartości.
Bloom wypełnia tę lukę, odchodząc od statycznych benchmarków z ograniczonym zestawem promptów. Zamiast tego framework generuje dynamiczny pakiet ewaluacyjny na podstawie wstępnej konfiguracji. „Ziarno” tej konfiguracji określa badane zachowanie, liczbę generowanych scenariuszy oraz styl interakcji. Dzięki temu w każdym cyklu oceny Bloom jest w stanie tworzyć unikatowe, ale spójne behawioralnie scenariusze, zapewniając jednocześnie powtarzalność wyników przez zapisane „ziarno”.
Architektura i działanie Bloom
Bloom, zaimplementowany jako potok Pythona i udostępniony na GitHubie na licencji MIT, opiera się na pliku konfiguracyjnym seed.yaml. Plik ten odwołuje się do klucza zachowania zdefiniowanego w behaviors/behaviors.json, opcjonalnych transkrypcji przykładowych oraz globalnych parametrów kształtujących przebieg ewaluacji. Kluczowe elementy konfiguracji obejmują między innymi: unikalny identyfikator zachowania (np. sycofancja czy samozachowanie), przykłady rozmów, łączną liczbę ewaluacji, model docelowy (np. claude-sonnet-4) oraz parametry kontrolne, takie jak różnorodność scenariuszy, maksymalna liczba tur czy tryb rozumowania.
Bloom wykorzystuje LiteLLM jako backend do obsługi wywołań API modeli, co umożliwia interakcję zarówno z modelami Anthropic, jak i OpenAI za pośrednictwem jednego interfejsu. Integracja z Weights and Biases ułatwia zarządzanie eksperymentami na dużą skalę, a eksport transkrypcji w formacie kompatybilnym z Inspect dodatkowo zwiększa użyteczność narzędzia.
Proces ewaluacji w Bloom jest zorganizowany w cztery fazy agentowe:
- Agent rozumiejący: Analizuje opis zachowania i przykładowe konwersacje, tworząc ustrukturyzowane podsumowanie definicji pozytywnego wystąpienia zachowania oraz jego znaczenia. Wskazuje konkretne fragmenty w przykładach, które demonstrują pożądane zachowanie.
- Agent ideacji: Generuje kandydujące scenariusze ewaluacyjne, z których każdy opisuje sytuację, persona użytkownika, dostępne narzędzia dla modelu docelowego oraz określa, jak wyglądałby udany przebieg. Ten agent optymalizuje zużycie tokenów, grupując generowanie scenariuszy.
- Agent realizacji: Instancjuje stworzone scenariusze, wchodząc w interakcje z modelem docelowym. Może prowadzić wieloturowe konwersacje lub symulować środowiska, rejestrując wszystkie wiadomości i wywołania narzędzi.
- Agent oceniania i metaoceniania: Model sędziowski ocenia każdą transkrypcję pod kątem obecności zachowania na skali numerycznej, a także może oceniać dodatkowe cechy, takie jak realizm. Meta-sędzia następnie tworzy raport podsumowujący wszystkie przebiegi, wskazując najważniejsze przypadki i wzorce. Główną metryką jest wskaźnik wywołania, czyli odsetek przebiegów, w których zachowanie osiągnęło wynik co najmniej 7/10.
Weryfikacja i zastosowania
Anthropic wykorzystał Bloom do stworzenia czterech pakietów ewaluacyjnych związanych z dopasowaniem AI, obejmujących takie zachowania jak sycofancja, sabotaż, samozachowanie i stronniczość preferencyjna. Każdy pakiet zawiera 100 odrębnych przebiegów, powtórzonych trzykrotnie na 16 zaawansowanych modelach. Wyniki, prezentowane jako wskaźnik wywołania z odchyleniem standardowym, wykorzystały Claude Opus 4.1 jako ewaluator na wszystkich etapach.
Bloom został również przetestowany na celowo niedopasowanych „organiśmach modelowych” z wcześniejszych prac badawczych. W dziewięciu z dziesięciu przypadków Bloom skutecznie odróżnił niedopasowane organizmy od bazowego modelu produkcyjnego. W pozostałym przypadku, dotyczącym autopromocji, ręczna inspekcja wykazała, że model bazowy wykazywał podobną częstotliwość zachowań, co wyjaśniało zbieżność wyników. Dodatkowa walidacja, porównująca ludzkie etykiety z wynikami 11 modeli sędziowskich na 40 transkrypcjach, wykazała korelację Spearmana na poziomie 0.86 dla Claude Opus 4.1 i 0.75 dla Claude Sonnet 4.5, z szczególnie silną zgodnością przy wysokich i niskich wynikach.
Anthropic pozycjonuje Bloom jako narzędzie uzupełniające Petri – inne narzędzie audytowe, które bada modele pod kątem wielu scenariuszy i zachowań. Podczas gdy Petri skupia się na szerokim zakresie audytu, Bloom koncentruje się na automatyzacji procesu tworzenia rozbudowanych, ukierunkowanych pakietów ewaluacyjnych dla konkretnych zachowań, dostarczając ilościowe metryki, takie jak wskaźnik wywołania.
Bloom stanowi znaczący krok w kierunku standaryzacji i automatyzacji behawioralnych ewaluacji modeli AI, co jest kluczowe dla ich bezpiecznego i odpowiedzialnego rozwoju.
