Połączenie obwodu, serca i mózgu symbolizuje testowanie AI w opiece zdrowotnej za pomocą MedAgentBench.

MedAgentBench: Nowy standard w testowaniu AI dla służby zdrowia

2025-09-18 AI Sight

Sztuczna inteligencja coraz śmielej wkracza do sektora opieki zdrowotnej, a wraz z nią pojawia się potrzeba rzetelnej oceny jej możliwości. Odpowiedzią na to wyzwanie jest MedAgentBench, nowy benchmark stworzony przez zespół naukowców z Uniwersytetu Stanforda. W odróżnieniu od dotychczasowych zestawów danych opartych na zasadzie pytanie-odpowiedź, MedAgentBench oferuje wirtualne środowisko elektronicznej dokumentacji medycznej (EHR), w którym systemy AI muszą aktywnie działać, planować i realizować wieloetapowe zadania kliniczne.

Dlaczego potrzebujemy takiego benchmarku?

Współczesne modele językowe (LLM) ewoluują w kierunku agentów, które potrafią interpretować instrukcje, korzystać z API, integrować dane pacjentów i automatyzować złożone procesy. W medycynie, takie narzędzia mogłyby pomóc w łagodzeniu problemów kadrowych, zmniejszeniu obciążenia związanego z dokumentacją i usprawnieniu administracji. Istnieją co prawda ogólne benchmarki dla agentów AI, ale brakowało dotąd standardu, który uwzględniałby specyfikę danych medycznych, interoperacyjność FHIR oraz długoterminową historię pacjentów. MedAgentBench wypełnia tę lukę, oferując powtarzalne i klinicznie istotne ramy oceny.

Co zawiera MedAgentBench?

Benchmark składa się z 300 zadań w 10 kategoriach, opracowanych przez lekarzy z licencją. Zadania obejmują wyszukiwanie informacji o pacjentach, śledzenie wyników badań, dokumentację, zlecanie badań, skierowania i zarządzanie lekami. Średnio zadanie składa się z 2-3 kroków i odzwierciedla procesy spotykane w opiece szpitalnej i ambulatoryjnej.

MedAgentBench wykorzystuje dane 100 realistycznych profili pacjentów, wygenerowanych na podstawie danych ze Stanford’s STARR. Składa się z ponad 700 000 rekordów, uwzględniając wyniki badań laboratoryjnych, parametry życiowe, diagnozy, procedury i zlecenia leków. Dane zostały zanonimizowane i zmodyfikowane w celu ochrony prywatności, przy jednoczesnym zachowaniu ich klinicznej wiarygodności.

Środowisko jest zgodne ze standardem FHIR, umożliwiając zarówno pobieranie (GET), jak i modyfikowanie (POST) danych EHR. Systemy AI mogą symulować interakcje kliniczne, takie jak dokumentowanie parametrów życiowych lub składanie zamówień na leki. Dzięki temu benchmark jest łatwo przenaszalny do rzeczywistych systemów EHR.

Jak oceniane są modele?

Główną metryką jest wskaźnik sukcesu zadania (SR), mierzony w sposób zero-jedynkowy (pass@1), co odzwierciedla wymagania bezpieczeństwa w rzeczywistym świecie. Testowano 12 wiodących modeli LLM, w tym GPT-4o, Claude 3.5 Sonnet, Gemini 2.0, DeepSeek-V3, Qwen2.5 i Llama 3.3. Wykorzystano bazową konfigurację orkiestracji z dziewięcioma funkcjami FHIR, ograniczoną do ośmiu rund interakcji na zadanie.

Które modele wypadły najlepiej?

Claude 3.5 Sonnet v2: Najlepszy ogólny wynik z 69.67% sukcesem, szczególnie mocny w zadaniach wyszukiwania (85.33%).
GPT-4o: 64.0% sukcesu, wykazując zrównoważoną wydajność w zakresie wyszukiwania i działania.
DeepSeek-V3: 62.67% sukcesu, lider wśród modeli z otwartą wagą.

Co ciekawe, większość modeli radziła sobie dobrze z zadaniami zapytań, ale miała trudności z zadaniami opartymi na działaniach, wymagającymi bezpiecznego wykonywania wieloetapowego działania.

Jakie błędy popełniały modele

Pojawiły się dwa główne schematy niepowodzeń:

Niedostosowanie się do instrukcji — nieprawidłowe wywołania API lub niepoprawne formatowanie JSON.
Niedopasowanie danych wyjściowych — podawanie pełnych zdań, gdy wymagane były ustrukturyzowane wartości liczbowe.

Błędy te uwydatniają braki w precyzji i niezawodności, które są kluczowe we wdrożeniach klinicznych.

MedAgentBench stanowi pierwszy benchmark na dużą skalę do oceny agentów LLM w realistycznych ustawieniach EHR. Łączy 300 zadań stworzonych przez klinicystów ze środowiskiem zgodnym z FHIR i 100 profilami pacjentów. Uzyskane wyniki pokazują duży potencjał, ale i ograniczenia, zwłaszcza w kwestii niezawodności działania. Claude 3.5 Sonnet v2 prowadzi z wynikiem 69.67%, co podkreśla różnicę między sukcesem w wyszukiwaniu a bezpiecznym wykonywaniem działań. MedAgentBench, pomimo ograniczeń związanych z danymi z jednej instytucji i wąskim zakresem skupionym na EHR, zapewnia otwarte i powtarzalne ramy, które mogą przyspieszyć rozwój niezawodnych agentów AI dla opieki zdrowotnej.

Udostępnij:

Zobacz również

Przełom w medycynie cyfrowej: Uczenie federacyjne chroni prywatność pacjentów

Bevel pozyskuje 10 milionów dolarów na rozwój AI w służbie spersonalizowanej opieki zdrowotnej

Planeta jako baza danych dla AI. Model Eden projektuje leki na bazie miliardów lat ewolucji

Dodaj komentarz Anuluj pisanie odpowiedzi