Niewidzialne błędy: Jak niemedyczne czynniki wpływają na rekomendacje medyczne LLM-ów
Duże modele językowe (LLM), takie jak GPT-4, są coraz częściej wdrażane w sektorze opieki zdrowotnej, aby wspierać zadania takie jak tworzenie not klinicznych czy wstępna selekcja wiadomości od pacjentów. Ich zastosowanie ma na celu usprawnienie pracy przeciążonych specjalistów. Jednak najnowsze badanie przeprowadzone przez naukowców z MIT rzuca cień na bezkrytyczne zaufanie do tych technologii, wskazując, że niemedyczne informacje zawarte w komunikacji pacjentów mogą znacząco wpływać na ich rekomendacje leczenia.
Wpływ czynników pozornie niezwiązanych z medycyną
Badacze z MIT, kierowani przez Marzyeh Ghassemi i Abinithę Gourabathinę, odkryli, że elementy takie jak literówki, dodatkowe spacje, brak określenia płci, lub użycie niepewnego, emocjonalnego czy nieformalnego języka w wiadomościach pacjentów, mogą wprowadzać LLM-y w błąd. Modyfikacje stylistyczne lub gramatyczne w komunikacji zwiększały prawdopodobieństwo, że model zasugeruje pacjentowi samodzielne leczenie zgłoszonej dolegliwości, zamiast zalecić wizytę u specjalisty, nawet w sytuacjach, gdy konsultacja medyczna była konieczna.
Co więcej, analiza wykazała, że te niemedyczne wariacje tekstowe, naśladujące naturalny sposób komunikacji ludzi, znacznie częściej zmieniały rekomendacje leczenia dla pacjentek. Skutkowało to wyższym odsetkiem kobiet, którym błędnie odradzono szukanie pomocy medycznej, w ocenie lekarzy.
Kruchość modeli: Brak odporności na błędy ludzkiej komunikacji
Marzyeh Ghassemi, profesor nadzwyczajny w Departamencie Elektrotechniki i Informatyki (EECS) MIT oraz starszy autor badania, podkreśla, że te odkrycia stanowią „mocny dowód na to, że modele muszą być audytowane przed użyciem w opiece zdrowotnej — gdzie już są w użyciu”. To odkrycie ukazuje lukę w dotychczasowych testach LLM-ów, które często opierają się na danych medycznych, będących zazwyczaj wyczyszczonymi i ustrukturyzowanymi zbiorami, nieodzwierciedlającymi rzeczywistej komunikacji pacjentów.
Badacze celowo wprowadzili do tekstów pacjentów zaburzenia, takie jak literówki, niepewny język czy slang, aby naśladować typowe błędy i cechy pisma osób z różnych wrażliwych grup populacji, np. z ograniczoną znajomością języka angielskiego, mniejszymi umiejętnościami technologicznymi, czy cierpiących na lęk zdrowotny. Ostatecznie, LLM-y wykazały od 7 do 9 procentowy wzrost sugestii samodzielnego zarządzania chorobą w przypadku wszystkich dziewięciu typów zmienionych wiadomości. Największy wpływ miało użycie „kolorowego” języka, czyli slangu lub dramatycznych wyrażeń.
Inne wnioski i implikacje dla przyszłości AI w medycynie
Modele wykazywały również około 7 procent więcej błędów dla pacjentek i częściej zalecały im samodzielne leczenie w domu, nawet po usunięciu wszelkich wskazówek dotyczących płci z kontekstu klinicznego. To sugeruje, że LLM-y wciąż „domyślają się” płci lub inferują ją z innych, subtelnych sygnałów w tekście, co może prowadzić do nieuzasadnionych uprzedzeń.
Istotnym wnioskiem z badania jest również to, że niespójności spowodowane niemedycznym językiem stają się jeszcze bardziej wyraźne w interakcjach konwersacyjnych, co jest powszechnym zastosowaniem chatbotów medycznych. Badania uzupełniające pokazują także, że te same zmiany w wiadomościach pacjentów nie wpływają na dokładność diagnoz ludzkich lekarzy, co dodatkowo podkreśla kruchość obecnych systemów AI.
„Modele te nie zostały zaprojektowane, aby priorytetowo traktować opiekę medyczną pacjentów” – stwierdza Ghassemi. „Jednak są wystarczająco elastyczne i wydajne, abyśmy mogli uznać to za dobre zastosowanie. Nie chcemy jednak optymalizować systemu opieki zdrowotnej, który działa dobrze tylko dla pacjentów z określonych grup.”
W obliczu tych odkryć, konieczne jest przeprowadzenie bardziej rygorystycznych badań i audytów LLM-ów przed ich pełnym wdrożeniem w zastosowaniach o wysokiej stawce, takich jak rekomendacje leczenia. Naukowcy planują dalsze badania, aby lepiej zrozumieć, w jaki sposób LLM-y wnioskują o płci z tekstu klinicznego i jak projektować zakłócenia językowe, które odzwierciedlają komunikację innych wrażliwych grup populacji.
