Kryzys klinicznej logiki: dlaczego sztuczna inteligencja nie zastąpi lekarza mimo trafnych diagnoz?
Sztuczna inteligencja potrafi podać prawidłową nazwę choroby, jeśli dostanie komplet wyników na tacy, ale gubi się w momencie, gdy pacjent wchodzi do gabinetu z pierwszym, niejasnym symptomem. To nie jest kwestia braku danych, ale fundamentalnej luki w procesach myślowych maszyn.
Iluzja medycznego geniuszu
Nowe badania naukowców z MESH Incubator (Mass General Brigham) rzucają zimne światło na entuzjazm wokół medycznego zastosowania modeli LLM. Eksperyment był bezlitosny: 21 najpopularniejszych systemów, w tym giganci jak GPT-4, Claude i Gemini, stanęło przed zadaniem poprowadzenia 29 realnych przypadków klinicznych. Wynik? Ponad 90-procentowa skuteczność w końcowej diagnozie, która maskuje katastrofalne braki w tak zwanej diagnozie różnicowej.
Modele zawodzą tam, gdzie zaczyna się „sztuka medycyny” – w selekcji badań i eliminowaniu fałszywych tropów.
PrIME-LLM: nowy benchmark realizmu
Zamiast polegać na prostym wyniku „dobra/zła diagnoza”, zespół pod kierownictwem doktora Marca Succiego stworzył wskaźnik PrIME-LLM. To narzędzie, które rozbija proces medyczny na czynniki pierwsze: od pierwszej hipotezy, przez zlecanie testów, aż po zarządzanie leczeniem. Wyniki są otrzeźwiające: modele takie jak GPT-4 czy Grok osiągały noty rzędu 78%, podczas gdy Gemini 1.5 Flash spadło do poziomu 64%.
- Błędne listy diagnoz różnicowych w 80% przypadków.
- Trudności z operowaniem na małej ilości danych we wstępnej fazie przypadku.
- Efekt „test-takera” – AI zgaduje wynik, zamiast rozumować jak lekarz.
Problem otwartego początku
Największą słabością AI okazuje się brak liniowości w myśleniu. Modele świetnie radzą sobie z analizą gotowych wyników laboratoryjnych i obrazowych, ale paraliżuje je etap niewiadomej. W realnym świecie lekarz musi zdecydować, czy ból w klatce piersiowej to zawał, czy zgaga, mając do dyspozycji jedynie wiek i opis subiektywnego odczucia pacjenta.
Modele LLM nie potrafią sprawnie nawigować w tym informacyjnym szumie.
Dlaczego to ma znaczenie?
Obecnie modele językowe „z pudełka” (off-the-shelf) są niebezpieczne w samodzielnym zastosowaniu klinicznym. Ich wysoka skuteczność końcowa to statystyczny trick – wynik ogromnej bazy danych treningowych, a nie logicznej dedukcji. Jak zauważa Arya Rao z Harvard Medical School, AI jest rewelacyjnym asystentem, dopóki człowiek trzyma lejce i dostarcza precyzyjne dane.
Human-in-the-loop nie jest już tylko opcją – to jedyny gwarant bezpieczeństwa w erze algorytmicznej medycyny.
Dopóki AI nie nauczy się „szarej strefy” medycyny – momentu, w którym pacjent milczy, a wyniki jeszcze nie istnieją – pozostanie jedynie (i aż) bardzo zaawansowaną encyklopedią. Granica między replikacją wiedzy a rozumowaniem pozostaje nienaruszona.
