Mózg-labirynt, ścieżki prowadzą do książek i sprzętu. Ręka ze stetoskopem wskazuje wyjście. AI myli ścieżki.

Kryzys klinicznej logiki: dlaczego sztuczna inteligencja nie zastąpi lekarza mimo trafnych diagnoz?

2026-04-14 AI Sight

Sztuczna inteligencja potrafi podać prawidłową nazwę choroby, jeśli dostanie komplet wyników na tacy, ale gubi się w momencie, gdy pacjent wchodzi do gabinetu z pierwszym, niejasnym symptomem. To nie jest kwestia braku danych, ale fundamentalnej luki w procesach myślowych maszyn.

Iluzja medycznego geniuszu

Nowe badania naukowców z MESH Incubator (Mass General Brigham) rzucają zimne światło na entuzjazm wokół medycznego zastosowania modeli LLM. Eksperyment był bezlitosny: 21 najpopularniejszych systemów, w tym giganci jak GPT-4, Claude i Gemini, stanęło przed zadaniem poprowadzenia 29 realnych przypadków klinicznych. Wynik? Ponad 90-procentowa skuteczność w końcowej diagnozie, która maskuje katastrofalne braki w tak zwanej diagnozie różnicowej.

Modele zawodzą tam, gdzie zaczyna się „sztuka medycyny” – w selekcji badań i eliminowaniu fałszywych tropów.

PrIME-LLM: nowy benchmark realizmu

Zamiast polegać na prostym wyniku „dobra/zła diagnoza”, zespół pod kierownictwem doktora Marca Succiego stworzył wskaźnik PrIME-LLM. To narzędzie, które rozbija proces medyczny na czynniki pierwsze: od pierwszej hipotezy, przez zlecanie testów, aż po zarządzanie leczeniem. Wyniki są otrzeźwiające: modele takie jak GPT-4 czy Grok osiągały noty rzędu 78%, podczas gdy Gemini 1.5 Flash spadło do poziomu 64%.

Błędne listy diagnoz różnicowych w 80% przypadków.
Trudności z operowaniem na małej ilości danych we wstępnej fazie przypadku.
Efekt „test-takera” – AI zgaduje wynik, zamiast rozumować jak lekarz.

Problem otwartego początku

Największą słabością AI okazuje się brak liniowości w myśleniu. Modele świetnie radzą sobie z analizą gotowych wyników laboratoryjnych i obrazowych, ale paraliżuje je etap niewiadomej. W realnym świecie lekarz musi zdecydować, czy ból w klatce piersiowej to zawał, czy zgaga, mając do dyspozycji jedynie wiek i opis subiektywnego odczucia pacjenta.

Modele LLM nie potrafią sprawnie nawigować w tym informacyjnym szumie.

Dlaczego to ma znaczenie?

Obecnie modele językowe „z pudełka” (off-the-shelf) są niebezpieczne w samodzielnym zastosowaniu klinicznym. Ich wysoka skuteczność końcowa to statystyczny trick – wynik ogromnej bazy danych treningowych, a nie logicznej dedukcji. Jak zauważa Arya Rao z Harvard Medical School, AI jest rewelacyjnym asystentem, dopóki człowiek trzyma lejce i dostarcza precyzyjne dane.

Human-in-the-loop nie jest już tylko opcją – to jedyny gwarant bezpieczeństwa w erze algorytmicznej medycyny.

Dopóki AI nie nauczy się „szarej strefy” medycyny – momentu, w którym pacjent milczy, a wyniki jeszcze nie istnieją – pozostanie jedynie (i aż) bardzo zaawansowaną encyklopedią. Granica między replikacją wiedzy a rozumowaniem pozostaje nienaruszona.