Medycyna i zdrowie

Google MedGemma 1.5 z analizą skanów 3D open source. Szykuje się starcie z OpenAI

Google wykonało kolejny agresywny ruch na szachownicy medycznej sztucznej inteligencji, udostępniając model MedGemma 1.5. To nie jest zwykła aktualizacja parametrów, ale istotna zmiana architektury, która po raz pierwszy w segmencie open source pozwala na analizę danych wolumetrycznych. Oznacza to, że AI nie musi już „oglądać” tomografii komputerowej czy rezonansu magnetycznego plaster po plastrze, lecz jest w stanie przetworzyć cały trójwymiarowy skan jednocześnie. Premiera zbiega się z rosnącą presją ze strony konkurencji – OpenAI właśnie przejęło startup Torch za blisko 100 milionów dolarów, a Anthropic rozwija swoje rozwiązania zgodne z HIPAA.

Wyjście poza dwa wymiary

Dotychczasowe wersje MedGemmy, podobnie jak większość modeli językowo-wizyjnych, ograniczały się do płaskich obrazów, takich jak zdjęcia rentgenowskie czy dermatologiczne. Wersja 1.5 4B przełamuje tę barierę, obsługując pełne wolumeny danych z tomografii komputerowej (TK) i rezonansu magnetycznego (MRI), a także slajdy histopatologiczne. W praktyce pozwala to deweloperom na „karmienie” modelu całymi badaniami naraz. Takie podejście, według inżynierów Google Research, umożliwia systemowi dostrzeganie korelacji między różnymi przekrojami tkanki, które mogłyby umknąć przy analizie pojedynczych obrazów.

Skok jakościowy jest widoczny w wewnętrznych benchmarkach, choć liczby sugerują, że technologia wciąż jest na etapie rozwojowym. Dokładność klasyfikacji obrazów MRI wzrosła o 14 punktów procentowych, osiągając poziom blisko 65 proc. W przypadku tomografii komputerowej wzrost był skromniejszy – o trzy punkty, do poziomu 61 proc. Największy postęp odnotowano jednak nie w obrazowaniu, lecz w administracji. Zdolność modelu do ekstrahowania informacji z elektronicznych kart pacjenta poszybowała w górę z 68 proc. do imponujących 90 proc., co może mieć kluczowe znaczenie dla automatyzacji biurokracji szpitalnej.

MedASR rzuca wyzwanie Whisperowi

Równolegle z modelem wizyjnym, Google wypuściło MedASR – narzędzie do rozpoznawania mowy trenowane specyficznie na terminologii medycznej. Firma twierdzi, że jej rozwiązanie w zastosowaniach klinicznych radzi sobie znacznie lepiej niż popularny model Whisper large-v3 od OpenAI. Według danych Google MedASR popełnia o 82 proc. mniej błędów podczas ogólnych dyktowań medycznych i o 58 proc. mniej przy opisach zdjęć rentgenowskich. To wyraźny sygnał, że gigant celuje w stworzenie kompletnego interfejsu głosowego, który pozwoli lekarzom na bezdotykową interakcję z systemami AI.

Od badań do wdrożeń – długa droga

Mimo obiecujących wyników Google zachowuje ostrożność. Narzędzia udostępniono na platformach Hugging Face i Vertex AI, ale pod restrykcyjną licencją „Health AI Developer Foundations Terms of Use”. Wyraźnie zaznacza ona, że modele te są punktem wyjścia dla badaczy i nie stanowią gotowych wyrobów medycznych. Wykorzystanie ich wag do bezpośredniej diagnostyki lub leczenia wymaga uzyskania odpowiednich certyfikatów od regulatorów rynku zdrowia. Mimo to pierwsi adopterzy już testują technologię – tajwańska administracja ubezpieczeń zdrowotnych wykorzystała wariant modelu do analizy 30 tysięcy raportów patologicznych dotyczących raka płuc.

Sektor ochrony zdrowia adoptuje generatywną sztuczną inteligencję dwukrotnie szybciej niż inne gałęzie gospodarki, a walka o ten rynek dopiero się rozkręca. Ruchy Google są bezpośrednią odpowiedzią na działania rywali: OpenAI integruje „pamięć medyczną” dzięki przejęciu Torch, a Anthropic pozycjonuje swojego Claude’a jako bezpiecznego asystenta z dostępem do baz PubMed. Stawką w tej grze jest dominacja w sektorze, w którym precyzja algorytmu przekłada się bezpośrednio na ludzkie życie.