Bioluminescencyjna sieć neuronowa spleciona z sylwetką człowieka, na tle fragmentów obrazów medycznych.

Google otwiera kod sztucznej inteligencji medycznej: Przełom w multimodalnym rozumowaniu AI

2025-07-11 AI Sight

Google DeepMind i Google Research ogłosiły udostępnienie otwartego kodu źródłowego dla dwóch innowacyjnych modeli sztucznej inteligencji, MedGemma 27B Multimodal oraz MedSigLIP. To strategiczne posunięcie, realizowane w ramach inicjatywy Health AI Developer Foundations (HAI-DEF), ma na celu przyspieszenie postępu w dziedzinie AI medycznej. Modele te, jak podkreślają twórcy, stanowią najbardziej zaawansowane otwarte wagi udostępnione do tej pory, umożliwiając szerszy dostęp do potężnych narzędzi wspierających diagnostykę i badania medyczne.

Architektura MedGemma: Połączenie tekstu i obrazu w medycynie

Rodzina modeli MedGemma bazuje na architekturze transformatorowej Gemma 3, rozszerzając jej możliwości o przetwarzanie multimodalne i dostosowanie do specyfiki danych medycznych. Fundamentalnym celem, jaki przyświecał twórcom, było rozwiązanie kluczowych wyzwań w klinicznej AI, takich jak heterogeniczność danych, ograniczona dostępność nadzorowanych danych do konkretnych zadań oraz potrzeba efektywnego wdrażania w rzeczywistych warunkach. Modele są zdolne do interpretowania zarówno obrazów medycznych, jak i tekstu klinicznego, co czyni je nieocenionymi w zadaniach takich jak stawianie diagnoz, generowanie szczegółowych raportów, wyszukiwanie informacji oraz wspomaganie agentowego rozumowania.

MedGemma 27B Multimodal: Nowa era w rozumowaniu multimodalnym

MedGemma 27B Multimodal to znaczący krok naprzód w porównaniu do swoich poprzedników, które obsługiwały wyłącznie tekst. Model ten integruje ulepszoną architekturę wizyjno-językową, zoptymalizowaną pod kątem złożonego rozumowania medycznego. Obejmuje to analizę danych z długoterminowych elektronicznych kart zdrowia (EHR) oraz podejmowanie decyzji w oparciu o obrazy medyczne.

Cechy kluczowe tego modelu to zdolność do przyjmowania zarówno obrazów medycznych, jak i tekstu w jednolitym interfejsie. Architektura wykorzystuje 27-miliardoparametrowy dekoder transformatorowy z możliwością dowolnego przeplatania obrazu i tekstu, wspierany przez koder obrazu o wysokiej rozdzielczości (896×896). Koder wizyjny wykorzystuje rdzeń SigLIP-400M, wytrenowany na ponad 33 milionach par obraz-tekst medyczny, w tym na danych z radiologii, histopatologii, okulistyki i dermatologii.

W zakresie wydajności, MedGemma 27B Multimodal osiąga 87,7% dokładności w teście MedQA (wariant tylko tekstowy), przewyższając wszystkie otwarte modele poniżej 50 miliardów parametrów. Model wykazuje również solidne możliwości w środowiskach agentowych, takich jak AgentClinic, radząc sobie z wieloetapowym podejmowaniem decyzji w symulowanych przepływach diagnostycznych. Ponadto, zapewnia kompleksowe rozumowanie obejmujące historię pacjenta, obrazy kliniczne i dane genomowe, co jest kluczowe dla spersonalizowanych planów leczenia. Wczesne oceny wskazują, że MedGemma 27B Multimodal może konkurować z większymi, zamkniętymi modelami, takimi jak GPT-4o i Gemini 2.5 Pro, w zadaniach specyficznych dla dziedziny, jednocześnie będąc w pełni otwartym i bardziej efektywnym obliczeniowo.

MedSigLIP: Lekki, wyspecjalizowany koder obrazu i tekstu

MedSigLIP to lżejszy wariant kodera obrazu i tekstu, dostosowany z SigLIP-400M i zoptymalizowany specjalnie dla zastosowań medycznych. Mimo mniejszej skali, odgrywa fundamentalną rolę w zasilaniu możliwości wizyjnych zarówno MedGemma 4B, jak i 27B Multimodal. Jego kluczowe cechy to przede wszystkim lekkość, z zaledwie 400 milionami parametrów i zredukowaną rozdzielczością (448×448), co umożliwia wdrożenie na urządzeniach brzegowych i mobilnych.

Model jest również gotowy do zastosowań zero-shot i liniowej sondy, co oznacza, że konkuruje w zadaniach klasyfikacji medycznej bez konieczności specyficznego dostrajania do konkretnego zadania. Co więcej, wykazuje wysoką zdolność do generalizacji między domenami, przewyższając dedykowane modele wyłącznie obrazowe w dermatologii, okulistyce, histopatologii i radiologii. W testach porównawczych, MedSigLIP osiągnął lepsze wyniki w diagnostyce rentgenowskiej klatki piersiowej, dermatologii, okulistyce oraz histopatologii, potwierdzając swoją skuteczność w różnorodnych obszarach medycyny.

Dostępność i integracja w ekosystemie

Oba modele są w 100% otwartym oprogramowaniem, z wagami, skryptami treningowymi i samouczkami dostępnymi w repozytorium MedGemma. Są w pełni kompatybilne z infrastrukturą Gemma i mogą być integrowane w potokach wspomaganych narzędziami lub agentach opartych na LLM za pomocą zaledwie kilku linii kodu Python. Istotne jest, że wszystkie wspomniane modele mogą być wdrażane na pojedynczej karcie graficznej (GPU), a większe warianty, takie jak 27B, pozostają dostępne dla laboratoriów akademickich i instytucji z umiarkowanymi budżetami obliczeniowymi. Wsparcie dla kwantyzacji i destylacji modeli umożliwia ich wdrażanie na sprzęcie mobilnym bez znaczącej utraty wydajności.

Podsumowanie

Udostępnienie MedGemma 27B Multimodal i MedSigLIP sygnalizuje dojrzałą strategię otwartego oprogramowania w rozwoju AI w dziedzinie zdrowia. Modele te dowodzą, że dzięki odpowiedniemu dostosowaniu do domeny i efektywnym architekturom, wysokowydajna sztuczna inteligencja medyczna nie musi być zastrzeżona ani prohibitującym kosztem. Poprzez połączenie silnego rozumowania „out-of-the-box” z modułową adaptowalnością, modele te obniżają barierę wejścia dla tworzenia aplikacji klasy klinicznej – od systemów triage i agentów diagnostycznych po multimodalne narzędzia wyszukiwania.

Architektura MedGemma: Połączenie tekstu i obrazu w medycynie

MedGemma 27B Multimodal: Nowa era w rozumowaniu multimodalnym

MedSigLIP: Lekki, wyspecjalizowany koder obrazu i tekstu

Dostępność i integracja w ekosystemie

Podsumowanie

Udostępnij:

Zobacz również

Evo-Memory i ReMem: Nowe podejście do pamięci w agentach LLM DeepMind i UIUC

Przełomowe badanie MIT: uczenie przez wzmacnianie minimalizuje 'katastroficzne zapominanie’ w modelach AI

Lila Sciences, wspierana przez NVIDIĘ, osiąga wycenę 1,3 mld USD w wyścigu po „naukową superinteligencję”

Dodaj komentarz Anuluj pisanie odpowiedzi