Medycyna i zdrowie

Google DeepMind rewolucjonizuje analizę danych z urządzeń ubieralnych dzięki LSM-2 i AIM

Współczesne urządzenia ubieralne stały się nieocenionym narzędziem w monitorowaniu zdrowia, umożliwiając ciągłe zbieranie sygnałów fizjologicznych i behawioralnych. Od tętna i aktywności po temperaturę skóry, dane te obiecują rewolucję w opiece zdrowotnej. Niestety, w praktyce, informacje te charakteryzują się wysokim stopniem fragmentaryczności. Awarie czujników, zdejmowanie urządzeń, ładowanie czy artefakty ruchowe to tylko niektóre z przyczyn, dla których żadna ze 1,6 miliona analizowanych próbek danych dzień po dniu (o długości 1440 minut) nie była w 100% kompletna. Jest to fundamentalny problem dla modeli AI, które zazwyczaj wymagają spójnych i pełnych strumieni danych, a dotychczasowe rozwiązania, takie jak imputacja danych czy odrzucanie niekompletnych instancji, niosły ze sobą ryzyko zniekształceń lub utraty cennych informacji.

Innowacja Google DeepMind: LSM-2 i strategia AIM

Naukowcy z Google DeepMind sprostali temu wyzwaniu, wprowadzając przełomowy framework LSM-2 (Large Sensor Model 2) wraz z nową strategią Adaptive and Inherited Masking (AIM). To podejście pozwala na bezpośrednie uczenie się z niekompletnych danych zbieranych z urządzeń ubieralnych, eliminując potrzebę wcześniejszej, problematycznej imputacji. Model potrafi uczyć się z realnych, nieuzupełnionych danych, dynamicznie przystosowując się do braków podczas wnioskowania i tworząc reprezentacje odporne zarówno na częściowe, jak i systematyczne luki w danych.

Kluczem do sukcesu AIM jest integracja dwóch typów maskowania. Pierwszym jest maska dziedziczona (inheriting mask), która zaznacza tokeny odpowiadające rzeczywistym brakom w danych z czujników. Drugim jest maska sztuczna (artificial mask), losowo maskująca obserwowane tokeny, aby stworzyć cele rekonstrukcji dla treningu samonadzorowanego. Połączenie tych masek, przetwarzane przez strukturę kodera-dekodera opartą na architekturze transformatora, pozwala modelowi na efektywne skalowanie do bardzo długich sekwencji wejściowych, nawet całodobowych, obejmujących ponad 3000 tokenów.

Szkolenie i skala danych

LSM-2 został przetestowany na imponującej skali danych treningowych, obejmujących 40 milionów godzin wielomodalnych danych z czujników. Zebrano je w okresie od marca do maja 2024 roku od 60 440 uczestników. Dane pochodziły z różnych typów czujników, takich jak fotopletyzmografia (PPG), akcelerometr, aktywność elektrodermalna (EDA), temperatura skóry i wysokościomierz. Ważne jest, że w badaniu uwzględniono różnorodność demograficzną, obejmującą uczestników o różnym wieku (18–96 lat), płci i klasach BMI, co zwiększa reprezentatywność i potencjalną użyteczność modelu.

Model był następnie oceniany pod kątem jego zdolności do wykonywania zadań klasyfikacyjnych (nadciśnienie, lęk, rozpoznawanie aktywności), regresji (wiek i BMI) oraz generatywnych (odzyskiwanie brakujących danych z czujników).

Wyniki i wnioski kliniczne

LSM-2 z AIM wykazał wyraźną poprawę w stosunku do poprzednika, LSM-1. W zadaniach klasyfikacyjnych i regresyjnych odnotowano wzrosty wskaźników F1 i korelacji, choć pozornie niewielkie (od 0,8% do 1,7%), to w kontekście predykcji chorób przewlekłych mogą one mieć istotne znaczenie kliniczne. Na przykład, model poprawił F1 dla predykcji nadciśnienia o 1,7% (z 0,640 do 0,651).

Szczególnie imponujące są wyniki w zakresie odzyskiwania brakujących danych. LSM-2 z AIM osiągnął 33% niższy błąd w losowej imputacji (80% braków) i aż 77% niższy błąd w odzyskiwaniu danych z dwóch sygnałów, co podkreśla jego zdolności generatywne. Co istotne, model okazał się znacznie bardziej odporny na ukierunkowane braki danych, takie jak celowe usunięcie danych z konkretnych czujników – odnotowano średnio o 73% mniejsze spadki wydajności w porównaniu do LSM-1.

Zauważalna jest także spójność kliniczna modelu: usunięcie biosygnałów z nocy znacząco obniżyło dokładność predykcji nadciśnienia i lęku, co odzwierciedla rzeczywiste znaczenie danych nocnych w diagnostyce. LSM-2 wykazał również lepszą skalowalność niż jego poprzednik, co sugeruje, że dalszy wzrost objętości danych i zasobów obliczeniowych może prowadzić do jeszcze lepszych wyników.

LSM-2 z Adaptacyjnym i Dziedziczonym Maskowaniem stanowi znaczący krok naprzód w implementacji AI w dziedzinie monitorowania zdrowia za pomocą urządzeń ubieralnych. Bezpośrednie radzenie sobie z powszechnymi i ustrukturowanymi brakami danych, a także połączenie możliwości generatywnych i dyskryminacyjnych w jednym, wydajnym i solidnym modelu bazowym, tworzy fundament dla przyszłości technologii ubieralnych w realistycznych i niedoskonałych środowiskach danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *