Data ScienceLLMR & D

Nowy algorytm federacyjnego uczenia maszynowego chroni dane i zapobiega „lokalnemu przeuczeniu”

Federacyjne uczenie maszynowe (ang. Federated Learning) staje się coraz popularniejsze jako metoda tworzenia modeli sztucznej inteligencji z wykorzystaniem danych z wielu źródeł, bez konieczności ich centralizacji. Rozwiązanie to jest szczególnie atrakcyjne w sektorach takich jak bankowość i opieka zdrowotna, gdzie ochrona prywatności danych jest absolutnym priorytetem. Tradycyjne podejście do federacyjnego uczenia maszynowego napotykało jednak na wyzwanie związane z tzw. „lokalnym przeuczeniem”.

Problem ten pojawia się, gdy model AI, trenowany na danych z różnych instytucji, zaczyna zbyt mocno dopasowywać się do specyfiki danych każdej z nich. W efekcie traci zdolność do generalizacji i radzenia sobie z nowymi, nieznanymi danymi. Zespół naukowców z Korei Południowej pod kierownictwem profesora Chanyounga Parka z Department of Industrial and Systems Engineering opracował nową metodę, która ma rozwiązać ten problem.

Kluczem do sukcesu jest wykorzystanie syntetycznych danych. Zamiast udostępniać wrażliwe informacje, każda instytucja wydobywa z własnych danych jedynie najbardziej charakterystyczne cechy. Na ich podstawie generowane są wirtualne dane, które nie zawierają informacji umożliwiających identyfikację osób. Te syntetyczne dane są następnie wykorzystywane w procesie dostrajania modelu AI.

Dzięki temu każda instytucja może rozwijać swoje kompetencje w oparciu o własne dane, zachowując jednocześnie szerszą perspektywę zdobytą dzięki współpracy. Profesor Park porównuje działanie syntetycznych danych do szczepionki, która zapobiega „zapominaniu” przez AI informacji pochodzących z innych źródeł.

Nowa metoda została przetestowana w różnych scenariuszach, w tym w sektorze finansowym i opiece zdrowotnej, gdzie bezpieczeństwo danych jest kluczowe. Wyniki pokazują, że algorytm jest skuteczny również w dynamicznie zmieniających się środowiskach, takich jak media społecznościowe i e-commerce, gdzie stale pojawiają się nowi użytkownicy i produkty. Co ważne, AI zachowuje stabilność nawet w przypadku dołączenia do współpracy nowej instytucji lub gwałtownej zmiany charakterystyki danych.

„Nasze badania otwierają nową drogę do zapewnienia zarówno specjalizacji, jak i wszechstronności dla AI w każdej instytucji, przy jednoczesnej ochronie prywatności danych” – komentuje profesor Chanyoung Park. „Będzie to ogromna pomoc w dziedzinach, w których współpraca w zakresie danych jest niezbędna, ale bezpieczeństwo jest ważne, takich jak medyczna AI i AI do wykrywania oszustw finansowych.”

Odkrycie to może znacząco przyspieszyć wdrażanie federacyjnego uczenia maszynowego w sektorach, które do tej pory były ograniczone obawami o bezpieczeństwo i prywatność danych. Publikacja na temat algorytmu znajduje się w bazie ArXiv, pod numerem DOI: 10.48550/arxiv.2503.03995.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *