Przełom w wykrywaniu deepfake’ów: UNITE widzi więcej niż tylko twarze
Wraz z dynamicznym rozwojem generatywnych modeli sztucznej inteligencji, wideo stało się nowym polem bitwy w walce z dezinformacją. Dotychczasowe metody wykrywania tzw. deepfake’ów koncentrowały się przede wszystkim na analizie manipulacji twarzy, co okazywało się niewystarczające w obliczu coraz bardziej zaawansowanych technik fałszowania obrazu. Odpowiedzią na to wyzwanie jest system UNITE (Universal Network for Identifying Tampered and synthEtic videos), stworzony przez badaczy z Uniwersytetu Kalifornijskiego w Riverside we współpracy z inżynierami Google.
Dr Amit Roy-Chowdhury, profesor inżynierii elektrycznej i komputerowej, oraz doktorant Rohit Kundu z UCR, połączyli siły z Google, by opracować system AI zdolny identyfikować modyfikacje wideo, które wykraczają daleko poza tradycyjne podmiany twarzy czy zmiany głosu. Ich praca, opublikowana na serwerze preprintów arXiv, stanowi znaczący progres w dziedzinie cyberbezpieczeństwa i zwalczania dezinformacji.
Przekroczyć granice detekcji twarzy
„Deepfake’i ewoluowały” – zauważa Rohit Kundu. „To już nie tylko podmiana twarzy. Ludzie tworzą obecnie całkowicie fałszywe filmy – od twarzy po tła – wykorzystując potężne modele generatywne. Nasz system jest zbudowany tak, aby wychwycić wszystkie tego typu manipulacje”.
Kluczową innowacją UNITE jest jego zdolność do analizy całych klatek wideo, włączając w to tło i wzorce ruchu, a nie tylko treści związane z twarzami. Dzięki temu staje się jednym z pierwszych narzędzi, które potrafią identyfikować syntetyczne lub zmanipulowane filmy, nawet jeśli nie zawierają one żadnych treści twarzowych. Dotychczasowe detektory często okazywały się bezużyteczne, gdy w kadrze brakowało twarzy.
Szeroki wachlarz zastosowań
Rozwój UNITE jest szczególnie istotny w kontekście rosnącej dostępności narzędzi do generowania wideo z tekstu (text-to-video) i obrazów (image-to-video). Te platformy AI umożliwiają praktycznie każdemu tworzenie wysoce przekonujących, ale fałszywych materiałów wideo, co rodzi poważne zagrożenia dla jednostek, instytucji, a nawet dla demokracji.
„To przerażające, jak dostępne stały się te narzędzia” – komentuje Kundu. „Każdy z umiarkowanymi umiejętnościami może ominąć filtry bezpieczeństwa i generować realistyczne filmy, na których osoby publiczne wypowiadają rzeczy, których nigdy nie powiedziały”.
UNITE wykorzystuje model głębokiego uczenia oparty na architekturze transformera, który analizuje klipy wideo w poszukiwaniu subtelnych niespójności przestrzennych i czasowych – sygnałów często pomijanych przez wcześniejsze systemy. Model ten czerpie z ram AI SigLIP, który ekstrahuje cechy niezwiązane z konkretną osobą czy obiektem. Nowatorska metoda treningowa, nazwana „uwagą-różnorodnością strat” (attention-diversity loss), skłania system do monitorowania wielu regionów wizualnych w każdej klatce, zapobiegając skupianiu się wyłącznie na twarzach.
Uniwersalność i przyszłość
Rezultatem jest uniwersalny detektor zdolny do wykrywania szerokiego spektrum fałszerstw – od prostych zamian twarzy po złożone, w pełni syntetyczne filmy generowane bez żadnego rzeczywistego materiału źródłowego. Jak podkreśla Kundu, „to jeden model, który radzi sobie ze wszystkimi tymi scenariuszami. To czyni go uniwersalnym”.
Odkrycia te zostały zaprezentowane na Konferencji Wzoru Komputerowego i Rozpoznawania (CVPR) w 2025 roku. Współpraca z Google, gdzie Kundu odbywał staż, zapewniła dostęp do obszernych zestawów danych i zasobów obliczeniowych niezbędnych do trenowania modelu na szerokim zakresie treści syntetycznych, w tym filmów generowanych z tekstu lub obrazów – formatów, które często stanowią wyzwanie dla istniejących detektorów.
Choć UNITE jest wciąż w fazie rozwoju, ma potencjał, by odegrać kluczową rolę w obronie przed dezinformacją wideo. Potencjalnymi użytkownikami są platformy mediów społecznościowych, agencje weryfikujące fakty oraz redakcje, które dążą do zapobiegania rozprzestrzenianiu się zmanipulowanych filmów. „Ludzie zasługują na to, by wiedzieć, czy to, co widzą, jest prawdziwe” – podsumowuje Kundu. „A ponieważ AI staje się coraz lepsza w fałszowaniu rzeczywistości, my musimy stawać się lepsi w ujawnianiu prawdy”.
