Video

Przełom w rekonstrukcji wideo: Algorytm BF-STVSR poprawia jakość obrazu i płynność ruchu

Zespół badawczy z Politechniki UNIST w Korei Południowej, kierowany przez profesora Jaejuna Yoo, zaprezentował przełomowy model sztucznej inteligencji o nazwie BF-STVSR (Bidirectional Flow-based Spatio-Temporal Video Super-Resolution). Algorytm ten, przedstawiony na prestiżowej konferencji Computer Vision and Pattern Recognition (CVPR 2025) w Nashville, ma za zadanie radykalnie poprawiać jakość wideo poprzez jednoczesne zwiększanie jego rozdzielczości i płynności.

Jakość wideo jest determinowana przede wszystkim przez rozdzielczość oraz liczbę klatek na sekundę. Wysoka rozdzielczość przekłada się na ostrość obrazu i bogactwo detali, natomiast odpowiednia liczba klatek zapewnia płynny ruch, eliminując wrażenie „skakania” obrazu. Tradycyjne metody bazujące na sztucznej inteligencji, stosowane do rekonstrukcji wideo, zazwyczaj podejmują te dwa wyzwania oddzielnie. Co więcej, często polegają na wstępnie wytrenowanych sieciach przewidujących przepływ optyczny, które obliczają kierunek i prędkość ruchu obiektów w celu generowania klatek pośrednich. Takie podejście, choć skuteczne, obarczone jest intensywnymi obliczeniami i ryzykiem kumulacji błędów, co w efekcie ogranicza zarówno szybkość, jak i precyzję całej operacji.

BF-STVSR odchodzi od tych konwencjonalnych ograniczeń, wprowadzając nowatorskie metody przetwarzania sygnałów, które są ściśle dopasowane do specyfiki wideo. Model ten jest zdolny do samodzielnego uczenia się dwukierunkowego ruchu między klatkami, eliminując zależność od zewnętrznych sieci przepływu optycznego. Dzięki jednoczesnej inferencji konturów obiektów i przepływu ruchu, algorytm efektywnie i jednocześnie poprawia zarówno rozdzielczość, jak i liczbę klatek. Rezultatem jest bardziej naturalna i spójna rekonstrukcja obrazu.

Testy porównawcze, gdzie nowy model zastosowano do niskiej rozdzielczości i niskiej liczby klatek, wykazały znaczną przewagę BF-STVSR nad istniejącymi rozwiązaniami. Wyniki przedstawione w postaci wyższych wartości PSNR (Peak Signal-to-Noise Ratio) i SSIM (Structural Similarity Index) świadczą o zdolności algorytmu do zachowania wyraźnych i niezniekształconych sylwetek oraz detali, nawet w scenach z dynamicznym ruchem. Przekłada się to na uzyskanie znacznie bardziej realistycznych efektów.

Profesor Yoo podkreśla szerokie zastosowanie opracowanej technologii. Może ona rewolucjonizować odzyskiwanie materiałów z kamer bezpieczeństwa czy rejestratorów samochodowych, a także znacząco poprawiać jakość skompresowanych strumieni wideo, co ma kluczowe znaczenie w mediach cyfrowych. Potencjalne korzyści wykraczają poza branżę rozrywkową i obejmują również tak istotne dziedziny jak obrazowanie medyczne czy wirtualna rzeczywistość.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *