NarzędziaObraz

Alibaba prezentuje Qwen-Image-Edit: Nowy model edycji obrazów z zaawansowanymi możliwościami

W świecie sztucznej inteligencji, modele edycji obrazów bazujące na instrukcjach rewolucjonizują sposób, w jaki użytkownicy wchodzą w interakcje z treściami wizualnymi. Qwen-Image-Edit, najnowsze osiągnięcie zespołu Qwen z Alibaba, rozszerza możliwości swojego poprzednika, Qwen-Image, oferując zaawansowane narzędzia do edycji semantycznej i wyglądu. Model ten integruje się z ekosystemem Qwen Chat i jest dostępny za pośrednictwem platformy Hugging Face, co obniża próg wejścia dla profesjonalnych twórców.

Architektura i innowacje Qwen-Image-Edit

Qwen-Image-Edit bazuje na architekturze Multimodal Diffusion Transformer (MMDiT) znanej z Qwen-Image. Rdzeniem jest multimodalny model językowy Qwen2.5-VL, który odpowiada za przetwarzanie tekstu. Dodatkowo, wykorzystywany jest Variational AutoEncoder (VAE) do tokenizacji obrazów oraz MMDiT jako szkielet do modelowania multimodalnego. Nowością jest podwójne kodowanie: obraz wejściowy jest przetwarzany przez Qwen2.5-VL w celu wydobycia cech semantycznych wysokiego poziomu oraz przez VAE dla uzyskania szczegółów rekonstrukcyjnych niskiego poziomu. Takie połączenie pozwala na zachowanie spójności semantycznej i wierności wizualnej, co jest kluczowe np. przy zmianie pozy obiektu.

Model wykorzystuje również Multimodal Scalable RoPE (MSRoPE) z dodatkowym wymiarem ramki, aby odróżnić obrazy przed i po edycji, co umożliwia zadania takie jak edycja tekstu w obrazie (TI2I). VAE, dostrojony na danych bogatych w tekst, osiąga imponujące wyniki w rekonstrukcji, przewyższając konkurencyjne rozwiązania, takie jak FLUX-VAE i SD-3.5-VAE. Dzięki temu Qwen-Image-Edit radzi sobie z dwujęzyczną edycją tekstu, zachowując oryginalną czcionkę, rozmiar i styl.

Kluczowe funkcje modelu

  • Edycja semantyczna i wyglądu: Model umożliwia zarówno edycję wyglądu (dodawanie, usuwanie, modyfikowanie elementów), jak i edycję semantyczną (zmiana stylu, rotacja obiektów) z zachowaniem spójności.
  • Precyzyjna edycja tekstu: Obsługa edycji tekstu w języku chińskim i angielskim, w tym dodawanie, usuwanie i modyfikowanie tekstu w obrazach, z zachowaniem oryginalnych atrybutów tekstu.
  • Wysoka wydajność: Qwen-Image-Edit osiąga najlepsze wyniki w testach porównawczych edycji obrazów, co czyni go solidnym modelem do generowania i manipulacji obrazami.

Proces uczenia i dane

Model Qwen-Image-Edit został wytrenowany na zbiorze danych składającym się z miliardów par obraz-tekst, obejmujących różnorodne domeny, takie jak natura, design, ludzie i dane syntetyczne. Zastosowano wielozadaniowe podejście uczenia, obejmujące T2I (tekst do obrazu), I2I (obraz do obrazu) i TI2I. Dane były filtrowane w siedmiostopniowym procesie, który dbał o jakość i równowagę, wykorzystując strategie syntetycznego renderowania tekstu, aby poprawić reprezentację znaków chińskich.

Samo uczenie wykorzystuje flow matching z ramami Producer-Consumer. Do dostrajania wykorzystano supervised fine-tuning i reinforcement learning (DPO i GRPO). Do zadań specyficznych dla edycji, zintegrowano syntezę nowych widoków i estymację głębi. Pozwoliło to na osiągnięcie wysokiej wydajności, np. w korekcji błędów kaligraficznych.

Zaawansowane możliwości edycji w praktyce

Qwen-Image-Edit wyróżnia się w edycji semantycznej, umożliwiając tworzenie IP, np. generowanie emotikonów z maskotki (np. Kapibary) w różnych stylach MBTI, przy jednoczesnym zachowaniu spójności postaci. Wspiera syntezę nowych widoków o 180 stopni, obracając obiekty lub sceny z dużą wiernością. Umożliwia również transfer stylu, przekształcając portrety w formy artystyczne, takie jak Studio Ghibli, przy zachowaniu integralności semantycznej.

W zakresie edycji wyglądu, model dodaje elementy, takie jak szyldy z realistycznymi odbiciami, lub usuwa drobne detale, takie jak kosmyki włosów, bez zmiany otoczenia. Dwujęzyczna edycja tekstu jest precyzyjna: zmiana „Hope” na „Qwen” na plakatach lub poprawianie chińskich znaków w kaligrafii poprzez bounding boxes nie stanowią problemu. Edycja łańcuchowa umożliwia iteracyjne poprawki, np. stopniowe poprawianie znaków kaligraficznych.

Wyniki benchmarków i oceny

Qwen-Image-Edit przewodzi w benchmarkach edycji, osiągając wysokie wyniki w GEdit-Bench-EN i CN, wyprzedzając GPT Image 1 i FLUX.1 Kontext [Pro]. W ImgEdit osiąga wysokie wyniki w zadaniach takich jak zamiana obiektów i zmiana stylu. Estymacja głębi daje konkurencyjne wyniki w KITTI. Oceny ludzkie na AI Arena pozycjonują model bazowy na trzecim miejscu wśród API, z silnymi zaletami w renderowaniu tekstu. Wskaźniki te podkreślają jego wysoką jakość.

Wdrożenie i praktyczne zastosowanie

Qwen-Image-Edit można wdrożyć za pomocą Hugging Face Diffusers. Alibaba Cloud’s Model Studio oferuje dostęp do API. Model jest udostępniany na licencji Apache 2.0, a kod źródłowy jest dostępny na GitHub.

Przyszłość edycji obrazów z AI

Qwen-Image-Edit rozwija interfejsy wizualno-językowe, umożliwiając bezproblemową manipulację treściami dla twórców. Zunifikowane podejście do rozumienia i generowania sugeruje potencjalne rozszerzenia na wideo i 3D. Otwiera to drogę do innowacyjnych zastosowań w projektowaniu opartym na sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *