Abstrakcyjna sieć neuronowa, symbolizująca AI FLUX.2, z precyzyjnymi połączeniami i futurystycznym tłem.

FLUX.2 od Black Forest Labs: Nowy wymiar generowania i edycji obrazów w produkcji

2025-11-27 AI Sight

Black Forest Labs zaprezentowało FLUX.2, swój sztandarowy system do generowania i edycji obrazów, który ma zrewolucjonizować procesy kreatywne. System ten, bazujący na 32-miliardowym transformatorze, został zaprojektowany z myślą o praktycznych zastosowaniach w branży, takich jak tworzenie materiałów marketingowych, fotografii produktowej, układów graficznych czy infografik. Wyróżnia się możliwością edycji obrazów o rozdzielczości do 4 megapikseli, oferując jednocześnie precyzyjną kontrolę nad układem, logo i typografią.

Rodzina produktów FLUX.2 obejmuje zarówno interfejsy API hostowane w chmurze, jak i modele open-weight, co zwiększa ich dostępność i elastyczność. FLUX.2 [pro] to zarządzana warstwa API, która ma zapewniać jakość porównywalną z zamkniętymi modelami, zachowując przy tym wysoką zgodność z promptem i niskie koszty wnioskowania. Dostępny jest za pośrednictwem BFL Playground, BFL API oraz platform partnerskich. FLUX.2 [flex] daje programistom większą kontrolę nad parametrami, takimi jak liczba kroków czy skala prowadzenia, co pozwala dostosować system do własnych potrzeb, balansując między opóźnieniami, dokładnością renderowania tekstu i szczegółowością wizualną.

Kluczowym elementem oferty jest FLUX.2 [dev] – punkt kontrolny o otwartej wadze, będący pochodną bazowego modelu FLUX.2. Jest on pozycjonowany jako jeden z najpotężniejszych otwartych modeli do generowania i edycji obrazów, łączący funkcje generowania tekstu na obraz i edycji wielu obrazów w jednym punkcie kontrolnym, z imponującą liczbą 32 miliardów parametrów. Uzupełnieniem jest FLUX.2 [klein], nadchodząca, lżejsza wersja oparta na licencji Apache 2.0, destylowana z modelu bazowego do mniejszych konfiguracji, oferująca wiele spośród tych samych możliwości.

Co ważne, wszystkie warianty FLUX.2 wspierają edycję obrazów za pomocą tekstu i wielu referencji w jednym modelu. Eliminuje to potrzebę zarządzania osobnymi punktami kontrolnymi dla generowania i edycji, upraszczając proces pracy i zwiększając efektywność.

Innowacyjna architektura i jej zastosowania

FLUX.2 wykorzystuje architekturę latent flow matching. Jego rdzeń stanowi połączenie wizualno-językowego modelu Mistral-3 24B z transformatorem rectified flow, który działa na ukrytych reprezentacjach obrazu. Model wizualno-językowy odpowiada za semantyczne ugruntowanie i wiedzę o świecie, podczas gdy transformator uczy się struktury przestrzennej, materiałów i kompozycji.

Model jest szkolony do mapowania szumów latentnych do latentów obrazu pod warunkowaniem tekstowym, co oznacza, że ta sama architektura wspiera zarówno syntezę sterowaną tekstem, jak i edycję. W procesie edycji latenty są inicjowane z istniejących obrazów, a następnie aktualizowane w ramach tego samego procesu przepływu, z zachowaniem oryginalnej struktury.

Nowy FLUX.2 VAE definiuje przestrzeń latentną. Został zaprojektowany w celu zbalansowania łatwości uczenia, jakości rekonstrukcji i kompresji, a także jest udostępniony oddzielnie na platformie Hugging Face na licencji Apache 2.0. Ten autoenkoder stanowi podstawę wszystkich modeli przepływowych FLUX.2 i może być również wykorzystywany w innych systemach generatywnych.

Możliwości w profesjonalnych procesach pracy

Dokumentacja FLUX.2 oraz integracja z Diffusers podkreślają kilka kluczowych możliwości:

Obsługa wielu referencji: FLUX.2 może połączyć do 10 obrazów referencyjnych, aby zachować spójność postaci, wygląd produktu i styl w różnych wyjściach.
Fotorealistyczne detale w 4 MP: Model może edytować i generować obrazy o rozdzielczości do 4 megapikseli, z ulepszonymi teksturami, skórą, tkaninami, dłońmi i oświetleniem, co czyni go idealnym do zdjęć produktowych i zastosowań fotorealistycznych.
Solidne renderowanie tekstu i układu: Model potrafi renderować złożoną typografię, infografiki, memy i układy interfejsu użytkownika z małym, czytelnym tekstem, co jest częstą słabością wielu starszych modeli.
Wiedza o świecie i logika przestrzenna: Model został przeszkolony pod kątem bardziej ugruntowanego oświetlenia, perspektywy i kompozycji sceny, co redukuje artefakty i syntetyczny wygląd generowanych obrazów.

Wydanie FLUX.2 stanowi znaczący krok naprzód dla otwartych modeli generowania wizualnego. Połączenie 32-miliardowego transformatora rectified flow, modelu Mistral-3 24B VLM i FLUX.2 VAE w jednej, wysokiej jakości procedurze generowania tekstu na obraz i edycji, demonstruje praktyczną wartość tego systemu. Jasne profile VRAM, skwantyzowane warianty i silne integracje z Diffusers, ComfyUI i Cloudflare Workers sprawiają, że FLUX.2 staje się praktycznym narzędziem do rzeczywistych obciążeń produkcyjnych, wykraczając poza same benchmarki i zbliżając otwarte modele obrazów do infrastruktury kreatywnej klasy produkcyjnej. Pełnowymiarowe wnioskowanie wymaga co prawda ponad 80GB VRAM, ale potok skwantyzowany do 4-bitów i FP8 z offloadingiem pozwala na użycie FLUX.2 [dev] na kartach graficznych z 18GB do 24GB VRAM, a nawet na kartach 8GB z wystarczającą pamięcią systemową.

Innowacyjna architektura i jej zastosowania

Możliwości w profesjonalnych procesach pracy

Udostępnij:

Zobacz również

Perplexity wzbogaca ofertę o modele Nano Banana i Seedream 4.0 do generowania obrazów

Microsoft AI wkracza na rynek generatorów obrazów. MAI-Image-1 debiutuje z wysokim wynikiem w LMArena

PaddleOCR‑VL 0.9B: Baidu łączy natywną rozdzielczość NaViT z ERNIE‑4.5 do parsowania dokumentów

Dodaj komentarz Anuluj pisanie odpowiedzi