OpenAI rzuca wyzwanie Google. Model GPT Image 2 wprowadza logikę znaną z LLM do grafiki
Ewolucja zamiast filtrów: kiedy algorytm zaczyna myśleć
Rynek generatywnych modeli graficznych przeszedł długą drogę od fascynacji surrealistycznymi plamami do fotorealizmu, ale prawdziwą barierą pozostawała logika i spójność. OpenAI, ogłaszając model GPT Image 2 (oparty na architekturze gpt-image-2), redefiniuje ten proces. Zamiast natychmiastowego renderowania na podstawie promptu, system wdraża proces „rozumowania”. W praktyce oznacza to, że model potrafi analizować kontekst zapytania i, jeśli zajdzie taka potrzeba, przeszukiwać zasoby sieciowe przed naniesieniem pierwszej plamy koloru.
Ta zmiana stawia OpenAI w bezpośrednie szranki z rozwiązaniami typu Nano Banana Pro od Google. Użytkownicy wersji Plus, Pro i Business zyskują dostęp do trybu rozszerzonego myślenia, który pozwala na generowanie do ośmiu spójnych obrazów jednocześnie. To przełom dla twórców mangi, planistów wnętrz czy grafików mediów społecznościowych – dotychczas utrzymanie tej samej postaci lub stylu w różnych scenach wymagało skomplikowanego inżynierowania promptów lub zewnętrznych narzędzi.
Koniec z „plastikowym” wyglądem i problemami z tekstem
Jednym z najczęstszych zarzutów wobec poprzednich wersji modelu był tak zwany „AI look” – nienaturalnie gładka skóra i sterylne oświetlenie, które od razu zdradzały syntetyczne pochodzenie obrazu. Nowa iteracja ma definitywnie zerwać z tą estetyką. Poprawiono tekstury, głębię ostrości oraz detale w takich formatach jak pixel art czy kadry filmowe. Co istotne dla sektora edukacyjnego i reklamowego, GPT Image 2 radykalnie lepiej radzi sobie z renderowaniem małego tekstu, ikonografii i interfejsów użytkownika, również w alfabetach niełacińskich.
Nowy model oferuje bezprecedensową elastyczność w proporcjach obrazu – od ultraszerokich panoram 3:1 po pionowe formaty 1:3, idealne na ekrany smartfonów. Rozdzielczość w dostępie przez API sięga 2K, co pozwala na profesjonalne wykorzystanie grafik w prezentacjach czy materiałach drukowanych. OpenAI wyraźnie celuje w użytkowników biznesowych, integrując generator bezpośrednio z przestrzenią roboczą Codex.
Ekonomia nowej generacji
Wprowadzenie gpt-image-2 zmienia strukturę kosztów dla deweloperów. Choć standardowe obrazy 1024 x 1024 w wysokiej jakości podrożały w porównaniu do wersji 1.5, to przy wyższych rozdzielczościach (np. 1024 x 1536) nowy model okazuje się paradoksalnie tańszy. Cennik oparty na tokenach – 8 USD za milion tokenów wejściowych obrazu i 30 USD za wyjściowe – odzwierciedla większą moc obliczeniową potrzebną do „przemyślenia” grafiki.
Krytycznym okiem patrząc, OpenAI goni konkurencję w obszarach, w których dotychczas zostawało w tyle, szczególnie w kwestii naturalnego oświetlenia. Choć pierwsze przecieki z testów w USA sugerują, że obrazy są niemal nieodróżnialne od rzeczywistych fotografii, prawdziwym testem będzie stabilność modelu przy skomplikowanych infografikach, gdzie margines błędu w tekście jest zerowy. System jest obecnie wdrażany dla ograniczonej grupy testerów, a jego pełny potencjał w codziennej pracy z ChatGPT poznamy w najbliższym czasie.
