Surrealistyczna banana-laboratorium. Roboty remasterują rozmazane obrazy na holograficznych ekranach. Eteryczne światło, ostre detale, żywe kolory.

Nano Banana 2: próbki obrazu sugerują skok w remasteringu i renderowaniu tekstu

2025-11-11 AI Sight

Nano Banana 2 miał przez moment być dostępny w serwisie Media.ai, zanim podgląd wyłączono. W tym czasie do sieci trafiły zrzuty i krótkie demonstracje, które sugerują znaczący postęp w remasteringu niskiej jakości zdjęć oraz w podążaniu za złożonymi instrukcjami edycyjnymi. W udostępnionych materiałach model radzi sobie z precyzyjnym kolorowaniem, kompleksową edycją oraz przekształceniem obrazu na obraz (img2img) z zachowaniem geometrii sceny.

Wśród przykładów pojawiła się także demonstracja z zadaniem fizycznym: odtworzeniem toru ruchu piłki na bazie wejściowego obrazu. Autorzy nagrań twierdzą, że wcześniejsze modele myliły trajektorię, podczas gdy Nano Banana 2 trafia w rozwiązanie. Nie ma jednak niezależnej weryfikacji tych wyników ani metodycznego porównania z konkurencją.

Tekst na obrazach i lepsze rozumienie poleceń

Najbardziej widoczny skok dotyczy tekstu. Na próbkach widać równe, spójne fonty na tablicy czy infografikach — obszar, w którym generatory graficzne często zawodziły. Udostępnione przykłady przypisane do ekosystemu Gemini sugerują, że model lepiej interpretuje naturalne polecenia i utrzymuje spójność typograficzną, a także radzi sobie z elementami wielojęzyczności (i18n), chartami i prostymi wykresami.

Trzeba jednak pamiętać, że tego typu próbki zazwyczaj są selektywne. Rozstrzygające będzie dopiero szerokie testowanie: stabilność efektów przy dłuższych sesjach, powtarzalność wyników oraz podatność na błędy w renderowaniu liter zbliżonych kształtem.

Potencjalne zastosowania i znaki zapytania

Jeśli jakość z przecieków potwierdzi się w produkcji, największe korzyści odczują zespoły projektowe i media, które generują setki wariantów grafik: od banerów po wizualizacje do sieci społecznościowych. Programowalny dostęp przez API mógłby usprawnić automatyczne składy grafik, szybkie remastery archiwaliów i edycję według precyzyjnych briefów.

Na razie brakuje informacji o kosztach, limitach, politykach bezpieczeństwa i o tym, jak model radzi sobie w trudnych przypadkach: z literami o drobnych różnicach, złożonymi układami typograficznymi czy danymi tabelarycznymi. Bez tych szczegółów trudno ocenić gotowość do wdrożeń na dużą skalę.

Premiera: sygnały wskazują na rychły debiut

Oficjalnej daty premiery wciąż nie ma, ale tempo wycieków i epizody wczesnego dostępu sugerują, że ogłoszenie jest blisko. To spójne z podejściem Google do iteracyjnego rozwijania narzędzi z rodziny Gemini i poszerzania ich zastosowań w sektorze kreatywnym oraz korporacyjnym. Do czasu prezentacji produktu i pełnej dokumentacji warto traktować udostępnione próbki jako obietnicę — nie jako twardy punkt odniesienia.

Tekst na obrazach i lepsze rozumienie poleceń

Potencjalne zastosowania i znaki zapytania

Premiera: sygnały wskazują na rychły debiut

Udostępnij:

Zobacz również

DeepSeek OCR 2: Nowa era odczytywania dokumentów z 80-procentową redukcją tokenów

Lumana redefiniuje nadzór wizyjny z AI: interpretacja obrazu zamiast pasywnego nagrywania

Google rozszerza możliwości Veo 3 o generowanie wideo z obrazów

Dodaj komentarz Anuluj pisanie odpowiedzi