Gen AI

Google Gemini 2.5 Flash: Nowa generacja modeli AI stawia na szybkość i efektywność

Google wprowadza na rynek zaktualizowane wersje modeli Gemini 2.5 Flash i Gemini 2.5 Flash-Lite, udostępniając je w AI Studio i Vertex AI. Nowością są tzw. rolling aliases, czyli dynamiczne odnośniki, które zawsze wskazują na najnowszą wersję danego modelu. Google zaleca jednak przypinanie stałych ciągów znaków (gemini-2.5-flash, gemini-2.5-flash-lite) dla zachowania stabilności produkcyjnej. Firma zobowiązuje się do dwutygodniowego powiadomienia e-mail przed zmianą docelowego aliasu -latest, podkreślając, że limity stawek, funkcje i koszty mogą się różnić w zależności od aktualizacji aliasu.

Co się zmieniło w Gemini 2.5 Flash?

Wersja Flash została ulepszona pod kątem wykorzystania narzędzi agentowych i wydajniejszego „myślenia” (reasoning). Google raportuje wzrost o 5 punktów w benchmarku SWE-Bench Verified (z 48,9% do 54,0%), co świadczy o lepszym planowaniu długoterminowym i nawigacji po kodzie.

Flash-Lite natomiast został dostrojony pod kątem bardziej rygorystycznego przestrzegania instrukcji, zmniejszonej werbalności i lepszego tłumaczenia. Wewnętrzne dane Google wskazują na około 50% mniej tokenów wyjściowych dla Flash-Lite i około 24% mniej dla Flash, co przekłada się bezpośrednio na niższe koszty i krótszy czas działania.

Niezależne testy potwierdzają obiecujące wyniki

Portal Artificial Analysis, zajmujący się benchmarkingiem AI, otrzymał przedpremierowy dostęp do nowych modeli i opublikował niezależne pomiary. Wynika z nich, że Gemini 2.5 Flash-Lite (wersja Preview 09-2025) jest najszybszym własnościowym modelem, jaki kiedykolwiek testowali, osiągając prędkość około 887 tokenów wyjściowych na sekundę w AI Studio.

Wrześniowe wersje preview Flash i Flash-Lite poprawiają również zagregowane wyniki „inteligencji” w Artificial Analysis w porównaniu z poprzednimi stabilnymi wersjami. Co istotne, zmniejszenie liczby tokenów (o 24% dla Flash i o 50% dla Flash-Lite) przekłada się na realne oszczędności kosztów.

Koszty i kontekst – co warto wiedzieć przed wdrożeniem

Cena katalogowa Flash-Lite GA wynosi 0,10 USD za 1 milion tokenów wejściowych i 0,40 USD za 1 milion tokenów wyjściowych. Redukcja werbalności w tym modelu oznacza zatem natychmiastowe oszczędności. Flash-Lite obsługuje kontekst o długości około 1 miliona tokenów z konfigurowalnymi „budżetami myślenia” i możliwością łączenia z narzędziami (wyszukiwanie, wykonywanie kodu), co jest przydatne w systemach agentowych.

Czy Gemini Flash rzeczywiście jest tak szybki i tani w zadaniach związanych z przeglądarkami?

Pojawiły się doniesienia o tym, że „nowy Gemini Flash ma dokładność na poziomie o3, ale jest 2x szybszy i 4x tańszy w zadaniach związanych z przeglądarkami”. Google oficjalnie tego nie potwierdza. Prawdopodobnie odnosi się to do konkretnych, ograniczonych zestawów zadań (nawigacja DOM, planowanie akcji) z określonymi budżetami narzędzi i limitami czasu. Traktujmy to jako hipotezę do własnych ocen, a nie jako uniwersalną prawdę.

Praktyczne wskazówki dla zespołów

  • Przypinaj wersje stabilne, albo korzystaj z najnowszych: Jeśli zależy Ci na ścisłych umowach SLA lub stałych limitach, przypnij wersje stabilne. Jeśli stale testujesz koszty/opóźnienia/jakość, aliasy -latest zmniejszają tarcie związane z aktualizacją (Google zapewnia dwutygodniowe powiadomienie przed zmianą wskaźnika).
  • Wysoka przepustowość: Rozpocznij od wersji zapoznawczej Flash-Lite; aktualizacje dotyczące werbalności i przestrzegania instrukcji zmniejszają liczbę tokenów wychodzących. Sprawdź ślady multimodalne i długie konteksty pod obciążeniem produkcyjnym.
  • Potoki agentów/narzędzi: A/B Flash preview, gdzie wieloetapowe użycie narzędzi dominuje nad kosztami lub trybami awarii; wzrost SWE-Bench Verified Google i dane dotyczące tokenów/s sugerują lepsze planowanie przy ograniczonych budżetach myślenia.

Podsumowanie: Gemini 2.5 Flash to krok naprzód

Nowa wersja Google usprawnia wykorzystanie narzędzi (Flash) i wydajność tokenów/opóźnień (Flash-Lite) oraz wprowadza aliasy -latest dla szybszej iteracji. Niezależne testy Artificial Analysis wskazują na znaczny wzrost przepustowości i indeksu inteligencji dla wersji zapoznawczych z września 2025 r., a Flash-Lite jest teraz testowany jako najszybszy model w ich systemie. Przed użyciem aliasów w środowisku produkcyjnym należy sprawdzić je pod kątem obciążenia, zwłaszcza w przypadku stosów agentów przeglądarki.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *