Agenci AI

Xiaomi rzuca wyzwanie gigantom AI: debiut rodziny modeli MiMo-V2

Chiński gigant technologiczny Xiaomi wykonał odważny krok w kierunku stworzenia autonomicznego ekosystemu sztucznej inteligencji. Zamiast pojedynczej aktualizacji, firma zaprezentowała jednoczesną premierę trzech wyspecjalizowanych modeli z serii MiMo: flagowego, językowego MiMo-V2-Pro, multimodalnego MiMo-V2-Omni oraz przełomowego systemu syntezy mowy MiMo-V2-TTS. To strategiczne uderzenie ma na celu dostarczenie deweloperom kompletnej platformy dla agentów AI, zdolnych nie tylko do generowania tekstu, lecz także do widzenia, słyszenia i aktywnego działania w świecie cyfrowym i fizycznym.

Architektura skrojona pod wydajność

Najpotężniejszy z zestawu, MiMo-V2-Pro, opiera się na architekturze Mixture-of-Experts (MoE) i dysponuje imponującą liczbą ponad biliona parametrów, z czego 42 miliardy są aktywne podczas każdego zapytania. To trzykrotny wzrost skali w porównaniu z grudniowym modelem MiMo-V2-Flash. Xiaomi udało się jednak zachować wysoką efektywność dzięki hybrydowemu mechanizmowi uwagi (hybrid attention), który pozwala na obsługę okna kontekstowego o wielkości miliona tokenów. Innowacją jest również jednoczesne generowanie wielu tokenów, co znacząco przyspiesza reakcje modelu w porównaniu z tradycyjnym przewidywaniem słowo po słowie.

Wojna cenowa z zachodnimi modelami

Wyniki benchmarków stawiają Xiaomi w ścisłej światowej czołówce. MiMo-V2-Pro w testach kodowania SWE-bench Verified uzyskał wynik 78%, ustępując jedynie nieznacznie liderom takim jak Claude Opus 4.6 (80,8%). Model był zresztą testowany anonimowo na platformie OpenRouter pod kryptonimem „Hunter Alpha”, gdzie przez kilka dni okupował szczyty rankingów, a użytkownicy błędnie spekulowali, że mają do czynienia z nowym produktem od DeepSeek.

To, co może jednak najbardziej namieszać na rynku, to agresywna polityka cenowa. Xiaomi oferuje swój flagowy model w cenie zaledwie jednego dolara za milion tokenów wejściowych. Dla porównania, korzystanie z konkurencyjnego Claude Opus 4.6 wiąże się z pięciokrotnie wyższymi kosztami. Xiaomi wyraźnie gra na masową adopcję, rezygnując tymczasowo nawet z opłat za zapisywanie pamięci podręcznej (cache).

Omni: AI, które robi zakupy i montuje filmy

Podczas gdy model Pro skupia się na logice i kodzie, MiMo-V2-Omni jest „oczami i uszami” systemu. Model integruje enkodery obrazu, wideo i audio w jedną strukturę, co pozwala mu na natywne rozumienie otoczenia. Podczas pokazów Xiaomi zaprezentowało, jak AI analizuje nagrania z kamer samochodowych, w czasie rzeczywistym identyfikując zagrożenia, czy też samodzielnie nawiguje po przeglądarce internetowej. W jednym z testów MiMo-V2-Omni wykazało się niemal ludzką sprawczością: wyszukało recenzje produktów, porównało ceny w różnych sklepach, a nawet wynegocjowało zniżkę na czacie z obsługą klienta, finalizując zakup bez ingerencji człowieka.

Głos pełen emocji i muzyki

Dopełnieniem ekosystemu jest MiMo-V2-TTS – model syntezy mowy wytrenowany na 100 milionach godzin nagrań. System ten odchodzi od sztywnych kategorii emocjonalnych na rzecz opisowego sterowania głosem. Użytkownik może poprosić o głos „zaspany i lekko zachrypnięty” lub „gniewny, ale próbujący zachować spokój”. Co istotne, model natywnie generuje dźwięki paralingwistyczne, takie jak westchnienia, śmiech czy wahania w mowie, co czyni go jednym z najbardziej naturalnie brzmiących rozwiązań na rynku. Jako jedyny komercyjny interfejs API potrafi również płynnie przechodzić od mowy do śpiewu w ramach tego samego modelu.

Strategia „fizycznej inteligencji”

Choć Xiaomi wciąż musi gonić konkurencję w ogólnych zadaniach agentowych – gdzie MiMo-V2-Omni wciąż odstaje od GPT-5.2 w niektórych testach nawigacji – ambicje firmy sięgają daleko poza chatboty. Zespół MiMo już zapowiada prace nad długoterminowym planowaniem zadań trwających dni lub tygodnie oraz integracją z systemami robotycznymi. Przekaz Xiaomi jest jasny: prawdziwa inteligencja nie może być zamknięta w bibliotece tekstów; musi widzieć, słyszeć i działać w rzeczywistości. Wejście Xiaomi na ten poziom rywalizacji, obok takich graczy jak Alibaba czy Zhipu AI, zwiastuje nową fazę wyścigu zbrojeń w dziedzinie autonomicznych agentów AI.