StepFun AI prezentuje Step-Audio 2 Mini: przełomowy, otwarty model AI do konwersacji głosowej
Zespół StepFun AI ogłosił premierę Step-Audio 2 Mini, modelu AI (LALM) do konwersacji głosowej z otwartym kodem źródłowym. Model, bazujący na 8 miliardach parametrów, ma zapewniać ekspresywną, kontekstową i szybką interakcję głosową. Udostępniony na licencji Apache 2.0, Step-Audio 2 Mini osiąga – jak twierdzą twórcy – najwyższą wydajność w benchmarkach rozpoznawania mowy, rozumienia dźwięku i konwersacji głosowej, wyprzedzając komercyjne systemy, w tym GPT-4o-Audio.
Kluczowe cechy Step-Audio 2 Mini:
Model integruje tokenizację tekstu i dźwięku, umożliwiając płynne rozumowanie w obu formatach. Eliminuje to potrzebę stosowania oddzielnych potoków ASR+LLM+TTS. Umożliwia to także dynamiczną zmianę stylu głosu podczas wnioskowania oraz spójność semantyczną, prozodyczną i emocjonalną w generowanych odpowiedziach. Twórcy podkreślają, że model nie tylko transkrybuje mowę, ale także interpretuje cechy paralingwistyczne, takie jak ton, rytm, emocje, barwa i styl, co pozwala na prowadzenie rozmów z uwzględnieniem emocjonalnego zabarwienia (szept, smutek, ekscytacja). W testach StepEval-Audio-Paralinguistic Step-Audio 2 osiągnął 83,1% dokładności, znacząco wyprzedzając GPT-4o Audio (43,5%) i Qwen-Omni (44,2%).
Wzbogacanie generowania mowy o wyszukiwanie
Step-Audio 2 wykorzystuje multimodalne RAG (Retrieval-Augmented Generation), integrując wyszukiwanie w sieci w celu ugruntowania wiedzy faktograficznej oraz wyszukiwanie dźwięku, które umożliwia pobieranie istniejących głosów z biblioteki i łączenie ich w odpowiedzi, imitując barwę i styl głosu w czasie rzeczywistym.
Wykorzystanie narzędzi i multimodalne rozumowanie
System obsługuje wywoływanie narzędzi. W benchmarkach Step-Audio 2 dorównuje tekstowym LLM w zakresie doboru narzędzi i dokładności parametrów, wyróżniając się w wywoływaniu narzędzi do wyszukiwania dźwięku – funkcji niedostępnej w modelach czysto tekstowych.
Skala treningu i danych:
Model trenowano na korpusie 1,356T tokenów tekstowych i dźwiękowych, obejmującym ponad 8 milionów godzin nagrań (rzeczywistych i syntetycznych) oraz około 50 tysięcy głosów w różnych językach i dialektach. Pre-trening obejmował ASR, TTS, tłumaczenie mowy na mowę i syntezę konwersacyjną z etykietami emocji. Skala treningu pozwala Step-Audio 2 Mini zachować zdolność rozumowania tekstu (dzięki fundacji Qwen2-Audio i CosyVoice) przy jednoczesnym opanowaniu modelowania dźwięku.
Wyniki testów:
- Automatyczne rozpoznawanie mowy (ASR):
- Język angielski: średni WER 3,14% (lepszy niż GPT-4o Transcribe ze średnią 4,5%).
- Język chiński: średni CER 3,08% (znacznie niższy niż GPT-4o i Qwen-Omni).
- Odporność na dialekty i akcenty.
- Rozumienie dźwięku (benchmark MMAU):
- Step-Audio 2: średnio 78,0, wyprzedzając Omni-R1 (77,0) i Audio Flamingo 3 (73,1).
- Najlepszy w zadaniach rozumowania dźwięku i mowy.
- Tłumaczenie mowy:
- CoVoST 2 (S2TT): BLEU 39,26 (najwyższy wśród modeli otwartych i zamkniętych).
- CVSS (S2ST): BLEU 30,87, wyprzedzając GPT-4o (23,68).
- Benchmarki konwersacyjne (URO-BENCH):
- Rozmowy po chińsku: najlepszy ogólnie wynik 83,3 (podstawowy) i 68,2 (pro).
- Rozmowy po angielsku: porównywalny z GPT-4o (83,9 vs. 84,5), znacznie wyprzedzający inne otwarte modele.
Step-Audio 2 Mini ma potencjał, by otworzyć zaawansowaną, multimodalną inteligencję głosową dla szerszego grona deweloperów i badaczy. Łącząc zdolność rozumowania Qwen2-Audio z potokiem tokenizacji CosyVoice i wzbogacając go o elementy wyszukiwania, StepFun dostarczył – jak twierdzą twórcy – jeden z najwydajniejszych otwartych modeli audio LLM.
