AudioLLM

Liquid AI prezentuje LFM2-Audio-1.5B: przełomowy model audio z opóźnieniem poniżej 100 ms

Liquid AI, firma specjalizująca się w sztucznej inteligencji, zaprezentowała LFM2-Audio-1.5B, nowy model fundamentowy audio-językowy, który ma szansę zrewolucjonizować interakcję głosową z urządzeniami. Model ten potrafi zarówno rozumieć, jak i generować mowę oraz tekst, a jego kluczową zaletą jest minimalne opóźnienie – poniżej 100 milisekund.

Czym wyróżnia się LFM2-Audio-1.5B?

LFM2-Audio rozszerza istniejący model językowy LFM2 o 1,2 miliarda parametrów, traktując dźwięk i tekst jako równoważne sekwencje tokenów. Innowacją jest rozdzielenie reprezentacji dźwięku: dane wejściowe to ciągłe osadzenia (embeddings) generowane bezpośrednio z fragmentów surowego sygnału audio (ok. 80 ms), natomiast dane wyjściowe to dyskretne kody audio. Takie podejście pozwala uniknąć artefaktów dyskretyzacji na wejściu, jednocześnie zachowując autoregresywny charakter treningu i generowania dla obu modalności na wyjściu.

Szczegóły techniczne:

  • Architektura: LFM2 (hybrydowa konwolucja + mechanizm uwagi), 1,2 mld parametrów (tylko LM)
  • Encoder audio: FastConformer (~115M)
  • Dekoder audio: RQ-Transformer, przewidujący dyskretne tokeny kodeka Mimi (8 codebooków)
  • Kontekst: 32 768 tokenów; słownik: 65 536 (tekst) / 2049×8 (audio)
  • Precyzja: bfloat16
  • Licencja: LFM Open License v1.0
  • Języki: angielski

Dwa tryby generowania dla agentów czasu rzeczywistego:

  • Generowanie przeplatane: idealne do rozmów głosowych na żywo, gdzie model naprzemiennie generuje tokeny tekstowe i audio, minimalizując opóźnienia.
  • Generowanie sekwencyjne: do ASR/TTS (przełączanie modalności krok po kroku).

Liquid AI udostępnia pakiet Python (liquid-audio) oraz demo Gradio, umożliwiające odtworzenie tych trybów.

Niskie opóźnienia kluczem do sukcesu

Zespół Liquid AI chwali się, że kompleksowe opóźnienie od zapytania audio trwającego 4 sekundy do pierwszej słyszalnej odpowiedzi wynosi poniżej 100 ms. Według nich LFM2-Audio jest szybszy niż inne modele o podobnej wielkości (poniżej 1,5 mld parametrów).

Benchmarki i wyniki

Model został przetestowany na VoiceBench, zestawie dziewięciu ewaluacji asystentów głosowych, uzyskując ogólny wynik 56,78. Dla porównania, uwzględniono również wyniki większych modeli, takich jak Qwen2.5-Omni-3B i Moshi-7B. Co ciekawe, w teście ASR, LFM2-Audio dorównuje lub przewyższa Whisper-large-v3-turbo na niektórych zbiorach danych pomimo bycia modelem ogólnego przeznaczenia (speech-to-text).

Dlaczego to ważne? Perspektywa dla Voice AI

Większość systemów „omni” łączy ASR → LLM → TTS, co zwiększa opóźnienia i komplikuje interfejsy. LFM2-Audio, dzięki jednolitej architekturze z ciągłymi osadzeniami wejściowymi i dyskretnymi kodami wyjściowymi, redukuje złożoność i umożliwia przeplatane dekodowanie, co przekłada się na szybsze odpowiedzi audio. Dla programistów oznacza to prostsze potoki przetwarzania i krótszy czas oczekiwania, przy jednoczesnym wsparciu dla ASR, TTS, klasyfikacji i agentów konwersacyjnych w ramach jednego modelu. Liquid AI udostępnia kod, demo i dystrybucję poprzez Hugging Face.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *