Abstrakcyjna wizualizacja głosu i kodu splecionych w sieci neuronowe, w odcieniach niebieskiego, fioletu i zieleni.

Microsoft prezentuje MAI-Voice-1 i MAI-1-Preview: autorskie modele AI do przetwarzania głosu i języka

2025-08-30 AI Sight

Microsoft AI Lab ogłosił wprowadzenie MAI-Voice-1 i MAI-1-Preview, co stanowi nowy etap w rozwoju sztucznej inteligencji w firmie. Modele te zapowiadają zaangażowanie Microsoftu w badania nad AI bez udziału zewnętrznych podmiotów.

MAI-Voice-1: szczegóły techniczne i możliwości

MAI-Voice-1 to model generowania mowy, który tworzy wysokiej jakości dźwięk. Wykorzystując pojedynczy procesor graficzny, generuje on minutę naturalnie brzmiącego dźwięku w czasie krótszym niż sekunda, co umożliwia zastosowania takie jak interaktywni asystenci i narracja podcastów, charakteryzujące się niskimi opóźnieniami i zapotrzebowaniem na sprzęt.

Model wykorzystuje architekturę opartą na transformatorach, przeszkoloną na zróżnicowanym, wielojęzycznym zbiorze danych mowy. Obsługuje scenariusze z jednym lub wieloma mówcami, zapewniając ekspresyjne i odpowiednie do kontekstu wyjścia głosowe. Model został zintegrowany z produktami Microsoftu, takimi jak Copilot Daily, do aktualizacji głosowych i podsumowań wiadomości. Jest on dostępny do testowania w Copilot Labs, gdzie użytkownicy mogą tworzyć historie audio lub narracje z podpowiedzi tekstowych.

Technicznie, model skupia się na jakości, wszechstronności i szybkości. Jego obsługa za pomocą jednego procesora graficznego odróżnia go od systemów wymagających wielu procesorów graficznych, umożliwiając integrację w urządzeniach konsumenckich i aplikacjach w chmurze.

MAI-1-Preview: architektura i wydajność modelu podstawowego

MAI-1-preview to pierwszy autorski model językowy Microsoftu. W przeciwieństwie do wcześniejszych modeli, które Microsoft zintegrował lub licencjonował od zewnątrz, MAI-1-preview został w całości przeszkolony na infrastrukturze Microsoftu, przy użyciu architektury mixture-of-experts i około 15 000 procesorów graficznych NVIDIA H100.

Zespół Microsoft AI umieścił MAI-1-preview na platformie LMArena, obok kilku innych modeli. MAI-1-preview jest zoptymalizowany pod kątem wykonywania instrukcji i codziennych zadań konwersacyjnych, dzięki czemu nadaje się do zastosowań skoncentrowanych na konsumentach, a nie na przedsiębiorstwach lub wysoce wyspecjalizowanych przypadkach użycia. Microsoft rozpoczął wdrażanie dostępu do modelu dla wybranych scenariuszy tekstowych w Copilocie, z planowaną stopniową ekspansją w miarę zbierania opinii i udoskonalania systemu.

Rozwój modelu i infrastruktura szkoleniowa

Rozwój MAI-Voice-1 i MAI-1-preview był wspierany przez klaster GPU GB200 nowej generacji firmy Microsoft, niestandardową infrastrukturę zoptymalizowaną specjalnie do szkolenia dużych modeli generatywnych. Oprócz sprzętu, Microsoft zainwestował również w zespół ekspertów w dziedzinie generatywnej sztucznej inteligencji, syntezy mowy i inżynierii systemów na dużą skalę. Podejście firmy do rozwoju modelu kładzie nacisk na równowagę między badaniami podstawowymi a praktycznym wdrażaniem, dążąc do tworzenia systemów, które są nie tylko imponujące teoretycznie, ale także niezawodne i użyteczne w codziennych scenariuszach.

Zastosowania

MAI-Voice-1 może być używany do wspomagania głosowego w czasie rzeczywistym, tworzenia treści audio w mediach i edukacji lub funkcji ułatwień dostępu. Jego zdolność do symulowania wielu mówców wspiera wykorzystanie w scenariuszach interaktywnych, takich jak opowiadanie historii, nauka języków lub symulowane rozmowy. Wydajność modelu pozwala również na wdrożenie na sprzęcie konsumenckim.

MAI-1-preview koncentruje się na ogólnym rozumieniu i generowaniu języka, pomagając w zadaniach takich jak pisanie e-maili, odpowiadanie na pytania, podsumowywanie tekstu lub pomaganie w zrozumieniu i wykonywaniu zadań szkolnych w formacie konwersacyjnym.

Wprowadzenie MAI-Voice-1 i MAI-1-preview pokazuje, że Microsoft jest w stanie rozwijać podstawowe modele generatywnej sztucznej inteligencji wewnętrznie, przy wsparciu znacznych inwestycji w infrastrukturę szkoleniową i talenty techniczne. Oba modele są przeznaczone do praktycznego, rzeczywistego użytku i są udoskonalane na podstawie opinii użytkowników. Ten rozwój przyczynia się do różnorodności architektur modeli i metod szkoleniowych w tej dziedzinie, z naciskiem na systemy, które są wydajne, niezawodne i nadają się do integracji z codziennymi aplikacjami. Podejście Microsoftu – wykorzystanie zasobów na dużą skalę, stopniowe wdrażanie i bezpośrednie zaangażowanie użytkowników – oferuje jeden z przykładów tego, jak organizacje mogą rozwijać możliwości sztucznej inteligencji, kładąc nacisk na praktyczne, stopniowe ulepszenia.

Udostępnij:

Zobacz również

Mappa rewolucjonizuje rekrutację: AI analizuje głos w poszukiwaniu idealnych kandydatów

Dyktowanie napędzane AI – nowa era produktywności w 2025 roku

NVIDIA prezentuje Nemotron Speech ASR – przełom w transkrypcji mowy o niskim opóźnieniu

Dodaj komentarz Anuluj pisanie odpowiedzi