Agenci AILLMR & D

J-Moshi: Przełom w konwersacyjnej sztucznej inteligencji dla języka japońskiego

J-Moshi to pierwszy publicznie dostępny japoński system dialogowy oparty na sztucznej inteligencji, który pozwala na jednoczesne mówienie i słuchanie. Ten przełomowy projekt, stworzony przez badaczy z Laboratorium Higashinaka na Uniwersytecie Nagoja, stanowi odpowiedź na specyficzne wyzwania języka japońskiego w kontekście interakcji AI. Jego rozwój otwiera nowe perspektywy dla bardziej naturalnych i efektywnych systemów konwersacyjnych.

Kluczową innowacją J-Moshi jest jego zdolność do imitowania naturalnego przepływu japońskiej konwersacji, włączając w to krótkie odpowiedzi werbalne znane jako „aizuchi” – dźwięki takie jak „Sou desu ne” (zgadza się) czy „Naruhodo” (rozumiem), które japońscy rozmówcy wykorzystują, by sygnalizować aktywne słuchanie i zaangażowanie. Problem w tym, że tradycyjne systemy AI miały znaczące trudności z używaniem aizuchi, ponieważ nie potrafiły jednocześnie mówić i słuchać. Ta zdolność jest kluczowa dla tworzenia realistycznych, naturalnie brzmiących dialogów w języku japońskim, sprawiając, że J-Moshi zyskał uznanie wśród użytkowników doceniających jego autentyczność.

Zespół rozwijający J-Moshi, pod kierownictwem naukowców z Laboratorium Higashinaka w Szkole Górnych Studiów Informatycznych, zaadaptował angielski model Moshi, stworzony przez Kyutai. Proces adaptacji trwał około czterech miesięcy i wymagał przeszkolenia systemu na licznych zbiorach danych mowy japońskiej. Największy zbiór danych, J-CHAT, pochodzi z Uniwersytetu Tokijskiego i obejmuje około 67 000 godzin audio z podcastów i YouTube. Ponadto, wykorzystano mniejsze, lecz wysokiej jakości zestawy danych dialogowych, w tym również te zbierane w laboratorium, a także pochodzące sprzed 20-30 lat.

W celu zwiększenia danych treningowych badacze przekształcili pisemne czaty na sztuczną mowę, wykorzystując do tego celu opracowane przez siebie programy text-to-speech. W styczniu 2024 roku, J-Moshi zdobył szerokie zainteresowanie, gdy filmy demonstracyjne zyskały popularność w mediach społecznościowych. Oprócz technicznej nowości, J-Moshi ma potencjalne praktyczne zastosowania w nauce języka, pomagając obcokrajowcom ćwiczyć i rozumieć naturalne wzorce konwersacji japońskiej.

Zespół badawczy analizuje również komercyjne zastosowania w centrach obsługi klienta, w sektorze opieki zdrowotnej oraz w obsłudze klienta. Jednak adaptacja systemu do wyspecjalizowanych dziedzin lub branż jest wyzwaniem ze względu na ograniczoną dostępność danych mowy japońskiej w porównaniu z zasobami dostępnymi dla języka angielskiego. Profesor Ryuichiro Higashinaka, lider zespołu badawczego, wnosi do badań unikatową perspektywę, spędziwszy 19 lat jako badacz korporacyjny w NTT Corporation, zanim dołączył do Uniwersytetu Nagoja pięć lat temu. W czasie swojej pracy w przemyśle zajmował się systemami dialogowymi dla konsumentów i agentami głosowymi. W 2020 roku założył własne laboratorium w Szkole Górnych Studiów Informatycznych Uniwersytetu Nagoja, aby kontynuować badania nad wzorcami komunikacji międzyludzkiej.

Jego 20-osobowe laboratorium mierzy się obecnie z wyzwaniami, które łączą badania teoretyczne z praktycznymi zastosowaniami, od zrozumienia czasu konwersacji w języku japońskim po wdrażanie przewodników AI w miejscach publicznych, takich jak akwaria. „Technologia taka jak J-Moshi może być zastosowana w systemach, które współpracują z ludzkimi operatorami. Na przykład nasze roboty-przewodnicy w akwarium NIFREL w Osace mogą samodzielnie obsługiwać rutynowe interakcje i łatwo łączyć odwiedzających z ludzkimi operatorami w przypadku złożonych pytań lub gdy potrzebna jest specjalistyczna pomoc” – powiedział profesor Higashinaka. „Nasza praca wpisuje się w narodowy projekt Moonshot, mający na celu poprawę jakości usług poprzez zaawansowane systemy współpracy AI-człowiek”.

Profesor Higashinaka wyjaśnił unikalne wyzwania stojące przed japońskimi badaniami AI: „Japonia cierpi na niedobór zasobów mowy, co ogranicza zdolność badaczy do treningu systemów dialogowych AI. Należy również wziąć pod uwagę kwestie prywatności”. Brak danych wymusił kreatywne rozwiązania, takie jak użycie programów komputerowych do rozdzielania zmieszanych głosów w nagraniach podcastów na indywidualne ścieżki mówców, potrzebne do treningu.

Mimo sukcesów w „aizuchi”, obecne systemy dialogowe nadal napotykają trudności w złożonych sytuacjach społecznych, zwłaszcza gdy trzeba uwzględnić relacje międzyludzkie i środowisko fizyczne. Wizualne przeszkody, takie jak maski czy czapki, mogą również pogorszyć ich wydajność, ponieważ ważne wskazówki wizualne, takie jak mimika twarzy, są zakryte. Testy w akwarium NIFREL w Osace wykazały, że czasami AI nie radzi sobie z pytaniami użytkowników i wymaga interwencji ludzkich operatorów.

Chociaż J-Moshi stanowi znaczące osiągnięcie w uchwyceniu naturalnych japońskich wzorców konwersacyjnych z nakładającą się mową i wtrąceniami aizuchi, te ograniczenia oznaczają, że obecnie wymaga on ludzkiego wsparcia w większości praktycznych zastosowań. Badacze pracują nad ulepszeniem tych systemów wsparcia, aby złagodzić te wyzwania. Obejmuje to metody podsumowywania dialogów i systemy wykrywania problemów w dialogu, które ostrzegają operatorów o potencjalnych trudnościach, aby mogli szybko reagować.

Szersze badania laboratorium wykraczają poza J-Moshi i obejmują liczne metody interakcji człowiek-robot. We współpracy z kolegami pracującymi nad realistycznymi robotami humanoidalnymi, rozwijają systemy robotyczne, które koordynują mowę, gesty i ruch dla naturalnej komunikacji. Roboty te, w tym te wyprodukowane przez Unitree Robotics, reprezentują najnowsze osiągnięcia AI w fizycznej formie, gdzie systemy dialogowe muszą nawigować nie tylko w niuansach konwersacyjnych, ale także w fizycznej obecności i świadomości przestrzennej.

Zespół regularnie prezentuje swoje prace podczas dni otwartych uniwersytetów, gdzie społeczeństwo może na własne oczy doświadczyć, jak ewoluują systemy dialogowe AI. Ich artykuł na temat J-Moshi został przyjęty do publikacji na Interspeech, największej międzynarodowej konferencji poświęconej technologii mowy. Profesor Higashinaka i jego zespół zaprezentują swoje badania dotyczące J-Moshi w Rotterdamie w sierpniu 2025 roku.

„W najbliższej przyszłości będziemy świadkami pojawienia się systemów zdolnych do płynnej współpracy z ludźmi poprzez naturalną mowę i gesty. Aspiruję do stworzenia podstawowych technologii, które będą niezbędne dla tak transformującego społeczeństwa” – podsumowuje profesor Higashinaka.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *