mmBERT: Nowy, wielojęzyczny model językowy, który wyznacza standardy wydajności i dostępności
W świecie sztucznej inteligencji, gdzie postęp mierzy się w miesiącach, a nie w latach, dominacja modelu XLM-RoBERTa (XLM-R) przez ponad pięć lat była ewenementem. Mimo to, naukowcy z Uniwersytetu Johnsa Hopkinsa postanowili rzucić wyzwanie status quo, tworząc mmBERT – model, który ma zdetronizować swojego poprzednika i ustanowić nowe standardy w dziedzinie wielojęzycznego NLP.
Architektura mmBERT: szybkość i efektywność
mmBERT występuje w dwóch wariantach: Base (307 milionów parametrów) i Small (140 milionów parametrów). Wykorzystuje tokenizer Gemma 2 z 256-tysięcznym słownikiem, obrotowe osadzanie pozycyjne (RoPE) oraz FlashAttention2, co znacząco zwiększa jego wydajność. Co więcej, długość sekwencji została wydłużona z 1024 do 8192 tokenów, co pozwala mmBERT przetwarzać konteksty niemal dziesięciokrotnie dłuższe niż XLM-R, przy jednoczesnym zachowaniu wyższej szybkości działania.
Proces uczenia: od 60 do 1833 języków
Model mmBERT trenowano na imponującej ilości danych – 3 bilionach tokenów w 1833 językach. Dane pochodziły z różnorodnych źródeł, takich jak FineWeb2, Dolma, MegaWika v2, ProLong i StarCoder. Co ciekawe, język angielski stanowił jedynie 10–34% korpusu, w zależności od fazy treningu. Sam proces podzielono na trzy etapy – wstępny, środkowy i zanikania – stopniowo zwiększając liczbę języków i koncentrując się na adaptacji do języków o niskich zasobach.
Innowacyjne strategie treningowe
Sukces mmBERT to również zasługa nowatorskich strategii treningowych. Annealed Language Learning (ALL) to technika stopniowego wprowadzania języków, która pozwala na efektywne uczenie się zarówno języków popularnych, jak i tych mniej rozpowszechnionych. Inverse Masking Schedule dynamicznie dostosowuje maskowanie danych, umożliwiając modelowi najpierw przyswojenie ogólnych wzorców, a następnie precyzyjne dostrojenie. Model Merging Across Decay Variants łączy różne modele wytrenowane w fazie zanikania, co pozwala na wykorzystanie ich komplementarnych mocnych stron bez konieczności uczenia od zera.
Wyniki benchmarków: mmBERT deklasuje konkurencję
Wyniki mmBERT w testach porównawczych mówią same za siebie. W zadaniach English NLU (GLUE) model osiągnął wynik 86.3, przewyższając XLM-R (83.3) i niemal dorównując ModernBERT (87.4). W teście Multilingual NLU (XTREME) mmBERT uzyskał 72.8, w porównaniu do 70.4 dla XLM-R. Co istotne, model radzi sobie doskonale również z językami o niskich zasobach, osiągając wyniki znacznie lepsze niż o3 i Gemini 2.5 Pro.
Wydajność: szybkość, która robi różnicę
mmBERT jest od 2 do 4 razy szybszy niż XLM-R i MiniLM, a jednocześnie obsługuje sekwencje do 8192 tokenów. To oznacza, że może przetwarzać znacznie większe ilości danych w krótszym czasie, co jest kluczowe w wielu zastosowaniach NLP.
Podsumowanie: nowa era w wielojęzycznym NLP
mmBERT to nie tylko kolejny model językowy. To przełom, który może zrewolucjonizować sposób, w jaki rozumiemy i przetwarzamy języki. Dzięki innowacyjnym strategiom treningowym, imponującej wydajności i doskonałym wynikom w benchmarkach, mmBERT ma szansę stać się nowym standardem w dziedzinie wielojęzycznego NLP.
