LLMNarzędziaRAG

IBM wprowadza modele Granite Embedding R2: Kompaktowa AI dla wymagających zadań

IBM, znany ze swojego wkładu w rozwój sztucznej inteligencji, wprowadza na rynek drugą generację modeli embeddingowych Granite. Modele granite-embedding-english-r2 i granite-embedding-small-english-r2, bo o nich mowa, zostały zaprojektowane z myślą o optymalizacji systemów wyszukiwania i RAG (Retrieval-Augmented Generation). Co istotne, udostępniono je na licencji Apache 2.0, co otwiera drogę do komercyjnych zastosowań.

Modele różnią się rozmiarem i przeznaczeniem. Większy, granite-embedding-english-r2, posiada 149 milionów parametrów i wykorzystuje 22-warstwowy enkoder ModernBERT. Mniejszy, granite-embedding-small-english-r2, to zaledwie 47 milionów parametrów i 12-warstwowy enkoder ModernBERT. Oba obsługują kontekst o długości do 8192 tokenów, co stanowi znaczący postęp w porównaniu z pierwszą generacją Granite. To sprawia, że idealnie nadają się do zastosowań korporacyjnych, gdzie operuje się na długich dokumentach i złożonych zadaniach wyszukiwania.

Architektura ModernBERT, na której bazują modele, zawiera kilka kluczowych optymalizacji:

  • Naprzemienne stosowanie uwagi globalnej i lokalnej dla zrównoważenia efektywności i uwzględniania odległych zależności.
  • Rotacyjne embeddingi pozycyjne (RoPE) dostosowane do interpolacji pozycyjnej, umożliwiające obsługę dłuższych okien kontekstowych.
  • FlashAttention 2, poprawiający wykorzystanie pamięci i przepustowość podczas wnioskowania.

IBM zastosowało także wieloetapowy proces uczenia. Rozpoczęto od wstępnego uczenia maskowanego języka na zbiorze dwóch bilionów tokenów pochodzących z różnych źródeł, takich jak internet, Wikipedia, PubMed, BookCorpus i wewnętrzne dokumenty techniczne IBM. Następnie rozszerzono kontekst z 1k do 8k tokenów, zastosowano uczenie kontrastowe z destylacją z Mistral-7B i dostrojono modele do konkretnych domen, takich jak konwersacje, dane tabelaryczne i wyszukiwanie kodu.

Wyniki testów porównawczych MTEB-v2 i BEIR pokazują, że większy model granite-embedding-english-r2 przewyższa modele o podobnej wielkości, takie jak BGE Base, E5 i Arctic Embed. Mniejszy granite-embedding-small-english-r2 osiąga dokładność zbliżoną do modeli dwa do trzech razy większych, co czyni go atrakcyjnym dla zastosowań wrażliwych na opóźnienia. Oba modele dobrze radzą sobie w specjalistycznych domenach, takich jak wyszukiwanie długich dokumentów, danych tabelarycznych i kodu.

Efektywność to kolejna mocna strona modeli Granite R2. Na karcie graficznej Nvidia H100, granite-embedding-small-english-r2 koduje blisko 200 dokumentów na sekundę, co jest znacznie lepszym wynikiem niż BGE Small i E5 Small. Większy granite-embedding-english-r2 osiąga 144 dokumenty na sekundę, przewyższając wiele alternatyw opartych na ModernBERT. Co istotne, modele te pozostają praktyczne nawet na procesorach CPU, umożliwiając firmom ich uruchamianie w środowiskach o mniejszym zapotrzebowaniu na zasoby GPU.

Modele IBM Granite Embedding R2 udowadniają, że efektywne systemy embeddingowe nie muszą opierać się na ogromnej liczbie parametrów. Łączą one obsługę długiego kontekstu, wysoką dokładność i przepustowość w kompaktowych architekturach. IBM zdaje się celować w firmy budujące potoki wyszukiwania, systemy zarządzania wiedzą lub przepływy pracy RAG. Granite R2 jawi się tutaj jako gotowa do wdrożenia i komercyjnie opłacalna alternatywa dla istniejących rozwiązań open-source.

Czy nowe modele od IBM zrewolucjonizują rynek AI? Czas pokaże, ale już teraz widać, że otwierają one nowe możliwości dla firm poszukujących efektywnych i wydajnych rozwiązań w zakresie przetwarzania języka naturalnego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *