LLMR & D

EraRAG: Nowa generacja systemów RAG dla dynamicznych zbiorów danych

Duże modele językowe (LLM) zrewolucjonizowały wiele obszarów przetwarzania języka naturalnego, jednak ich zdolność do operowania na bieżących faktach, specjalistycznej wiedzy domenowej czy złożonym wieloetapowym rozumowaniu wciąż napotyka na bariery. Rozwiązania Retrieval-Augmented Generation (RAG) mają na celu wypełnienie tych luk poprzez umożliwienie modelom językowym pobierania i integrowania informacji ze źródeł zewnętrznych.

Istniejące systemy RAG, zwłaszcza te oparte na grafach, są jednak zazwyczaj optymalizowane pod kątem statycznych korpusów danych. W środowiskach, gdzie dane są stale aktualizowane i rozbudowywane – jak na żywo aktualizowane kanały informacyjne, repozytoria naukowe czy treści generowane przez użytkowników – ich wydajność, dokładność i skalowalność znacząco spadają.

EraRAG: Efektywność w obliczu ciągłej ewolucji danych

W odpowiedzi na te wyzwania, interdyscyplinarny zespół badaczy z Huawei, Hong Kong University of Science and Technology oraz WeBank opracował EraRAG. Jest to nowatorski framework RAG, stworzony z myślą o dynamicznych i stale rozwijających się korpusach. Kluczową innowacją EraRAG jest odstąpienie od konieczności przebudowy całej struktury retencjonalnej za każdym razem, gdy pojawiają się nowe dane. Zamiast tego, system opiera się na zlokalizowanych, selektywnych aktualizacjach, które dotykają wyłącznie tych części grafu, które są bezpośrednio związane ze zmianami.

Architektura i zasady działania

EraRAG integruje kilka kluczowych mechanizmów, które wspierają jego unikalne możliwości:

  • Lokalnie wrażliwe haszowanie oparte na hiperpłaszczyznach (LSH): Każdy fragment korpusu jest dzielony na mniejsze pasajże tekstowe, które są następnie osadzane jako wektory. EraRAG wykorzystuje losowo próbkowane hiperpłaszczyzny do rzutowania tych wektorów na binarne kody haszujące. Proces ten efektywnie grupuje semantycznie podobne fragmenty do tych samych „kubełków”, zachowując spójność semantyczną i efektywne grupowanie.
  • Hierarchiczna, wielowarstwowa konstrukcja grafu: Podstawą struktury retencyjnej w EraRAG jest wielowarstwowy graf. Na każdej warstwie segmenty (lub kubełki) podobnego tekstu są podsumowywane za pomocą modelu językowego. Segmenty zbyt duże są dzielone, a zbyt małe łączone, co zapewnia zarówno spójność semantyczną, jak i zrównoważoną granularność. Podsumowane reprezentacje na wyższych warstwach umożliwiają efektywne pobieranie danych zarówno dla zapytań szczegółowych, jak i abstrakcyjnych.
  • Inkrementalne, zlokalizowane aktualizacje: Gdy pojawiają się nowe dane, ich osadzenie jest haszowane przy użyciu tych samych hiperpłaszczyzn co podczas początkowej konstrukcji grafu. Aktualizacje dotyczą tylko tych kubełków/segmentów, które są bezpośrednio dotknięte nowymi wpisami. Mogą być one aktualizowane, łączone, dzielone lub ponownie podsumowywane, podczas gdy reszta grafu pozostaje nienaruszona. Propagacja aktualizacji w górę hierarchii grafu zawsze pozostaje zlokalizowana do zmienionego regionu, co znacząco redukuje koszty obliczeniowe i tokenowe.
  • Odwzorowywalność i determinizm: W przeciwieństwie do standardowego grupowania LSH, EraRAG zachowuje zestaw hiperpłaszczyzn użytych podczas początkowego haszowania. Dzięki temu przypisywanie kubełków jest deterministyczne i odwzorowywalne, co ma kluczowe znaczenie dla spójnych i efektywnych aktualizacji w czasie.

Wyniki i praktyczne znaczenie

Kompleksowe eksperymenty, przeprowadzone na różnorodnych benchmarkach odpowiadania na pytania, zademonstrowały znaczące korzyści EraRAG:

  • Redukcja kosztów aktualizacji: System osiąga do 95% redukcji czasu rekonstrukcji grafu i zużycia tokenów w porównaniu z wiodącymi metodami RAG opartymi na grafach (np. GraphRAG, RAPTOR, HippoRAG).
  • Zachowanie wysokiej dokładności: EraRAG konsekwentnie przewyższa inne architektury retencyjne pod względem dokładności i kompletności wyników – zarówno w zadaniach odpowiadania na pytania statyczne, rosnące, jak i abstrakcyjne – z minimalnym kompromisem w jakości pobierania danych czy zdolności do wieloetapowego rozumowania.
  • Wszechstronne wsparcie zapytań: Wielowarstwowa konstrukcja grafu pozwala EraRAG efektywnie pobierać szczegółowe dane faktograficzne lub wysokopoziomowe semantyczne podsumowania, dostosowując wzorzec pobierania do charakteru każdego zapytania.

EraRAG stanowi skalowalny i niezawodny framework retencyjny, idealny do zastosowań w rzeczywistych scenariuszach, gdzie dane są ciągle dodawane – takich jak serwisy informacyjne na żywo, archiwa naukowe czy platformy zarządzane przez użytkowników. Balansuje on między efektywnością pobierania a adaptowalnością, czyniąc aplikacje wspierane przez LLM bardziej precyzyjnymi, responsywnymi i godnymi zaufania w szybko zmieniających się środowiskach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *