Technologia

LEANN: mała baza wektorowa zmienia zasady gry w personalnej AI

Współczesne systemy wyszukiwania informacji coraz częściej opierają się na embeddingach, czyli gęstych reprezentacjach wektorowych, które pozwalają na uchwycenie semantycznego podobieństwa między danymi. Ta metoda, wspierana przez algorytmy wyszukiwania najbliższego sąsiada (ANN), znacznie przewyższa tradycyjne wyszukiwanie po słowach kluczowych. Problem jednak w tym, że struktury danych ANN generują znaczne obciążenie pamięci, często zwiększając rozmiar oryginalnych danych od 1,5 do 7 razy. W skali dużych aplikacji webowych, gdzie zasoby są niemal nieograniczone, jest to akceptowalne. Jednak w kontekście urządzeń osobistych lub dużych zbiorów danych staje się to barierą nie do przejścia. Zmniejszenie obciążenia pamięci do mniej niż 5% oryginalnych danych jest kluczowe dla wdrożeń na urządzeniach brzegowych.

Obecne rozwiązania, mające na celu redukcję wymogów pamięciowych, często wiążą się z kompromisami. Metody takie jak kwantyzacja produktów (PQ) mogą zmniejszyć zużycie pamięci, ale kosztem dokładności lub zwiększonego opóźnienia wyszukiwania. Inne podejścia, oparte na wykresach, takie jak HNSW, NSG czy Vamana, uchodzą za stan sztuki ze względu na równowagę między dokładnością a wydajnością. Próby redukcji rozmiaru grafu, na przykład poprzez uczenie się wyboru sąsiadów, napotykają na ograniczenia związane z wysokimi kosztami treningu i zależnością od danych etykietowanych.

W środowiskach o ograniczonych zasobach, rozwiązania takie jak DiskANN czy Starling przechowują dane na dysku, podczas gdy FusionANNS optymalizuje wykorzystanie sprzętu. Metody AiSAQ i EdgeRAG próbują zminimalizować użycie pamięci, ale wciąż borykają się z problemem dużego obciążenia pamięci lub spadku wydajności w większych skalach. Techniki kompresji embeddingów, takie jak PQ i RabitQ, oferują kwantyzację z teoretycznymi granicami błędu, ale mają trudności z utrzymaniem dokładności przy bardzo ograniczonych zasobach.

Przełom w obszarze AI dla urządzeń osobistych

Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley, Chińskiego Uniwersytetu w Hongkongu, Amazon Web Services i Uniwersytetu Kalifornijskiego w Davis opracowali LEANN (Lightweight Efficient Approximate Nearest Neighbor), indeks wyszukiwania ANN zoptymalizowany pod kątem urządzeń osobistych o ograniczonych zasobach. LEANN integruje kompaktową strukturę opartą na wykresach z dynamiczną strategią ponownego obliczania, co umożliwia szybkie i dokładne wyszukiwanie przy minimalnym obciążeniu pamięci. Rozwiązanie to jest do 50 razy mniejsze niż standardowe indeksy, redukując rozmiar indeksu do mniej niż 5% oryginalnych surowych danych.

LEANN, pomimo swojej kompaktowości, zachowuje 90% dokładności (top-3 recall) w czasie krótszym niż 2 sekundy w rzeczywistych testach benchmarkowych dotyczących odpowiedzi na pytania. Jej architektura opiera się na strukturze HNSW, ale wprowadza istotną innowację: obserwuje, że każde zapytanie potrzebuje embeddingów tylko dla ograniczonego podzbioru węzłów, preferując obliczanie ich na żądanie, zamiast wstępnego przechowywania wszystkich. Aby sprostać wcześniejszym wyzwaniom, LEANN wprowadza dwie kluczowe techniki: dwupoziomowe przejście po grafie z dynamicznym batchem, aby obniżyć opóźnienie ponownego obliczania, oraz metodę przycinania grafu o wysokim stopniu zachowania, aby zmniejszyć przechowywanie metadanych.

W praktyce LEANN najpierw oblicza embeddingi dla wszystkich elementów zbioru danych, a następnie konstruuje indeks wektorowy przy użyciu gotowego podejścia indeksowania opartego na grafach. W testach wydajnościowych LEANN przewyższa EdgeRAG, inną metodę ponownego obliczania opartą na IVF, osiągając redukcję opóźnienia od 21,17 do 200,60 razy na różnych zbiorach danych i platformach sprzętowych. Ta przewaga wynika z polilogarytmicznej złożoności obliczeniowej LEANN, która skaluje się znacznie efektywniej niż wzrost √N w EdgeRAG.

Wydajność i potencjalne wyzwania

W kontekście zadań RAG (Retrieval Augmented Generation) LEANN osiąga wyższą wydajność w większości zbiorów danych, z wyjątkiem GPQA, gdzie niedopasowanie dystrybucyjne ogranicza jego skuteczność. Podobnie w HotpotQA, konfiguracja wyszukiwania jednoobiektowego ogranicza zyski dokładności, ponieważ zbiór danych wymaga rozumowania wieloobiektowego. Mimo tych drobnych ograniczeń LEANN wykazuje silną wydajność w różnorodnych benchmarkach.

Według twórców, LEANN to przełomowy system wyszukiwania neuronowego, który łączy ponowne obliczanie oparte na grafach z innowacyjnymi optymalizacjami. Integracja dwupoziomowego algorytmu wyszukiwania i dynamicznego batchingu eliminuje potrzebę przechowywania pełnych embeddingów, co znacząco zmniejsza obciążenie pamięci przy jednoczesnym zachowaniu wysokiej dokładności.

Pomimo swoich zalet, LEANN stoi także przed wyzwaniami. Jednym z nich jest wysokie szczytowe zużycie pamięci podczas budowy indeksu, co może zostać rozwiązane poprzez wstępne klastrowanie lub inne techniki. Przyszłe prace badawcze mają koncentrować się na dalszym zmniejszaniu opóźnień i zwiększaniu responsywności, otwierając drogę do szerszej adaptacji w środowiskach o ograniczonych zasobach. Rozwój tak kompaktowych i efektywnych baz wektorowych to znaczący krok w demokratyzacji AI, umożliwiający jej działanie bezpośrednio na urządzeniach użytkowników, bez konieczności ciągłego odwoływania się do chmury.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *