OceanBase wprowadza SeekDB: poliglota danych w erze RAG i agentów AI
Współczesne aplikacje wykorzystujące sztuczną inteligencję rzadko operują na uporządkowanych strukturach. Rzeczywistość inżynierów AI to dziś najczęściej skomplikowana mozaika profili użytkowników, logów czatu, metadanych w formacie JSON i osadzeń (embeddings), a nierzadko również danych przestrzennych. Do niedawna standardowym rozwiązaniem tego problemu było budowanie „potworów Frankensteina” – systemów składających się z tradycyjnej bazy OLTP, oddzielnego magazynu wektorowego oraz wyszukiwarki pełnotekstowej. OceanBase postanowiło przełamać ten paradygmat, wprowadzając SeekDB – otwartoźródłową, natywną dla AI bazę danych, która integruje te wszystkie światy w jednym silniku.
Koniec z architektonicznym rozproszeniem
SeekDB nie jest kolejnym masywnym systemem dla korporacyjnych gigantów, lecz lekką, osadzoną (embedded) wersją silnika OceanBase, udostępnioną na licencji Apache 2.0. Zamiast zarządzać wieloma niezależnymi instancjami, deweloperzy otrzymują jedno narzędzie obsługujące dane relacyjne, wektory, tekst, format JSON oraz systemy informacji geograficznej (GIS). Co istotne dla środowiska programistycznego, system zachowuje pełną kompatybilność ze składnią SQL i sterownikami MySQL, co drastycznie obniża próg wejścia dla zespołów przyzwyczajonych do tradycyjnych baz danych.
Hybrydowe wyszukiwanie jako fundament RAG
Kluczową innowacją SeekDB jest mechanizm hybrydowego wyszukiwania. W architekturach typu RAG (Retrieval-Augmented Generation), czyli systemach generatywnych wspieranych o zewnętrzne źródła wiedzy, krytyczne jest jednoczesne przeszukiwanie semantyczne (za pomocą wektorów) oraz słownikowe (słowa kluczowe). SeekDB realizuje to zadanie w ramach jednego zapytania i jednego kroku rankingu wyników, wykorzystując dedykowany pakiet DBMS_HYBRID_SEARCH.
System pozwala na budowanie zapytań, które jednocześnie dopasowują semantykę tekstu, precyzyjnie filtrują kody produktów czy nazwy własne oraz uwzględniają relacyjne uprawnienia użytkownika. Proces ten wspierają zaawansowane strategie rerankingu, takie jak Reciprocal Rank Fusion, które pozwalają na inteligentne ważenie wyników pochodzących z różnych źródeł sygnału.
Silnik wektorowy bez kompromisów
Pod maską SeekDB kryje się nowoczesny stos technologiczny. W obszarze wektorów baza obsługuje zarówno formy gęste, jak i rzadkie, wspierając metryki odległości euklidesowej, cosinusowej czy iloczynu skalarnego. Użytkownicy mają do wyboru indeksy działające w pamięci operacyjnej (HNSW) oraz wydajne rozwiązania dyskowe (IVF PQ), co pozwala na elastyczne skalowanie w zależności od dostępnych zasobów sprzętowych.
To, co wyróżnia SeekDB na tle konkurencji, to automatyzacja potoków danych. Hybrydowy indeks wektorowy pozwala na przechowywanie surowego tekstu, podczas gdy baza danych samodzielnie wywołuje modele embeddingowe i aktualizuje indeksy. Eliminuje to potrzebę budowania zewnętrznych, podatnych na błędy systemów przetwarzania wstępnego (preprocessing pipelines).
AI bezpośrednio w warstwie danych
Ambicją twórców było przesunięcie logiki AI jak najbliżej samych danych. Dzięki wbudowanym funkcjom, takim jak AI_EMBED, AI_COMPLETE czy AI_RERANK, deweloperzy mogą generować osadzenia lub kompletować teksty bezpośrednio z poziomu SQL. Zamiast przesyłać ogromne zbiory danych do zewnętrznych usług i z powrotem, aplikacja może zarządzać modelem językowym bezpośrednio przez bazę, korzystając ze skonfigurowanych wcześniej dostawców zewnętrznych (np. OpenAI czy Anthropic) poprzez pakiet DBMS_AI_SERVICE.
Choć SeekDB koncentruje się na pojedynczym węźle i rozwiązaniach typu edge, dziedziczy po swoim „starszym bracie”, OceanBase, pełną transakcyjność ACID oraz wysoką wydajność zorientowaną na przetwarzanie kolumnowe. Dla branży AI to jasny sygnał: przyszłość infrastruktury nie leży w budowaniu coraz większej liczby dedykowanych narzędzi, ale w inteligentnej konsolidacji, która pozwoli agentom AI działać szybciej i na bardziej spójnych danych.
