AmbiGraph-Eval: Nowy test dla AI w rozwiązywaniu niejednoznaczności w zapytaniach grafowych
Sztuczna inteligencja, wkraczając w świat baz danych, napotyka na istotny problem: niejednoznaczność języka naturalnego. Przekształcanie potocznych sformułowań w precyzyjne zapytania, np. w językach SQL czy Cypher, wymaga od AI nie tylko rozumienia składni, ale i intencji użytkownika. Szczególnie złożone okazują się bazy grafowe, gdzie bogactwo relacji i struktur generuje liczne interpretacje jednego zapytania.
Wyobraźmy sobie zapytanie o „najlepiej ocenianą restaurację”. Czy chodzi o średnią ocen wszystkich recenzji, czy o pojedyncze, szczególnie pochlebne opinie? Brak precyzji w interpretacji prowadzi do błędnych wyników, marnowania zasobów i potencjalnych problemów w krytycznych zastosowaniach, takich jak systemy wspomagania decyzji w czasie rzeczywistym.
Duże modele językowe (LLM) obiecują poprawę w tym zakresie, wykorzystując wiedzę lingwistyczną i interaktywne wyjaśnienia. Jednak i one nie są wolne od wad. Badacze z Hong Kong Baptist University, National University of Singapore, BIFOLD & TU Berlin i Ant Group wskazują na problem „self-preference bias” – skłonność LLM do preferowania interpretacji zgodnych z danymi treningowymi, co nie zawsze przekłada się na intencje użytkownika.
AmbiGraph-Eval: Nowy benchmark dla AI
Odpowiedzią na te wyzwania jest AmbiGraph-Eval, nowy benchmark stworzony specjalnie do oceny zdolności modeli językowych do rozwiązywania niejednoznaczności w zapytaniach do baz danych grafowych. Badacze wyróżnili trzy typy niejednoznaczności: atrybutów, relacji oraz atrybutów i relacji. Zestaw testowy zawiera 560 niejednoznacznych zapytań i odpowiadające im próbki baz danych grafowych.
W ramach testów przeanalizowano dziewięć LLM, zarówno te o otwartym kodzie źródłowym (np. Qwen-2.5, LLaMA-3.1), jak i komercyjne (np. GPT-4, Claude-3.5-Sonnet). Analiza wykazała, że same zdolności rozumowania to za mało. Kluczowe jest głębokie zrozumienie specyfiki niejednoznaczności w kontekście grafów oraz mistrzostwo w składni języków zapytań, takich jak Cypher.
Wyniki i Wyzwania
Wyniki testów zero-shot ujawniły znaczne różnice w skuteczności poszczególnych modeli. GPT-4o wypadł dobrze w zadaniach związanych z rozumowaniem między encjami (cross-entity), podczas gdy LLaMA-3.1 okazał się lepszy w scenariuszach dotyczących tej samej encji (same-entity). Największym wyzwaniem okazały się zapytania z wielowymiarową niejednoznacznością, łączące atrybuty i relacje.
Główne przeszkody to rozpoznawanie niejednoznacznych intencji, generowanie poprawnej składni, interpretacja struktur grafowych i wykonywanie agregacji numerycznych. Badacze wskazują na detekcję niejednoznaczności i generowanie poprawnej składni jako dwa kluczowe obszary wymagające dalszych ulepszeń.
Przyszłość rozwiązywania niejednoznaczności
AmbiGraph-Eval to ważny krok w kierunku bardziej inteligentnych i intuicyjnych interakcji z bazami danych grafowych. Autorzy benchmarku sugerują, że przyszłe badania powinny skupić się na metodach poprawiających zdolność modeli do rozwiązywania niejednoznaczności i generowania poprawnej składni. Proponują m.in. wykorzystanie podpowiedzi uwzględniających składnię (syntax-aware prompting) oraz jawne sygnalizowanie niejednoznaczności (explicit ambiguity signaling).
Dostęp do artykułu technicznego, kodów i tutoriali można znaleźć na GitHubie projektu.
