Narzędzia

TableRAG: Hybrydowe podejście do przetwarzania danych w dokumentach wieloformatowych

Współczesne systemy sztucznej inteligencji stoją przed wyzwaniem przetwarzania dokumentów, które łączą różnorodne formaty danych. Coraz częściej spotyka się teksty przeplatane tabelami liczbowymi – typowe dla raportów biznesowych, publikacji naukowych czy dokumentów publicznych. Rozumienie takich treści wymaga od AI nie tylko interpretacji języka naturalnego, ale także sprawnego operowania na danych tabelarycznych. To złożone zadanie znacznie wykracza poza możliwości tradycyjnych modeli językowych, które dominują w obszarze odpowiadania na pytania tekstowe.

Obecne modele językowe często zawodzą w interpretacji dokumentów zawierających tabele. Problem wynika z utraty strukturalnych zależności między wierszami i kolumnami, gdy tabela zostaje spłaszczona do jednolitego tekstu. Powoduje to zniekształcenie danych, co obniża dokładność odpowiedzi, zwłaszcza w przypadku zadań wymagających obliczeń, agregacji czy wnioskowania łączącego wiele faktów z całego dokumentu. Te ograniczenia znacząco utrudniają wykorzystanie standardowych systemów do praktycznych zadań związanych z wieloetapowym odpowiadaniem na pytania, które wymagają wglądu zarówno w tekst, jak i tabele.

Krytyka dotychczasowych metod

W przeszłości próbowano rozwiązać te problemy, stosując techniki RAG (Retrieval-Augmented Generation), które polegają na pobieraniu segmentów tekstu i przekazywaniu ich do modelu językowego w celu generowania odpowiedzi. Jednakże techniki te okazały się niewystarczające dla zadań wymagających złożonego lub globalnego wnioskowania w oparciu o duże zestawy danych tabelarycznych. Narzędzia takie jak NaiveRAG czy TableGPT2 próbowały symulować proces, konwertując tabele do formatu Markdown lub generując kod Pythona. Mimo to, metody te nadal borykały się z wyzwaniami w zadaniach, gdzie zachowanie oryginalnej struktury tabeli było kluczowe dla prawidłowej interpretacji i precyzji odpowiedzi.

TableRAG – nowa perspektywa Huawei Cloud BU

Naukowcy z Huawei Cloud BU zaproponowali innowacyjną metodę nazwaną TableRAG, która ma na celu bezpośrednie rozwiązanie wspomnianych ograniczeń. TableRAG to system hybrydowy, który naprzemiennie wykorzystuje wyszukiwanie danych tekstowych oraz strukturalne wykonanie zapytań SQL. Takie podejście zachowuje układ tabelaryczny i traktuje zapytania oparte na tabelach jako jednolitą jednostkę logicznego wnioskowania. Ten nowy system nie tylko utrzymuje strukturę tabeli, ale także wykonuje zapytania w sposób respektujący relacyjny charakter danych, uporządkowanych w wierszach i kolumnach. Badacze stworzyli również zestaw danych HeteQA, aby móc porównać wydajność ich metody z istniejącymi rozwiązaniami, oceniając ją w różnych dziedzinach i w zakresie zadań wymagających wieloetapowego wnioskowania.

Jak działa TableRAG?

TableRAG działa w dwóch głównych etapach. W fazie offline, heterogeniczne dokumenty są dzielone na ustrukturyzowane bazy danych poprzez odrębne ekstrakcje tabel i treści tekstowych. Są one przechowywane w równoległych korpusach – baza danych relacyjnych dla tabel oraz segmentowana baza wiedzy dla tekstu. Faza online obsługuje pytania użytkowników poprzez iteracyjny, czterostopniowy proces: dekompozycję zapytania, wyszukiwanie tekstu, programowanie i wykonywanie SQL oraz generowanie odpowiedzi pośrednich. Po otrzymaniu pytania, system identyfikuje, czy wymaga ono wnioskowania tabelarycznego czy tekstowego, dynamicznie wybiera odpowiednią strategię i łączy wyniki. SQL jest używany do precyzyjnego wykonania symbolicznego, co pozwala na lepszą wydajność w obliczeniach numerycznych i logicznych.

Wyniki i perspektywy

Podczas eksperymentów TableRAG został przetestowany w kilku benchmarkach, w tym HybridQA, WikiTableQuestions oraz nowo opracowanym HeteQA. HeteQA zawiera 304 złożone pytania z dziewięciu różnych dziedzin i obejmuje 136 unikalnych tabel, a także ponad 5300 encji pochodzących z Wikipedii. Zestaw danych stawia przed modelami wyzwania takie jak filtrowanie, agregacja, grupowanie, obliczenia i sortowanie. TableRAG przewyższył wszystkie metody bazowe, w tym NaiveRAG, React i TableGPT2. Osiągnął stale wyższą dokładność, z wnioskowaniem na poziomie dokumentu wspieranym przez do 5 iteracyjnych kroków, i wykorzystywał modele takie jak Claude-3.5-Sonnet i Qwen-2.5-72B do weryfikacji wyników.

Przedstawione badania stanowią solidne i uporządkowane rozwiązanie problemu wnioskowania na podstawie dokumentów o mieszanym formacie. Poprzez zachowanie integralności strukturalnej i zastosowanie SQL do operacji na danych strukturalnych, naukowcy zaprezentowali efektywną alternatywę dla istniejących systemów opartych na wyszukiwaniu. TableRAG to znaczący krok naprzód w systemach odpowiadania na pytania, które obsługują dokumenty zawierające zarówno tabele, jak i tekst, oferując realną metodę dla dokładniejszego, skalowalnego i bardziej interpretowalnego rozumienia dokumentów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *