Data ScienceHardwareR & D

TabArena: Nowy standard w benchmarkingu uczenia maszynowego na danych tabelarycznych

Uczenie maszynowe na danych tabelarycznych, czyli ustrukturyzowanych zbiorach danych przypominających arkusze kalkulacyjne, odgrywa kluczową rolę w wielu sektorach — od finansów po medycynę. W miarę pojawiania się coraz to nowszych modeli, w tym zaawansowanych sieci neuronowych i modeli fundacyjnych, rośnie potrzeba wiarygodnych i aktualnych metod ich oceny. Dotychczasowe narzędzia benchmarkowe często zawodzą, posługując się przestarzałymi zbiorami danych, obarczonymi błędami licencjonowania, a nierzadko też zawierającymi „wycieki danych” (data leaks) czy syntetyczne zadania, które zniekształcają rzeczywistą wydajność modeli.

Istniejące platformy testowe zmagały się również z brakiem reprodukowalności wyników, wynikającym z minimalnego nadzoru ludzkiego nad procesem automatycznego doboru danych i braku wszechstronnego strojenia hiperparametrów. Te niedociągnięcia prowadziły do niekonsekwencji w ocenie, uniemożliwiając obiektywne porównanie algorytmów w warunkach zbliżonych do rzeczywistych zastosowań.

TabArena: Życiowy system benchmarkowy

Odpowiedzią na te wyzwania jest nowa platforma TabArena, opracowana przez interdyscyplinarne grono badaczy z Amazon Web Services, University of Freiburg, INRIA Paris, Ecole Normale Supérieure, PSL Research University, PriorLabs oraz ELLIS Institute Tübingen. TabArena nie jest kolejnym statycznym zbiorem testów; to dynamiczny, stale utrzymywany system, który ma ewoluować tak samo, jak oprogramowanie. Dzięki temu ma nadążać za tempem innowacji w dziedzinie ML.

Platforma została uruchomiona z 51 starannie wyselekcjonowanymi zbiorami danych i 16 precyzyjnie zaimplementowanymi modelami uczenia maszynowego. Jej konstrukcja opiera się na trzech filarach: solidnej implementacji modeli, szczegółowej optymalizacji hiperparametrów oraz rygorystycznej ewaluacji.

Filary konstrukcji i metodologia testów

Wszystkie modele w TabArenie są zbudowane w oparciu o framework AutoGluon, co gwarantuje spójne podejście do przetwarzania danych, walidacji krzyżowej, śledzenia metryk i agregacji wyników (ensembling). Kluczowym elementem jest strojenie hiperparametrów – dla większości modeli testowano do 200 różnych konfiguracji. Wyjątkiem są modele TabICL i TabDPT, które oceniano wyłącznie pod kątem uczenia kontekstowego.

Ocena odbywa się z wykorzystaniem 8-krotnej walidacji krzyżowej oraz technik agregacji, polegających na łączeniu wyników z różnych przebiegów tego samego modelu. Modele fundacyjne, ze względu na swoją złożoność, trenowane są na połączonych zbiorach danych treningowych i walidacyjnych, zgodnie z rekomendacjami ich twórców. Każda konfiguracja benchmarkowa jest oceniana w określonym przedziale czasowym – maksymalnie jednej godziny na standardowych zasobach obliczeniowych, co ma symulować realne scenariusze użytkowania.

Wyniki z milionów ewaluacji

TabArena dostarczyła już imponującej liczby danych – około 25 milionów ewaluacji modeli. Analiza tych danych ujawnia, że strategie ensemblingu znacząco poprawiają wydajność we wszystkich typach modeli. Co ciekawe, tradycyjne drzewa decyzyjne z gradient boostingiem nadal prezentują wysoką formę, jednak odpowiednio zestrojone modele uczenia głębokiego są w stanie im dorównać, a nawet je przewyższyć. Przykładem jest AutoGluon 1.3, który osiągnął wybitne wyniki w ramach 4-godzinnego budżetu czasowego.

Modele fundacyjne, takie jak TabPFNv2 i TabICL, wykazały się wysoką skutecznością na mniejszych zbiorach danych, głównie dzięki ich zdolnościom do uczenia kontekstowego, nawet bez intensywnego tuningu. Agregacja modeli różnego typu często prowadzi do wyników bliskich stanowi sztuki, choć nie wszystkie pojedyncze modele wnoszą równy wkład w ostateczną precyzję. Te obserwacje podkreślają znaczenie zarówno różnorodności modeli, jak i efektywności metod ensemblingu.

Znaczenie dla społeczności ML

Wprowadzenie TabAreny to istotny krok naprzód w dziedzinie uczenia maszynowego na danych tabelarycznych. Platforma ta wypełnia ziejącą lukę w zakresie wiarygodnych, aktualnych i reprodukowalnych benchmarków. Dzięki precyzyjnemu doborowi danych, praktycznym strategiom walidacji i ciągłemu utrzymaniu, TabArena ma potencjał stać się nieodzownym narzędziem dla każdego, kto zajmuje się rozwojem lub oceną modeli na danych tabelarycznych. To znaczący wkład w dążeniu do bardziej obiektywnej i transparentnej oceny algorytmów sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *