MIT opracowuje narzędzie do testowania i ulepszania systemów klasyfikacji tekstu opartych na AI
Wraz z rosnącą popularnością chatbotów i automatycznych systemów obsługi klienta, dokładność algorytmów klasyfikujących tekst staje się kluczowa. Te algorytmy, zwane klasyfikatorami tekstu, decydują o tym, jak system AI interpretuje i reaguje na zapytania użytkowników. Zespół z Laboratorium Systemów Informacji i Decyzji (LIDS) MIT opracował nowe oprogramowanie, które pozwala ocenić i poprawić dokładność tych klasyfikatorów.
Wykorzystanie „przeciwniczych przykładów”
Nowe narzędzie wykorzystuje tzw. „przeciwnicze przykłady” – zdania, które są bardzo podobne do tych, które system już sklasyfikował, ale po subtelnej zmianie mogą zostać błędnie zinterpretowane. Na przykład, zdanie pierwotnie oznaczone jako pozytywna recenzja, po zmianie jednego słowa, może zostać uznane za negatywną.
„Firmy coraz częściej używają takich narzędzi w czasie rzeczywistym, monitorując odpowiedzi chatbotów, aby upewnić się, że nie podają one niewłaściwych informacji” – wyjaśnia Kalyan Veeramachaneni, główny naukowiec z LIDS.
Jak to działa?
Oprogramowanie MIT wykorzystuje duże modele językowe (LLM) do porównywania znaczenia oryginalnego i zmodyfikowanego zdania. Jeśli LLM stwierdzi, że oba zdania znaczą to samo, ale klasyfikator przypisuje im różne etykiety, oznacza to, że klasyfikator został „oszukany”. Analiza takich przypadków pozwala zidentyfikować słowa, które mają największy wpływ na zmianę klasyfikacji.
Lei Xu, absolwent LIDS, odkrył, że niewielka część słownictwa (około 0,1%) może odpowiadać za prawie połowę błędnych klasyfikacji. Koncentracja na tych słowach pozwala na bardziej efektywne testowanie i ulepszanie klasyfikatorów.
SP-Attack i SP-Defense
Oprogramowanie składa się z dwóch komponentów: SP-Attack, który generuje „przeciwnicze przykłady” do testowania klasyfikatorów, oraz SP-Defense, który wykorzystuje te przykłady do ponownego uczenia modelu i zwiększenia jego odporności na błędy. W testach, system MIT zmniejszył skuteczność ataków na klasyfikatory o blisko połowę (z 66% do 33,7%).
Znaczenie dokładnych klasyfikacji
Dokładne klasyfikacje tekstu są kluczowe nie tylko w przypadku ocen filmów czy restauracji. Coraz częściej wykorzystuje się je w sytuacjach, gdzie konsekwencje błędów mogą być poważne, np. w ochronie danych medycznych, finansowych i informacji dotyczących bezpieczeństwa, a także w badaniach naukowych i identyfikacji nieprawdziwych informacji.
Zespół z MIT udostępnił swoje oprogramowanie jako open source, aby każdy mógł z niego korzystać i przyczynić się do poprawy dokładności systemów AI klasyfikujących tekst.
