LLMR & DRozumowanie

Nowe badanie podważa możliwości AI w zakresie złożonych instrukcji

Naukowcy z Uniwersytetu Nowojorskiego wprowadzili nowe narzędzie o nazwie RELIC, służące do oceny, jak dobrze duże modele językowe potrafią rozumieć i wykonywać złożone, wieloetapowe instrukcje. Test RELIC polega na dostarczeniu modelowi sztucznego języka z precyzyjnie zdefiniowanymi regułami oraz ciągu symboli, a następnie sprawdzeniu, czy model potrafi ocenić, czy ten ciąg jest prawidłowy zgodnie z podanymi regułami.

W ramach testów RELIC, modele językowe musiały radzić sobie z gramatykami zawierającymi do 500 reguł produkcji oraz ciągami symboli o długości do 50 znaków. Wyniki eksperymentów z udziałem ośmiu wiodących modeli AI, w tym GPT-4.1 i DeepSeek-R1, pokazały wyraźny spadek dokładności wraz ze wzrostem złożoności gramatyki lub długości ciągu.

Ograniczenia modeli językowych

Modele poradziły sobie dobrze z prostymi gramatykami i krótkimi ciągami, ale wraz ze wzrostem stopnia skomplikowania, ich skuteczność znacznie malała. Zamiast stosować systematyczne wnioskowanie, modele często uciekały się do uproszczonych heurystyk, takich jak zgadywanie na podstawie długości ciągu lub obecności pojedynczych symboli.

Co więcej, analiza strategii rozumowania modeli wykazała zjawisko określone przez badaczy jako „underthinking” (niedomyślanie się), gdzie modele ograniczały liczbę kroków pośrednich w procesie rozwiązywania problemu w miarę wzrostu jego złożoności. Jest to szczególnie problematyczne, gdyż teoretycznie liczba kroków powinna rosnąć wraz ze stopniem skomplikowania zadania.

Potrzeba nowych podejść

Wyniki badania RELIC są zbieżne z niedawnymi ustaleniami badaczy Apple, którzy również zaobserwowali spadek aktywności rozumowania modeli w miarę wzrostu trudności zadań. Obie grupy badaczy wskazują, że obecne modele potrzebują albo znacznie większej mocy obliczeniowej, albo zasadniczo bardziej efektywnych strategii rozwiązywania problemów, aby radzić sobie ze złożonymi instrukcjami.

Jak podkreśla współautor badania, Tal Linzen, ograniczenia obecnych modeli nie oznaczają, że duże modele językowe nie są w stanie dokonywać wnioskowania, ale raczej wskazują na konieczność dalszego rozwoju i udoskonalania tych modeli, aby mogły sprostać wymaganiom bardziej skomplikowanych zadań.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *