Surrealistyczna wizja AI oceniającej sztukę w labiryntowej galerii. Kod, pędzle, inspiracje Rutkowskim, Muchą i sztuką generatywną.

Tencent podnosi poprzeczkę dla kreatywnej AI: nowy benchmark ArtifactsBench ocenia estetykę i użyteczność

2025-07-18 AI Sight

Tencent, chiński gigant technologiczny, zaprezentował swój nowy benchmark ArtifactsBench, który ma na celu rewolucjonizować sposób testowania kreatywnych modeli sztucznej inteligencji. W czasach, gdy AI generuje coraz bardziej złożone treści, takie jak strony internetowe, wizualizacje danych czy mini-gry, kluczowe staje się nie tylko to, czy dany kod działa poprawnie, ale również to, czy efekt końcowy jest estetyczny i użyteczny.

Obecne metody ewaluacji koncentrują się głównie na funkcjonalności. Generowany przez AI kod jest sprawdzany pod kątem poprawności działania, jednak systemy te są „ślepe” na wizualną wierność i integralność interaktywną – aspekty stanowiące o jakości współczesnych aplikacji. Często zatem otrzymywaliśmy rozwiązania, które, mimo że działały, były dalekie od intuicyjnych i przyjemnych w odbiorze, charakteryzując się np. nieodpowiednim rozmieszczeniem przycisków czy niezgrzytającą kolorystyką.

Nowe podejście do oceny

ArtifactsBench ma za zadanie wypełnić tę lukę. Działa on jak automatyczny krytyk sztuki dla kodu generowanego przez AI. Przebieg testu jest wieloetapowy: najpierw model AI otrzymuje jedno z ponad 1800 zadań kreatywnych – od tworzenia wykresów po interaktywne aplikacje webowe. Po wygenerowaniu kodu, ArtifactsBench automatycznie buduje i uruchamia aplikację w bezpiecznym, odizolowanym środowisku.

Kluczowym elementem jest monitorowanie zachowania aplikacji. Benchmark wykonuje serie zrzutów ekranu w czasie, co pozwala na analizę dynamicznych elementów, takich jak animacje czy zmiany stanu po interakcji z użytkownikiem. Zebrane dowody – oryginalne zapytanie, wygenerowany kod i zrzuty ekranu – są następnie przekazywane do oceny przez multimodalny model językowy (MLLM), który pełni rolę „sędziego”.

Sędzia MLLM nie wydaje ogólnych opinii. Bazując na szczegółowej checkliście dostosowanej do konkretnego zadania, ocenia wynik w oparciu o dziesięć różnych metryk, uwzględniając funkcjonalność, doświadczenie użytkownika, a nawet jakość estetyczną. Taki system zapewnia spójność i dokładność oceny.

Weryfikacja „dobrego smaku” AI

Rodzi się pytanie, czy ten automatyczny sędzia rzeczywiście posiada „dobry smak”. Okazuje się, że tak. Porównania rankingów ArtifactsBench z platformą WebDev Arena, gdzie ludzcy użytkownicy głosują na najlepsze kreacje AI, wykazały 94,4% zgodności. To znaczący postęp w stosunku do starszych benchmarków, których zgodność wynosiła zaledwie około 69,4%. Ponadto, oceny nowego frameworka wykazały ponad 90% zgodności z opiniami profesjonalnych deweloperów, co świadczy o jego wiarygodności.

Wyniki testów: specjaliści kontra naturaliści

Tencent poddał testom ponad 30 czołowych modeli AI, a wyniki okazały się intrygujące. Chociaż komercyjne modele takie jak Google Gemini-2.5-Pro czy Anthropic Claude 4.0-Sonnet wykazały wysoką skuteczność, badania ujawniły ciekawe zjawisko. Okazuje się, że modele specjalizujące się w generowaniu kodu niekoniecznie są najlepsze w tego typu zadaniach. Wyniki pokazały, że „holistyczne możliwości modeli ogólnych często przewyższają te specjalistyczne”.

Przykładem jest model ogólnego przeznaczenia Qwen-2.5-Instruct, który osiągnął lepsze wyniki niż jego wyspecjalizowane odpowiedniki: Qwen-2.5-coder (specjalizujący się w kodzie) i Qwen2.5-VL (specjalizujący się w wizji). Badacze z Tencenta sugerują, że stworzenie atrakcyjnej wizualnie aplikacji wymaga połączenia wielu umiejętności, a nie tylko izolowanego rozumienia kodu czy obrazu. Kluczowe są tu „solidne rozumowanie, subtelne podążanie za instrukcjami i intuicyjne poczucie estetyki designu”. Są to cechy zaokrąglonych, niemal ludzkich zdolności, które zaczynają rozwijać najlepsze modele ogólne.

Tencent ma nadzieję, że ArtifactsBench stanie się narzędziem do wiarygodnej oceny tych złożonych cech, a tym samym do mierzenia postępu w zdolności AI do tworzenia rzeczy, które są nie tylko funkcjonalne, ale przede wszystkim pożądane przez użytkowników.

Nowe podejście do oceny

Weryfikacja „dobrego smaku” AI

Wyniki testów: specjaliści kontra naturaliści

Udostępnij:

Zobacz również

kvcached: Elastyczne zarządzanie pamięcią GPU kluczem do efektywniejszego serwowania dużych modeli językowych

Meta stawia na 'osobistą superinteligencję’: Mark Zuckerberg prognozuje dominację okularów AI

Przełom w rozumieniu emocji przez AI: LAION i Intel przedstawiają Empathic Insight

Dodaj komentarz Anuluj pisanie odpowiedzi