Agenci AI

Google AI prezentuje MLE-STAR: Przełom w automatyzacji inżynierii uczenia maszynowego

Branża sztucznej inteligencji odnotowuje kolejny istotny krok w stronę autonomizacji. Inżynierowie Google AI zaprezentowali MLE-STAR (Machine Learning Engineering via Search and Targeted Refinement) – system agentowy zaprojektowany, by automatyzować złożone procesy inżynierii uczenia maszynowego, w tym projektowanie i optymalizację całych potoków. Narzędzie to, opierające się na szeroko zakrojonym wyszukiwaniu internetowym, precyzyjnym udoskonalaniu kodu oraz solidnych modułach sprawdzających, ustanawia nowe standardy wydajności w obszarze zadań inżynierii ML, znacząco przewyższając zarówno wcześniejsze autonomiczne agenty, jak i ludzkie metody bazowe.

Wyzwania w automatyzacji inżynierii uczenia maszynowego

Mimo postępu w generowania kodu i automatyzacji przepływu pracy, jaki przyniosły duże modele językowe (LLM), dotychczasowe agenty inżynierii ML mierzyły się z licznymi ograniczeniami. Jednym z nich było nadmierne poleganie na wewnętrznej pamięci LLM, co prowadziło do preferowania „znanych” modeli, nierzadko pomijających bardziej zaawansowane, specyficzne dla danego zadania rozwiązania. Inną bolączką było „całościowe”, zgrubne podejście do iteracji, polegające na modyfikowaniu całych skryptów za jednym zamachem, bez głębokiej, ukierunkowanej eksploracji poszczególnych komponentów potoku – takich jak inżynieria cech, wstępne przetwarzanie danych czy ensamble modeli. Dodatkowo, generowany kod często cechował się podatnością na błędy, problem wycieku danych lub pomijanie dostarczonych plików danych.

Kluczowe innowacje MLE-STAR

MLE-STAR wprowadza szereg innowacyjnych rozwiązań, które odpowiadają na wspomniane wyzwania. Zamiast ograniczać się do wewnętrznej wiedzy, system wykorzystuje zewnętrzne wyszukiwanie internetowe do pozyskiwania najnowszych modeli i fragmentów kodu, które są ściśle powiązane z danym zadaniem i zbiorem danych. Dzięki temu, wstępne rozwiązania odzwierciedlają aktualne najlepsze praktyki w branży, a nie jedynie to, co „zapamiętały” modele LLM.

Kluczowym elementem jest również zagnieżdżone, ukierunkowane udoskonalanie kodu. MLE-STAR doskonali swoje rozwiązania w dwupętlowym procesie. Pętla zewnętrzna, oparta na studiach ablacyjnych, identyfikuje, który komponent potoku (np. przygotowanie danych, model, inżynieria cech) ma największy wpływ na wydajność. Następnie, pętla wewnętrzna skupia się na iteracyjnym generowaniu i testowaniu wariantów dla tego konkretnego komponentu, korzystając ze strukturyzowanych informacji zwrotnych. Takie podejście umożliwia dogłębną, komponentową eksplorację, pozwalając na przykład szczegółowo testować różne sposoby ekstrakcji i kodowania cech kategorycznych, zamiast chaotycznie zmieniać wszystko naraz.

System wyróżnia się także samo-udoskonalającą strategią ensemblingu. MLE-STAR nie tylko proponuje i implementuje, ale również udoskonala nowatorskie metody łączenia wielu rozwiązań kandydujących. Zamiast prostego uśredniania czy głosowania „najlepszego z N”, wykorzystuje swoje zdolności planowania do eksploracji zaawansowanych strategii, takich jak stacking z niestandardowymi meta-learnerami czy optymalizowane wyszukiwanie wag.

Robustność MLE-STAR jest zapewniona dzięki zastosowaniu wyspecjalizowanych agentów. Agent debugowania automatycznie wykrywa i koryguje błędy Python, dopóki skrypt nie zostanie uruchomiony poprawnie. Moduł sprawdzania wycieku danych analizuje kod, aby zapobiec wpływowi próbek testowych lub walidacyjnych na proces treningowy. Z kolei narzędzie sprawdzania użycia danych dba o to, by rozwiązanie maksymalnie wykorzystywało wszystkie dostarczone pliki danych i istotne modalności, co poprawia wydajność i ogólną zdolność generalizacji modelu.

Wyniki empiryczne: Dominacja MLE-STAR

Skuteczność MLE-STAR została zweryfikowana na benchmarku MLE-Bench-Lite, obejmującym 22 wymagające konkursy Kaggle z różnorodnych dziedzin, takich jak dane tabelaryczne, obrazy, audio i tekst. Wyniki są imponujące – MLE-STAR (z silnikiem Gemini-2.5-Pro) osiąga przeszło dwukrotnie wyższy wskaźnik „medalowych” (czołowych) rozwiązań w porównaniu do najlepszych dotychczasowych agentów. W zadaniach obrazowych, system preferuje nowoczesne architektury (EfficientNet, ViT), odchodząc od starszych rozwiązań, jak ResNet, co bezpośrednio przekłada się na wyższe miejsca na podium. Strategia ensemblingu samodzielnie wnosi dodatkowy, znaczący wkład w ostateczne wyniki, nie tylko wybierając, ale również inteligentnie łącząc zwycięskie rozwiązania.

Kluczowe czynniki sukcesu

Jakie są zatem główne powody sukcesu MLE-STAR? Przede wszystkim, podejście oparte na wyszukiwaniu w czasie rzeczywistym, które pozwala agentowi na bieżąco aktualizować swoją bazę wiedzy o najnowsze przykłady kodu i karty modeli. Dodatkowo, precyzyjne ukierunkowanie poparte analizą ablacyjną umożliwia „chirurgiczne” ulepszenia, koncentrujące się na najbardziej wpływowych fragmentach kodu. Adaptacyjny ensembling nie ogranicza się do prostych średnich, lecz inteligentnie testuje zaawansowane techniki, takie jak stacking czy regresyjne meta-learnery. Co więcej, rygorystyczne mechanizmy bezpieczeństwa, w tym korekcja błędów, zapobieganie wyciekom danych i pełne wykorzystanie danych, znacząco zwiększają walidację i wyniki testowe, eliminując pułapki, na które często natrafiają proste generacje kodu oparte na LLM.

Rozszerzalność i interakcja z człowiekiem

MLE-STAR charakteryzuje się również wysoką rozszerzalnością. Eksperci mogą wprowadzać opisy najnowszych modeli, co przyspiesza ich adaptację. System bazuje na Google’s Agent Development Kit (ADK), co ułatwia jego implementację w szerszych ekosystemach agentów oraz przyjęcie w środowisku open source.

Przyszłość inżynierii ML

MLE-STAR stanowi prawdziwy przełom w automatyzacji inżynierii uczenia maszynowego. Poprzez spójny i dobrze zdefiniowany przepływ pracy, rozpoczynający się od wyszukiwania, przechodzący przez testowanie kodu za pomocą pętli opartych na ablacjach, łączenie rozwiązań z adaptacyjnym ensemblingiem i weryfikację wyników kodu przez wyspecjalizowanych agentów, system ten przewyższa dotychczasowe osiągnięcia, a nawet wielu ludzkich konkurentów. Otwarty kod źródłowy oznacza, że badacze i praktycy ML mogą teraz integrować i rozszerzać te najnowocześniejsze możliwości w swoich projektach, przyspieszając zarówno produktywność, jak i innowacje w dziedzinie sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *