Anthropic wprowadza Auto Mode: Claude Code balansuje między autonomią a bezpieczeństwem
Programiści korzystający z narzędzi AI często stają przed frustrującym wyborem: albo ręcznie zatwierdzają każdą, nawet najprostszą operację plikową, tracąc płynność pracy, albo ryzykują użycie flagi „dangerously-skip-permissions”, która daje modelowi wolną rękę, otwierając drzwi do potencjalnie destrukcyjnych skutków. Anthropic postanowił rozwiązać ten problem, wprowadzając „Auto Mode” do swojego interfejsu Claude Code.
Inteligentna kategoryzacja ryzyka
Fundamentem nowego rozwiązania jest dedykowany klasyfikator działający w oparciu o model Claude Sonnet 4.6. Jego zadaniem jest ocena każdej operacji, zanim zostanie ona wykonana. System odróżnia rutynowe działania lokalne, takie jak edycja plików wewnątrz projektu czy instalacja zdefiniowanych wcześniej zależności, od akcji wysokiego ryzyka. Te drugie — obejmujące m.in. masowe usuwanie danych w chmurze, wymuszanie wypchnięć do repozytorium (force push) czy pobieranie zewnętrznych skryptów — są automatycznie blokowane.
Ciekawym rozwiązaniem architektonicznym jest świadome ograniczenie widoczności klasyfikatora. Nie ma on dostępu do wyników narzędzi, a jedynie do kontekstu rozmowy. Ma to zapobiegać atakom typu prompt injection, w których złośliwa zawartość pliku lub strony internetowej mogłaby zmanipulować barierki bezpieczeństwa i „przekonać” system do wykonania niebezpiecznego kodu.
Mechanizm powrotu do kontroli ręcznej
Anthropic wbudował w system bezpiecznik behawioralny. Jeśli Claude Code trzykrotnie z rzędu zaproponuje działanie sklasyfikowane jako ryzykowne lub łącznie przekroczy limit dwudziestu blokad w jednej sesji, system automatycznie wyłącza tryb automatyczny. W takim scenariuszu użytkownik musi ponownie przejąć stery i manualnie zatwierdzać kolejne kroki. Jest to sygnał, że model może znajdować się w pętli błędnych założeń lub próbuje rozwiązać problem w sposób zbyt inwazyjny.
Przezorny zawsze zabezpieczony
Mimo wprowadzenia zaawansowanej filtracji, Anthropic nie pozostawia złudzeń: Auto Mode nie jest systemem nieomylnym. Kontekst bywa dwuznaczny, a klasyfikator może przepuścić szkodliwą akcję lub bezpodstawnie zatrzymać poprawny proces. Z tego względu firma wciąż rekomenduje uruchamianie Claude Code w odizolowanych środowiskach piaskownicy (ang. sandboxed environments).
Obecnie nowa funkcja jest dostępna w fazie „research preview” dla subskrybentów planu Team, współpracując z modelami Sonnet 4.6 oraz Opus 4.6. Użytkownicy planów Enterprise oraz klienci korzystający z API mają otrzymać dostęp do Auto Mode w najbliższych dniach.
