Stylizowany mózg z połączonych węzłów i ścieżek, symbolizujący AI, autonomię i balans. Niebiesko-fioletowe tło.

Anthropic wprowadza Auto Mode: Claude Code balansuje między autonomią a bezpieczeństwem

2026-03-25 AI Sight

Programiści korzystający z narzędzi AI często stają przed frustrującym wyborem: albo ręcznie zatwierdzają każdą, nawet najprostszą operację plikową, tracąc płynność pracy, albo ryzykują użycie flagi „dangerously-skip-permissions”, która daje modelowi wolną rękę, otwierając drzwi do potencjalnie destrukcyjnych skutków. Anthropic postanowił rozwiązać ten problem, wprowadzając „Auto Mode” do swojego interfejsu Claude Code.

Inteligentna kategoryzacja ryzyka

Fundamentem nowego rozwiązania jest dedykowany klasyfikator działający w oparciu o model Claude Sonnet 4.6. Jego zadaniem jest ocena każdej operacji, zanim zostanie ona wykonana. System odróżnia rutynowe działania lokalne, takie jak edycja plików wewnątrz projektu czy instalacja zdefiniowanych wcześniej zależności, od akcji wysokiego ryzyka. Te drugie — obejmujące m.in. masowe usuwanie danych w chmurze, wymuszanie wypchnięć do repozytorium (force push) czy pobieranie zewnętrznych skryptów — są automatycznie blokowane.

Ciekawym rozwiązaniem architektonicznym jest świadome ograniczenie widoczności klasyfikatora. Nie ma on dostępu do wyników narzędzi, a jedynie do kontekstu rozmowy. Ma to zapobiegać atakom typu prompt injection, w których złośliwa zawartość pliku lub strony internetowej mogłaby zmanipulować barierki bezpieczeństwa i „przekonać” system do wykonania niebezpiecznego kodu.

Mechanizm powrotu do kontroli ręcznej

Anthropic wbudował w system bezpiecznik behawioralny. Jeśli Claude Code trzykrotnie z rzędu zaproponuje działanie sklasyfikowane jako ryzykowne lub łącznie przekroczy limit dwudziestu blokad w jednej sesji, system automatycznie wyłącza tryb automatyczny. W takim scenariuszu użytkownik musi ponownie przejąć stery i manualnie zatwierdzać kolejne kroki. Jest to sygnał, że model może znajdować się w pętli błędnych założeń lub próbuje rozwiązać problem w sposób zbyt inwazyjny.

Przezorny zawsze zabezpieczony

Mimo wprowadzenia zaawansowanej filtracji, Anthropic nie pozostawia złudzeń: Auto Mode nie jest systemem nieomylnym. Kontekst bywa dwuznaczny, a klasyfikator może przepuścić szkodliwą akcję lub bezpodstawnie zatrzymać poprawny proces. Z tego względu firma wciąż rekomenduje uruchamianie Claude Code w odizolowanych środowiskach piaskownicy (ang. sandboxed environments).

Obecnie nowa funkcja jest dostępna w fazie „research preview” dla subskrybentów planu Team, współpracując z modelami Sonnet 4.6 oraz Opus 4.6. Użytkownicy planów Enterprise oraz klienci korzystający z API mają otrzymać dostęp do Auto Mode w najbliższych dniach.

Inteligentna kategoryzacja ryzyka

Mechanizm powrotu do kontroli ręcznej

Przezorny zawsze zabezpieczony

Udostępnij:

Zobacz również

Agent AI Sakana AI w czołówce programistów – nowe horyzonty optymalizacji

Anthropic bije rekordy i detronizuje OpenAI

Google udostępnia Colab MCP Server: nowa era autonomii agentów AI w chmurze