Niewidoczna nić kodu oplata minimalistyczny serwer danych, cień hakera w tle. Ukryte zagrożenie w cyfrowej przestrzeni.

Poważna luka w Claude Cowork. Nowy agent AI od Anthropic pozwala na kradzież plików

2026-01-20 AI Sight

Zaledwie chwilę po tym, jak Anthropic zaprezentował Claude Cowork – swojego nowego, autonomicznego agenta AI – system ten stał się przedmiotem poważnej debaty dotyczącej bezpieczeństwa. Badacze z firmy PromptArmor udokumentowali krytyczną lukę, która umożliwia atakującym kradzież poufnych plików użytkownika. Co najbardziej niepokojące, proces ten nie wymaga żadnej autoryzacji ze strony człowieka, a atak wykorzystuje technikę znaną w branży jako „indirect prompt injection” (pośrednie wstrzykiwanie instrukcji).

Niewidzialne zagrożenie w pliku tekstowym

Scenariusz ataku jest tyleż prosty, co skuteczny. Wykorzystuje on nową funkcję wprowadzoną przez Anthropic, polegającą na udostępnianiu agentowi AI tzw. dokumentów umiejętności („skills”). Są to pliki instruujące model, jak wykonywać określone zadania. Hakerzy mogą jednak ukryć w nich złośliwy kod.

Metoda opisana przez PromptArmor opiera się na technice przypominającej steganografię w najprostszym wydaniu. Złośliwe instrukcje są wpisywane do plików .docx czcionką o rozmiarze 1 punktu, w białym kolorze na białym tle, z minimalnym interliniowaniem. Dla ludzkiego oka dokument wygląda na pusty lub zawiera jedynie niewinnie wyglądającą treść. Jednak dla modelu językowego, który analizuje surowy tekst i kod dokumentu, ukryte polecenia są w pełni czytelne.

Jak agent staje się szpiegiem

Gdy użytkownik prosi Claude Cowork o przeanalizowanie plików przy użyciu zainfekowanego „skilla”, kontrolę przejmuje ukryty skrypt. Manipuluje on modelem AI, zmuszając go do wykonania polecenia systemowego (cURL), które wysyła wybrane pliki – na przykład największy dokument w folderze – bezpośrednio do interfejsu API kontrolowanego przez atakującego. Wszystko to dzieje się w tle, pod płaszczykiem normalnej pracy asystenta.

Problem dotyczy nie tylko najprostszego modelu Claude Haiku. Testy wykazały, że nawet najpotężniejszy model w ofercie firmy, Claude Opus, jest podatny na tę manipulację. W jednej z symulacji badacze zdołali wyprowadzić dane klienta poprzez „wybieloną” domenę API Anthropic, omijając zabezpieczenia środowiska wirtualnego (sandboxa), w którym działa kod.

Znana usterka i pośpiech wdrożeniowy

Szczególnie krytyczny w tym kontekście jest fakt, że luka w izolacji środowiska wykonawczego Claude’a nie jest nowością. Według doniesień PromptArmor, badacz bezpieczeństwa Johann Rehberger identyfikował i zgłaszał podobny problem w czacie Claude.ai jeszcze przed premierą modułu Cowork. Mimo że Anthropic rzekomo przyznał rację badaczowi, usterka systemowa nie została załatana przed wdrożeniem nowego produktu.

Sytuacja ta rzuca cień na narrację marketingową Anthropic. Firma chwaliła się, że Claude Cowork został zbudowany w zaledwie półtora tygodnia, a kod w całości napisał ich własny model AI – Claude Code. Odkrycie tak poważnej luki zaledwie dwa dni po premierze sugeruje, że w tym sprincie technologicznym zabrakło miejsca na rzetelne audyty bezpieczeństwa.

Autonomia kontra bezpieczeństwo

Przypadek Claude Cowork dobitnie pokazuje fundamentalne napięcie w rozwoju agentów AI: im większą autonomię i dostęp do lokalnych zasobów im nadajemy, tym szersza staje się powierzchnia ataku. Wstrzykiwanie instrukcji (prompt injection) pozostaje nierozwiązanym problemem branży od lat. W przeciwieństwie do ataków phishingowych, gdzie edukacja użytkownika może przynieść efekty, tutaj ofiara nie ma szans zauważyć zagrożenia. Dopóki modele językowe nie nauczą się niezawodnie oddzielać danych od instrukcji, narzędzia mające dostęp do naszych prywatnych dysków będą niosły ze sobą ryzyko, którego nie można ignorować.