Rozpadająca się cukrowa rzeźba na tle obwodu, symbolizująca podatność AI na "lukrowane" ataki.

Koniec prymitywnych jailbreaków? Hakerzy 'karmią’ AI lukrem i trucizną

2026-03-15 AI Sight

Hakerzy przestali uderzać taranem w bramy modeli językowych. Zamiast brutalnej siły i prymitywnych komend typu „zignoruj poprzednie instrukcje”, wybrali psychotechnikę. Sugar-Coated Poison (SCP) to nowa rzeczywistość, w której zabezpieczenia AI nie pękają pod wpływem błędu w kodzie, ale pod ciężarem uprzejmej, wieloetapowej erozji zaufania.

Ranking CASI, czyli brutalna weryfikacja obietnic

Najnowsza edycja rankingu CASI, oparta na morderczym teście 10 000 złośliwych promptów, rysuje grubą linię demarkacyjną między bezpieczeństwem a efektywnością. Na szczycie hierarchii osiadł Claude Opus 4.6 z wynikiem 96,61 punktu, zostawiając w tyle nawet GPT-5.2 (92,58). To nie są tylko cyfry – to dowód na to, że bezpieczeństwo stało się towarem luksusowym.

Na przeciwległym biegunie znajduje się GLM-5 od Z.ai. Model, który w benchmarkach wydajnościowych depcze liderom po piętach, w kwestii ochrony zaliczył spektakularną katastrofę, zdobywając zaledwie 37,56 punktu.

Cena ryzyka w modelu subskrypcyjnym

Z.ai gra agresywnie: ich abonament to zaledwie 55 proc. ceny Claude Pro, oferując przy tym trzykrotnie większe limity. To klasyczna pułapka na działy IT szukające oszczędności.

Wybierając GLM-5, kupujesz surową moc obliczeniową, ale zostawiasz drzwi do firmy otwarte na oścież.

Mechanizm infekcji: jak działa Sugar-Coated Poison?

Technika SCP rezygnuje z agresji na rzecz manipulacji semantycznej. Atakujący prowadzi z modelem długą, pozornie niewinną konwersację, w której stopniowo przemyca toksyczne intencje pod płaszczem kontekstu edukacyjnego lub zawodowego. Skuteczność? Porażające 87 proc. w przypadku starszych systemów.

To nie jest włamanie. To powolne przekonywanie strażnika, że trucizna, którą niesiesz, jest w rzeczywistości lekarstwem.

Ekosystem pod ostrzałem

RoguePilot: Krytyczna luka w rozszerzeniach GitHub Copilot.
CVE-2026-25253: Podatność frameworka OpenClaw na wstrzykiwanie kodu.
CVE-2026-21852: Luka w Claude Code CLI umożliwiająca eskalację uprawnień.

Powyższe przykłady dowodzą, że front walki przesunął się z samych wag modelu na ekosystemy i agentów AI. Co z tego, że Twój silnik jest pancerny, skoro klamka w drzwiach wejściowych (CLI) jest zepsuta?

Strategiczna zmiana warty

Dla nowoczesnego przedsiębiorstwa wniosek jest bezlitosny: era traktowania AI jako izolowanego narzędzia dobiegła końca. Policy Puppetry oraz inne techniki manipulacji pokazują, że filtry niezależne od architektury modelu są jedynie cienką warstwą farby na rdzewiejącym metalu.

Prawdziwym wyzwaniem nie jest już to, co AI potrafi wygenerować, ale przed czym nie potrafi się obronić, gdy ktoś zapyta o to wystarczająco grzecznie.

Ranking CASI, czyli brutalna weryfikacja obietnic

Cena ryzyka w modelu subskrypcyjnym

Mechanizm infekcji: jak działa Sugar-Coated Poison?

Ekosystem pod ostrzałem

Strategiczna zmiana warty

Udostępnij:

Zobacz również

Szefowie bezpieczeństwa wzywają do pilnej regulacji AI, obawiając się zagrożeń ze strony DeepSeek

NO FAKES Act: Ochrona przed deepfake’ami czy zagrożenie dla wolności internetu?

Databricks idzie na zakupy. Nowe przejęcia mają zrewolucjonizować standardy cyberbezpieczeństwa w chmurze