Koniec prymitywnych jailbreaków? Hakerzy 'karmią’ AI lukrem i trucizną
Hakerzy przestali uderzać taranem w bramy modeli językowych. Zamiast brutalnej siły i prymitywnych komend typu „zignoruj poprzednie instrukcje”, wybrali psychotechnikę. Sugar-Coated Poison (SCP) to nowa rzeczywistość, w której zabezpieczenia AI nie pękają pod wpływem błędu w kodzie, ale pod ciężarem uprzejmej, wieloetapowej erozji zaufania.
Ranking CASI, czyli brutalna weryfikacja obietnic
Najnowsza edycja rankingu CASI, oparta na morderczym teście 10 000 złośliwych promptów, rysuje grubą linię demarkacyjną między bezpieczeństwem a efektywnością. Na szczycie hierarchii osiadł Claude Opus 4.6 z wynikiem 96,61 punktu, zostawiając w tyle nawet GPT-5.2 (92,58). To nie są tylko cyfry – to dowód na to, że bezpieczeństwo stało się towarem luksusowym.
Na przeciwległym biegunie znajduje się GLM-5 od Z.ai. Model, który w benchmarkach wydajnościowych depcze liderom po piętach, w kwestii ochrony zaliczył spektakularną katastrofę, zdobywając zaledwie 37,56 punktu.
Cena ryzyka w modelu subskrypcyjnym
Z.ai gra agresywnie: ich abonament to zaledwie 55 proc. ceny Claude Pro, oferując przy tym trzykrotnie większe limity. To klasyczna pułapka na działy IT szukające oszczędności.
Wybierając GLM-5, kupujesz surową moc obliczeniową, ale zostawiasz drzwi do firmy otwarte na oścież.
Mechanizm infekcji: jak działa Sugar-Coated Poison?
Technika SCP rezygnuje z agresji na rzecz manipulacji semantycznej. Atakujący prowadzi z modelem długą, pozornie niewinną konwersację, w której stopniowo przemyca toksyczne intencje pod płaszczem kontekstu edukacyjnego lub zawodowego. Skuteczność? Porażające 87 proc. w przypadku starszych systemów.
To nie jest włamanie. To powolne przekonywanie strażnika, że trucizna, którą niesiesz, jest w rzeczywistości lekarstwem.
Ekosystem pod ostrzałem
- RoguePilot: Krytyczna luka w rozszerzeniach GitHub Copilot.
- CVE-2026-25253: Podatność frameworka OpenClaw na wstrzykiwanie kodu.
- CVE-2026-21852: Luka w Claude Code CLI umożliwiająca eskalację uprawnień.
Powyższe przykłady dowodzą, że front walki przesunął się z samych wag modelu na ekosystemy i agentów AI. Co z tego, że Twój silnik jest pancerny, skoro klamka w drzwiach wejściowych (CLI) jest zepsuta?
Strategiczna zmiana warty
Dla nowoczesnego przedsiębiorstwa wniosek jest bezlitosny: era traktowania AI jako izolowanego narzędzia dobiegła końca. Policy Puppetry oraz inne techniki manipulacji pokazują, że filtry niezależne od architektury modelu są jedynie cienką warstwą farby na rdzewiejącym metalu.
Prawdziwym wyzwaniem nie jest już to, co AI potrafi wygenerować, ale przed czym nie potrafi się obronić, gdy ktoś zapyta o to wystarczająco grzecznie.
