Thunderforge: Sztuczna inteligencja kształtuje gry wojenne Pentagonu
Departament Obrony Stanów Zjednoczonych (DoD) intensyfikuje wysiłki w integracji sztucznej inteligencji (AI) z procesami planowania wojskowego. W centrum tych działań znajduje się projekt Thunderforge, inicjatywa prowadzona przez Defense Innovation Unit (DIU), mająca na celu stworzenie zaawansowanego systemu agentowego AI, zdolnego do wszechstronnej analizy i krytyki planów wojennych w różnych domenach wojskowych.
Thunderforge, który jest na wczesnym etapie rozwoju, ma za zadanie działać jako zespół cyfrowych agentów. Ich rola polega na równoległej analizie, wyłapywaniu potencjalnych słabych punktów, które mogłyby zostać przeoczone przez ludzkich planistów. Pierwsze testy możliwości Thunderforge przeprowadzono już podczas czerwcowych ćwiczeń sztabowych w Dowództwie Indo-Pacyfiku Stanów Zjednoczonych (INDOPACOM). Docelowo system ma integrować się z wewnętrznymi bazami danych DoD oraz istniejącym oprogramowaniem, takim jak architektura modelowania i symulacji DARPA SAFE-SiM, aby generować realistyczne scenariusze wojskowe na dużą skalę.
Warto zwrócić uwagę na kluczowych partnerów technologicznych. Kalifornijska firma Scale AI odpowiada za koordynację projektu, Microsoft dostarcza technologię dużych modeli językowych (LLM), a Anduril zajmuje się modelowaniem. Scale AI podkreśla, że ich system ma koordynować wiele niestandardowych agentów, z których każdy wykorzystuje szereg modeli i działa jako cyfrowy oficer sztabowy, pomagając w syntezie danych dla krytycznych działań planistycznych. Dan Tadross, szef sektora publicznego w Scale AI, wyjaśnia, że agenci dynamicznie współpracują, łącząc analizy w bardziej kompleksowy widok dla planistów operacyjnych. Celem jest przeniesienie roli operatora z mikro-zarządzania pojedynczym procesem na „bycie w pętli”, gdzie może on zastosować swój strategiczny osąd do wygenerowanych opcji.
Wzmacnianie AI w planowaniu wojskowym
Rozwój Thunderforge podzielono na dwa główne etapy. Pierwszy koncentruje się na wspieraniu poznawczego procesu tworzenia planów. System ma poddawać plany przygotowane przez ludzi analizie przez zespół agentów AI, którzy zaoferują perspektywy z różnych dziedzin – w tym logistyki, wywiadu, cyberbezpieczeństwa i operacji informacyjnych. „Można go naprawdę dostosować do własnych potrzeb” – zaznacza Bryce Goodman, główny strateg ds. AI w DIU.
Drugi etap zakłada połączenie z najbardziej zaawansowanym oprogramowaniem do modelowania DoD w celu przeprowadzania symulacji, generowania i analizowania wyników oraz ich interpretacji. Goodman wskazuje, że połączenie zdolności AI do rozpoznawania wzorców z fizycznymi symulacjami opartymi na fizyce, lub innymi narzędziami logicznego rozumowania, może znacząco zwiększyć moc obliczeniową i analityczną.
W ramach pierwszego etapu DIU opracowała już minimalnie funkcjonalny produkt, choć wymaga on głębszej integracji z tajnymi systemami danych i niezależnymi partnerstwami rządowymi. Zespół Goodmana, w miarę budowania infrastruktury, liczy na to, że system będzie w stanie walidować istniejące scenariusze do końca bieżącego roku, a następnie samodzielnie tworzyć nowe scenariusze w 2026 roku.
Rola AI w symulacji konfliktów
Symulacje konfliktów od dawna są nieodłącznym elementem planowania operacyjnego i szkolenia wojskowego. Od tradycyjnych gier wojennych z uczestnikami mapującymi ruchy wojsk na makietach, po zaawansowane symulatory, jak Janus z lat 70. XX wieku, który odegrał kluczową rolę w planowaniu inwazji na Panamę w 1989 roku i operacji Pustynna Burza. Obecna technologia agentowego AI, według politologa Stephena Wormana, dyrektora RAND Center for Gaming, idzie znacznie dalej dzięki autonomizacji i przetwarzaniu danych z wielu strumieni. „Te możliwości mogą poprawić świadomość sytuacyjną, przyspieszyć iteracje modelowania zagrożeń oraz usprawnić logistykę” – stwierdza Worman.
Jednocześnie Worman przestrzega przed nadmiernym optymizmem, cytując pracę Jona Lindsaya z Georgia Institute of Technology. Zauważa on, że AI sprawdza się najlepiej w ustrukturyzowanych, ograniczonych domenach o niskich stawkach i rutynowych danych, podczas gdy operacje wojskowe często są chaotyczne i cechują się unikalnymi, rzadkimi zdarzeniami, gdzie błąd może prowadzić do katastrofy. Brak formalnych ram do interpretacji decyzji agentów AI i poziomu zaufania do ich rozumowania może prowadzić do złudnego poczucia precyzji. „Agent może działać sensownie w większości sytuacji, ale może po prostu wzmacniać błędy lub wykorzystywać wady w bazowym modelu” – podkreśla Worman.
Goodman z DIU przyznaje, że projekt boryka się z poważnymi wyzwaniami badawczymi. Modele LLM, podobnie jak ludzki umysł, mogą „halucynować” i z przekonaniem generować błędne informacje. Przykładem może być przekonujący plan, który po bliższym przyjrzeniu się wysyła okręt wojenny na ląd australijski. Tego typu dane mogą wydawać się przemyślane, dopóki nie zagłębi się w ich podstawę logiczną. „Moje podstawowe założenie jest takie, że LLM-y będą halucynować, będą wadliwe i nieprzejrzyste, a my nie zrozumiemy wszystkich ich trybów awarii” – mówi Goodman. Dlatego też, początkowo skupiono się na krytykowaniu ludzkich planów, co minimalizuje ryzyko niekontrolowanych „halucynacji”. Dodatkowo „halucynacje” można ograniczyć, umożliwiając agentowi korzystanie z zewnętrznych narzędzi, np. poprzez odpytywanie bazy danych o liczbę dostępnych czołgów.
Scale AI wskazuje na dodatkowe zabezpieczenia, takie jak śledzenie, które zapewnia pełną wyjaśnialność, pozwalając operatorowi prześledzić łańcuch dowodów i rozumowania prowadzący do konkluzji. Ciągłe testy „adversarialne” oraz formalne metody weryfikacji mają na celu aktywne poszukiwanie ukrytych błędów, słabych punktów i potencjalnych niedopasowań, co ma kluczowe znaczenie przed wdrożeniem agentów.
Ocena AI w polityce zagranicznej
Ważne badanie, przeprowadzone przez Scale AI i Center for Strategic and International Studies, analizowało reakcje wiodących LLM na 400 ekspercko przygotowanych scenariuszy dyplomatycznych i wojskowych. Modele takie jak Qwen2 72B, DeepSeek V3 i Llama 8B wykazują tendencję do eskalacyjnych rekomendacji, podczas gdy GPT-4o i Claude 3.5 Sonnet były znacznie bardziej powściągliwe. Badanie ujawniło również różne stopnie stronniczości w zależności od kraju, często rekomendując mniej interwencyjne lub eskalacyjne odpowiedzi wobec Rosji i Chin niż wobec Stanów Zjednoczonych czy Wielkiej Brytanii. Yasir Atalan, współautor analizy, zauważa, że nie wszystkie modele są trenowane na tych samych danych, co prowadzi do różnic w ich predyspozycjach.
Jacquelyn Schneider, profesor w Naval Postgraduate School, przeprowadziła podobne badania, oceniając pięć powszechnie dostępnych LLM pod kątem podejmowania decyzji wojskowych i dyplomatycznych. Wszystkie modele wykazały trudne do przewidzenia wzorce eskalacji. „Spodziewałam się znacznie większej dywergencji między LLM-ami” – twierdzi Schneider. „Dla mnie tendencja ku eskalacji jest zagadką. Czy to dlatego, że korpus wiedzy koncentruje się tylko na eskalacji? Deeskalacja jest trudna do zbadania, ponieważ nigdy nie ma miejsca.” Schneider ostrzega, że nawet ściśle ukierunkowane systemy AI mogą mieć niezamierzone strategiczne skutki, jeśli dowódcy ufają wynikom bez pełnego zrozumienia, w jaki sposób zostały wygenerowane. Podkreśla również znaczenie szkolenia użytkowników w budowaniu kampanii bez oprogramowania, aby byli w stanie dostrzec problemy, które mogłyby utrudnić podejmowanie decyzji w czasie walki.
Twórcy Thunderforge oraz eksperci zewnętrzni zgodnie podkreślają znaczenie ludzkiego nadzoru. Tadross z Scale AI zaznacza, że rola firmy polega na dostarczaniu narzędzi, które mają wspierać wojskowych w odstraszaniu konfliktów lub uzyskiwaniu przewagi w przypadku walki. Ostatecznie, to DoD definiuje doktryny, zasady i odpowiedni poziom nadzoru ludzkiego dla każdej misji. „System może być zadaniowany do generowania i oceny działań na podstawie zdefiniowanych parametrów, jednak ostateczna władza decyzyjna zawsze spoczywa na ludzkim dowódcy” – konkluduje Tadross. „Naszą odpowiedzialnością jest zapewnienie, że technologia zapewnia wyraźne, zrozumiałe i godne zaufania wsparcie, które wzmacnia ich osąd i przyspiesza proces podejmowania decyzji.”
