Gen AI

Koniec ery rzutu monetą? Moonbounce chce naprawić moderację dzięki AI

Branża mediów społecznościowych przez lata borykała się z problemem, który Brett Levenson, były pracownik Apple i Facebooka, opisuje bez ogródek: moderacja treści przypominała rzut monetą. Gdy w 2019 roku Levenson dołączał do ekipy Marka Zuckerberga w cieniu afery Cambridge Analytica, wierzył, że technologia szybko wyeliminuje szkodliwe treści. Rzeczywistość okazała się jednak brutalna. Ludzie odpowiedzialni za weryfikację postów mieli sekundy na decyzje o blokadzie, opierając się na kilkudziesięciostronicowych, często błędnie przetłumaczonych dokumentach. Efekt? Dokładność działań ledwo przekraczała 50%, a interwencje następowały zazwyczaj dni po tym, jak doszło do wyrządzenia szkody.

Pułapka statycznego regulaminu

Tradycyjny model moderacji – reaktywny i opóźniony – staje się całkowicie bezużyteczny w dobie generatywnej sztucznej inteligencji. Dzisiejsze zagrożenia nie ograniczają się do wulgaryzmów; to chatboty instruujące nastolatków w kwestiach samookaleczeń czy generatory obrazów omijające filtry bezpieczeństwa, by tworzyć treści pornograficzne bez zgody osób trzecich. W tej nowej architekturze cyfrowej sztywne dokumenty PDF z zasadami społeczności są jedynie martwą literą prawa.

Odpowiedzią Levensona jest Moonbounce – startup, który właśnie pozyskał 12 milionów dolarów finansowania od funduszy Amplify Partners i StepStone Group. Filozofią firmy jest przekształcenie statycznych regulaminów w tak zwaną 'politykę jako kod’. Zamiast czekać na błąd człowieka, system przesyła wytyczne prosto do wykonywalnego kodu, który analizuje treść w czasie rzeczywistym.

Bezpieczeństwo w milisekundach

Infrastruktura Moonbounce działa jak niezależna warstwa ochronna umieszczona między użytkownikiem a aplikacją AI. Dzięki autorskiemu modelowi językowemu system potrafi przeanalizować zapytanie lub wygenerowaną odpowiedź w czasie krótszym niż 300 milisekund. Jeśli algorytm wykryje ryzyko, może natychmiast zablokować treść lub spowolnić jej dystrybucję do czasu pogłębionej weryfikacji. Obecnie platforma obsługuje już 40 milionów przeglądów dziennie, współpracując z takimi podmiotami jak Civitai czy Dippy AI.

Kluczową przewagą Moonbounce jest jego zewnętrzny charakter. W przeciwieństwie do natywnych filtrów zaimplementowanych w chatbotach, system ten nie jest obciążony ogromnym kontekstem rozmowy (dziesiątkami tysięcy tokenów), co pozwala mu zachować obiektywizm i skupić się wyłącznie na egzekwowaniu reguł w punkcie styku z użytkownikiem. Levenson zauważa, że dla wielu firm bezpieczeństwo przestaje być przykrym obowiązkiem, a staje się rynkowym wyróżnikiem.

Od blokowania do sterowania

Najbardziej ambitnym projektem startupu jest 'iterative steering’ – technologia powstała jako odpowiedź na tragiczne przypadki, takie jak niedawne samobójstwo 14-latka z Florydy, który uległ obsesji na punkcie bota. Zamiast wyświetlać suchy komunikat o błędzie lub odmowę odpowiedzi, Moonbounce chce aktywnie modyfikować prompty w czasie rzeczywistym. System ma przechwytywać szkodliwe intencje i przekierowywać dialog tak, by chatbot nie tylko słuchał, ale realnie wspierał użytkownika, wyprowadzając go z niebezpiecznych rejonów rozmowy.

Mimo że technologia ta idealnie pasowałaby do ekosystemu gigantów pokroju Meta, Levenson sceptycznie podchodzi do wizji szybkiej akwizycji. Jego celem jest budowa otwartego standardu bezpieczeństwa, który nie zostanie zamknięty wewnątrz korporacyjnych murów jednej platformy. W obliczu rosnącej odpowiedzialności prawnej dostawców AI, takie niezależne 'bezpieczniki’ mogą stać się fundamentem nowoczesnego internetu.