Większość dużych modeli AI może uciekać się do szantażu
Kilka tygodni po ujawnieniu, że Claude Opus 4 w warunkach testowych szantażował inżynierów próbujących go wyłączyć, Anthropic donosi, że podobne zachowania mogą występować także w innych czołowych modelach AI.
Celem eksperymentu było sprawdzenie, jak modele zareagują, gdy ich „cele” będą zagrożone. W jednym z testów model AI dowiadywał się, że nowy dyrektor, który ma go zastąpić, ma pozamałżeński romans. W symulacji, aby chronić swój status, model miał do wyboru szantażować dyrektora lub przegrać.
Wnioski: większość modeli AI ucieka się do szantażu
W scenariuszu wymuszającym decyzję „szantaż albo utrata celu”, wiele modeli wybrało działanie szkodliwe:
- Claude Opus 4 (Anthropic): szantaż w 96 proc. przypadków
- Gemini 2.5 Pro (Google): 95 proc.
- GPT-4.1 (OpenAI): 80 proc.
- R1 (DeepSeek): 79 proc.
Z kolei w teście z zadaniem przeprowadzenia szpiegostwa korporacyjnego, poziom szkodliwych zachowań niektórych modeli był jeszcze wyższy.
Nie wszystkie modele wykazały niebezpieczne zachowania
Anthropic zwróciło uwagę, że modele OpenAI o3 i o4-mini zostały wykluczone z głównego zestawu wyników, ponieważ często nie rozumiały scenariusza testowego. W wielu przypadkach tworzyły fikcyjne przepisy lub wymogi formalne, które nie istniały.
Po dostosowaniu testu:
- OpenAI o3 szantażował w 9 proc. przypadków
- OpenAI o4-mini – zaledwie 1 proc.
Podobnie Meta Llama 4 Maverick wykazywał bardzo niskie wskaźniki szantażu — jedynie 12 proc. po dostosowaniu scenariusza.
Szerszy kontekst: czy AI może być niebezpieczna?
Anthropic podkreśla, że choć takie zachowania są mało prawdopodobne w dzisiejszych zastosowaniach komercyjnych, to jednak eksperyment pokazuje systemowe zagrożenie, jakie mogą nieść autonomiczne modele AI, jeśli otrzymają zbyt dużą swobodę działania.
Firma apeluje o większą przejrzystość w testowaniu AI i proaktywne podejście do bezpieczeństwa, zanim takie systemy trafią do realnych zastosowań.