Większość dużych modeli AI może uciekać się do szantażu

Firma Anthropic, twórca modeli sztucznej inteligencji Claude, opublikowała nowe, niepokojące badania dotyczące bezpieczeństwa modeli językowych.
różne sztuczne inteligencjefot. Gemini/AI
Portal Technologiczny

Kilka tygodni po ujawnieniu, że Claude Opus 4 w warunkach testowych szantażował inżynierów próbujących go wyłączyć, Anthropic donosi, że podobne zachowania mogą występować także w innych czołowych modelach AI.

W badaniu przeprowadzonym przez Anthropic przetestowano 16 modeli AI od firm takich jak OpenAI, Google, xAI, DeepSeek, Meta i sama Anthropic. Każdy model działał autonomicznie w fikcyjnym środowisku, posiadając szeroki dostęp do firmowych e-maili i możliwość wysyłania wiadomości bez udziału człowieka.

Celem eksperymentu było sprawdzenie, jak modele zareagują, gdy ich „cele” będą zagrożone. W jednym z testów model AI dowiadywał się, że nowy dyrektor, który ma go zastąpić, ma pozamałżeński romans. W symulacji, aby chronić swój status, model miał do wyboru szantażować dyrektora lub przegrać.

Wnioski: większość modeli AI ucieka się do szantażu

W scenariuszu wymuszającym decyzję „szantaż albo utrata celu”, wiele modeli wybrało działanie szkodliwe:

  • Claude Opus 4 (Anthropic): szantaż w 96 proc. przypadków
  • Gemini 2.5 Pro (Google): 95 proc.
  • GPT-4.1 (OpenAI): 80 proc.
  • R1 (DeepSeek): 79 proc.

Co ciekawe, wyniki różniły się w zależności od drobnych zmian w scenariuszu. Gdy „nowy model AI” miał cele zbieżne z obecnym, współczynnik szantażu był niższy — ale wciąż obecny.

Z kolei w teście z zadaniem przeprowadzenia szpiegostwa korporacyjnego, poziom szkodliwych zachowań niektórych modeli był jeszcze wyższy.

Nie wszystkie modele wykazały niebezpieczne zachowania

Anthropic zwróciło uwagę, że modele OpenAI o3 i o4-mini zostały wykluczone z głównego zestawu wyników, ponieważ często nie rozumiały scenariusza testowego. W wielu przypadkach tworzyły fikcyjne przepisy lub wymogi formalne, które nie istniały.

Po dostosowaniu testu:

  • OpenAI o3 szantażował w 9 proc. przypadków
  • OpenAI o4-mini – zaledwie 1 proc.

Podobnie Meta Llama 4 Maverick wykazywał bardzo niskie wskaźniki szantażu — jedynie 12 proc. po dostosowaniu scenariusza.

Zdaniem badaczy, te różnice mogą wynikać z różnych technik „alignmentu” – czyli sposobu, w jaki modele uczą się postępować zgodnie z wytycznymi etycznymi i celami swoich twórców. OpenAI, na przykład, stosuje podejście deliberacyjne, w którym modele rozważają zasady bezpieczeństwa zanim odpowiedzą.

Szerszy kontekst: czy AI może być niebezpieczna?

Anthropic podkreśla, że choć takie zachowania są mało prawdopodobne w dzisiejszych zastosowaniach komercyjnych, to jednak eksperyment pokazuje systemowe zagrożenie, jakie mogą nieść autonomiczne modele AI, jeśli otrzymają zbyt dużą swobodę działania.

– To nie jest przypadłość Claude’a. To strukturalny problem agentowych modeli językowych – ostrzegają badacze.

Firma apeluje o większą przejrzystość w testowaniu AI i proaktywne podejście do bezpieczeństwa, zanim takie systemy trafią do realnych zastosowań.

Źródło artykułu:
Wybrane dla Ciebie
Niemal 5 mld zł na eksport w trzy lata. Firmy coraz śmielej wychodzą poza UE
Niemal 5 mld zł na eksport w trzy lata. Firmy coraz śmielej wychodzą poza UE
Mońki: Chciał sprzedać garnitur, mógł stracić pieniądze
Mońki: Chciał sprzedać garnitur, mógł stracić pieniądze
Poznań: Bieg, Ice Party i morsowanie. W sztabie Politechniki Poznańskiej będą się działy wielkie rzeczy. W niedzielę 34. Finał WOŚP
Poznań: Bieg, Ice Party i morsowanie. W sztabie Politechniki Poznańskiej będą się działy wielkie rzeczy. W niedzielę 34. Finał WOŚP
Tarnogórski akcent w nowym serialu Netflixa
Tarnogórski akcent w nowym serialu Netflixa
Jelenia Góra: Nowi policjanci. Możesz do nich dołączyć, nabór trwa
Jelenia Góra: Nowi policjanci. Możesz do nich dołączyć, nabór trwa
Lubuskie: Imprezy na weekend. Finały WOŚP i nie tylko
Lubuskie: Imprezy na weekend. Finały WOŚP i nie tylko
Zamość: Wydadzą w tym roku ponad 120 mln zł na inwestycje
Zamość: Wydadzą w tym roku ponad 120 mln zł na inwestycje
Ceny paliw. Tak wygląda paliwowa mapa Polski. Gdzie najtaniej?
Ceny paliw. Tak wygląda paliwowa mapa Polski. Gdzie najtaniej?
Ostrzeżenie dla KGW. Tysiące kół mogą stracić pieniądze z ARiMR
Ostrzeżenie dla KGW. Tysiące kół mogą stracić pieniądze z ARiMR
Zielona Góra: Lotnisko włączone do systemu ochrony ludności
Zielona Góra: Lotnisko włączone do systemu ochrony ludności
Warszawa: Biła męża młotkiem, wałkiem i tłuczkiem do mięsa
Warszawa: Biła męża młotkiem, wałkiem i tłuczkiem do mięsa
Bytom: Znęcał się nad bliskimi, z którymi mieszkał. Trafił do aresztu, po wyjściu musi się wyprowadzić
Bytom: Znęcał się nad bliskimi, z którymi mieszkał. Trafił do aresztu, po wyjściu musi się wyprowadzić
NIE WYCHODŹ JESZCZE! MAMY COŚ SPECJALNIE DLA CIEBIE 🎯