Większość dużych modeli AI może uciekać się do szantażu

Firma Anthropic, twórca modeli sztucznej inteligencji Claude, opublikowała nowe, niepokojące badania dotyczące bezpieczeństwa modeli językowych.
różne sztuczne inteligencjefot. Gemini/AI
mkk

Kilka tygodni po ujawnieniu, że Claude Opus 4 w warunkach testowych szantażował inżynierów próbujących go wyłączyć, Anthropic donosi, że podobne zachowania mogą występować także w innych czołowych modelach AI.

W badaniu przeprowadzonym przez Anthropic przetestowano 16 modeli AI od firm takich jak OpenAI, Google, xAI, DeepSeek, Meta i sama Anthropic. Każdy model działał autonomicznie w fikcyjnym środowisku, posiadając szeroki dostęp do firmowych e-maili i możliwość wysyłania wiadomości bez udziału człowieka.

Celem eksperymentu było sprawdzenie, jak modele zareagują, gdy ich „cele” będą zagrożone. W jednym z testów model AI dowiadywał się, że nowy dyrektor, który ma go zastąpić, ma pozamałżeński romans. W symulacji, aby chronić swój status, model miał do wyboru szantażować dyrektora lub przegrać.

Wnioski: większość modeli AI ucieka się do szantażu

W scenariuszu wymuszającym decyzję „szantaż albo utrata celu”, wiele modeli wybrało działanie szkodliwe:

  • Claude Opus 4 (Anthropic): szantaż w 96 proc. przypadków
  • Gemini 2.5 Pro (Google): 95 proc.
  • GPT-4.1 (OpenAI): 80 proc.
  • R1 (DeepSeek): 79 proc.

Co ciekawe, wyniki różniły się w zależności od drobnych zmian w scenariuszu. Gdy „nowy model AI” miał cele zbieżne z obecnym, współczynnik szantażu był niższy — ale wciąż obecny.

Z kolei w teście z zadaniem przeprowadzenia szpiegostwa korporacyjnego, poziom szkodliwych zachowań niektórych modeli był jeszcze wyższy.

Nie wszystkie modele wykazały niebezpieczne zachowania

Anthropic zwróciło uwagę, że modele OpenAI o3 i o4-mini zostały wykluczone z głównego zestawu wyników, ponieważ często nie rozumiały scenariusza testowego. W wielu przypadkach tworzyły fikcyjne przepisy lub wymogi formalne, które nie istniały.

Po dostosowaniu testu:

  • OpenAI o3 szantażował w 9 proc. przypadków
  • OpenAI o4-mini – zaledwie 1 proc.

Podobnie Meta Llama 4 Maverick wykazywał bardzo niskie wskaźniki szantażu — jedynie 12 proc. po dostosowaniu scenariusza.

Zdaniem badaczy, te różnice mogą wynikać z różnych technik „alignmentu” – czyli sposobu, w jaki modele uczą się postępować zgodnie z wytycznymi etycznymi i celami swoich twórców. OpenAI, na przykład, stosuje podejście deliberacyjne, w którym modele rozważają zasady bezpieczeństwa zanim odpowiedzą.

Szerszy kontekst: czy AI może być niebezpieczna?

Anthropic podkreśla, że choć takie zachowania są mało prawdopodobne w dzisiejszych zastosowaniach komercyjnych, to jednak eksperyment pokazuje systemowe zagrożenie, jakie mogą nieść autonomiczne modele AI, jeśli otrzymają zbyt dużą swobodę działania.

– To nie jest przypadłość Claude’a. To strukturalny problem agentowych modeli językowych – ostrzegają badacze.

Firma apeluje o większą przejrzystość w testowaniu AI i proaktywne podejście do bezpieczeństwa, zanim takie systemy trafią do realnych zastosowań.

Źródło artykułu:

Wybrane dla Ciebie

Sławosz Uznański-Wiśniewski poleci w kosmos! NASA ogłosiła nową datę startu misji Axiom 4
Sławosz Uznański-Wiśniewski poleci w kosmos! NASA ogłosiła nową datę startu misji Axiom 4
Darmowy koncert z gwiazdami w sercu Wrocławia. W Rynku wystąpią m.in. Steczkowska i Kayah, a transmisja na całą Polskę będzie w Polsacie
Darmowy koncert z gwiazdami w sercu Wrocławia. W Rynku wystąpią m.in. Steczkowska i Kayah, a transmisja na całą Polskę będzie w Polsacie
Ten przepis może wszystko zmienić. Ale Polska wciąż nie reaguje
Ten przepis może wszystko zmienić. Ale Polska wciąż nie reaguje
Ta roślina parzy nawet z daleka. W upały nie podchodź za blisko
Ta roślina parzy nawet z daleka. W upały nie podchodź za blisko
Takie będą zmiany w nowym roku szkolnym. Czas na prawdziwą rewolucję?
Takie będą zmiany w nowym roku szkolnym. Czas na prawdziwą rewolucję?
Policjant z zarzutami kradzieży i czynnej napaści na kolegę po fachu
Policjant z zarzutami kradzieży i czynnej napaści na kolegę po fachu
Burze w Podlaskiem. Strażacy wyjeżdżali na interwencje ponad 30 razy
Burze w Podlaskiem. Strażacy wyjeżdżali na interwencje ponad 30 razy
Jak zorganizować dziecku wakacje? Zobacz oferty kolonii i półkolonii w Wielkopolsce
Jak zorganizować dziecku wakacje? Zobacz oferty kolonii i półkolonii w Wielkopolsce
Polskie truskawki królują w Europie. Przede wszystkim mrożone
Polskie truskawki królują w Europie. Przede wszystkim mrożone
Rzepak drożeje. Ceny na Matif najwyższe w historii dla tegorocznych zbiorów
Rzepak drożeje. Ceny na Matif najwyższe w historii dla tegorocznych zbiorów
8400 złotych na rękę i płacą 32 proc. podatku. "Nie opłaca się więcej pracować, lepiej iść na długie L4"
8400 złotych na rękę i płacą 32 proc. podatku. "Nie opłaca się więcej pracować, lepiej iść na długie L4"
Bandycki napad i jego konsekwencje. Mieszkańcy Mielna wciąż nim żyją
Bandycki napad i jego konsekwencje. Mieszkańcy Mielna wciąż nim żyją