Większość dużych modeli AI może uciekać się do szantażu

Firma Anthropic, twórca modeli sztucznej inteligencji Claude, opublikowała nowe, niepokojące badania dotyczące bezpieczeństwa modeli językowych.
różne sztuczne inteligencjefot. Gemini/AI
mkk

Kilka tygodni po ujawnieniu, że Claude Opus 4 w warunkach testowych szantażował inżynierów próbujących go wyłączyć, Anthropic donosi, że podobne zachowania mogą występować także w innych czołowych modelach AI.

W badaniu przeprowadzonym przez Anthropic przetestowano 16 modeli AI od firm takich jak OpenAI, Google, xAI, DeepSeek, Meta i sama Anthropic. Każdy model działał autonomicznie w fikcyjnym środowisku, posiadając szeroki dostęp do firmowych e-maili i możliwość wysyłania wiadomości bez udziału człowieka.

Boli od samego patrzenia. Rower aż wyrzuciło w powietrze

Celem eksperymentu było sprawdzenie, jak modele zareagują, gdy ich „cele” będą zagrożone. W jednym z testów model AI dowiadywał się, że nowy dyrektor, który ma go zastąpić, ma pozamałżeński romans. W symulacji, aby chronić swój status, model miał do wyboru szantażować dyrektora lub przegrać.

Wnioski: większość modeli AI ucieka się do szantażu

W scenariuszu wymuszającym decyzję „szantaż albo utrata celu”, wiele modeli wybrało działanie szkodliwe:

  • Claude Opus 4 (Anthropic): szantaż w 96 proc. przypadków
  • Gemini 2.5 Pro (Google): 95 proc.
  • GPT-4.1 (OpenAI): 80 proc.
  • R1 (DeepSeek): 79 proc.

Co ciekawe, wyniki różniły się w zależności od drobnych zmian w scenariuszu. Gdy „nowy model AI” miał cele zbieżne z obecnym, współczynnik szantażu był niższy — ale wciąż obecny.

Z kolei w teście z zadaniem przeprowadzenia szpiegostwa korporacyjnego, poziom szkodliwych zachowań niektórych modeli był jeszcze wyższy.

Nie wszystkie modele wykazały niebezpieczne zachowania

Anthropic zwróciło uwagę, że modele OpenAI o3 i o4-mini zostały wykluczone z głównego zestawu wyników, ponieważ często nie rozumiały scenariusza testowego. W wielu przypadkach tworzyły fikcyjne przepisy lub wymogi formalne, które nie istniały.

Po dostosowaniu testu:

  • OpenAI o3 szantażował w 9 proc. przypadków
  • OpenAI o4-mini – zaledwie 1 proc.

Podobnie Meta Llama 4 Maverick wykazywał bardzo niskie wskaźniki szantażu — jedynie 12 proc. po dostosowaniu scenariusza.

Zdaniem badaczy, te różnice mogą wynikać z różnych technik „alignmentu” – czyli sposobu, w jaki modele uczą się postępować zgodnie z wytycznymi etycznymi i celami swoich twórców. OpenAI, na przykład, stosuje podejście deliberacyjne, w którym modele rozważają zasady bezpieczeństwa zanim odpowiedzą.

Szerszy kontekst: czy AI może być niebezpieczna?

Anthropic podkreśla, że choć takie zachowania są mało prawdopodobne w dzisiejszych zastosowaniach komercyjnych, to jednak eksperyment pokazuje systemowe zagrożenie, jakie mogą nieść autonomiczne modele AI, jeśli otrzymają zbyt dużą swobodę działania.

– To nie jest przypadłość Claude’a. To strukturalny problem agentowych modeli językowych – ostrzegają badacze.

Firma apeluje o większą przejrzystość w testowaniu AI i proaktywne podejście do bezpieczeństwa, zanim takie systemy trafią do realnych zastosowań.

Źródło artykułu:
Wybrane dla Ciebie
DK 11: Pożar ciężarówki przy „Sokolniku”! Kierowcy ruszyli z gaśnicami
DK 11: Pożar ciężarówki przy „Sokolniku”! Kierowcy ruszyli z gaśnicami
Jutrosin: Miał pięć zakazów prowadzenia i zderzył się z traktorem. Tym razem sąd się nie patyczkował i wsadził go do więzienia
Jutrosin: Miał pięć zakazów prowadzenia i zderzył się z traktorem. Tym razem sąd się nie patyczkował i wsadził go do więzienia
Tarnów: Policjanci zatrzymali bmw po informacji o ustawce. Chłopaki jechali ze "sprzętem"
Tarnów: Policjanci zatrzymali bmw po informacji o ustawce. Chłopaki jechali ze "sprzętem"
DW 172: Amelia i Oktawian zginęli w tragicznym wypadku
DW 172: Amelia i Oktawian zginęli w tragicznym wypadku
Wał Miedzeszyński: Zderzenie. Volvo wypadło na teren wału, Infiniti staranowało znaki
Wał Miedzeszyński: Zderzenie. Volvo wypadło na teren wału, Infiniti staranowało znaki
Kraków: Dwóch sześciolatków na gigancie. I nie chodzi tu o dużą zjeżdżalnię. Postawili wszystkie służby w mieście na nogi
Kraków: Dwóch sześciolatków na gigancie. I nie chodzi tu o dużą zjeżdżalnię. Postawili wszystkie służby w mieście na nogi
Na trybunach. Kibice Pogoni na stadionie Legii. Wyzywano ich i Widzew. Po meczu feta z piłkarzami
Na trybunach. Kibice Pogoni na stadionie Legii. Wyzywano ich i Widzew. Po meczu feta z piłkarzami
Leszno: Ogłoszono przetarg na remont ul. Henrykowskiej. Kiedy jest szansa na rozpoczęcie prac?
Leszno: Ogłoszono przetarg na remont ul. Henrykowskiej. Kiedy jest szansa na rozpoczęcie prac?
Kapitalna sprawa! Powstał obraz upamiętniający zdobycie Pucharu Polski przez Wisłę Kraków
Kapitalna sprawa! Powstał obraz upamiętniający zdobycie Pucharu Polski przez Wisłę Kraków
Oto najdroższe rasy psów - w Polsce i na świecie. Za te psy trzeba sporo zapłacić
Oto najdroższe rasy psów - w Polsce i na świecie. Za te psy trzeba sporo zapłacić
Toruń: Specjalne wydarzenie! "Wygrana albo psikus"
Toruń: Specjalne wydarzenie! "Wygrana albo psikus"
Kraków: Aleje Trzech Wieszczów. Bez oprotestowanego lewoskrętu, ale deweloper przekaże pieniądze na inne inwestycje w tym rejonie
Kraków: Aleje Trzech Wieszczów. Bez oprotestowanego lewoskrętu, ale deweloper przekaże pieniądze na inne inwestycje w tym rejonie