Google Gemini wpada w panikę podczas gry w Pokémony
W wyścigu gigantów technologicznych o dominację na rynku sztucznej inteligencji, czasem areną rywalizacji nie są laboratoria badawcze, lecz… wirtualne areny Pokémonów. Zarówno Google DeepMind, jak i Anthropic testują możliwości swoich najnowszych modeli AI w klasycznych grach wideo, a wyniki tych eksperymentów bywają zaskakujące – i często komiczne.
Taka „panika” powoduje zauważalne pogorszenie jakości podejmowanych decyzji, co zdaniem badaczy wpływa na efektywność działania algorytmu. Choć AI nie odczuwa emocji w ludzkim sensie, jej reakcje w grze przypominają zachowania człowieka działającego pod wpływem stresu.
AI w świecie Pokémon – po co to wszystko?
Porównywanie wydajności modeli AI poprzez gry komputerowe to nowy, nieformalny trend w badaniach nad sztuczną inteligencją. Powstały nawet specjalne transmisje na Twitchu – „Gemini Plays Pokémon” oraz „Claude Plays Pokémon” – w których widzowie mogą obserwować, jak modele AI próbują przejść jedną z najpopularniejszych gier dzieciństwa.
Streamy pokazują nie tylko rozgrywkę, ale też proces „rozumowania” modeli w czasie rzeczywistym – czyli przetłumaczoną na język naturalny sekwencję ocen i decyzji, jakie podejmuje algorytm. Choć całość może przypominać zabawną ciekawostkę, to dla badaczy jest to również okno do zrozumienia mechanizmów działania AI.
Panika i irracjonalność – AI jak człowiek?
Jak wynika z raportu Google, Gemini 2.5 Pro potrafi nagle przestać korzystać z pewnych dostępnych narzędzi w grze – jakby „zapominał”, że ma je do dyspozycji. Członkowie społeczności Twitch zauważyli, że takie sytuacje zdarzają się regularnie i mają negatywny wpływ na przebieg rozgrywki.
Z kolei Claude, model od Anthropic, wykazał inne nietypowe zachowanie. W trakcie utknięcia w jaskini Mt. Moon, AI wysnuł błędne wnioski, że jeśli celowo pozwoli wszystkim swoim Pokémonom zemdleć, gra przeniesie go do następnego miasta. Tak się jednak nie stało – AI powrócił do ostatniego odwiedzonego Pokémon Center, co pokazało ograniczenia jego rozumienia mechaniki gry.
AI kontra ludzie – kto rozwiązuje zagadki lepiej?
Mimo opisanych „ludzkich” słabości, modele AI potrafią też zaskakiwać skutecznością. Gemini 2.5 Pro wykazał się wyjątkową skutecznością w rozwiązywaniu złożonych zagadek logicznych, jak przesuwanie głazów w końcowych etapach gry (Victory Road). Na podstawie samego opisu fizyki głazów oraz sposobu weryfikacji poprawnej ścieżki, AI potrafił rozwiązać problem „za pierwszym podejściem” – coś, co wielu graczom zajmowało znacznie więcej czasu.
Co ciekawe, wiele narzędzi pomocniczych – tzw. agentów – Gemini stworzył samodzielnie, co według badaczy Google może sugerować zdolność modeli AI do dalszej autonomicznej ewolucji. Kto wie – może w przyszłości Gemini stworzy dla siebie własny moduł anty-paniki?