Nowe ChatGPT kłamią jak najęte. Halucynacje w co drugiej odpowiedzi
Kilka dni temu, o czym pisaliśmy, OpenAI udostępniła nowe modele do wnioskowania – w tym najważniejsze o3 i o4-mini. Lepiej od poprzedników radzą sobie w niektórych obszarach – szczególnie kodowania i matematyki. Teraz okazało się, że niestety dużo częściej od starszych modeli OpenAI zmyślają odpowiedzi. Mają halucynacje w większej wyraźnie liczbie niż poprzednie modele rozumowania firmy — o1, o1-mini i o3-mini — a także tradycyjne, "nierozumujące” modele OpenAI, takie jak GPT-4o.
Współczynnik odpowiedzi udzielanych przez nowe modele z fałszywymi treściami jest niepokojąco wysoki. Firma OpenAI odkryła, że o3 wykazywał halucynacje w odpowiedzi na aż 33 proc. pytań. To wynik osiągnięty w specjalnym narzędziu PersonQA wykorzystywanym przez OpenAI.do pomiaru dokładności wiedzy modelu.
33 proc. odpowiedzi z halucynacjami to mniej więcej dwa razy więcej niż wynosi wskaźnik halucynacji w przypadku poprzednich modeli rozumowania OpenAI – o1 i o3-mini. Te uzyskują tutaj w testach odpowiednio wyniki 16 proc. i 14,8 proc. O4-mini wypadł w teście PersonQA jeszcze gorzej. W jego wypadku halucynacje występowały aż w 48 proc. przypadków.
To, że nowe modele do wnioskowania częściej kłamią zauważyło też laboratorium Transluce, specjalizujące się w badaniach nad sztuczną inteligencją. Jego badacze zauważyli np. jak o3 poinformował użytkownika, że uruchomił kod na MacBooku Pro z 2021 r. "poza ChatGPT”, a następnie skopiował liczby do swojej odpowiedzi. To fikcja, o3 nie może tego zrobić.
Są też informacje o tym, że w kodach aplikacji wygenerowanych przez nowe modele pojawiają się np. odnośniki do nieistniejących stron WWW.
Nikt nie wie, dlaczego się tak dzieje. Transluce w rozmowie z serwisem TechCrunch spekuluje, że wzrost liczby halucynacji nowych modeli należy łączyć z techniką ich uczenia poprzez tzw. wzmacnianie. W niej nie tylko rosną ich możliwości, ale wzmacniane są i ich największe słabości.
Wydaje się więc, że teraz branża AI weszła trochę w ślepą uliczkę. W zeszłym roku skupiła się na rozwoju modeli wnioskowania po tym, jak techniki ulepszania tradycyjnych modeli AI zaczęły wykazywać malejącą skuteczność. Rozumowanie wydawało się, że pozwala zwiększyć wydajność modelu w przypadku wielu zadań, bez konieczności przeprowadzania ogromnych obliczeń i wykorzystywania wielkiej ilości danych podczas treningu. Jednak teraz wydaje się, że modele rozumowania mają również większe halucynacje od standardowych. Jak już wiemy, zaczynają być tak duże, że często przekreślają sensowność korzystania z AI.