OpenAI zegt dat o3 meer hallucineert dan het o1-taalmodel. De AI-onderzoeksorganisatie zegt ook dat o4-mini minder nauwkeurig is dan o1. OpenAI schrijft dat er meer onderzoek nodig is om de oorzaken te achterhalen.
OpenAI heeft o3 en o4-mini naar eigen zeggen op nauwkeurigheid en hallucinaties getest via PersonQA. Dat is een evaluatietool met vragen en openbaar beschikbare feiten die niet enkel hallucinaties bij taalmodellen kan uitlokken, maar ook nagaat hoe nauwkeurig de antwoorden van de taalmodellen zijn.