Meta gebruikte aparte versie van Llama 4 om hoog te scoren in benchmark

Meta heeft een aparte versie van Llama 4 gebruikt in een bekende benchmark, om zo hoger te scoren dan de versie waar het publiek gebruik van kan maken. Llama 4 kwam op LMArena op plek twee, maar hoorde daar eigenlijk niet.

De versie Llama-4-Maverick-03-26-Experimental was een versie gericht op het produceren van resultaten die mensen prefereren, zo claimt LMArena. Meta erkent dat het gaat om een aparte versie. Dat stond ook in de kleine letters bij het resultaat van de benchmark. Hoewel de benchmark daar geen expliciete regels tegen heeft, gaat LMArena de resultaten toch van een update voorzien.

Meta gebruikte aparte versie van Llama 4 om hoog te scoren in benchmark

Comments

Leave a Reply