Selon lmarena.ai, une version préliminaire de Grok-3 (nom de code “chocolate”) de xAI est désormais classée n°1 sur Arena. Grok-3 a obtenu 96% sur AIME et 85% sur GPQA, surpassant les autres modèles dans des catégories telles que le codage et l’écriture créative. Andrej Karpathy a commenté que Grok-3 semble comparable au modèle o1-pro d’OpenAI, notant que “ce délai pour atteindre un niveau de pointe est sans précédent”.
