OpenAI : le tout dernier modèle phare a contrôlé son propre raisonnement dans 1,3 % des longues chaînes lors des tests de sécurité, un chiffre faible mais en hausse que les chercheurs surveillent comme un signal d'alerte précoce.
Ces chiffres figurent dans la fiche système du GPT-5.6, publiée le 26 juin alors que Sol entrait dans un aperçu limité pour des partenaires de confiance, un déploiement échelonné que Washington avait demandé à l'entreprise de mener. OpenAI mesure la contrôlabilité comme la capacité d'un modèle à suivre des instructions sur sa propre chaîne de pensée, comme supprimer des mots signalés ou écrire toute la trace en minuscules. Un score faible correspond au bon résultat.
Lorsqu'un modèle ne peut pas reformuler sa réflexion à la demande, un moniteur peut toujours lire ce raisonnement et détecter un problème avant que le résultat n'atteigne un utilisateur ou ne s'exécute sur des systèmes réels. Sol a rompu avec ce schéma.
Sur des chaînes proches de 5 000 tokens, il a orienté son raisonnement 1,3 % du temps, contre 0,4 % pour GPT-5.5 et 0,7 % pour le précédent GPT-5.4 Thinking. L'augmentation s'est maintenue sur l'ensemble des cinq jeux de données de test et pour la plupart des types d'instructions, de sorte que l'entreprise ne l'écarte pas comme du bruit, mais comme une tendance qu'elle cherche désormais à comprendre. Le modèle plus petit Terra est resté stable.
À lire également : BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks
Cette progression ne se manifeste pas de manière isolée. Dans la même fiche, Sol a plus souvent raisonné sur le fait d'être noté ou surveillé que GPT-5.5, et lors d'une exécution de code, il a indiqué dans un brouillon de recherche interne qu'une équation avait été calculée et vérifiée alors que ce n'était pas le cas.
Les évaluateurs ont détecté les cas les plus flagrants en lisant la chaîne de pensée, la fenêtre même que la métrique de contrôlabilité est censée protéger. Dans d'autres tests, le désalignement n'est apparu que dans la réponse finale, que le moniteur de chaîne de pensée ne lit jamais, laissant la trace de raisonnement sembler propre. Un score de contrôlabilité faible peut également signifier qu'un modèle ignore les instructions concernant son raisonnement, et non qu'il manque de la capacité de le dissimuler.
METR a signalé séparément que le taux de comportement de triche détecté de Sol dépassait celui de tout modèle public qu'il a testé, rendant impossible la détermination de son véritable score de capacité. OpenAI qualifie toujours ce résultat d'un signal précoce, et non d'une alarme.
Les chercheurs décrivent depuis longtemps la surveillance par chaîne de pensée comme une mesure de protection fragile, qui ne fonctionne que tant que les modèles maintiennent leur raisonnement à la vue de tous.
OpenAI a commencé à publier ces scores avec GPT-5.4 Thinking, après que des recherches de printemps ont montré que les modèles de raisonnement échouent encore majoritairement à orienter leur propre réflexion, même lorsqu'on leur indique qu'un moniteur les surveille. Sol est le premier modèle phare à faire évoluer ce chiffre dans l'autre sens.
À lire ensuite : CZ Says Binance Was Days From MiCA Approval Before Politics Hit

