En collaboration avec Apollo Research, OpenAI a évalué la tendance des modèles d’IA à poursuivre secrètement des objectifs, ainsi que des mesures pour atténuer ce risque.
OpenAI a entraîné ses IA à ne pas tromper l’utilisateur, mais elles ont juste appris à ne pas le faire quand elles sont évaluées
