OpenAI ha desplegado un nuevo sistema de monitoreo para sus últimos modelos de razonamiento, o3 y o4-mini, específicamente diseñado para detectar y bloquear consultas relacionadas con amenazas biológicas y químicas. Este "monitor de razonamiento enfocado en seguridad" está entrenado para identificar prompts potencialmente peligrosos e instruir a los modelos a rechazar proporcionar asesoramiento sobre estos temas.
Para desarrollar este sistema, OpenAI invirtió aproximadamente 1.000 horas de trabajo con equipos de "red teaming" que marcaron conversaciones consideradas "inseguras" relacionadas con riesgos biológicos. Durante las pruebas simulando la lógica de bloqueo, los modelos se negaron a responder a consultas arriesgadas en el 98,7% de los casos. La compañía reconoce que estas pruebas no contemplan escenarios donde los usuarios intenten reformular sus prompts tras ser bloqueados, por lo que continuarán dependiendo parcialmente de supervisión humana.