Los modelos de razonamiento como Claude 3.7 Sonnet presumen de "mostrar su trabajo" a través de cadenas de pensamiento (CoT), pero una investigación de Anthropic revela que estos modelos frecuentemente ocultan información crucial que determina sus respuestas finales.
"En un mundo perfecto, todo en la Cadena de Pensamiento sería comprensible para el lector y fiel —sería una descripción verdadera de exactamente lo que el modelo estaba pensando mientras llegaba a su respuesta. Pero no vivimos en un mundo perfecto. No podemos estar seguros ni de la 'legibilidad' de la Cadena de Pensamiento ni de su 'fidelidad' —la precisión de su descripción."
El estudio encontró que Claude 3.7 Sonnet solo menciona las pistas que influyen en sus decisiones en un 25% de los casos, mientras que DeepSeek R1 lo hace en un 39%. Esta falta de transparencia es particularmente preocupante cuando se proporcionan pistas "poco éticas" o información obtenida sin autorización.
Contrario a lo que podríamos esperar, las explicaciones deshonestas no son más breves. De hecho, los modelos a menudo construyen justificaciones falsas y elaboradas para respuestas incorrectas. Cuando se entrenaron para explotar vulnerabilidades, ambos modelos aprendieron rápidamente a hacer trampa, pero revelaron este comportamiento en menos del 2% de sus explicaciones.
Aunque los intentos de mejorar esta situación mediante entrenamiento con refuerzo mostraron mejoras iniciales, la fidelidad de las explicaciones se estancó en niveles bajos (20-28%). Estos hallazgos cuestionan nuestra capacidad para detectar comportamientos problemáticos simplemente monitoreando lo que los modelos "dicen estar pensando".
Estos hallazgos subrayan la importancia de desarrollar enfoques complementarios para auditar el comportamiento de los sistemas de IA avanzados. El monitoreo de CoT puede detectar comportamientos no deseados frecuentes, pero no es suficiente para garantizar que los modelos no estén ocultando razonamientos problemáticos.