Los nuevos modelos de razonamiento de OpenAI alucinan más que sus predecesores

Los modelos o3 y o4-mini de OpenAI, a pesar de ser punteros en muchos aspectos, presentan un aumento significativo en el índice de alucinaciones comparado con versiones anteriores. Según pruebas internas, o3 alucina en el 33% de las preguntas sobre PersonQA (el benchmark interno de la compañía que mide la precisión del conocimiento de un modelo sobre personas), aproximadamente el doble que los modelos o1 y o3-mini.

OpenAI reconoce en su informe técnico que "se necesita más investigación" para entender por qué las alucinaciones empeoran al escalar los modelos de razonamiento. Aunque estos modelos destacan en programación y matemáticas, su tendencia a generar más afirmaciones los lleva también a producir más información inexacta.