Noticias sobre #alucinaciones

Los modelos o3 y o4-mini de OpenAI, a pesar de ser punteros en muchos aspectos, presentan un aumento significativo en el índice de alucinaciones comparado con versiones anteriores. Según pruebas internas, o3 alucina en el 33% de las preguntas sobre PersonQA (el benchmark interno de la compañía que mide la precisión del conocimiento de un modelo sobre personas), aproximadamente el doble que los modelos o1 y o3-mini.

OpenAI reconoce en su informe técnico que "se necesita más investigación" para entender por qué las alucinaciones empeoran al escalar los modelos de razonamiento. Aunque estos modelos destacan en programación y matemáticas, su tendencia a generar más afirmaciones los lleva también a producir más información inexacta.

Un chatbot de soporte de Cursor inventó una política inexistente que limitaba el servicio a "un dispositivo por suscripción", provocando que usuarios amenazaran con cancelar sus suscripciones. El co-fundador de la empresa reconoció que algo "claramente salió mal" y confirmó que ahora las respuestas de IA para soporte técnico están "claramente etiquetadas como tales".

Este incidente resalta el peligro de la "alucinación" en agentes de IA cuando operan sin supervisión humana, especialmente en roles de atención al cliente donde sus respuestas son consideradas oficiales. Es un recordatorio de que incluso herramientas diseñadas para potenciar la productividad de desarrolladores pueden generar fricción cuando la IA opera sin los controles adecuados.

Cómo ocurrió Todo comenzó cuando un usuario de Reddit notó que sus sesiones de Cursor se cerraban inesperadamente al cambiar entre dispositivos. Al contactar al soporte, recibió una respuesta de "Sam" afirmando que "Cursor está diseñado para funcionar con un dispositivo por suscripción como medida de seguridad". La respuesta parecía oficial y el usuario no sospechó que estaba interactuando con una IA.

La publicación en Reddit desató confusión entre usuarios que tomaron como cierto este cambio de política. Tres horas después, un representante real de Cursor aclaró: "No tenemos tal política. Desafortunadamente, esta es una respuesta incorrecta de un bot de soporte con IA".

La ironía no pasó desapercibida: una empresa que vende herramientas de productividad con IA para desarrolladores fue perjudicada por las alucinaciones de su propio sistema de soporte, justo cuando muchos afirman que los problemas de alucinación ya no son tan graves.

Noticias de IA #alucinaciones

Etiquetas populares:

sábado, 19 de abril de 2025

Los nuevos modelos de razonamiento de OpenAI alucinan más que sus predecesores

viernes, 18 de abril de 2025

Cursor: El AI Agent imaginativo y sus políticas ficticias