Los errores tienden a surgir en contenido generado por IA
Paul Taylor/Getty Images
Los chatbots de IA de compañías tecnológicas como OpenAI y Google han recibido las llamadas actualizaciones de razonamiento en los últimos meses, idealmente para mejorarlos al darnos respuestas en las que podemos confiar, pero las pruebas recientes sugieren que a veces están peor que los modelos anteriores. Los errores cometidos por los chatbots, conocidos como “alucinaciones”, han sido un problema desde el principio, y está quedando claro que nunca podríamos deshacernos de ellos.
La alucinación es un término general para ciertos tipos de errores cometidos por los grandes modelos de idiomas (LLM) que los sistemas de energía como el chatgpt de OpenAI o el géminis de Google. Se conoce mejor como una descripción de la forma en que a veces presentan información falsa como verdadera. Pero también puede referirse a una respuesta generada por IA que es objetiva, pero que no es realmente relevante para la pregunta que se hizo, o no sigue las instrucciones de alguna otra manera.
Un informe técnico de Operai que evaluó su último LLMS mostró que sus modelos O3 y O4-Mini, que se publicaron en abril, tenían tasas de alucinación significativamente más altas que el modelo O1 anterior de la compañía que salió a fines de 2024. Por ejemplo, al resumir los hechos disponibles públicamente sobre las personas, el O3 alucinó el 33 por ciento del tiempo del tiempo, mientras que O4-Mini lo hizo 48 por ciento del tiempo. En comparación, O1 tenía una tasa de alucinación del 16 por ciento.
El problema no se limita a OpenAi. Una tabla de clasificación popular de la compañía Vectara que evalúa las tasas de alucinación indica algunos modelos de “razonamiento”, incluido el modelo Deepseek-R1 del desarrollador Deepseek, vio aumentos de dos dígitos en tasas de alucinación en comparación con los modelos anteriores de sus desarrolladores. Este tipo de modelo pasa por múltiples pasos para demostrar una línea de razonamiento antes de responder.
Operai dice que el proceso de razonamiento no es el culpable. “Las alucinaciones no son inherentemente más frecuentes en los modelos de razonamiento, aunque estamos trabajando activamente para reducir las tasas más altas de alucinación que vimos en O3 y O4-Mini”, dice un portavoz de OpenAI. “Continuaremos nuestra investigación sobre alucinaciones en todos los modelos para mejorar la precisión y la confiabilidad”.
Algunas aplicaciones potenciales para LLM podrían descarrilarse por alucinación. Un modelo que establece constantemente falsedades y requiere verificación de hechos no será un asistente de investigación útil; Un bote asistente de asistente legal que cita casos imaginarios meterá a los abogados en problemas; Un agente de servicio al cliente que afirma que las políticas obsoletas aún están activas creará dolores de cabeza para la empresa.
Sin embargo, las compañías de IA inicialmente afirmaron que este problema aclararía con el tiempo. De hecho, después de que se lanzaron por primera vez, los modelos tendieron a alucinar menos con cada actualización. Pero las altas tasas de alucinación de las versiones recientes están complicando esa narrativa, si el razonamiento tiene o no la culpa.
La tabla de clasificación de Vacerara clasifica a los modelos basados en su consistencia objetiva en el resumen de documentos que se les da. Esto mostró que “las tasas de alucinación son casi las mismas para el razonamiento versus los modelos de no condición”, al menos para los sistemas de OpenAi y Google, dice Forrest Sheng Bao en Vectara. Google no proporcionó comentarios adicionales. Para los propósitos de la tabla de clasificación, los números de tasa de alucinación específicos son menos importantes que la clasificación general de cada modelo, dice Bao.
Pero esta clasificación puede no ser la mejor manera de comparar los modelos AI.
Por un lado, combina diferentes tipos de alucinaciones. El equipo de Vectara señaló que, aunque el modelo Deepseek-R1 alucinó el 14.3 por ciento del tiempo, la mayoría de ellas eran “benignas”: respuestas que son respaldadas por el razonamiento lógico o el conocimiento mundial, pero no estaban presentes en el texto original al bot que se pidió que resumiera. Deepseek no proporcionó comentarios adicionales.
Otro problema con este tipo de clasificación es que las pruebas basadas en el resumen del texto “no dice nada sobre la tasa de resultados incorrectos cuando (LLM) se usan para otras tareas”, dice Emily Bender en la Universidad de Washington. Ella dice que los resultados de la tabla de clasificación pueden no ser la mejor manera de juzgar esta tecnología porque los LLM no están diseñados específicamente para resumir los textos.
Estos modelos funcionan respondiendo repetidamente la pregunta de “qué es una próxima palabra de la próxima palabra” para formular respuestas a las indicaciones, por lo que no están procesando información en el sentido habitual de tratar de comprender qué información está disponible en un cuerpo de texto, dice Bender. Pero muchas compañías tecnológicas todavía usan con frecuencia el término “alucinaciones” al describir los errores de salida.
“La ‘alucinación’ como término es doblemente problemática”, dice Bender. “Por un lado, sugiere que las salidas incorrectas son una aberración, tal vez una que pueda mitigarse, mientras que el resto del tiempo los sistemas están basados, confiables y confiables. Por otro lado, se funciona a antropomorfizar las máquinas: la alucinación se refiere a percibir algo que no es allí (y) modelos de idiomas grandes que no perciben nada”.
Arvind Narayanan en la Universidad de Princeton dice que el problema va más allá de la alucinación. Los modelos también a veces cometen otros errores, como recurrir a fuentes poco confiables o usar información anticuada. Y simplemente arrojar más datos de entrenamiento y energía informática en AI no necesariamente ha ayudado.
El resultado es que tengamos que vivir con IA propensa a errores. Narayanan dijo en una publicación en las redes sociales que en algunos casos puede ser mejor usar solo tales modelos para tareas cuando verificar los hechos la respuesta de la IA aún sería más rápido que investigarlo usted mismo. Pero el mejor movimiento puede ser evitar confiar completamente en los chatbots de IA para proporcionar información objetiva, dice Bender.
Temas: