Los modelos de lenguaje grande (LLMS) se destacan al usar un razonamiento textual para comprender el contexto de un documento y proporcionar una respuesta lógica sobre su contenido. Pero estos mismos LLM a menudo luchan por responder correctamente incluso los problemas matemáticos más simples.

El razonamiento textual suele ser una forma menos que ideal de deliberar sobre las tareas computacionales o algorítmicas. Si bien algunos LLM pueden generar código como Python para manejar consultas simbólicas, los modelos no siempre saben cuándo usar código o qué tipo de código funcionaría mejor.

Al parecer, LLMS puede necesitar un entrenador para dirigirlos hacia la mejor técnica.

Ingrese CodeSte, un asistente inteligente desarrollado por los investigadores del MIT que guía a un LLM para cambiar entre el código y la generación de texto hasta que responda correctamente una consulta.

CodSteer, en sí mismo un LLM más pequeño, genera automáticamente una serie de indicaciones para dirigir iterativamente un LLM más grande. Revisa las respuestas actuales y anteriores del modelo después de cada ronda y proporciona orientación sobre cómo puede arreglar o refinar esa solución hasta que considere la respuesta es correcta.

Los investigadores descubrieron que aumentar un LLM más grande con CodSteer aumentó su precisión en tareas simbólicas, como multiplicar números, jugar a Sudoku y apilar bloques, en más del 30 por ciento. También permitió que los modelos menos sofisticados superan los modelos más avanzados con habilidades de razonamiento mejoradas.

Este avance podría mejorar las capacidades de resolución de problemas de los LLM para tareas complejas que son especialmente difíciles de resolver solo con el razonamiento textual, como la generación de rutas para robots en entornos inciertos o envíos de programación en una cadena de suministro internacional.

“There is a race to develop better and better models that are capable of doing everything, but we’ve taken a complementary approach. Researchers have spent years developing effective technologies and tools to tackle problems in many domains. We want to enable LLMs to select the right tools and methods, and make use of others’ expertise to enhance their own capabilities,” says Chuchu Fan, an associate professor of aeronautics and astronautics (AeroAstro) and principal investigator in El Laboratorio MIT para Sistemas de Información y Decisión (LIDS).

Fan, el autor principal del estudio, se une en un artículo sobre el trabajo del estudiante graduado de los tapas Yongchao Chen; Estudiante graduado de Aeroastro Yilun Hao; Universidad de Illinois en el estudiante graduado de Urbana-Champaign Yueying Liu; y el científico de investigación de laboratorio MIT-IBM Watson AI Yang Zhang. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Autor.

Un “entrenador” de LLM

Pregúntele a un LLM qué número es más grande, 9.11 o 9.9, y a menudo dará la respuesta incorrecta utilizando un razonamiento textual. Pero pídale que use el código para responder la misma pregunta, y puede generar y ejecutar un script de Python para comparar los dos números, resolviendo fácilmente el problema.

Inicialmente capacitado para comprender y predecir el lenguaje humano, es más probable que responda consultas usando texto, incluso cuando el código sería más efectivo. Y aunque han aprendido a generar código a través del ajuste fino, estos modelos a menudo generan una versión incorrecta o menos eficiente del código.

En lugar de tratar de volver a entrenar un poderoso LLM como GPT-4 o Claude para mejorar estas capacidades, los investigadores del MIT ajustan un LLM más pequeño y liviano para guiar un modelo más grande entre texto y código. Ajustar un modelo más pequeño no cambia el LLM más grande, por lo que no hay riesgo de que socave las otras habilidades del modelo más grande.

“También nos inspiró humanos. En los deportes, un entrenador puede no ser mejor que el atleta estrella en el equipo, pero el entrenador aún puede dar sugerencias útiles para guiar al atleta. Este método de dirección también funciona para LLM”, dice Chen.

Este entrenador, CodeStar, trabaja en conjunto con el LLM más grande. Primero revisa una consulta y determina si el texto o el código son adecuados para este problema, y qué tipo de código sería el mejor.

Luego genera un mensaje para el LLM más grande, diciéndole que use un método de codificación o un razonamiento textual para responder a la consulta. El modelo más grande sigue este mensaje para responder a la consulta y envía el resultado de nuevo a CodeStar, que lo revisa.

Si la respuesta no es correcta, CodSteer continuará solicitando al LLM a probar cosas diferentes que podrían solucionar el problema, como incorporar un algoritmo de búsqueda o restricción en su código Python, hasta que la respuesta sea correcta.

“Descubrimos que a menudo, el LLM más grande intentará ser perezoso y usar un código más corto y menos eficiente que no llevará el cálculo simbólico correcto. Hemos diseñado CodeSteer para evitar este fenómeno”, dice Chen.

Un verificador simbólico evalúa la complejidad del código y envía una señal a CodeStar si es demasiado simple o ineficiente. Los investigadores también incorporan un verificador de su cuenta de autocontrol en CodeStar, lo que solicita al LLM que genere un código que calcule la respuesta para verificar que sea correcta.

Abordar tareas complejas

A medida que los investigadores diseñaron CodSteer, no pudieron encontrar conjuntos de datos simbólicos adecuados para ajustar y probar el modelo, ya que muchos puntos de referencia existentes no señalan si una cierta consulta podría resolverse mejor con texto o código.

Entonces, reunieron un corpus de 37 tareas simbólicas complejas, que incluyen razonamiento espacial, matemáticas, razonamiento de pedidos y optimización, y construyeron su propio conjunto de datos, llamado Symbench. Implementaron un enfoque ajustado que aprovecha a Symbench para maximizar el rendimiento de CodeStar.

En sus experimentos, CodeStar superó los nueve métodos de referencia que evaluaron y aumentó la precisión promedio de 53.3 por ciento a 86.4 por ciento. Mantiene un rendimiento similar incluso en tareas invisibles y en una variedad de LLM.

Además, un modelo de propósito general aumentado con CodeSteer puede lograr una mayor precisión que los modelos de última generación diseñados para centrarse en un razonamiento y planificación complejos, al tiempo que requiere mucho menos cálculo.

“Nuestro método utiliza las capacidades propias de un LLM. Al aumentar un LLM con la capacidad de usar de forma inteligente la codificación, podemos tomar un modelo que ya sea muy fuerte y mejorar su rendimiento aún más”, dice Chen.

En el futuro, los investigadores quieren optimizar a CodeStar para acelerar su proceso de indicación iterativa. Además, están estudiando cómo ajustar eficazmente un modelo unificado con la capacidad de cambiar entre razonamiento textual y generación de código, en lugar de depender de un asistente separado.

“Los autores presentan una solución elegante al desafío crítico de la utilización de la herramienta en LLM. Este método simple pero impactante permite que los LLM de última generación logren mejoras significativas de rendimiento sin requerir un ajuste fino directo”, dice Jinsung Yoon, científico de investigación del personal de Google Cloud AI, que no estuvo involucrado con este trabajo. “Esta investigación representa una contribución sustancial que promete mejorar significativamente la aplicación de LLM a una amplia gama de tareas con las que actualmente luchan”.

“Su éxito en la capacitación de un modelo más pequeño y especializado para guiar estratégicamente modelos más grandes y avanzados es particularmente impactante”, agrega Chi Wang, un científico de personal senior de Google Deepmind que no participó en este trabajo. “Esta colaboración inteligente entre diversos ‘agentes’ de IA allana el camino para aplicaciones más robustas y versátiles en escenarios complejos del mundo real”.

Esta investigación es apoyada, en parte, por la Oficina de Investigación Naval de EE. UU. Y el Laboratorio MIT-IBM Watson AI.

Enlace fuente