¿Están a punto de ser más inteligentes que los humanos?

Chan2545/Istockphoto/Getty Images

Si lleva a los líderes de las compañías de inteligencia artificial en su palabra, sus productos significan que la próxima década será muy diferente a cualquiera en la historia humana: una era dorada de “abundancia radical”, donde la física de alta energía está “resuelta” y vemos el comienzo de la colonización espacial. Pero los investigadores que trabajan con los sistemas de IA más poderosos de hoy están encontrando una realidad diferente, en la que incluso los mejores modelos no están resolviendo rompecabezas básicos que la mayoría de los humanos encuentran trivial, mientras que la promesa de IA que puede “razón” parece ser exagerada. Entonces, ¿a quién deberías creer?

Sam Altman y Demis Hassabis, los CEO de Openai y Google Deepmind, respectivamente, han hecho afirmaciones recientes de que los poderosos sistemas de IA que alteran el mundo están a la vuelta de la esquina. En una publicación de blog, Altman escribe que “las 2030 probablemente serán muy diferentes de cualquier momento que haya llegado antes”, especulando que podríamos ir “de un gran avance de la ciencia de los materiales un año hasta la verdadera computadora de cerebro de alto nivel interfaces el próximo año”.

Hassabis, en una entrevista con Cableadotambién dijo que en la década de 2030, la inteligencia general artificial (AGI) comenzará a resolver problemas como “curar enfermedades terribles”, lo que lleva a “una vida útil mucho más saludable y más larga”, así como para encontrar nuevas fuentes de energía. “Si todo sucede”, dijo Hassabis en la entrevista, “entonces debería ser una era de máximo florecimiento humano, donde viajamos a las estrellas y colonizamos la galaxia”.

Esta visión se basa en gran medida en la suposición de que los modelos de lenguaje grande (LLMS) como ChatGPT obtienen más capaces de los datos de entrenamiento y la potencia de la computadora que les lanzamos. Esta “ley de escala” parece haberse mantenido cierto durante los últimos años, pero ha habido pistas vacilantes. Por ejemplo, el reciente modelo GPT-4.5 de OpenAI, que probablemente costó cientos de millones de dólares para entrenar, logró solo mejoras modestas sobre su predecesor GPT-4. Y ese costo no es nada en comparación con el gasto futuro, con informes que sugieren que Meta está a punto de anunciar una inversión de $ 15 mil millones en un intento por lograr la “superinteligencia”.

Sin embargo, el dinero no es el único intento de solución a este problema: las empresas de IA también han recurrido a modelos de “razonamiento”, como Openi’s O1, que se lanzó el año pasado. Estos modelos usan más tiempo de computación y, por lo tanto, tardan más en producir una respuesta, alimentando sus propias salidas en sí mismos. Este proceso iterativo ha sido etiquetado como “cadena de pensamiento”, en un esfuerzo por hacer comparaciones con la forma en que una persona podría pensar en los problemas paso a paso. “Hubo razones legítimas para preocuparse por las mesas de AI”, dijo Noam Brown en OpenAi Nuevo científico El año pasado, pero O1 y modelos como iguales significaban que la “ley de escala” podría continuar, argumentó.

Sin embargo, investigaciones recientes han encontrado que estos modelos de razonamiento pueden tropezar incluso en rompecabezas lógicos simples. Por ejemplo, los investigadores de Apple probaron los modelos de razonamiento de la compañía de IA China Deepseek y los modelos de pensamiento Claude de Anthrope, que funcionan como la familia O1 de Modelos Openi. Los investigadores descubrieron que tienen “limitaciones en el cálculo exacto: no pueden usar algoritmos explícitos y razones de manera inconsistente en todos los rompecabezas”, escribieron los investigadores.

El equipo probó la IA en varios rompecabezas, como un escenario en el que una persona tiene que transportar artículos a través de un río en la menor cantidad de escalones, y Tower of Hanoi, un juego donde debes mover anillos uno por uno entre tres polos sin colocar un anillo más grande encima de uno más pequeño. Aunque los modelos podrían resolver los rompecabezas en su entorno más fácil, lucharon por aumentar la cantidad de anillos o artículos para transportar. Si bien pasaríamos más tiempo pensando en un problema más complejo, los investigadores descubrieron que los modelos de IA usaban menos “fichas”, fragmentos de información, a medida que aumentaba la complejidad de los problemas, lo que sugiere que el tiempo de “pensamiento” que mostraban los modelos es una ilusión.

“La parte perjudicial es que estas son tareas fácilmente solucionables”, dice Artur Garcez de City, Universidad de Londres. “Ya sabíamos hace 50 años cómo usar el razonamiento simbólico de IA para resolverlos”. Es posible que estos sistemas más nuevos se puedan solucionar y mejorarse para que eventualmente puedan razonar a través de problemas complejos, pero esta investigación muestra que es poco probable que ocurra exclusivamente al aumentar el tamaño de los modelos o los recursos computacionales que se les dan, dice Garcez.

También es un recordatorio de que estos modelos aún luchan por resolver escenarios que no han visto fuera de sus datos de entrenamiento, dice Nikos Aletras de la Universidad de Sheffield. “Funcionan bastante bien en muchos casos, como encontrar, recopilar información y luego resumirla, pero estos modelos han sido entrenados para hacer este tipo de cosas, y parece magia, pero no lo es, han sido entrenados para hacer esto”, dice Aletras. “Ahora, creo que la investigación de Apple ha encontrado un punto ciego”.

Mientras tanto, otras investigaciones muestran que un aumento en el tiempo de “pensar” en realidad puede dañar el rendimiento de un modelo de IA. Soumya Suvra Ghosal y sus colegas de la Universidad de Maryland probaron los modelos de Deepseek y descubrieron que los procesos más largos de “cadena de pensamiento” condujeron a una disminución de la precisión en las pruebas de razonamiento matemático. Por ejemplo, para un punto de referencia matemático, descubrieron que triplicar la cantidad de tokens utilizadas por un modelo puede aumentar su rendimiento en aproximadamente un 5 por ciento. Pero usar 10 a 15 veces más tokens volvió a caer el puntaje de referencia en alrededor del 17 por ciento.

En algunos casos, parece que la producción de “cadena de pensamiento” producida por una IA lleva poca relación con la respuesta eventual que proporciona. Al probar los modelos de Deepseek sobre la capacidad de navegar por los laberintos simples, Subbarao Kambhampati en la Universidad Estatal de Arizona y sus colegas descubrieron que incluso cuando la IA resolvió el problema, su salida de “cadena de pensamiento” contenía errores que no se reflejaban en la solución final. Además, alimentar a la IA una “cadena de pensamiento” sin sentido podría producir mejores respuestas.

“Nuestros resultados desafían la suposición prevaleciente de que los tokens intermedios o las ‘cadenas de pensamiento’ pueden interpretarse semánticamente como los rastros del razonamiento interno de los modelos de IA, y precaución contra los antropomorfisos de esa manera”, dice Kambhampati.

De hecho, todos los estudios sugieren que las etiquetas de “pensar” o “razonamiento” para estos modelos de IA son un nombre inapropiado, dice Anna Rogers en la Universidad de TI de Copenhague en Dinamarca. “Desde que he estado en este campo, cada técnica popular en la que puedo pensar se ha entusiasmado primero con una vaga analogía cognitiva, que (era) resultó estar equivocada”.

Andreas Vlachos de la Universidad de Cambridge señala que los LLM todavía tienen aplicaciones claras en la generación de texto y otras tareas, pero dice que la última investigación sugiere que podemos tener dificultades para hacer que se enfrenten al tipo de problemas complejos que Altman y Hassabis han prometido se resolverá en solo unos pocos años.

“Fundamentalmente, existe una falta de coincidencia entre lo que estos modelos están entrenados, que es la predicción de las próximas palabras, a diferencia de lo que estamos tratando de hacer que hagan, lo que es producir razonamiento”, dice Vlachos.

OpenAi no está de acuerdo, sin embargo. “Nuestro trabajo muestra que los métodos de razonamiento como la cadena de pensamiento pueden mejorar significativamente el rendimiento en problemas complejos, y estamos trabajando activamente para expandir estas capacidades a través de una mejor capacitación, evaluación y diseño del modelo”, dice un portavoz. Deepseek no respondió a una solicitud de comentarios.

Temas:

Enlace fuente