El punto de referencia ARC-AGI-2 está diseñado para ser una prueba difícil para los modelos de IA

Just_super/getty imágenes

Los modelos de IA más sofisticados que existen en la actualidad hoy han obtenido mal en un nuevo punto de referencia diseñado para medir su progreso hacia la inteligencia general artificial (AGI), y el poder informático de fuerza bruta no será suficiente para mejorar, ya que los evaluadores ahora están teniendo en cuenta el costo de ejecutar el modelo.

Hay muchas definiciones competidoras de AGI, pero generalmente se toma para referirse a una IA que puede realizar cualquier tarea cognitiva que los humanos puedan hacer. Para medir esto, la Fundación del Premio ARC lanzó anteriormente una prueba de habilidades de razonamiento llamada ARC-AGI-1. En diciembre pasado, Openai anunció que su modelo O3 había obtenido un puntaje altamente en la prueba, lo que llevó a algunos a preguntar si la compañía estaba cerca de lograr AGI.

Pero ahora una nueva prueba, ARC-AGI-2, ha elevado la barra. Es bastante difícil que ningún sistema de IA actual en el mercado pueda lograr más de un puntaje de un solo dígito de 100 en la prueba, mientras que cada pregunta ha sido resuelta por al menos dos humanos en menos de dos intentos.

En una publicación de blog que anuncia ARC-AGI-2, el presidente de ARC, Greg Kamradt, dijo que el nuevo punto de referencia era necesario para probar diferentes habilidades de la iteración anterior. “Para vencerlo, debes demostrar un alto nivel de adaptabilidad y alta eficiencia”, escribió.

El punto de referencia ARC-AGI-2 difiere de otras pruebas de referencia de IA en que se centra en las habilidades de los modelos de IA para completar tareas simplistas, como replicar cambios en una nueva imagen basada en ejemplos pasados de interpretación simbólica, en lugar de su capacidad para hacer coincidir las actuaciones de doctorado líderes en el mundo. Los modelos actuales son buenos en el “aprendizaje profundo”, que ARC-AGI-1 midió, pero no son tan buenos en las tareas aparentemente más simples, que requieren un pensamiento e interacción más desafiante, en ARC-AGI-2. El modelo O3-Low de OpenAI, por ejemplo, anota un 75.7 por ciento en ARC-AGI-1, pero solo un 4 por ciento en ARC-AGI-2.

El punto de referencia también agrega una nueva dimensión a medir las capacidades de una IA, al observar su eficiencia en la resolución de problemas, según lo medido por el costo requerido para completar una tarea. Por ejemplo, mientras que ARC pagó a sus probadores humanos $ 17 por tarea, estima que O3-Low cuesta OpenAI $ 200 en tarifas por el mismo trabajo.

“Creo que la nueva iteración de ARC-AGI ahora se centra en equilibrar el rendimiento con la eficiencia es un gran paso hacia una evaluación más realista de los modelos de IA”, dice Joseph Imperial en la Universidad de Bath, Reino Unido. “Esta es una señal de que nos estamos moviendo de las pruebas de evaluación unidimensionales centrándose únicamente en el rendimiento, pero también considerando menos potencia de cálculo”.

Cualquier modelo que pueda pasar ARC-AGI-2 necesitaría no solo ser altamente competente, sino también más pequeño y ligero, dice Imperial, con la eficiencia del modelo que es un componente clave del nuevo punto de referencia. Esto podría ayudar a abordar las preocupaciones de que los modelos de IA se están volviendo más intensivos en energía A veces, hasta el punto del desperdicio, para lograr resultados cada vez mayores.

Sin embargo, no todos están convencidos de que la nueva medida es beneficiosa. “Todo el marco de esto, ya que prueba la inteligencia, no es el marco correcto”, dice Catherine Flick en la Universidad de Staffordshire, Reino Unido. En cambio, ella dice que estos puntos de referencia simplemente evalúan la capacidad de una IA para completar bien una sola tarea o un conjunto de tareas, que luego se extrapola para significar capacidades generales en una serie de tareas.

El desempeño bien en estos puntos de referencia no debe verse como un momento importante hacia AGI, dice Flick: “Ves que los medios de comunicación se retiran de que estos modelos están pasando estas pruebas de inteligencia a nivel humano, donde en realidad no lo son; lo que están haciendo es realmente responder a un aviso particular con precisión”.

Y exactamente lo que sucede si se aprueba ARC-AGI-2 o cuándo, ¿necesitaremos otro punto de referencia? “Si desarrollaran ARC-AGI-3, supongo que agregarían otro eje en el gráfico que denota (el) número mínimo de humanos, ya sean expertos o no, se necesitaría resolver las tareas, además del rendimiento y la eficiencia”, dice Imperial. En otras palabras, es poco probable que el debate sobre AGI se resuelva pronto.

Temas:

Enlace fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here