El equipo de Dipmind de Google y OpenAI tienen un nuevo elogio de los modelos de inteligencia artificial que pueden agregar a su lista de crédito: han derrotado a algunas escuelas secundarias en matemáticas. Ambas agencias han afirmado alcanzar la medalla de oro en este año Olimpiada Matemática Internacional (OMI), una de las competencias más difíciles para demostrar sus habilidades matemáticas para los estudiantes de secundaria.

Olympiad ha invitado a los mejores estudiantes de todo el mundo a participar en un examen para que necesiten resolver varios problemas de matemáticas complejas y multifotas. Los estudiantes tomaron cuatro horas y media durante dos días, y se dieron un total de seis preguntas para resolver un total de seis preguntas, incluido el valor de puntos para terminar diferentes partes del problema. Los modelos Dipmind y OpenA han resuelto cinco de seis North, anotaron 35 de 42 puntos potenciales, lo cual fue suficiente para el oro. Un total de 67 participantes humanos también fueron honrados con oro para los 630 participantes.

Hay un pequeño Tidbeat que no tiene nada que ver con los resultados, solo el comportamiento de las empresas. Dipmind fue invitado a participar en la OMI y anunció el oro el lunes BlogDespués de la publicación de la organización Resultado oficial Para estudiantes participantes. Según el implantadorEl Openi realmente no entró en la OMI. En cambio, se necesitaron problemas, que se hicieron públicos para que otros pudieran tomar un crack para resolverlos y tratarlos ellos mismos. OpenA ha anunciado que tiene un rendimiento a nivel de oro, que en realidad no puede ser verificado por la OMI porque no participó. Además, la agencia Declaración El puntaje del fin de semana (cuando se publique el puntaje oficial) sin esperar el lunes) Contra la voluntad de la OMI¿Qué compañías pidieron a los estudiantes que no roben el centro de atención a los estudiantes?

Los modelos utilizados para resolver estos problemas tomaron la prueba como lo hicieron los estudiantes. Se les dio 4.5 horas para cada prueba y no se les permitió usar ninguna herramienta externa o acceder a Internet. Significativamente, parece que ambas compañías han sido utilizadas AI de propósito general Más que modelos especializados, que hicieron un rendimiento mucho mejor que el modelo DU-IT-All antes.

Un hecho significativo sobre las afirmaciones de estas compañías en el primer lugar es: el modelo de oro (o, ya sabes, un modelo de oro autoadministrativo) está disponible públicamente. De hecho, los modelos públicos han hecho un trabajo terrible en el trabajo. Los investigadores plantearon preguntas a través del Gemi 2.5 Pro, Grock -4, y OpenAea y 4, y ninguno de ellos pudo anotar más de 13 puntos, que es menos de 19 para llevar la medalla de bronce a casa.

Todavía hay un montón de ResultadoY los modelos disponibles públicamente significan tan mal que existe una brecha entre las herramientas a las que tenemos acceso y a qué se puede hacer modelos más sutiles, lo que debe cuestionar adecuadamente por qué estos modelos inteligentes no pueden medirse o estar ampliamente disponibles. Sin embargo, todavía hay dos tareas importantes: los modelos de laboratorio están mejorando en problemas lógicos, y el abiertamente se rige por un montón de lámparas que no podrían esperar para robar la gloria de algunos adolescentes.

Enlace fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here