Un nuevo desafío de codificación de IA ha lanzado su primer ganador, y estableció una nueva barra para ingenieros de software con AI.
PST el miércoles por la noche a las 5 p.m., el primer ganador del Premio sin fines de lucro Loud Institute, un desafío de codificación de IA multironda lanzado por Databrix y el cofundador engañoso Andy Kuinsky. El ganador fue un ingeniero indicador brasileño llamado Eduardo Rocha de Andred, quien recibirá $ 50,000 por el premio. Pero su puntaje final fue más sorprendente que ganar: ganó solo el 7.5% del examen con la respuesta correcta.
“Estamos contentos de haber hecho un punto de referencia que en realidad es difícil”, dijo Conwinsky. También dijo: “Si los grandes laboratorios fueran ingresados con sus modelos más grandes, el puntaje sería diferente. Pero este tipo de tema se desconectaría con cálculos limitados de recompensas, por lo que es para modelos más pequeños y abiertos. Me gusta. Me gusta. Hace que el patio sea igual”.
Kowinsky ha prometido 1 millón al primer modelo de código abierto que puede obtener más del 90% en el examen.
Al igual que el conocido sistema de bancos de necesidad, las recompensas prueban los modelos contra la bandera de Githabab que los modelos pueden tratar los problemas de programación del mundo real como prueba. Sin embargo, cuando se basa en un conjunto específico que puede entrenar contra los modelos de agujas, el premio está diseñado como una “versión libre de contaminación del banco dulce”, utilizando un sistema de entrada oportuno para proteger contra cualquier criterio. Para la primera ronda, hubo modelos para el 12 de marzo. Los organizadores de la recompensa crearon la prueba solo utilizando el problema de Githab solo después de esa fecha.
.5.5% de la puntuación superior en sí se encuentra contra la aguja, lo que muestra el 75% de la puntuación superior en su prueba ‘verificada’ simple y el 34% en su fuerte examen ‘completo’. Todavía no está convencido de que Kwinsky no esté seguro de si esta discriminación se debe a la contaminación en la aguja o al desafío de recopilar nuevos problemas de Github, pero espera que el proyecto de premios responda la pregunta pronto.
Le dijo a TechCrunch: “Tenemos más carreras en tal cosa, tendremos una mejor idea”,
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Esta ya es una amplia gama de herramientas de codificación de IA en público, puede parecer un lugar extraño para ser corto, pero a medida que los criterios se vuelven muy simples, muchos críticos analizan los proyectos como premios como pasos necesarios. El creciente problema de evaluación de AIEl
“Soy una gran mierda sobre la creación de una nueva prueba para los criterios existentes”, dijo el investigador de Princeton, Sayesh Kapoor. En un artículo reciente“Sin una prueba nacional de este tipo, no podemos decir si el problema es realmente contaminante, o incluso dirigido a la tabla de clasificación de bancos de aguja con cualquier gente en el bucle”.
Este no es solo un buen criterio para Conwinsky, sino un desafío abierto para el resto de la industria. “Si escucha la exageración, debe ser visto por nuestros abogados de AI Doctor y AI y ingenieros de software de IA y esto no es cierto”, dijo. “Si no podemos obtener más del 10% en agujas sin contaminación, verifica la realidad para mí”