Grok fue publicado el 4 de julio por Jayye y estaba por delante de competidores como Depsec y Clod LanaUna tabla de clasificación para las clasificaciones de los modelos de IA del generador. Sin embargo, este tipo de clasificación de IA no tiene en cuenta el riesgo de seguridad potencial.

Los nuevos modelos de IA generalmente se juzgan en varias métricas, incluida la resolución de problemas matemáticos, responder preguntas de texto y escribir código. Las grandes compañías de IA utilizan diferentes tipos de evaluación estándar para medir la efectividad de sus modelos, como la última prueba de la humanidad, un Benchmarking de AI 2.500-Q-Re-ExaminationEn general, cuando una empresa como una etnográfica o OpenAI publica un nuevo modelo, muestra una mejora en estas pruebas. Sorprendentemente, anotó 4 de Grock Grock tiene más de 3 Sin embargo, algunas de las principales métricas tienen que luchar en el tribunal de opinión pública.

Lana Un sitio web impulsado por la comunidad que permite a los usuarios probar los modelos de IA y en la prueba ciega. (Lmarena Ha sido acusado de parcialidad Contrasta con los modelos abiertos, pero sigue siendo una de las plataformas de clasificación de IA más populares) por)) ProbándolosGrock 4 anotó en los tres primeros en cada categoría donde se probó excepto uno. Determinar el espacio general en cada categoría aquí:

  • Matemáticas: Empatado por primero

  • Codificación: Empatado para el segundo

  • Composición creativa: Empatado para el segundo

  • Siguiendo las instrucciones: Empatado para el segundo

  • Indicaciones difíciles: Empatado para el tercero

  • Consulta larga: Empatado para el segundo

  • Múltiple: Empatado para el cuarto

Y en su último ranking general, Grock 4 está destinado al tercer lugar, compartiendo el lugar con el GPT -4.5 del OpenAI. Los modelos ChatzPT están vinculados para la segunda posición O3 y 4O, mientras que el primer puesto Gemini 2.5 Pro de Google.

Lamarana dice que ha usado Grock -4-0709, que es la versión API de Grock 4 utilizada por los desarrolladores. Hacia ComputadoraEsta actuación puede ser realmente Subvencional La posibilidad real de Grock 4, como Lamarana, utiliza una versión normal de Grock 4. Grock 4 Heavy Model utiliza múltiples agentes que pueden trabajar en el concierto para traer mejores reacciones. Sin embargo, Grock 4 Heavy aún no está disponible en forma de API, por lo que Lamarana no puede probarlo.

Mástil

Sin embargo, aunque todos suenan como buenas noticias para Elon Musk y Jaya, algunos usuarios de Grock 4 han informado el problema de una gran protección. Y no, ni siquiera estamos hablando de Mesha Hitler o Avatar de Anime NSFW.

¿Qué es Grock 4 tiene guardias de seguridad adecuados?

Mientras que algunos usuarios examinan el poder de Grock 4, otros querían ver si Grock 4 tiene un mantenimiento de protección aceptable. Jai anuncia que Goke Goke “Respuesta ininterrumpida“Pero algunos usuarios de Grock han dicho que el usuario está recibiendo una respuesta extremadamente molesta.

X usuario La undécima hora decidió mantener a Grock a través de su velocidad desde el punto de vista de la protección, Terminó en un artículo Que “Jai’s Grock 4 no tiene un guardia de protección significativo”.

Durante la undécima hora, el bot corrió a través de su velocidad, buscó ayudar a crear un agente nervioso llamado Tabun. Grock 4 escribió una respuesta detallada sobre cómo acumular un agente. Para los registros, sintetizar el Tabun no solo es peligroso, sino completamente ilegal. Existen guardias de protección específicos para evitar discusiones sobre chatbots de IA y problemas étnicos de CBRN (amenazas químicas, biológicas, radiológicas y nucleares) de OpenAI.

Además, la undécima hora VX pudo lograr que Grock 4 dijera cómo crear conceptos básicos sobre cómo hacer el agente nervioso VX, Fentanel y cómo hacer una bomba nuclear. También estaba dispuesto a ayudar a cultivar una plaga, pero no pudo encontrar suficiente información para hacer esto. Además, con algunas solicitudes básicas, los métodos de suicidio y las opiniones extremistas también fueron bastante fáciles de obtener.

Jai es consciente de estos problemas y de la agencia Ha sido actualizado desde entonces Grok para lidiar con “reacciones problemáticas”.


Publicar: en abril, el organismo principal de Masibal, GIF Davis, presentó una demanda contra el Abierto, alegó que había violado los derechos de autor de Jeff Davis en la capacitación y la operación del sistema AI.

Sujeto
Intelecto artificial



Enlace fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here