- Elon Kasturi planea contar con el mismo recuento en 50 millones de H 100 GPU en solo cinco años
- El objetivo de entrenamiento de Jai es igual a 50 XFlops, pero no significa 50 millones de GPU literal
- La adquisición de 50 XFlops con H11 exigirá la misma energía en 35 centrales nucleares
Elon Mask ha compartido un nuevo hito valiente para JAI, que establecerá 1 millón de GPU de clase H 100 por 20.
La IA se enmarca como una medida del rendimiento de la capacitación de IA, el reclamo se refiere a la capacidad de cálculo, no calculando literalmente la unidad.
Sin embargo, incluso con el progreso continuo en el hardware del acelerador de IA, este objetivo se refiere a promesas de infraestructura extraordinarias, especialmente la energía y el capital.
Es un labio enorme en una escala calculada con menos GPU que escucharla
En un poste x, Kasturi dijo: “El objetivo XAI es de 50 millones en unidades de computadoras AI equivalentes de H100 (pero mejores habilidades de energía) en 5 años”.
Cada GPU NVIDIA H11 AI puede proporcionar aproximadamente 1000 tifflopes en FP 16 o BF 16, formularios generales para el entrenamiento de IA, y usar esa línea de base requerirá teóricamente 50 millones de h 100 para alcanzar 50 XFLOPS.
Aunque la nueva arquitectura como Blackwell y Rubin mejora dramáticamente por chips por chip.
Según la estimación de rendimiento, se puede requerir la futura arquitectura Fenman Ultra para alcanzar el objetivo de aproximadamente 650,000 GPU.
La compañía ya ha comenzado a escalar ofensivamente y su actual clúster Callus 1 es 200,000 GPU basado en H11 y H 200 basados en la tolva, y 30,000 chips GB 200 basados en Blackwell.
Callsus 2, se espera que un nuevo clúster llegue en línea con más de 1 millón de unidades de GPU en combinación con 550,000 GB 200 y nodos GB 300 pronto.
Pone a Jai en la tecnología de entrenamiento de modelos de AI y autor de IA de vanguardia.
La compañía probablemente eligió H1 que la nueva H 200 porque la primera sigue siendo un punto de referencia bien conocido en la comunidad de IA, ampliamente utilizado en el punto de referencia y el gran despliegue.
Su serie FP 16 y BF 16 Thruput lo convierte en una unidad clara de medida para un plan a largo plazo.
Pero quizás el problema más estresante es la energía. Una GPU de 50 xas impulsadas por H11 GPU requerirá 35GW, 35 suficientes para 35 centrales nucleares.
Incluso utilizando la GPU probada más hábil, como Fenman Ultra, un clúster de 50 Exfolps puede requerir hasta 4.685 GW.
Esto es más que el triángulo del consumo de energía del próximo Callus 2 de Jai. Incluso con el avance de la habilidad, el suministro de energía de escala sigue siendo una incertidumbre clave.
Además, el costo también será un problema. Según el precio actual, un solo NVIDIA H 100 tiene un precio de $ 25,000.
En lugar de usar 650,000, aún puede ser unos pocos mil millones de dólares de hardware en lugar de usar 650,000, no para calcular la interconexión, el enfriamiento, las instalaciones y la infraestructura energética.
Al final, el plan de Kasturi para Jai es técnicamente encomiable pero financiera y lógicamente horrible.
A través de Tomsardware