NVIDIA berhasil mencapai kecepatan AI inference yang menjadi rekor dunia dalam suatu benchmark yang dilakukan oleh Artificial Analysis, suatu perusahaan yang mengeklaim sebagai perusahaan independen dalam melakukan benchmark dan analisis terhadap AI (artificial intelligence). Disampaikan NVIDIA melalui rilis baru saja, sebuah node NVIDIA DGX B200 dengan delapan GPU NVIDIA Blackwell berhasil mencapai lebih dari 1.000 token per detik (token per second—TPS) per pengguna pada model Llama 4 Maverick.
Model Llama 4 Maverick dari Meta adalah model model terbesar dan terkuat yang sudah tersedia dalam koleksi Llama 4. Meta Llama 4 Maverick memiliki parameter total sejumlah 400 miliar. NVIDIA DGX B200 yang dimaksud berhasil mendapatkan 1.038 TPS. Pada benchmark yang ditampilkan Artificial Analysis, posisi kedua ditempati oleh suatu sistem yang mendapatkan 792 TPS.
Dengan pencapaian ini, NVIDIA mengeklaim Blackwell adalah peranti keras yang optimal untuk Meta Llama 4 Maverick dalam skenario penerapan apa pun, baik untuk memaksimalkan throughput maupun meminimalkan latensi. NVIDIA Blackwell merupakan platform pertama yang berhasil menembus 1.000 TPS/pengguna pada Meta Llama 4 Maverick. NVIDIA pun mengeklaim platform ini bisa mencapai 72.000 TPS/server pada konfigurasi throughput tertinggi.
Bukan sekadar peranti keras, NVIDIA menegaskan melakukan juga optimasi terhadap peranti lunak. NVIDIA melakukan optimasi peranti lunak secara ekstensif menggunakan TensorRT-LLM untuk mendapatkan hasil maksimal dari para GPU Blackwell, serta melatih model rancangan dekode spekulatif menggunakan teknik-teknik EAGLE-3. Dengan menggabungkan pendekatan-pendekatan ini, NVIDIA mengatakan berhasil mencapai peningkatan kecepatan sebanyak empat kali dari baseline terbaik Blackwell sebelumnya.