NVIDIA trình diễn khay tính toán lai với Groq3 LPX, hướng tới hiệu suất suy luận vượt trội

Thứ ba, 17/03/2026 - 08:16

Tại GTC 2026, NVIDIA công bố khay tính toán Vera Rubin lai, tích hợp tám đơn vị Groq3 LPX, nhấn mạnh mục tiêu tăng tốc hiệu suất suy luận AI.

Hợp tác giữa NVIDIA và Groq đã được chính thức hóa khi CEO Jensen Huang giới thiệu khay tính toán lai mới, tích hợp các đơn vị xử lý thế hệ ba Groq3 LPX trong một rack Rubin tại sự kiện GTC 2026. Đây là động thái nhằm tăng tốc các tác vụ AI yêu cầu tốc độ cao, đặc biệt trong lĩnh vực suy luận, nơi NVIDIA đang tìm cách cạnh tranh mạnh mẽ hơn.

Theo thông tin từ NVIDIA, khay tính toán Vera Rubin lai Groq3 LPX vừa ra mắt sở hữu tám đơn vị Groq3 LPX chưa từng công bố trước đó. Sự kết hợp giữa LPX và Rubin được cho là mang lại hiệu suất suy luận chưa từng có, với khả năng tăng thông lượng suy luận lên gấp 35 lần trên mỗi megawatt. Đây là yếu tố then chốt giúp NVIDIA mở rộng vị thế trên thị trường suy luận AI.

NVIDIA trình diễn khay tính toán lai với Groq3 LPX, hướng tới hiệu suất suy luận vượt trội- Ảnh 1.

Mỗi rack tính toán này chứa tới 256 đơn vị LPU, cung cấp tổng cộng 128GB SRAM tích hợp và băng thông scale-up đạt 640TB/s. Đây là câu trả lời của NVIDIA trước các đối thủ như Cerebras, khi kết hợp GPU Rubin với LPU Groq để tối ưu cả hai giai đoạn prefill và decode trong quá trình suy luận, giúp NVIDIA trở nên cạnh tranh hơn ở lĩnh vực mà hãng không phải là người tiên phong.

NVIDIA trình diễn khay tính toán lai với Groq3 LPX, hướng tới hiệu suất suy luận vượt trội- Ảnh 2.

Về mặt thông số, mỗi chip Groq3 sở hữu 500MB SRAM, băng thông SRAM đạt 150TB/s và khả năng tính toán 1,2 PFLOPs (FP8). Khi kết hợp khay Rubin và Groq3 LPX, tổng hiệu suất tính toán suy luận AI mà CEO NVIDIA công bố có thể đạt tới 315 PFLOPs. Hình ảnh thực tế bên trong khay tính toán cũng đã được NVIDIA chia sẻ tại sự kiện.

NVIDIA trình diễn khay tính toán lai với Groq3 LPX, hướng tới hiệu suất suy luận vượt trội- Ảnh 3.

Kiến trúc đồng thiết kế LPX tối ưu hóa cho các mô hình AI hàng nghìn tỷ tham số và ngữ cảnh hàng triệu token, kết hợp cùng Vera Rubin để tối đa hóa hiệu quả về điện năng, bộ nhớ và năng lực xử lý.

NVIDIA kỳ vọng các đơn vị LPU của Groq sẽ đóng vai trò tương tự như Mellanox trong lĩnh vực mạng, giúp hãng dẫn đầu ở các tác vụ AI yêu cầu độ trễ thấp. Trong bối cảnh AI tác tử (agentic AI) được dự báo sẽ phát triển mạnh mẽ trong ngành, hợp tác với Groq giúp NVIDIA đáp ứng nhu cầu tính toán ngày càng tăng.

Max