Chip Rubin CPX của NVIDIA, từng được kỳ vọng là giải pháp chuyên biệt cho các tác vụ suy luận AI, đã không xuất hiện tại sự kiện GTC năm nay. Theo cập nhật mới nhất từ ông Ian Buck, Phó Chủ tịch NVIDIA, dự án Rubin CPX hiện đã bị trì hoãn và sẽ được tích hợp vào dòng sản phẩm Feynman, dự kiến ra mắt trong vài năm tới.
Rubin CPX từng là một trong những giải pháp đầu tiên tập trung cho các hệ thống rack, sử dụng bộ nhớ GDDR7, hướng tới xử lý các tác vụ prefill trong suy luận AI. Tuy nhiên, tại GTC năm nay, khi CEO Jensen Huang giới thiệu dòng Rubin, Rubin CPX hoàn toàn vắng mặt, làm dấy lên nghi vấn về việc dự án đã bị hủy bỏ hoặc lùi lịch. Ông Ian Buck đã xác nhận rằng ý tưởng về CPX chưa bị loại bỏ, nhưng hiện tại chưa khả thi do nhu cầu thị trường đã thay đổi, chuyển từ các tác vụ dài sang ưu tiên thời gian phản hồi đầu ra (TTFT).

Trong bối cảnh đó, NVIDIA tăng cường tập trung vào giải pháp LPX, sử dụng các đơn vị LPU của Groq, vốn nổi bật ở khả năng xử lý giai đoạn decode trong quy trình suy luận. LPX với LPU sử dụng bộ nhớ SRAM, cho băng thông lên tới 150 TB/s mỗi đơn vị và tổng cộng 640 TB/s cho cả rack, đáp ứng tốt hơn yêu cầu về tốc độ và hiệu suất hiện nay. Điều này khiến NVIDIA quyết định ưu tiên LPX thay vì tiếp tục phát triển CPX như kế hoạch ban đầu.

Bên cạnh đó, có thông tin cho rằng NVIDIA đang xem xét thay thế bộ nhớ GDDR7 bằng HBM cho phiên bản CPX của Feynman, đồng nghĩa thiết kế mới sẽ khác biệt so với Rubin CPX từng được công bố. Việc Rubin CPX bị hoãn cũng đồng nghĩa nguồn cung GDDR7 sẽ không bị dồn sang các chip AI, mang lại lợi ích nhất định cho thị trường game.
CEO Jensen Huang từng khẳng định NVIDIA là "vua suy luận" và giải pháp hợp tác với Groq là một phần trong chiến lược duy trì vị thế này. Trong thời gian tới, các giải pháp LPX sẽ tiếp tục được NVIDIA đẩy mạnh, trong khi CPX sẽ chờ đợi sự xuất hiện cùng Feynman.
Max