Google ra mắt TurboQuant: nén KV cache AI lên tới 6 lần, không mất độ chính xác

Thứ sáu, 27/03/2026 - 08:00

Thuật toán TurboQuant của Google nén KV cache lên tới 6 lần và tăng tốc suy luận 8 lần mà không làm giảm độ chính xác.

Thuật toán nén KV cache mới của Google mang tên TurboQuant đang khuấy động cộng đồng AI trong những ngày gần đây, kéo theo làn sóng bi quan từ giới đầu tư về triển vọng nhu cầu bộ nhớ. Điều đáng chú ý là bài báo nghiên cứu gốc của thuật toán này đã được công bố từ tháng 4/2025, nhưng sức chú ý bùng phát mạnh sau khi Google Research đăng thông báo chính thức trên mạng xã hội vào ngày 24/3/2026.

Để hiểu TurboQuant làm gì, hãy hình dung một người viết truyện có trí nhớ ngắn hạn kém. Mỗi khi viết thêm một từ, người đó phải đọc lại toàn bộ văn bản từ đầu để nhớ nội dung đã viết. Quá trình này càng trở nên nặng nề khi văn bản dài thêm. KV cache - viết tắt của Key-Value cache - giống như việc ghi chú sang tờ giấy riêng để theo dõi những gì đã xử lý, giúp tăng tốc toàn bộ quá trình đáng kể.

TurboQuant nén KV cache của một mô hình AI tới 6 lần, từ đó tăng tốc độ suy luận lên tới 8 lần. Điểm đặc biệt là quá trình nén này hoàn toàn không gây mất mát độ chính xác (zero accuracy loss). Về mặt thực tiễn, thuật toán cho phép mở rộng cửa sổ ngữ cảnh (context window) của mô hình, tức là xử lý được nhiều token hơn trong một lượt, hoặc phục vụ cùng số lượng người dùng với ít GPU hơn.

Google ra mắt TurboQuant: nén KV cache AI lên tới 6 lần, không mất độ chính xác - Ảnh 1.

Tuy nhiên, nhiều người đang bỏ qua một điểm then chốt: TurboQuant không nén trọng số mô hình (model weights), vốn chiếm dung lượng lớn hơn nhiều so với KV cache trong các triển khai quy mô lớn. Điều này có nghĩa là kích thước mô hình không thay đổi. Những lo ngại rằng thuật toán này sẽ làm giảm nhu cầu bộ nhớ chip vì vậy chưa có cơ sở vững chắc.

Giới phân tích nhận thấy làn sóng bi quan hiện tại có nhiều điểm tương đồng với tâm lý thị trường ngay sau khi DeepSeek ra mắt mô hình R1 đầu năm 2025 - khi đó cũng có những dự báo về sự sụp đổ nhu cầu GPU và bộ nhớ. Thực tế sau đó đã chứng minh ngược lại. Lần này, nhiều chuyên gia cho rằng nghịch lý Jevons sẽ một lần nữa chiếm ưu thế: khi chi phí vận hành công nghệ giảm xuống, mức độ sử dụng lại tăng lên, chứ không giảm.

Điều này cũng ảnh hưởng đến thị trường điện tử tiêu dùng: tình trạng memory chipflation - lạm phát giá chip nhớ - vẫn là áp lực thực tế đang đẩy giá smartphone tăng lên, và xu hướng này khó có khả năng hạ nhiệt trong tương lai gần.

Max