Trong xu hướng trí tuệ nhân tạo mới, các tập đoàn công nghệ lớn đang đua nhau phát triển một phần mềm rất quên mà cũng rất lạ. Lạ, vì họ sử dụng công nghệ AI vẫn còn xa lạ với đại đa số chúng ta. Còn quen, vì họ đang cố gắng tạo ra một phiên bản kỹ thuật số của chính thế giới ta đang sống.
Tại sự kiện CES 2025 vẫn đang diễn ra tại Las Vegas, NVIDIA công bố một loạt các mô hình thế giới mới, mã nguồn mở, có thể dự đoán và tạo ra những video lấy bối cảnh thế giới thật, cũng sở hữu những quy luật vật lý tương đồng. Họ gọi đây là Mô hình Thế giới Nền móng Cosmos.
Mô hình có thể được tinh chỉnh cho những tác vụ khác nhau, và hiện có sẵn trên API và danh mục NVIDIA GPU Cloud, trên GitHub, cũng như nền tảng phát triển AI Hugging Face.
“NVIDIA đang ra mắt loạt mô hình Cosmos WFM đầu tiên dành cho mô phỏng dựa trên vật lý và tạo dữ liệu tổng hợp”, công ty viết trong một bài đăng trên blog. “Các nhà nghiên cứu và nhà phát triển, bất kể quy mô công ty, có thể tự do sử dụng các mô hình Cosmos theo giấy phép mở linh hoạt của NVIDIA, vốn cho phép sử dụng trong mục đích thương mại”.
Dòng mô hình Cosmos WFM bao gồm nhiều mô hình được chia thành ba danh mục: Nano dành cho các ứng dụng yêu cầu độ trễ thấp và thời gian thực, Super dành cho các mô hình “hiệu suất cơ bản cao”, và Ultra dành cho các đầu ra chất lượng và độ chính xác tối đa.
Các mô hình này có kích thước từ 4 tỷ đến 14 tỷ tham số, quy mô tăng dần từ Nano cho tới Ultra. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình, và tỷ lệ thuận với chính hiệu năng mô hình đó.
Là một phần của Cosmos WFM, Nvidia cũng phát hành một “mô hình nâng cấp” (upsampling model) – một bộ giải mã video được tối ưu hóa cho thực tế tăng cường, các mô hình bảo vệ để đảm bảo sử dụng có trách nhiệm, cùng các mô hình được tinh chỉnh cho các ứng dụng như tạo dữ liệu cảm biến phục vụ phát triển xe tự hành.
Theo Nvidia, những mô hình này, cùng với các mô hình Cosmos WFM khác, được đào tạo trên 9.000 nghìn tỷ token từ 20 triệu giờ dữ liệu thực tế, bao gồm các tương tác của con người, môi trường, công nghiệp, robot và lái xe. (Trong lĩnh vực AI, “token” đại diện cho các phần dữ liệu thô — trong trường hợp này là cảnh quay video).
“Cosmos học hỏi giống như cách con người học”, người phát ngôn của NVIDIA nói với phóng viên TechCrunch, đồng thời khẳng định những mô hình này của NVIDIA không được thiết kế để học trái phép những dữ liệu, những công trình thuộc sở hữu của người khác.
“Để giúp Cosmos học, chúng tôi đã thu thập dữ liệu từ nhiều nguồn công khai và tư nhân khác nhau và tự tin rằng việc sử dụng dữ liệu của chúng tôi tuân thủ cả quy định lẫn tinh thần của pháp luật. Những sự thật về cách thế giới vận hành - điều mà các mô hình Cosmos học được - không thuộc phạm vi bản quyền hoặc bị kiểm soát bởi bất kỳ tác giả hay công ty nào”.
Nvidia cho biết các công ty như Waabi, Wayve, Fortellix và Uber đã cam kết thử nghiệm Cosmos WFM cho nhiều trường hợp sử dụng khác nhau, từ tìm kiếm và biên tập video đến phát triển các mô hình AI dành cho xe tự hành.
“Chúng tôi thực sự hy vọng Cosmos làm được cho lĩnh vực robot và AI công nghiệp những gì mà Llama đã thực hiện cho doanh nghiệp”, CEO NVIDIA, ông Jensen Huang phát biểu tại một cuộc họp báo diễn ra trong khuôn khổ sự kiện CES 2025.
Kim