Gần đây, cộng đồng công nghệ đang xôn xao về khả năng xử lý hình ảnh trực tiếp của ChatGPT, một bước tiến quan trọng trong việc mở rộng năng lực AI. Những dòng mã ẩn trong phiên bản beta mới nhất của ChatGPT v1.2024.317 đã tiết lộ một tính năng có tên gọi "Live camera," hứa hẹn sẽ mở ra một tương lai hoàn toàn mới cho ChatGPT.
Theo Android Authority, dòng mã trong chế độ "Advanced Voice Mode" không chỉ nhắc nhở người dùng "không sử dụng Live camera để dẫn đường hay đưa ra quyết định liên quan đến sức khỏe hoặc an toàn" mà còn cung cấp chỉ dẫn cụ thể: “Nhấn vào biểu tượng camera để cho ChatGPT quan sát và trò chuyện về môi trường xung quanh bạn.”
Điều này làm dấy lên hy vọng về khả năng ChatGPT sẽ sớm có thể nhận diện và hiểu được các hình ảnh từ camera của người dùng. Tính năng này nếu được triển khai sẽ đưa ChatGPT lên một tầm cao mới, vượt xa các ứng dụng AI chỉ giới hạn trong văn bản và giọng nói.
Khả năng xử lý hình ảnh không phải là điều quá bất ngờ, bởi tại sự kiện OpenAI vào tháng 5 vừa qua, GPT-4o đã được giới thiệu với khả năng "nhìn" và hiểu hình ảnh. Một trong những bản demo đáng nhớ nhất là việc GPT-4o dùng camera để nhận diện một chú chó đang chơi bóng tennis, đồng thời nhớ tên của chú chó là "Bowser."
Tuy nhiên, kể từ đó, OpenAI khá kín tiếng về tiến độ phát triển tính năng này. Trong khi đó, chế độ Advanced Voice Mode đã được tung ra cho người dùng ChatGPT Plus và Team vào tháng 9, khiến người dùng càng nóng lòng chờ đợi sự ra mắt của khả năng xử lý hình ảnh.
Nếu tính năng Vision của ChatGPT sắp được triển khai như mã nguồn gợi ý, người dùng sẽ có cơ hội trải nghiệm đầy đủ các tính năng từng được OpenAI giới thiệu. Điều này bao gồm khả năng nhận diện vật thể, phân tích môi trường xung quanh, và thậm chí là hỗ trợ người dùng xử lý các tình huống đời thực thông qua AI.
Trong khi có nhiều lo ngại về việc các mô hình AI sắp đạt "điểm bão hòa," OpenAI vẫn tiếp tục đẩy mạnh phát triển. Tháng trước, hãng đã ra mắt ChatGPT Search, giúp AI có khả năng truy cập thông tin thời gian thực trên web. Ngoài ra, tin đồn còn cho biết OpenAI đang phát triển một loại "trợ lý AI" mới, có khả năng xử lý các tác vụ đa bước như viết mã và duyệt web, dự kiến sẽ ra mắt vào tháng 1 năm sau.
Việc ChatGPT bổ sung khả năng nhìn nhận và hiểu môi trường qua camera không chỉ làm tăng tính ứng dụng mà còn mở ra tiềm năng lớn cho nhiều lĩnh vực, từ giáo dục, y tế cho đến hỗ trợ người dùng trong các tình huống hàng ngày. Tuy nhiên, nó cũng đặt ra câu hỏi về quyền riêng tư và cách sử dụng dữ liệu hình ảnh một cách an toàn.
OpenAI chưa đưa ra bình luận chính thức, nhưng với tốc độ phát triển hiện tại, không có gì ngạc nhiên nếu chúng ta thấy ChatGPT với khả năng "thấy và hiểu" hình ảnh sớm xuất hiện trong đời sống thường ngày.
Anh Việt