Hồi tháng 3, Xiaomi đã ra mắt mô hình tổng hợp tiếng nói MiMo-V2-TTS với khả năng kiểm soát chi tiết ngữ điệu, cảm xúc và phong cách nói. Nay, công ty nâng cấp hệ thống này lên một tầm mới, bao gồm cả đầu ra lẫn đầu vào âm thanh. Xiaomi vừa công bố dòng MiMo-V2.5-TTS cùng với MiMo-V2.5-ASR, bộ đôi mô hình giọng nói toàn diện phục vụ kỷ nguyên trợ lý AI tự động.
Về phía tổng hợp tiếng nói, dòng MiMo-V2.5-TTS gồm ba mô hình riêng biệt, tất cả đều miễn phí trong thời gian giới hạn trên nền tảng MiMo Open Platform của Xiaomi. Ba mô hình này dùng chung một nền tảng xử lý hướng dẫn phong cách, kiểm soát âm thanh qua thẻ nội tuyến và đọc hiểu văn bản, nhưng phục vụ các nhu cầu khác nhau.
Mô hình MiMo-V2.5-TTS cơ bản đi kèm bộ giọng đọc có sẵn, cho phép điều chỉnh tốc độ nói, ngữ điệu và cảm xúc theo ý muốn. Phiên bản MiMo-V2.5-TTS-VoiceDesign cho phép người dùng tạo ra giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn. Còn MiMo-V2.5-TTS-VoiceClone tập trung vào việc sao chép giọng nói của một người cụ thể từ vài mẫu âm thanh ngắn, đồng thời giữ nguyên tính nhất quán qua các phong cách và hướng dẫn khác nhau.
Điểm nổi bật trong cách tiếp cận của Xiaomi là người dùng không cần nhập tham số kỹ thuật phức tạp. Thay vào đó, họ có thể mô tả giọng đọc mong muốn bằng ngôn ngữ tự nhiên, gần giống như đạo diễn đang hướng dẫn một diễn viên lồng tiếng. Với các tình huống phức tạp hơn như nhân vật trong game hay kịch bản phát thanh, hệ thống còn hỗ trợ nhập liệu theo kiểu kịch bản nhiều lớp, trong đó đặc điểm nhân vật, bối cảnh và lời thoại có thể điều chỉnh độc lập mà không làm mất sự nhất quán tổng thể.
Các mô hình này cũng hỗ trợ thẻ âm thanh nội tuyến, cho phép kiểm soát cảm xúc hoặc cách diễn đạt tại từng vị trí cụ thể trong câu. Các thẻ này có thể kết hợp linh hoạt trong cùng một đoạn văn bản và hoạt động được trên cả tiếng Trung lẫn tiếng Anh.
Mô hình nhận dạng giọng nói mã nguồn mở

Về phía nhận dạng giọng nói, Xiaomi phát hành MiMo-V2.5-ASR dưới dạng mã nguồn mở. Đây là hệ thống được thiết kế để xử lý các tình huống thực tế khó đoán, bao gồm hội thoại song ngữ, phương ngữ địa phương và môi trường ồn ào.
Mô hình hỗ trợ nhiều phương ngữ tiếng Trung như Ngô, Quảng Đông, Mân Nam và Tứ Xuyên, đồng thời xử lý tốt cả tiếng Anh trong các ngữ cảnh phức tạp. Người dùng không cần cài đặt ngôn ngữ từ trước, mô hình tự động chuyển đổi giữa tiếng Trung và tiếng Anh theo luồng hội thoại. Đặc biệt, mô hình còn có thể nhận dạng lời bài hát ngay cả khi nhạc nền và giọng hát hòa trộn vào nhau.
Với các tình huống nhiều người nói đồng thời, chẳng hạn trong các buổi họp, MiMo-V2.5-ASR có khả năng phân tách và ghi chép các cuộc hội thoại chồng chéo. Xiaomi cho biết mô hình vẫn giữ được độ chính xác trong môi trường nhiều tiếng ồn hoặc khi thu âm từ khoảng cách xa.
Một điểm đáng chú ý là mô hình tự xử lý dấu câu dựa trên cả âm thanh lẫn ngữ cảnh, tạo ra bản ghi chép hoàn chỉnh mà gần như không cần chỉnh sửa thêm. Xiaomi khẳng định mô hình đạt hiệu suất hàng đầu hoặc gần hàng đầu trên nhiều bài kiểm tra, bao gồm nhận dạng song ngữ, xử lý phương ngữ và chuyển đổi ngôn ngữ linh hoạt.
Các mô hình TTS có thể truy cập và thử nghiệm trực tiếp qua MiMo Studio trên nền tảng của Xiaomi, còn mô hình ASR được phát hành kèm trọng số và mã nguồn mở để người dùng tự triển khai hoặc tùy chỉnh thêm.
Max