Kyutai đã công bố Moshi ngày hôm qua, một mô hình nền tảng đa phương thức gốc nguồn mở thời gian thực có khả năng nghe và nói, gây ra sự náo động lớn trong buổi thuyết trình và trực tuyến.
Tại sao nó lại thú vị đến vậy?
Moshi có thể hiểu và thể hiện cảm xúc, với các giọng khác nhau để nhập và xuất. Nó cũng có thể lắng nghe và tạo ra âm thanh và lời nói trong khi vẫn duy trì dòng suy nghĩ văn bản. Moshi cũng có thể xử lý hai luồng âm thanh cùng một lúc, cho phép nó nghe và nói cùng một lúc.
Rất giống với con người (hoặc Skynet).
Có gì mới lạ ở đây?
- Chất lượng đàm thoại. Giọng điệu chiếm 70% các cuộc trò chuyện bằng giọng nói, ví dụ như cuộc gọi điện thoại, trong khi từ ngữ chiếm 30% còn lại. Nhóm Kyutai đã giới thiệu một mô hình ngôn ngữ âm thanh chuyển đổi âm thanh thành “từ giả” và dự đoán phân đoạn âm thanh tiếp theo từ âm thanh trước đó để chuyển tiếp cuộc trò chuyện tự nhiên nhằm cải thiện 70% cuộc trò chuyện bằng giọng nói.
- Độ trễ cuộc trò chuyện. Độ trễ tối đa mà chúng ta có thể chịu đựng để có một cuộc trò chuyện tự nhiên là khoảng 150 mili giây. Là bản phát hành đầu tiên, mô hình Moshi có thể cung cấp độ trễ từ 160ms đến 200ms. Không hoàn hảo, nhưng xét đến GPT4o thì khoảng 232 đến 320 ms, điều này thực sự đáng chú ý, đặc biệt khi họ là một nhóm nhỏ với 8 nhân viên toàn thời gian.Moshi, chạy theo thời gian thực
- Khả năng truy cập. Mô hình này có thể chạy trên các thiết bị như máy tính xách tay hoặc điện thoại di động, giúp người tiêu dùng dễ tiếp cận hơn nhiều.mô hình nén để làm cho nó có sẵn trên cạnh
Vậy thì sao?
- Gửi đến chủ doanh nghiệp hoặc doanh nghiệp, tương tác với khách hàng là trọng tâm của bất kỳ doanh nghiệp nào. Vì hầu hết các doanh nghiệp đang phát triển chiến lược AI của mình, việc tận dụng LLM để cải thiện trải nghiệm của khách hàng qua trò chuyện là một phần quan trọng của chiến lược này, nhưng lại dựa trên văn bản. Giai đoạn tiếp theo của chiến lược này là cải thiện trải nghiệm của khách hàng ở cấp độ giọng nói hoặc được gọi là mô hình đa phương thức, đang ở ngay trước mắt.
- Đến một công ty khởi nghiệp, việc đóng gói LLM mã nguồn đóng hoặc mã nguồn mở sẽ không còn hiệu quả nữa. Làm thế nào để nhúng lời nhắc bằng giọng nói vào ứng dụng của bạn? Perplexity hiện đang giới thiệu tính năng trả phí cho lời nhắc bằng giọng nói. Tính năng này chưa tuyệt vời nhưng đang là xu hướng.
- Vấn đề này liên quan thế nào đến Châu Á?? Châu Á, đặc biệt là Đông Nam Á, là một thị trường không đồng nhất, và ngôn ngữ và sự khác biệt trong đối thoại địa phương là những thách thức chính đối với việc mở rộng kinh doanh. LLM và mô hình Voice là một cách tuyệt vời để giải quyết thách thức này trong việc giúp các cá nhân và doanh nghiệp điều hướng khu vực. Các nhà sản xuất điện thoại, đặc biệt là các nhà sản xuất Trung Quốc, đang thực hiện các bước để giải quyết thách thức và cơ hội này.
Họ đã làm điều đó như thế nào?
Kyutai đã phát triển Helium, một mô hình ngôn ngữ tham số 7 tỷ và đào tạo trước Moshi bằng sự kết hợp giữa dữ liệu văn bản tổng hợp và dữ liệu âm thanh từ mô hình ngôn ngữ nói trên. Đi sâu hơn một chút, quá trình tinh chỉnh Moshi bao gồm 100.000 chuyển đổi tổng hợp được chuyển đổi bằng công nghệ Text-to-Speech (TTS) và giọng nói của nó được đào tạo trên dữ liệu tổng hợp do một mô hình TTS khác tạo ra.
Kế hoạch tiếp theo của Kyutai là gì?
Chúng ta có thể mong đợi một báo cáo kỹ thuật và các phiên bản mô hình mở; các phiên bản tiếp theo sẽ được tinh chỉnh dựa trên phản hồi của người dùng với chiến lược cấp phép cực kỳ tự do và thoải mái để khuyến khích áp dụng.
Để xem toàn bộ bài phát biểu quan trọng, vui lòng nhấp vào đây.
Cuối cùng, hãy chú ý đến phía Đông; Doubao mô hình từ Bytedance, nơi có nội dung video và âm thanh phong phú nhất, sẽ là đối thủ đáng gờm nhất trong lĩnh vực này.
Đăng ký để nhận thông tin cập nhật bài viết mới nhất trên blog
Để lại bình luận của bạn: