คิวไท
 เมื่อวานนี้ บริษัทได้เปิดตัว Moshi ซึ่งเป็นโมเดลพื้นฐานมัลติโหมดโอเพนซอร์สแบบเรียลไทม์ที่สามารถฟังและพูดได้ ก่อให้เกิดความตื่นเต้นในการนำเสนอและทางออนไลน์

ทำไมมันถึงน่าตื่นเต้นมาก?

Moshi สามารถเข้าใจและแสดงอารมณ์ได้โดยใช้สำเนียงที่แตกต่างกันในการรับและส่งออก นอกจากนี้ยังสามารถฟังและสร้างเสียงและคำพูดในขณะที่รักษาการไหลของความคิดในรูปแบบข้อความ Moshi ยังสามารถจัดการสตรีมเสียงสองสตรีมพร้อมกันได้ ทำให้สามารถฟังและพูดได้ในเวลาเดียวกัน

ใกล้ชิดกับมนุษย์ (หรือสกายเน็ต) มากขึ้น

นี่มันมีอะไรแปลกใหม่นักนะ?

  • คุณภาพการสนทนาน้ำเสียงคิดเป็น 70% ของการสนทนาด้วยเสียง เช่น การโทรศัพท์ ในขณะที่คำพูดคิดเป็น 30% ที่เหลือ ทีมงาน Kyutai ได้แนะนำ แบบจำลองภาษาเสียง ที่แปลงเสียงเป็น “คำเทียม” และคาดการณ์ส่วนเสียงถัดไปจากเสียงก่อนหน้าเพื่อส่งต่อการสนทนาที่เป็นธรรมชาติเพื่อปรับปรุง 70% ของการสนทนาด้วยเสียง
  • ความหน่วงของการสนทนาความหน่วงสูงสุดที่เราสามารถทนได้เพื่อการสนทนาตามธรรมชาติอยู่ที่ประมาณ 150 มิลลิวินาที ในการเปิดตัวครั้งแรก โมเดล Moshi สามารถส่งมอบความหน่วงได้ระหว่าง 160ms ถึง 200ms ซึ่งไม่สมบูรณ์แบบ แต่เมื่อพิจารณาว่า GPT4o อยู่ที่ประมาณ 232 ถึง 320 มิลลิวินาที มันน่าทึ่งมาก โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าทีมของพวกเขามีขนาดเล็กเพียง 8 FTEโมชิ วิ่งแบบเรียลไทม์
  • การเข้าถึงได้ โมเดลดังกล่าวสามารถทำงานบนอุปกรณ์ เช่น แล็ปท็อป หรือโทรศัพท์มือถือ ซึ่งทำให้ผู้บริโภคเข้าถึงได้ง่ายขึ้นมากการบีบอัดโมเดลเพื่อให้สามารถใช้งานได้บนขอบ

แล้วไงล่ะ?

  • แก่เจ้าของธุรกิจหรือองค์กรการโต้ตอบกับลูกค้าถือเป็นหัวใจสำคัญของธุรกิจใดๆ เนื่องจากองค์กรส่วนใหญ่กำลังพัฒนาแผนงานด้าน AI การใช้ประโยชน์จาก LLM เพื่อปรับปรุงประสบการณ์ของลูกค้าผ่านการสนทนาถือเป็นส่วนสำคัญ แม้ว่าจะเป็นเพียงข้อความก็ตาม ขั้นตอนต่อไปของแผนงานนี้คือการปรับปรุงประสบการณ์ของลูกค้าในระดับเสียง หรือที่เรียกว่าแบบจำลองหลายรูปแบบ ซึ่งกำลังจะเกิดขึ้นในอนาคต  
  • สู่การเริ่มต้นธุรกิจการห่อหุ้ม LLM แบบปิดหรือโอเพ่นซอร์สนั้นไม่สามารถทำได้อีกต่อไป คุณจะฝังคำเตือนด้วยเสียงลงในแอปของคุณได้อย่างไร Perplexity กำลังแนะนำฟีเจอร์แบบชำระเงินสำหรับคำเตือนที่ใช้เสียงอยู่ในขณะนี้ แม้ว่าจะยังไม่ค่อยดีนัก แต่ก็เป็นกระแสนิยม
  • เรื่องนี้จะเกี่ยวกับเอเชียอย่างไรเอเชีย โดยเฉพาะเอเชียตะวันออกเฉียงใต้ เป็นตลาดที่ไม่เป็นเนื้อเดียวกัน และความแตกต่างด้านภาษาและการสนทนาในแต่ละพื้นที่ถือเป็นความท้าทายสำคัญสำหรับการขยายธุรกิจ แบบจำลอง LLM และ Voice เป็นวิธีที่ยอดเยี่ยมในการแก้ปัญหาความท้าทายนี้ โดยช่วยให้บุคคลและธุรกิจต่างๆ สามารถดำเนินธุรกิจในภูมิภาคนี้ได้ ผู้ผลิตโทรศัพท์ โดยเฉพาะผู้ผลิตในจีน กำลังดำเนินการเพื่อรับมือกับความท้าทายและโอกาสนี้

พวกเขาทำได้อย่างไร?

Kyutai ได้พัฒนา Helium ซึ่งเป็นโมเดลภาษาที่มีพารามิเตอร์ 7 พันล้านตัว และได้ฝึก Moshi ล่วงหน้าด้วยการผสมผสานระหว่างข้อความสังเคราะห์และข้อมูลเสียงจากโมเดลภาษาดังกล่าว เมื่อเจาะลึกลงไปอีกเล็กน้อย การปรับแต่งของ Moshi เกี่ยวข้องกับการแปลงข้อมูลสังเคราะห์ 100,000 รายการที่แปลงโดยใช้เทคโนโลยี Text-to-Speech (TTS) และเสียงของ Moshi ได้รับการฝึกโดยใช้ข้อมูลสังเคราะห์ที่สร้างโดยโมเดล TTS อีกแบบหนึ่ง

คิวไทจะเป็นยังไงต่อไป?

เราคาดหวังรายงานทางเทคนิคและเวอร์ชันโมเดลเปิดได้ โดยรุ่นในอนาคตจะได้รับการปรับปรุงตามความคิดเห็นของผู้ใช้โดยมีกลยุทธ์การออกใบอนุญาตแบบเสรีและอนุญาตอย่างสูงสุดเพื่อส่งเสริมการนำไปใช้

หากต้องการชมปาฐกถาสำคัญฉบับเต็ม โปรดคลิก ที่นี่.

สุดท้ายระวังฝั่งตะวันออก โดวเป่า โมเดลจาก Bytedance ซึ่งมีเนื้อหาวิดีโอและเสียงที่หลากหลายที่สุด จะเป็นผู้เล่นที่น่าเกรงขามที่สุดในพื้นที่นี้

โพสโดย ลีโอ เจียง
โพสก่อนหน้า
คุณอาจชอบเช่นกัน

ฝากความคิดเห็นของคุณ:

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *