คู่แข่งโอเพนซอร์สของ OpenAI ChatGPT4 เพิ่งมาถึง ซึ่งเป็นภาษาฝรั่งเศสและมีชื่อภาษาญี่ปุ่น

คิวไท เมื่อวานนี้ บริษัทได้เปิดตัว Moshi ซึ่งเป็นโมเดลพื้นฐานมัลติโหมดโอเพนซอร์สแบบเรียลไทม์ที่สามารถฟังและพูดได้ ก่อให้เกิดความตื่นเต้นในการนำเสนอและทางออนไลน์

ทำไมมันถึงน่าตื่นเต้นมาก?

Moshi สามารถเข้าใจและแสดงอารมณ์ได้โดยใช้สำเนียงที่แตกต่างกันในการรับและส่งออก นอกจากนี้ยังสามารถฟังและสร้างเสียงและคำพูดในขณะที่รักษาการไหลของความคิดในรูปแบบข้อความ Moshi ยังสามารถจัดการสตรีมเสียงสองสตรีมพร้อมกันได้ ทำให้สามารถฟังและพูดได้ในเวลาเดียวกัน

ใกล้ชิดกับมนุษย์ (หรือสกายเน็ต) มากขึ้น

นี่มันมีอะไรแปลกใหม่นักนะ?

คุณภาพการสนทนาน้ำเสียงคิดเป็น 70% ของการสนทนาด้วยเสียง เช่น การโทรศัพท์ ในขณะที่คำพูดคิดเป็น 30% ที่เหลือ ทีมงาน Kyutai ได้แนะนำ แบบจำลองภาษาเสียง ที่แปลงเสียงเป็น “คำเทียม” และคาดการณ์ส่วนเสียงถัดไปจากเสียงก่อนหน้าเพื่อส่งต่อการสนทนาที่เป็นธรรมชาติเพื่อปรับปรุง 70% ของการสนทนาด้วยเสียง
ความหน่วงของการสนทนาความหน่วงสูงสุดที่เราสามารถทนได้เพื่อการสนทนาตามธรรมชาติอยู่ที่ประมาณ 150 มิลลิวินาที ในการเปิดตัวครั้งแรก โมเดล Moshi สามารถส่งมอบความหน่วงได้ระหว่าง 160ms ถึง 200ms ซึ่งไม่สมบูรณ์แบบ แต่เมื่อพิจารณาว่า GPT4o อยู่ที่ประมาณ 232 ถึง 320 มิลลิวินาที มันน่าทึ่งมาก โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าทีมของพวกเขามีขนาดเล็กเพียง 8 FTEโมชิ วิ่งแบบเรียลไทม์
การเข้าถึงได้ โมเดลดังกล่าวสามารถทำงานบนอุปกรณ์ เช่น แล็ปท็อป หรือโทรศัพท์มือถือ ซึ่งทำให้ผู้บริโภคเข้าถึงได้ง่ายขึ้นมากการบีบอัดโมเดลเพื่อให้สามารถใช้งานได้บนขอบ

แล้วไงล่ะ?

แก่เจ้าของธุรกิจหรือองค์กรการโต้ตอบกับลูกค้าถือเป็นหัวใจสำคัญของธุรกิจใดๆ เนื่องจากองค์กรส่วนใหญ่กำลังพัฒนาแผนงานด้าน AI การใช้ประโยชน์จาก LLM เพื่อปรับปรุงประสบการณ์ของลูกค้าผ่านการสนทนาถือเป็นส่วนสำคัญ แม้ว่าจะเป็นเพียงข้อความก็ตาม ขั้นตอนต่อไปของแผนงานนี้คือการปรับปรุงประสบการณ์ของลูกค้าในระดับเสียง หรือที่เรียกว่าแบบจำลองหลายรูปแบบ ซึ่งกำลังจะเกิดขึ้นในอนาคต
สู่การเริ่มต้นธุรกิจการห่อหุ้ม LLM แบบปิดหรือโอเพ่นซอร์สนั้นไม่สามารถทำได้อีกต่อไป คุณจะฝังคำเตือนด้วยเสียงลงในแอปของคุณได้อย่างไร Perplexity กำลังแนะนำฟีเจอร์แบบชำระเงินสำหรับคำเตือนที่ใช้เสียงอยู่ในขณะนี้ แม้ว่าจะยังไม่ค่อยดีนัก แต่ก็เป็นกระแสนิยม
เรื่องนี้จะเกี่ยวกับเอเชียอย่างไรเอเชีย โดยเฉพาะเอเชียตะวันออกเฉียงใต้ เป็นตลาดที่ไม่เป็นเนื้อเดียวกัน และความแตกต่างด้านภาษาและการสนทนาในแต่ละพื้นที่ถือเป็นความท้าทายสำคัญสำหรับการขยายธุรกิจ แบบจำลอง LLM และ Voice เป็นวิธีที่ยอดเยี่ยมในการแก้ปัญหาความท้าทายนี้ โดยช่วยให้บุคคลและธุรกิจต่างๆ สามารถดำเนินธุรกิจในภูมิภาคนี้ได้ ผู้ผลิตโทรศัพท์ โดยเฉพาะผู้ผลิตในจีน กำลังดำเนินการเพื่อรับมือกับความท้าทายและโอกาสนี้

พวกเขาทำได้อย่างไร?

Kyutai ได้พัฒนา Helium ซึ่งเป็นโมเดลภาษาที่มีพารามิเตอร์ 7 พันล้านตัว และได้ฝึก Moshi ล่วงหน้าด้วยการผสมผสานระหว่างข้อความสังเคราะห์และข้อมูลเสียงจากโมเดลภาษาดังกล่าว เมื่อเจาะลึกลงไปอีกเล็กน้อย การปรับแต่งของ Moshi เกี่ยวข้องกับการแปลงข้อมูลสังเคราะห์ 100,000 รายการที่แปลงโดยใช้เทคโนโลยี Text-to-Speech (TTS) และเสียงของ Moshi ได้รับการฝึกโดยใช้ข้อมูลสังเคราะห์ที่สร้างโดยโมเดล TTS อีกแบบหนึ่ง

คิวไทจะเป็นยังไงต่อไป?

เราคาดหวังรายงานทางเทคนิคและเวอร์ชันโมเดลเปิดได้ โดยรุ่นในอนาคตจะได้รับการปรับปรุงตามความคิดเห็นของผู้ใช้โดยมีกลยุทธ์การออกใบอนุญาตแบบเสรีและอนุญาตอย่างสูงสุดเพื่อส่งเสริมการนำไปใช้

หากต้องการชมปาฐกถาสำคัญฉบับเต็ม โปรดคลิก ที่นี่.

สุดท้ายระวังฝั่งตะวันออก โดวเป่า โมเดลจาก Bytedance ซึ่งมีเนื้อหาวิดีโอและเสียงที่หลากหลายที่สุด จะเป็นผู้เล่นที่น่าเกรงขามที่สุดในพื้นที่นี้

10 กลยุทธ์ที่พิสูจน์แล้วในการเพิ่มประสิทธิภาพ SEO ของเว็บไซต์ธุรกิจของคุณด้วยแบ็คลิงก์คุณภาพสูง

แอปพลิเคชั่น AI

GPT4o Vision เทียบกับ Llama 3.2 Vision เทียบกับ Mistral Large 2 มัสก์เปิดตัว Robotaxi 'Cybercab'

หลักสูตร AI

คู่แข่งโอเพนซอร์สของ OpenAI ChatGPT4 เพิ่งมาถึง ซึ่งเป็นภาษาฝรั่งเศสและมีชื่อภาษาญี่ปุ่น

ทำไมมันถึงน่าตื่นเต้นมาก?

นี่มันมีอะไรแปลกใหม่นักนะ?

แล้วไงล่ะ?

พวกเขาทำได้อย่างไร?

คิวไทจะเป็นยังไงต่อไป?

โพสโดย ลีโอ เจียง

คุณอาจชอบเช่นกัน

Physical AI คืออะไร

10 กลยุทธ์ที่พิสูจน์แล้วในการเพิ่มประสิทธิภาพ SEO ของเว็บไซต์ธุรกิจของคุณด้วยแบ็คลิงก์คุณภาพสูง

GPT4o Vision เทียบกับ Llama 3.2 Vision เทียบกับ Mistral Large 2 มัสก์เปิดตัว Robotaxi 'Cybercab'

วิธีสร้างจดหมายข่าวที่มีผลกระทบสูงใน 30 นาที (คู่มือทีละขั้นตอน)

ฝากความคิดเห็นของคุณ:
ยกเลิกการตอบ

ฝากความคิดเห็นของคุณ:

กระทู้ล่าสุด

วิธีสร้างจดหมายข่าวที่มีผลกระทบสูงใน 30 นาที (คู่มือทีละขั้นตอน)

DeepSeek AI ชี้ AI เขย่าตลาดโลก: การปฏิวัติเทคโนโลยีและ AI มูลค่า $1 ล้านล้าน

CES 2025: นวัตกรรมที่จะเปลี่ยนแปลงทุกสิ่งทุกอย่าง (และบางส่วนที่อาจไม่เปลี่ยนแปลง)

ห้าขั้นตอนในการเริ่มต้นการเติบโตที่นำโดยผลิตภัณฑ์ของคุณ

จดหมายข่าว AI ที่ดีที่สุดสำหรับการเติบโตทางธุรกิจ

หมวดหมู่

ลิงค์ด่วน

คู่แข่งโอเพนซอร์สของ OpenAI ChatGPT4 เพิ่งมาถึง ซึ่งเป็นภาษาฝรั่งเศสและมีชื่อภาษาญี่ปุ่น

ทำไมมันถึงน่าตื่นเต้นมาก?

นี่มันมีอะไรแปลกใหม่นักนะ?

แล้วไงล่ะ?

พวกเขาทำได้อย่างไร?

คิวไทจะเป็นยังไงต่อไป?

โพสโดย ลีโอ เจียง

แชร์โพสต์นี้

สมัครสมาชิกเพื่อรับอัปเดตบทความบล็อกล่าสุด

คุณอาจชอบเช่นกัน

ฝากความคิดเห็นของคุณ: ยกเลิกการตอบ

ฝากความคิดเห็นของคุณ:

กระทู้ล่าสุด

จดหมายข่าว AI ที่ดีที่สุดสำหรับการเติบโตทางธุรกิจ

หมวดหมู่

ลิงค์ด่วน

ฝากความคิดเห็นของคุณ:
ยกเลิกการตอบ