PixelDance จาก ByteDance: โมเดลวิดีโอ AI ที่อาจเป็นจุดจบของ Sora

ByteDance ได้เข้าสู่ยุคใหม่ของเทคโนโลยีวิดีโอ AI อย่างเป็นทางการด้วยการเปิดตัวโมเดล Doubao PixelDance:

คาดว่าตลาดวิดีโอ AI ทั่วโลกจะเติบโตแบบก้าวกระโดด โดยมีบริษัทอย่าง ByteDance
โมเดล Doubao PixelDance นำเสนอความก้าวหน้าที่ล้ำสมัยในด้านการสร้างภาพเคลื่อนไหวตัวละคร การสร้างวิดีโอแบบหลายเลนส์ และการควบคุมกล้อง
การสร้างเนื้อหาที่ขับเคลื่อนด้วย AI สามารถเข้าถึงผู้ที่ไม่ใช่มืออาชีพได้มากขึ้น ส่งผลให้เวิร์กโฟลว์ของภาพยนตร์ โทรทัศน์ และโฆษณาแบบดั้งเดิมเปลี่ยนไป
ผู้เชี่ยวชาญคาดการณ์ว่าโมเดลวิดีโอ AI จะปฏิวัติการผลิตวิดีโอ ลดต้นทุน และเปิดโอกาสให้มีอิสระในการสร้างสรรค์

บทความนี้จะสำรวจ:

คุณสมบัติเฉพาะของโมเดล Doubao PixelDance;
ช่วยเพิ่มประสิทธิภาพตัวละครและการสร้างวิดีโอแบบหลายเลนส์
ผลกระทบต่ออุตสาหกรรมภาพยนตร์ โทรทัศน์ และโฆษณา
เหตุใดโมเดล PixelDance จึงสร้างมาตรฐานใหม่ให้แก่เทคโนโลยีวิดีโอ AI

มาเริ่มกันเลย:

ByteDance เปิดตัว Doubao PixelDance

ByteDance ได้เปิดตัว โมเดลวิดีโอ AI ใหม่ที่เรียกว่า Doubao ภายใต้แพลตฟอร์ม Volcano Engine ซึ่งเป็นสัญญาณของการเปลี่ยนแปลงครั้งสำคัญในอุตสาหกรรมการผลิตวิดีโอ

เมื่อวันที่ 24 กันยายน 2024 บริษัทได้เปิดตัวโมเดลการสร้างวิดีโอ AI ขั้นสูงสองรุ่น:

โมเดล Doubao PixelDance
โมเดลสาหร่าย

แม้ว่าโมเดล Seaweed จะสมควรได้รับการตรวจสอบอย่างละเอียด แต่เนื้อหานี้จะเน้นที่โมเดล PixelDance ซึ่งสร้างความตื่นเต้นอย่างมากเนื่องจากความสามารถที่ล้ำสมัย

โมเดลนี้มีการปรับปรุงที่โดดเด่นหลายประการ ได้แก่:

การเคลื่อนไหวของตัวละครที่ซับซ้อนและต่อเนื่อง
การสร้างวิดีโอหลายกล้องแบบไร้รอยต่อ
การควบคุมกล้องที่ไม่มีใครเทียบได้

คุณสมบัติแต่ละอย่างถือเป็นก้าวกระโดดครั้งยิ่งใหญ่ในเทคโนโลยีวิดีโอ AI ทำให้กลายเป็นตัวเปลี่ยนเกมสำหรับอุตสาหกรรมภาพยนตร์ โทรทัศน์ และโฆษณา

การเคลื่อนไหวของตัวละครที่ซับซ้อนและต่อเนื่อง

ปัญหาที่เกิดขึ้นมานานกับวิดีโอที่สร้างด้วย AI ก็คือการขาดความลื่นไหลและความซับซ้อนในการเคลื่อนไหวของตัวละคร ทำให้ดูไม่เป็นธรรมชาติหรือเป็นเครื่องจักร

รุ่นก่อนหน้า เช่นโซระและรันเวย์สามารถจัดการได้เพียงการกระทำพื้นฐานเท่านั้น ซึ่งจำกัดประสิทธิภาพในการสร้างฉากที่เหมือนจริง

โมเดล AI ในยุคก่อนๆ มักจะมีลักษณะคล้ายกับแอนิเมชั่นแบบ PowerPoint โดยตัวละครจะถูกจำกัดให้ทำเพียงท่าทางพื้นฐาน เช่น การหมุน การวิ่ง หรือการโบกมือ

การเคลื่อนไหวที่ซับซ้อนมากขึ้น เช่น การกระทำของมนุษย์ที่ต่อเนื่องและน่าเชื่อถือ แทบจะเป็นไปไม่ได้เลย

อย่างไรก็ตาม โมเดล Doubao PixelDance ได้ทำลายรูปแบบนี้ด้วย การสร้างการแสดงตัวละคร ที่ไม่เพียงแต่ซับซ้อนแต่ยังต่อเนื่องอีกด้วย

โมเดลนี้ช่วยขจัดลักษณะการเคลื่อนไหวแบบหยุด-เริ่มที่สะดุดของวิดีโอที่สร้างโดย AI ก่อนหน้านี้ ตัวอย่างเช่น ลองพิจารณาถึงอารมณ์ที่ต่อเนื่องในฉากสุดท้ายของ ราชาแห่งความตลกโดยการกระทำของตัวเอกสร้างความตึงเครียดและสื่อถึงอารมณ์อันลึกซึ้ง

โมเดล PixelDance ช่วยให้การเคลื่อนไหวของตัวละครมีความต่อเนื่องและลื่นไหลในระดับเดียวกัน ทำให้เนื้อหาที่สร้างโดย AI สามารถแสดงอารมณ์ในระดับเดียวกันได้ ความสามารถนี้ทำให้ AI เข้าใกล้การเป็นเครื่องมือที่มีประสิทธิภาพในการสร้างเนื้อหาที่สะท้อนอารมณ์ในภาพยนตร์และโฆษณามากขึ้น

การสร้างวิดีโอแบบหลายเลนส์

นอกจากการเคลื่อนไหวอย่างต่อเนื่องแล้ว โมเดล PixelDance ยังโดดเด่นในด้านความสามารถในการ สร้างวิดีโอหลายเลนส์จากภาพเดียว และรวดเร็ว

ก่อนหน้านี้ ฟังก์ชันประเภทนี้มีข้อจำกัด และแม้แต่โมเดล AI ขั้นสูงที่สุด เช่น ที่ใช้ในวิดีโอโปรโมตของ Sora ก็ยังดิ้นรนที่จะรักษาคุณภาพที่สม่ำเสมอในภาพถ่ายจากกล้องที่แตกต่างกัน

การสร้างวิดีโอหลายเลนส์หลายช็อตต้องใช้การแทรกแซงด้วยมือที่ซับซ้อนเพื่อให้แน่ใจว่ามีความสอดคล้องกันทั้งในด้านสไตล์ ตัวละคร และฉาก

โมเดล Doubao PixelDance ช่วยแก้ปัญหาเหล่านี้ได้ โดยช่วยให้ผู้ใช้สามารถสร้างวิดีโอแบบหลายช็อตได้อย่างรวดเร็ว โดยใช้เพียงภาพเดียวและคำสั่ง ก็สามารถสร้างวิดีโอได้อย่างสม่ำเสมอในมุมกล้องและการเปลี่ยนฉากต่างๆ

ตัวอย่างเช่น ลองนึกถึงคำสั่งที่ยมทูตถือเคียวเข้าหาผู้หญิงคนหนึ่ง แล้วกล้องก็สลับไปมาระหว่างภาพระยะใกล้ของใบหน้าที่หวาดกลัวของผู้หญิงคนนั้นกับภาพมุมกว้างของฉากนั้น โมเดล PixelDance จัดการการเปลี่ยนแปลงเหล่านี้ได้อย่างสมบูรณ์แบบ โดยรักษาความสอดคล้องของภาพในทุกช็อต

ความสามารถนี้ไม่เพียงแต่เป็นความสำเร็จทางเทคนิคเท่านั้น แต่ยังส่งผลอย่างมากต่อภาคภาพยนตร์ โทรทัศน์ และโฆษณา ความสามารถในการสร้างวิดีโอแบบหลายช็อตช่วยลดเวลาและต้นทุนในการผลิตได้อย่างรวดเร็ว เนื่องจากสามารถจัดเตรียมฉากหรือช็อตต่อไปได้ภายในไม่กี่นาที

นอกจากนี้ยังเปิดโลกของการผลิตวิดีโอระดับมืออาชีพให้กับผู้ชมที่กว้างขึ้น เนื่องจากโมเดลนี้ลดอุปสรรคทางเทคนิคในการเข้าสู่ตลาดได้อย่างมาก ด้วย PixelDance ใครๆ ก็สามารถเป็นผู้กำกับได้ โดยเปลี่ยนภาพเดียวและข้อความสั้นๆ ให้กลายเป็นวิดีโอแบบมัลติเลนส์ที่สมบูรณ์แบบได้ในทันที

การควบคุมกล้องขั้นสูงสุด

สิ่งที่น่าประทับใจที่สุดของโมเดล Doubao PixelDance ก็คือระบบควบคุมกล้องขั้นสูง แม้ว่าเครื่องมือวิดีโอ AI อื่นๆ จะมีตัวเลือกในการเคลื่อนที่ของกล้องบ้าง แต่ส่วนใหญ่แล้วจะถูกจำกัดอยู่แค่ฟังก์ชันพื้นฐาน เช่น การซูมหรือการแพนกล้อง

การทำงานของกล้องที่ซับซ้อน เช่น การหมุน 360 องศา หรือการติดตามเป้าหมายอย่างแม่นยำ ถือว่าไม่สามารถทำได้ด้วยวิดีโอที่สร้างโดย AI จนถึงขณะนี้

โมเดล PixelDance เปลี่ยนแปลงสิ่งนี้ด้วยการเสนอการเคลื่อนไหวของกล้องที่หลากหลาย ก่อนหน้านี้ไม่อาจจินตนาการได้ ในเนื้อหาที่สร้างโดย AI

สามารถดำเนินการได้:

รอบทิศทาง 360 องศา
ซูมเข้าและซูมออกจากวัตถุ
ทำการแพนและติดตามภาพที่ซับซ้อน

ด้วยความแม่นยำที่น่าทึ่ง

ตัวอย่างเช่น ข้อความแจ้งที่อธิบายถึงกล้องที่ซูมออกจากใบหน้าของผู้หญิงเพื่อเผยให้เห็นผู้ชายที่อยู่เบื้องหลังนั้นได้รับการจัดการด้วยความนุ่มนวลและความแม่นยำอย่างเหลือเชื่อโดยโมเดล PixelDance

ในทำนองเดียวกัน การหมุนรอบวัตถุได้ 360 องศา ซึ่งเคยเป็นงานที่ท้าทายสำหรับ AI ปัจจุบันสามารถทำได้อย่างง่ายดาย

การควบคุมกล้องในระดับนี้ถือเป็นการเปลี่ยนแปลงครั้งสำคัญสำหรับผู้สร้างภาพยนตร์และผู้สร้างวิดีโอ ในอดีต วิดีโอที่ใช้ AI ขาดความลื่นไหลและความคล่องตัว จำเป็นต้องแข่งขันกับเนื้อหาที่ผลิตแบบดั้งเดิม แต่โมเดล PixelDance ช่วยเชื่อมช่องว่างนั้น

โมเดลนี้ช่วยให้สามารถเคลื่อนไหวกล้องได้ ซึ่งปกติแล้วจะต้องมีการตั้งค่าที่ซับซ้อนและอุปกรณ์ราคาแพง ทำให้การผลิตวิดีโอคุณภาพสูงเข้าถึงผู้สร้างได้หลากหลายมากขึ้น ผลลัพธ์ที่ได้คือเนื้อหาที่สร้างโดย AI ที่ดูเป็นมืออาชีพและให้ความรู้สึกเหมือนอยู่ในภาพยนตร์

ก้าวกระโดดครั้งยิ่งใหญ่ไปข้างหน้า

การเปิดตัวโมเดล Doubao PixelDance ถือเป็นจุดเปลี่ยนสำคัญในวงการสร้างวิดีโอด้วย AI โดยกำหนดมาตรฐานใหม่สำหรับสิ่งที่เป็นไปได้ในอุตสาหกรรม ในขณะที่โมเดลอื่นๆ เช่น Sora ได้วางรากฐานแล้ว PixelDance ยกระดับการผลิตวิดีโอด้วย AI สู่ระดับสูงสุด ที่ไม่เคยจะจินตนาการได้มาก่อน

ByteDance ได้วางตำแหน่งตัวเองในฐานะผู้นำในพื้นที่นี้ โดยนำเครื่องมือต่างๆ สู่ตลาดซึ่งไม่เพียงแต่เป็นนวัตกรรมใหม่ แต่ยังมีความสามารถในการบูรณาการในระดับอุตสาหกรรมได้จริง

สำหรับผู้สร้างภาพยนตร์ ผู้โฆษณา และผู้สร้างเนื้อหา โมเดล Doubao PixelDance ถือเป็นก้าวกระโดดครั้งใหญ่

ความสามารถในการจัดการการเคลื่อนไหวของตัวละครที่ซับซ้อน สร้างวิดีโอหลายเลนส์ และควบคุมกล้องขั้นสูง จะช่วย:

เปลี่ยนแปลงเวิร์กโฟลว์
ลดเวลาการผลิต
ต้นทุนต่ำลง

ยิ่งไปกว่านั้น เทคโนโลยีนี้ยังเปิดโอกาสใหม่ๆ ในการสร้างสรรค์ ช่วยให้มืออาชีพและมือสมัครเล่นสามารถขยายขอบเขตของการเล่าเรื่องและการผลิตวิดีโอได้

แม้ว่าปัจจุบันจะมีให้ใช้งานเฉพาะสำหรับการทดสอบคำเชิญขององค์กรเท่านั้น แต่โมเดล Doubao PixelDance จะเปิดตัวเร็วๆ นี้ แพลตฟอร์มเช่น Volcano Ark และในที่สุดก็เปิดให้ผู้ใช้ทุกคนเข้าถึงได้

แม้ว่าการเปิดตัวสู่ผู้บริโภคอาจต้องใช้เวลาสักหน่อยเนื่องจาก ByteDance กำลังปรับปรุงโมเดลนี้ แต่ภาคอุตสาหกรรมก็ได้สังเกตเห็นแล้ว อนาคตของการผลิตวิดีโอด้วย AI ได้มาถึงแล้ว และได้รับการนำโดย Doubao PixelDance

โดยสรุปแล้ว นี่ไม่ใช่แค่วิวัฒนาการของโมเดลวิดีโอ AI เท่านั้น แต่ยังเป็นการปฏิวัติอีกด้วย โมเดล Doubao PixelDance ของ ByteDance ไม่เพียงแต่สร้างมาตรฐานใหม่สำหรับวิดีโอที่สร้างโดย AI เท่านั้น แต่ยังเปิดประตูสู่ อนาคตที่ AI จะเป็นส่วนหนึ่งที่สำคัญของภาพยนตร์ โทรทัศน์ และการผลิตโฆษณา

เมื่อผู้สร้างสรรค์ผลงานหันมาใช้เทคโนโลยีนี้มากขึ้น ทัศนียภาพของการผลิตวิดีโอก็จะพัฒนาต่อไป โดยมี AI เป็นหัวใจหลัก

โมเดล Doubao PixelDance ของ ByteDance กำลังสร้างมาตรฐานใหม่ให้กับการแอนิเมชั่นตัวละคร การสร้างวิดีโอหลายกล้อง และการควบคุมกล้อง
โมเดลนี้แก้ไขข้อจำกัดเดิมในการผลิตวิดีโอด้วย AI ด้วยการนำเสนอการเคลื่อนไหวของตัวละครอย่างต่อเนื่อง ซึ่งก่อนหน้านี้ไม่สามารถทำได้ ซึ่งช่วยเพิ่มความสมจริงในเนื้อหาที่สร้างโดย AI
ความสามารถในการสร้างวิดีโอแบบหลายเลนส์ช่วยลดเวลาและความพยายามที่จำเป็นในการผลิตวิดีโอที่ซับซ้อนอย่างมาก ทำให้การสร้างเนื้อหาคุณภาพสูงสามารถเข้าถึงได้ง่ายขึ้น
การควบคุมกล้องขั้นสูง รวมถึงการถ่ายภาพรอบทิศทาง 360 องศา และการซูมแบบของเหลว ช่วยให้ผู้สร้างภาพยนตร์และนักโฆษณาสามารถถ่ายภาพยนตร์ในระดับมืออาชีพโดยใช้ AI
Doubao PixelDance คาดว่าจะเข้ามาเปลี่ยนแปลงเวิร์กโฟลว์ของภาพยนตร์ โทรทัศน์ และโฆษณา ลดต้นทุนการผลิตไปพร้อมกับขยายความเป็นไปได้ในการสร้างสรรค์