Alibaba ปล่อยของ! เปิดตัว AI โอเพ่นซอร์ส Wan2.2-S2V ปลุกชีวิตภาพนิ่งให้กลายเป็นวิดีโอ พูด-ร้องเพลง-แสดงท่าทางได้สมจริง

Alibaba ปล่อยของ! เปิดตัว AI โอเพ่นซอร์ส Wan2.2-S2V ปลุกชีวิตภาพนิ่งให้กลายเป็นวิดีโอ พูด-ร้องเพลง-แสดงท่าทางได้สมจริง

Alibaba สร้างเสียงฮือฮาอีกครั้ง ด้วยการเปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดในตระกูล Wan2.2 ที่มีความสามารถในการเปลี่ยนภาพถ่ายบุคคลธรรมดาให้กลายเป็น “Digital Human” คุณภาพระดับภาพยนตร์ สามารถพูด ร้องเพลง และแสดงท่าทางได้อย่างน่าทึ่ง เพียงแค่ใช้ภาพนิ่งหนึ่งภาพและไฟล์เสียงเท่านั้น

โมเดล AI ตัวนี้ถูกออกแบบมาเพื่อปลดล็อกศักยภาพใหม่ๆ ให้กับคอนเทนต์ครีเอเตอร์ โดยสามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงได้อย่างง่ายดาย รองรับการสร้างสรรค์ที่หลากหลาย ไม่ว่าจะเป็นมุมมองภาพบุคคลแบบใกล้, ครึ่งตัว หรือเต็มตัว พร้อมทั้งควบคุมการเคลื่อนไหวของตัวละครและสภาพแวดล้อมให้เป็นไปตามจินตนาการได้อย่างแม่นยำ

ความสามารถที่เหนือกว่าแค่การขยับปาก

สิ่งที่ทำให้ Wan2.2-S2V โดดเด่น คือความสามารถในการสร้างตัวละครที่แสดงอารมณ์ได้อย่างสมจริง ตั้งแต่การสนทนาที่เป็นธรรมชาติไปจนถึงการแสดงดนตรีที่ทรงพลัง ด้วยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงประสิทธิภาพสูง ไม่เพียงเท่านั้นยังสามารถจัดการกับตัวละครหลายตัวในฉากเดียวกันได้อย่างราบรื่น เปลี่ยนเสียงบันทึกให้กลายเป็นภาพเคลื่อนไหวที่สมจริงสำหรับอวทาร์หลากสไตล์ ตั้งแต่ตัวการ์ตูน สัตว์ ไปจนถึงตัวละครที่มีเอกลักษณ์เฉพาะตัว

เพื่อตอบโจทย์การใช้งานที่แตกต่างกัน เทคโนโลยีนี้รองรับความละเอียดวิดีโอทั้ง 480P และ 720P ทำให้เหมาะสำหรับทั้งการสร้างคอนเทนต์สำหรับโซเชียลมีเดียไปจนถึงงานนำเสนอระดับมืออาชีพที่ต้องการคุณภาพสูง

เบื้องหลังนวัตกรรมทางเทคโนโลยีสุดล้ำ

Wan2.2-S2V มีประสิทธิภาพเหนือกว่า AI สร้างวิดีโอ talking-head ทั่วไป เพราะใช้เทคนิคผสมผสานการควบคุมการเคลื่อนไหวหลักผ่าน “คำสั่งข้อความ” เข้ากับการเคลื่อนไหวเฉพาะจุดที่ละเอียดอ่อนจาก “ข้อมูลเสียง” ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้ลึกซึ้งยิ่งขึ้น

นอกจากนี้ ยังมีนวัตกรรมการประมวลผลเฟรมวิดีโอที่ช่วยลดต้นทุนและเวลาในการประมวลผลลงอย่างมาก โดยการบีบอัดเฟรมวิดีโอให้กลายเป็นข้อมูลแฝง (latent representation) ขนาดกะทัดรัดเพียงชุดเดียว ซึ่งเป็นกุญแจสำคัญที่ทำให้สามารถสร้างสรรค์วิดีโอที่มีความยาวและมีเสถียรภาพสูงได้

โมเดลนี้ผ่านการฝึกฝน (train) จากชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ทีมวิจัยของ Alibaba สร้างขึ้นโดยเฉพาะสำหรับการผลิตภาพยนตร์และรายการโทรทัศน์ ทำให้มีความยืดหยุ่นสูง สามารถสร้างผลงานได้ทั้งวิดีโอสั้นแนวตั้งและงานโปรดักชันแนวนอนแบบดั้งเดิม

สำหรับผู้ที่สนใจ ทั้งนักพัฒนาและครีเอเตอร์ สามารถดาวน์โหลด Wan2.2-S2V ไปใช้งานได้แล้วบน Hugging Face, GitHub และ ModelScope ซึ่งเป็นคอมมิวนิตี้โอเพ่นซอร์สของ Alibaba Cloud โดยความสำเร็จของโมเดลในตระกูล Wan series ที่มียอดดาวน์โหลดรวมแล้วกว่า 6.9 ล้านครั้ง เป็นเครื่องยืนยันถึงความมุ่งมั่นของ Alibaba ในการผลักดันชุมชนโอเพ่นซอร์สระดับโลก

Gartner ยก Huawei Cloud เป็น “ผู้นำ” Magic Quadrant ด้านการจัดการคอนเทนเนอร์ปี 2025

Scroll to Top