Alibaba สร้างเสียงฮือฮาอีกครั้ง ด้วยการเปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดในตระกูล Wan2.2 ที่มีความสามารถในการเปลี่ยนภาพถ่ายบุคคลธรรมดาให้กลายเป็น “Digital Human” คุณภาพระดับภาพยนตร์ สามารถพูด ร้องเพลง และแสดงท่าทางได้อย่างน่าทึ่ง เพียงแค่ใช้ภาพนิ่งหนึ่งภาพและไฟล์เสียงเท่านั้น
โมเดล AI ตัวนี้ถูกออกแบบมาเพื่อปลดล็อกศักยภาพใหม่ๆ ให้กับคอนเทนต์ครีเอเตอร์ โดยสามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงได้อย่างง่ายดาย รองรับการสร้างสรรค์ที่หลากหลาย ไม่ว่าจะเป็นมุมมองภาพบุคคลแบบใกล้, ครึ่งตัว หรือเต็มตัว พร้อมทั้งควบคุมการเคลื่อนไหวของตัวละครและสภาพแวดล้อมให้เป็นไปตามจินตนาการได้อย่างแม่นยำ
ความสามารถที่เหนือกว่าแค่การขยับปาก
สิ่งที่ทำให้ Wan2.2-S2V โดดเด่น คือความสามารถในการสร้างตัวละครที่แสดงอารมณ์ได้อย่างสมจริง ตั้งแต่การสนทนาที่เป็นธรรมชาติไปจนถึงการแสดงดนตรีที่ทรงพลัง ด้วยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงประสิทธิภาพสูง ไม่เพียงเท่านั้นยังสามารถจัดการกับตัวละครหลายตัวในฉากเดียวกันได้อย่างราบรื่น เปลี่ยนเสียงบันทึกให้กลายเป็นภาพเคลื่อนไหวที่สมจริงสำหรับอวทาร์หลากสไตล์ ตั้งแต่ตัวการ์ตูน สัตว์ ไปจนถึงตัวละครที่มีเอกลักษณ์เฉพาะตัว
เพื่อตอบโจทย์การใช้งานที่แตกต่างกัน เทคโนโลยีนี้รองรับความละเอียดวิดีโอทั้ง 480P และ 720P ทำให้เหมาะสำหรับทั้งการสร้างคอนเทนต์สำหรับโซเชียลมีเดียไปจนถึงงานนำเสนอระดับมืออาชีพที่ต้องการคุณภาพสูง
เบื้องหลังนวัตกรรมทางเทคโนโลยีสุดล้ำ
Wan2.2-S2V มีประสิทธิภาพเหนือกว่า AI สร้างวิดีโอ talking-head ทั่วไป เพราะใช้เทคนิคผสมผสานการควบคุมการเคลื่อนไหวหลักผ่าน “คำสั่งข้อความ” เข้ากับการเคลื่อนไหวเฉพาะจุดที่ละเอียดอ่อนจาก “ข้อมูลเสียง” ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้ลึกซึ้งยิ่งขึ้น
นอกจากนี้ ยังมีนวัตกรรมการประมวลผลเฟรมวิดีโอที่ช่วยลดต้นทุนและเวลาในการประมวลผลลงอย่างมาก โดยการบีบอัดเฟรมวิดีโอให้กลายเป็นข้อมูลแฝง (latent representation) ขนาดกะทัดรัดเพียงชุดเดียว ซึ่งเป็นกุญแจสำคัญที่ทำให้สามารถสร้างสรรค์วิดีโอที่มีความยาวและมีเสถียรภาพสูงได้
โมเดลนี้ผ่านการฝึกฝน (train) จากชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ทีมวิจัยของ Alibaba สร้างขึ้นโดยเฉพาะสำหรับการผลิตภาพยนตร์และรายการโทรทัศน์ ทำให้มีความยืดหยุ่นสูง สามารถสร้างผลงานได้ทั้งวิดีโอสั้นแนวตั้งและงานโปรดักชันแนวนอนแบบดั้งเดิม
สำหรับผู้ที่สนใจ ทั้งนักพัฒนาและครีเอเตอร์ สามารถดาวน์โหลด Wan2.2-S2V ไปใช้งานได้แล้วบน Hugging Face, GitHub และ ModelScope ซึ่งเป็นคอมมิวนิตี้โอเพ่นซอร์สของ Alibaba Cloud โดยความสำเร็จของโมเดลในตระกูล Wan series ที่มียอดดาวน์โหลดรวมแล้วกว่า 6.9 ล้านครั้ง เป็นเครื่องยืนยันถึงความมุ่งมั่นของ Alibaba ในการผลักดันชุมชนโอเพ่นซอร์สระดับโลก
–Gartner ยก Huawei Cloud เป็น “ผู้นำ” Magic Quadrant ด้านการจัดการคอนเทนเนอร์ปี 2025







