อาลีบาบา (Alibaba) เปิดตัว Wan2.2 โมเดลสร้างวิดีโอขนาดใหญ่แบบโอเพ่นซอร์สชุดแรกที่ใช้สถาปัตยกรรม MoE (Mixture-of-Experts) ซึ่งถูกออกแบบมาเพื่อปฏิวัติการสร้างสรรค์วิดีโอคุณภาพระดับภาพยนตร์ให้แก่ครีเอเตอร์และนักพัฒนาทั่วโลก เพียงแค่คลิกเดียว
Wan2.2 Series: โมเดลไฮบริดรองรับทั้ง Text-to-Video และ Image-to-Video
Wan2.2 series ถือเป็นโมเดลไฮบริดที่รวมความสามารถในการสร้างวิดีโอจากข้อความและภาพไว้ในเฟรมเวิร์กเดียวกัน โดยประกอบด้วยโมเดลหลักสองส่วน ได้แก่ Wan2.2-T2V-A14B สำหรับการแปลงข้อความเป็นวิดีโอ และ Wan2.2-I2V-A14B สำหรับการแปลงภาพเป็นวิดีโอ นอกจากนี้ยังมีโมเดลเสริม Wan2.2-TI2V-5B ที่เน้นประสิทธิภาพและขนาดกะทัดรัด
โมเดล Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ซึ่งสร้างขึ้นบนสถาปัตยกรรม MoE และได้รับการฝึกฝนด้วยชุดข้อมูลภาพที่คัดสรรมาอย่างพิถีพิถัน ทำให้สามารถผลิตวิดีโอที่มีคุณภาพสูงและสวยงามในระดับภาพยนตร์ได้อย่างแท้จริง ครีเอเตอร์จะสามารถควบคุมมิติสำคัญต่าง ๆ ของวิดีโอได้อย่างแม่นยำ อาทิ แสง, ช่วงเวลา, โทนสี, มุมกล้อง, ขนาดเฟรม, องค์ประกอบภาพ และระยะโฟกัส
ประสิทธิภาพเหนือชั้นด้วยเทคโนโลยี MoE: การเคลื่อนไหวสมจริงและลดการใช้ทรัพยากร
โมเดล MoE ทั้งสองนี้แสดงให้เห็นถึงประสิทธิภาพอันโดดเด่นในการสร้างการเคลื่อนไหวที่ซับซ้อน ตั้งแต่การแสดงออกทางสีหน้าที่สดใส ท่าทางมือที่เคลื่อนไหวอย่างเป็นธรรมชาติ ไปจนถึงการเคลื่อนไหวที่ซับซ้อนในกิจกรรมกีฬา ยิ่งไปกว่านั้น ยังช่วยเพิ่มความสมจริงของการนำเสนอวิดีโอ ด้วยความสามารถในการทำตามคำสั่งและยึดหลักกฎทางกายภาพได้ดียิ่งขึ้น
Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ใช้การออกแบบแบบ two-expert ในกระบวนการลดเสียงรบกวนของโมเดลการแพร่กระจาย (diffusion model) เพื่อแก้ไขปัญหาการใช้ทรัพยากรประมวลผลสูงที่เกิดจากการใช้ long tokens โดยมี high-noise expert ที่เน้นเค้าโครงของฉากโดยรวม และ low-noise expert สำหรับปรับแต่งรายละเอียดและพื้นผิว แม้ว่าโมเดลทั้งสองจะมีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ แต่ในแต่ละขั้นตอนจะเปิดใช้งานเพียง 14 พันล้านพารามิเตอร์เท่านั้น ซึ่งช่วยลดการใช้ทรัพยากรประมวลผลลงได้มากถึง 50%
ปรับแต่งละเอียดด้วยระบบพรอมต์แบบภาพยนตร์และการฝึกฝนข้อมูลขนาดใหญ่
Wan2.2 รองรับการปรับแต่งอย่างละเอียดผ่านระบบพรอมต์ที่ได้รับแรงบันดาลใจจากงานภาพยนตร์ ซึ่งมีการจัดหมวดหมู่มิติสำคัญต่าง ๆ เช่น แสง, ความสว่าง, องค์ประกอบภาพ และโทนสี ช่วยให้ Wan2.2 สามารถตีความและถ่ายทอดเจตนารมณ์ของผู้ใช้งานได้อย่างแม่นยำตลอดกระบวนการสร้างวิดีโอ
Wan2.2 ยังได้รับการฝึกฝนด้วยชุดข้อมูลที่มีขนาดใหญ่ขึ้นอย่างมาก เพื่อเพิ่มความสามารถในการใช้งานที่กว้างขวางและความหลากหลายในการสร้างสรรค์ โดยมีข้อมูลภาพเพิ่มขึ้น 65.6% และข้อมูลวิดีโอเพิ่มขึ้น 83.2% เมื่อเทียบกับ Wan2.1 ส่งผลให้ Wan2.2 มีประสิทธิภาพในการสร้างฉากและการเคลื่อนไหวที่ซับซ้อน รวมถึงความสามารถในการแสดงออกทางศิลปะที่เพิ่มมากขึ้น
Wan2.2-TI2V-5B: โมเดลขนาดกะทัดรัดเพื่อประสิทธิภาพและปรับขนาดได้
Wan2.2 มาพร้อมกับ Wan2.2-TI2V-5B ซึ่งเป็นไฮบริดโมเดลของ Wan2.2 และเป็น dense model ที่ใช้สถาปัตยกรรม 3D VAE ที่มีอัตราการบีบอัดข้อมูลสูงถึง 4x16x16 ซึ่งช่วยเพิ่มอัตราการบีบอัดข้อมูลโดยรวมที่ 64 ทำให้ TI2V-5B สามารถสร้างวิดีโอความยาว 5 วินาที ที่ความละเอียด 720P ได้ในเวลาเพียงไม่กี่นาทีบน GPU ระดับผู้บริโภคเพียงตัวเดียว นับเป็นการส่งเสริมให้นักพัฒนาและคอนเทนต์ครีเอเตอร์สามารถสร้างสรรค์วิดีโอได้อย่างมีประสิทธิภาพและสามารถปรับขนาดได้ตามต้องการ
พร้อมดาวน์โหลดบนแพลตฟอร์ม Open-Source และความมุ่งมั่นของ Alibaba
โมเดล Wan2.2 พร้อมให้ดาวน์โหลดแล้วบน Hugging Face และ GitHub รวมถึงบน ModelScope ซึ่งเป็นชุมชนด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ ในฐานะหนึ่งในผู้มีส่วนร่วมหลักของชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 สี่โมเดลเมื่อเดือนกุมภาพันธ์ 2568 และโอเพ่นซอร์ส Wan 2.1-VACE (โมเดลสร้างและตัดต่อวิดีโอแบบ all-in-one) เมื่อเดือนพฤษภาคม 2568 ปัจจุบัน โมเดลเหล่านี้มียอดดาวน์โหลดมากกว่า 5.4 ล้านครั้งบน Hugging Face และ ModelScope
การเปิดตัว Wan2.2 ตอกย้ำถึงความมุ่งมั่นของอาลีบาบาในการส่งเสริมนวัตกรรมและสนับสนุนชุมชนนักพัฒนา AI ทั่วโลก เพื่อก้าวไปสู่ยุคใหม่ของการสร้างสรรค์วิดีโอที่ขับเคลื่อนด้วยปัญญาประดิษฐ์
–ManageEngine ยกระดับ AD360: เสริมเกราะป้องกันภัยไซเบอร์ด้วย MFA และการจัดการความเสี่ยงจากตัวตน







