Alibaba เปิดตัว Wan2.2: โมเดล AI สร้างวิดีโอคุณภาพภาพยนตร์แบบ Open-Source ครั้งแรกของโลกบนสถาปัตยกรรม MoE

August 1, 2025
9:58 am

อาลีบาบา (Alibaba) เปิดตัว Wan2.2 โมเดลสร้างวิดีโอขนาดใหญ่แบบโอเพ่นซอร์สชุดแรกที่ใช้สถาปัตยกรรม MoE (Mixture-of-Experts) ซึ่งถูกออกแบบมาเพื่อปฏิวัติการสร้างสรรค์วิดีโอคุณภาพระดับภาพยนตร์ให้แก่ครีเอเตอร์และนักพัฒนาทั่วโลก เพียงแค่คลิกเดียว

Wan2.2 Series: โมเดลไฮบริดรองรับทั้ง Text-to-Video และ Image-to-Video

Wan2.2 series ถือเป็นโมเดลไฮบริดที่รวมความสามารถในการสร้างวิดีโอจากข้อความและภาพไว้ในเฟรมเวิร์กเดียวกัน โดยประกอบด้วยโมเดลหลักสองส่วน ได้แก่ Wan2.2-T2V-A14B สำหรับการแปลงข้อความเป็นวิดีโอ และ Wan2.2-I2V-A14B สำหรับการแปลงภาพเป็นวิดีโอ นอกจากนี้ยังมีโมเดลเสริม Wan2.2-TI2V-5B ที่เน้นประสิทธิภาพและขนาดกะทัดรัด

โมเดล Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ซึ่งสร้างขึ้นบนสถาปัตยกรรม MoE และได้รับการฝึกฝนด้วยชุดข้อมูลภาพที่คัดสรรมาอย่างพิถีพิถัน ทำให้สามารถผลิตวิดีโอที่มีคุณภาพสูงและสวยงามในระดับภาพยนตร์ได้อย่างแท้จริง ครีเอเตอร์จะสามารถควบคุมมิติสำคัญต่าง ๆ ของวิดีโอได้อย่างแม่นยำ อาทิ แสง, ช่วงเวลา, โทนสี, มุมกล้อง, ขนาดเฟรม, องค์ประกอบภาพ และระยะโฟกัส

ประสิทธิภาพเหนือชั้นด้วยเทคโนโลยี MoE: การเคลื่อนไหวสมจริงและลดการใช้ทรัพยากร

โมเดล MoE ทั้งสองนี้แสดงให้เห็นถึงประสิทธิภาพอันโดดเด่นในการสร้างการเคลื่อนไหวที่ซับซ้อน ตั้งแต่การแสดงออกทางสีหน้าที่สดใส ท่าทางมือที่เคลื่อนไหวอย่างเป็นธรรมชาติ ไปจนถึงการเคลื่อนไหวที่ซับซ้อนในกิจกรรมกีฬา ยิ่งไปกว่านั้น ยังช่วยเพิ่มความสมจริงของการนำเสนอวิดีโอ ด้วยความสามารถในการทำตามคำสั่งและยึดหลักกฎทางกายภาพได้ดียิ่งขึ้น

Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ใช้การออกแบบแบบ two-expert ในกระบวนการลดเสียงรบกวนของโมเดลการแพร่กระจาย (diffusion model) เพื่อแก้ไขปัญหาการใช้ทรัพยากรประมวลผลสูงที่เกิดจากการใช้ long tokens โดยมี high-noise expert ที่เน้นเค้าโครงของฉากโดยรวม และ low-noise expert สำหรับปรับแต่งรายละเอียดและพื้นผิว แม้ว่าโมเดลทั้งสองจะมีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ แต่ในแต่ละขั้นตอนจะเปิดใช้งานเพียง 14 พันล้านพารามิเตอร์เท่านั้น ซึ่งช่วยลดการใช้ทรัพยากรประมวลผลลงได้มากถึง 50%

ปรับแต่งละเอียดด้วยระบบพรอมต์แบบภาพยนตร์และการฝึกฝนข้อมูลขนาดใหญ่

Wan2.2 รองรับการปรับแต่งอย่างละเอียดผ่านระบบพรอมต์ที่ได้รับแรงบันดาลใจจากงานภาพยนตร์ ซึ่งมีการจัดหมวดหมู่มิติสำคัญต่าง ๆ เช่น แสง, ความสว่าง, องค์ประกอบภาพ และโทนสี ช่วยให้ Wan2.2 สามารถตีความและถ่ายทอดเจตนารมณ์ของผู้ใช้งานได้อย่างแม่นยำตลอดกระบวนการสร้างวิดีโอ

Wan2.2 ยังได้รับการฝึกฝนด้วยชุดข้อมูลที่มีขนาดใหญ่ขึ้นอย่างมาก เพื่อเพิ่มความสามารถในการใช้งานที่กว้างขวางและความหลากหลายในการสร้างสรรค์ โดยมีข้อมูลภาพเพิ่มขึ้น 65.6% และข้อมูลวิดีโอเพิ่มขึ้น 83.2% เมื่อเทียบกับ Wan2.1 ส่งผลให้ Wan2.2 มีประสิทธิภาพในการสร้างฉากและการเคลื่อนไหวที่ซับซ้อน รวมถึงความสามารถในการแสดงออกทางศิลปะที่เพิ่มมากขึ้น

Wan2.2-TI2V-5B: โมเดลขนาดกะทัดรัดเพื่อประสิทธิภาพและปรับขนาดได้

Wan2.2 มาพร้อมกับ Wan2.2-TI2V-5B ซึ่งเป็นไฮบริดโมเดลของ Wan2.2 และเป็น dense model ที่ใช้สถาปัตยกรรม 3D VAE ที่มีอัตราการบีบอัดข้อมูลสูงถึง 4x16x16 ซึ่งช่วยเพิ่มอัตราการบีบอัดข้อมูลโดยรวมที่ 64 ทำให้ TI2V-5B สามารถสร้างวิดีโอความยาว 5 วินาที ที่ความละเอียด 720P ได้ในเวลาเพียงไม่กี่นาทีบน GPU ระดับผู้บริโภคเพียงตัวเดียว นับเป็นการส่งเสริมให้นักพัฒนาและคอนเทนต์ครีเอเตอร์สามารถสร้างสรรค์วิดีโอได้อย่างมีประสิทธิภาพและสามารถปรับขนาดได้ตามต้องการ

พร้อมดาวน์โหลดบนแพลตฟอร์ม Open-Source และความมุ่งมั่นของ Alibaba

โมเดล Wan2.2 พร้อมให้ดาวน์โหลดแล้วบน Hugging Face และ GitHub รวมถึงบน ModelScope ซึ่งเป็นชุมชนด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ ในฐานะหนึ่งในผู้มีส่วนร่วมหลักของชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 สี่โมเดลเมื่อเดือนกุมภาพันธ์ 2568 และโอเพ่นซอร์ส Wan 2.1-VACE (โมเดลสร้างและตัดต่อวิดีโอแบบ all-in-one) เมื่อเดือนพฤษภาคม 2568 ปัจจุบัน โมเดลเหล่านี้มียอดดาวน์โหลดมากกว่า 5.4 ล้านครั้งบน Hugging Face และ ModelScope

การเปิดตัว Wan2.2 ตอกย้ำถึงความมุ่งมั่นของอาลีบาบาในการส่งเสริมนวัตกรรมและสนับสนุนชุมชนนักพัฒนา AI ทั่วโลก เพื่อก้าวไปสู่ยุคใหม่ของการสร้างสรรค์วิดีโอที่ขับเคลื่อนด้วยปัญญาประดิษฐ์

–ManageEngine ยกระดับ AD360: เสริมเกราะป้องกันภัยไซเบอร์ด้วย MFA และการจัดการความเสี่ยงจากตัวตน

Songklod SaeNgow

Editor (Tech and Marketing)

Alibaba เปิดตัว Wan2.2: โมเดล AI สร้างวิดีโอคุณภาพภาพยนตร์แบบ Open-Source ครั้งแรกของโลกบนสถาปัตยกรรม MoE

Wan2.2 Series: โมเดลไฮบริดรองรับทั้ง Text-to-Video และ Image-to-Video

ประสิทธิภาพเหนือชั้นด้วยเทคโนโลยี MoE: การเคลื่อนไหวสมจริงและลดการใช้ทรัพยากร

ปรับแต่งละเอียดด้วยระบบพรอมต์แบบภาพยนตร์และการฝึกฝนข้อมูลขนาดใหญ่

Wan2.2-TI2V-5B: โมเดลขนาดกะทัดรัดเพื่อประสิทธิภาพและปรับขนาดได้

พร้อมดาวน์โหลดบนแพลตฟอร์ม Open-Source และความมุ่งมั่นของ Alibaba

Songklod SaeNgow

Social Media

Most Popular

นิเทศฯ SPU ปักหมุดผู้นำ AI เปิดเวที “SPUCA AI CREATIVEVERSE 360°” เปลี่ยนห้องเรียนสู่สนามจริง เชื่อมโอกาสตรงสู่ภาคธุรกิจ

สถิติใหม่! ดาวเทียมเอกชนจีนพลัง AI ส่งภาพหลังเข้าสู่วงโคจร 1.5 ชม.

ฟูจิฟิล์ม ดีเคเอช เปิดตัว “NURA Bangkok” สหคลินิกตรวจสุขภาพยุคใหม่ ยกระดับการคัดกรองมะเร็ง-NCDs ด้วย AI จบใน 120 นาที

ส่องเทรนด์ AI ปี 2026! การ์ทเนอร์ชี้ตลาดพุ่ง 6.4 หมื่นล้านดอลลาร์ DSLM โตแรง 210% สเกลธุรกิจคุมต้นทุนคือผู้ชนะ

Related Posts

ซิกเว่ เบรกเก้ ชี้ ‘คนเก่ง’ ยุคใหม่ไม่ใช่แค่เกรดดี ถอดสูตรสำเร็จรับมือ AI Disruption และวิธีโตในโลกการทำงาน

BDI เผยโฉม 5 สุดยอดนวัตกรรม AI จากเวที Hackathon 2026 เตรียมอัปเกรดสู่ Smart Tourism ระดับโลก

จับตา! Nvidia ผนึกบิ๊กเทค-รัฐบาลญี่ปุ่น ทุ่มสร้าง ‘โรงงาน AI แห่งชาติ’

ภัยเงียบ SMB! แคสเปอร์สกี้เตือนอาเซียนเจอตัวร้ายใหม่ มัลแวร์แฝงตัว ‘AI ยอดฮิต’ พุ่งกระฉูด 7 เท่า

พูดคุยด้านเศรษฐกิจ การเงิน การลงทุน เทคโนโลยี กับ Biztalk ทุกวันเสาร์ -อาทิตย์ เวลา 17.00 น. ทางวิทยุครอบครัวข่าว FM106

News Update

Category