Xiaomi ขยายอาณาจักรเข้าสู่โลกหุ่นยนต์อย่างเต็มตัว ประกาศเปิดตัว Xiaomi-Robotics-0 โมเดล Vision-Language-Action (VLA) รุ่นแรกอย่างเป็นทางการ โดยเป็นโมเดลแบบ Open-source ขนาด 4.7 พันล้านพารามิเตอร์ ที่ออกแบบมาเพื่อยกระดับ “Physical Intelligence” หรือความฉลาดทางกายภาพให้หุ่นยนต์สามารถทำงานร่วมกับมนุษย์ได้อย่างไร้รอยต่อ
หัวใจสำคัญของหุ่นยนต์ตัวนี้ คือการแก้โจทย์การทำงานแบบครบวงจร ตั้งแต่การรับรู้ (Perception) การตัดสินใจ (Decision) ไปจนถึงการลงมือทำ (Execution) โดยใช้สถาปัตยกรรมแบบ Mixture-of-Transformers (MoT) ซึ่งแบ่งหน้าที่การทำงานออกเป็นสองส่วนหลัก:
1. ส่วนสมองกล (Visual Language Model – VLM): ทำหน้าที่ตีความคำสั่งจากมนุษย์ แม้จะเป็นคำสั่งที่มีความคลุมเครือ เช่น “ช่วยพับผ้าเช็ดตัวหน่อย” โดย VLM จะวิเคราะห์ข้อมูลภาพความละเอียดสูงเพื่อระบุตำแหน่งวัตถุและใช้ตรรกะในการวางแผนงาน
2. ส่วนเชี่ยวชาญการเคลื่อนไหว (Action Expert): ใช้เทคโนโลยี Diffusion Transformer (DiT) ในการสร้าง “Action Chunk” หรือชุดลำดับการเคลื่อนไหวที่ต่อเนื่อง ช่วยให้การขยับร่างกายของหุ่นยนต์มีความแม่นยำและนุ่มนวล ไม่ติดขัด
ความโดดเด่นของโมเดลนี้คือการก้าวข้ามขีดจำกัดเดิมๆ ของโมเดล VLA ที่มักจะสูญเสียความสามารถในการทำความเข้าใจเมื่อต้องเรียนรู้การเคลื่อนไหวใหม่ๆ แต่ Xiaomi ใช้วิธีการฝึกฝนแบบ Co-training ที่ผสมผสานทั้งข้อมูลมัลติโมดอลและข้อมูลการกระทำเข้าด้วยกัน ทำให้หุ่นยนต์ยังคงมีความคิดวิเคราะห์ที่เฉียบคมควบคู่ไปกับการเคลื่อนไหวที่คล่องตัว
นอกจากนี้ Xiaomi ยังแก้ปัญหาความหน่วงของการประมวลผล (Inference Latency) ด้วยระบบ Asynchronous Inference ที่แยกส่วนการคำนวณออกจากการทำงานของหุ่นยนต์ ทำให้หุ่นยนต์เคลื่อนไหวได้ต่อเนื่องแม้ในขณะที่โมเดลกำลังประมวลผลอยู่ พร้อมเทคนิค Clean Action Prefix ที่ช่วยลดการสั่นกระตุก และระบบ Λ-shaped attention mask ที่ทำให้หุ่นยนต์ให้ความสำคัญกับสิ่งที่เห็นตรงหน้าในปัจจุบันมากกว่าข้อมูลในอดีต ส่งผลให้ตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมได้อย่างทันท่วงที
จากการทดสอบทั้งในระบบจำลอง (Simulation) และการใช้งานจริง Xiaomi-Robotics-0 สามารถทำลายสถิติ State-of-the-art ในหลายด้าน ซึ่งถือเป็นก้าวสำคัญของ Xiaomi ในการสร้างมาตรฐานใหม่ให้กับการวิจัยและพัฒนาหุ่นยนต์ระดับโลก







