Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดที่พัฒนาขึ้นเพื่อการแปลเสียงพูดเป็นคำพูด (Speech-to-Speech) แบบสด ๆ เกือบเรียลไทม์ รองรับมากกว่า 70 ภาษา ถือเป็นการยกระดับจากจุดเริ่มต้นของระบบแมชชีนเลิร์นนิงเมื่อ 20 ปีที่แล้ว สู่บริการแปลภาษาอัจฉริยะที่ตอบโจทย์ผู้ใช้นับพันล้านคนในปัจจุบัน
จุดเด่นของ Gemini 3.5 Live Translate คือความสามารถในการตรวจจับภาษาได้โดยอัตโนมัติมากกว่า 70 ภาษา โดยระบบจะประมวลผลเสียงพูดในขณะที่มีการสตรีม และสร้างเสียงแปลที่ต่อเนื่องเป็นธรรมชาติ แตกต่างจากระบบเดิม ๆ ที่ต้องรอให้ผู้พูดพูดจบก่อน ทำให้การสนทนาไหลลื่น ดีเลย์เพียงไม่กี่วินาที และไม่มีจังหวะหยุดที่น่าอึดอัด นอกจากนี้ AI ยังสามารถรักษาน้ำเสียง โทนเสียง จังหวะ และระดับเสียงสูงต่ำของผู้พูดดั้งเดิมเอาไว้ได้อย่างแม่นยำ พร้อมระบบตัดเสียงรบกวนรอบข้างที่มีประสิทธิภาพ
เตรียมเปิดใช้งานครอบคลุม 3 กลุ่มผู้ใช้หลัก
Google เริ่มทยอยเปิดใช้งาน Gemini 3.5 Live Translate ตั้งแต่วันนี้ โดยแบ่งตามกลุ่มเป้าหมายดังนี้:
- ผู้ใช้ทั่วไป: เตรียมใช้งานผ่านแอปพลิเคชัน Google Translate ทั้งบน Android และ iOS โดยเมื่อเชื่อมต่อหูฟังจะสามารถสัมผัสประสบการณ์แปลสดที่เป็นโทนเสียงของผู้พูดได้ทันที นอกจากนี้สำหรับผู้ใช้ Android จะมีการเพิ่ม “โหมดการฟัง” (Listening Mode) แบบใหม่ ช่วยให้ฟังเสียงแปลได้โดยตรงผ่านลำโพงแนบหูของโทรศัพท์ เพิ่มความเป็นส่วนตัวในสถานการณ์ที่ไม่มีหูฟัง
- องค์กรธุรกิจ: เตรียมปรับใช้ใน Google Meet เวอร์ชัน Private Preview เริ่มตั้งแต่เดือนนี้ โดยจะอัปเกรดฟีเจอร์การแปลเสียงพูดให้รองรับคู่ภาษากว่า 2,000 คู่ภาษาภายในการประชุมเดียว (ขยายจากเดิมที่จำกัดเฉพาะภาษาอังกฤษ) และรองรับมากกว่า 70 ภาษา จากเดิมเพียง 5 ภาษา
- นักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานในเวอร์ชัน Public Preview แล้วผ่าน Gemini Live API และ Google AI Studio โดยมีแพลตฟอร์มอย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents ร่วมสนับสนุนด้านโครงสร้างพื้นฐานการสตรีม เพื่อให้นักพัฒนาโฟกัสที่การสร้างประสบการณ์ผู้ใช้ได้อย่างเต็มที่
จากการทดสอบใช้งานจริง พาร์ทเนอร์รายใหญ่อย่าง Grab ได้นำโมเดลนี้ไปทดสอบระบบโทรติดต่อด้วยเสียงระหว่างคนขับและผู้โดยสารที่มีมากกว่า 10 ล้านครั้งต่อเดือน เพื่อช่วยให้สื่อสารข้ามภาษาได้แบบเกือบเรียลไทม์ ซึ่งทาง Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab ระบุว่าประทับใจในความแม่นยำและความเร็วในการตอบสนองที่ต่ำ (Low Latency)
สอดคล้องกับฟีดแบ็กจากบริษัทสื่อยักษ์ใหญ่ของเกาหลีใต้ CJ ENM ที่ชี้ว่าเทคโนโลยีนี้ช่วยสร้างประสบการณ์ที่สมจริงยิ่งขึ้นสำหรับผู้ชมทั่วโลก รวมถึงแพลตฟอร์มเทคโนโลยีอย่าง LiveKit, VisionAgents, Software Mansion และ Agora ที่ต่างยอมรับว่า Gemini 3.5 Live Translate ได้สร้างมาตรฐานใหม่ (State-of-the-Art) ให้กับการสตรีมมัลติมีเดียและการแปลภาษาแบบเรียลไทม์ ทั้งในแง่ความเร็ว ความแม่นยำ และความมีชีวิตชีวาของเสียง
ยึดมั่นความปลอดภัยด้วยลายน้ำดิจิทัล SynthID
เพื่อป้องกันปัญหาการให้ข้อมูลที่บิดเบือน (Misinformation) และรักษาจริยธรรมในการใช้เทคโนโลยี เสียงทั้งหมดที่สร้างขึ้นโดยโมเดล Gemini 3.5 Live Translate จะถูกใส่ลายน้ำดิจิทัลด้วย SynthID ซึ่งเป็นลายน้ำที่ไม่สามารถได้ยินด้วยหูเปล่า แต่จะผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจสอบและตรวจจับได้ตามแนวทางด้านความปลอดภัยและความรับผิดชอบของ Google
(รายงานโดย: Anuda Weerasinghe, Product Manager และ Tony Lu, Senior Staff Software Engineer ในนามของทีม Gemini)
–เตือนแบงก์ไทยเสี่ยงสูงกว่าโลก! ผู้บริหารชี้ AI Agents คือภัยคุกคามอันดับ 1






