OpenAI เปิดตัว 3 โมเดลเสียง Realtime ใหม่ รองรับคุยสด แปลภาษ

OpenAI เปิดตัวโมเดลเสียงแบบ Realtime รุ่นใหม่ 3 รุ่น สำหรับนักพัฒนาที่ต้องการสร้างแอปพลิเคชันด้านเสียงให้ตอบสนองได้รวดเร็วและเป็นธรรมชาติมากขึ้น โดยโมเดลชุดใหม่นี้ครอบคลุมทั้งการสนทนาด้วยเสียงที่มีความสามารถด้านเหตุผล การแปลภาษาแบบสด และการถอดเสียงพูดเป็นข้อความแบบเรียลไทม์

การเปิดตัวครั้งนี้ถือเป็นอีกก้าวสำคัญของ OpenAI ในการผลักดัน AI Voice ให้ใช้งานได้จริงมากขึ้นในแอปพลิเคชันยุคใหม่ ไม่ว่าจะเป็นผู้ช่วยเสียงอัจฉริยะ ระบบแปลภาษาในการประชุม คอลเซ็นเตอร์อัตโนมัติ ไปจนถึงระบบสร้างคำบรรยายสดสำหรับวิดีโอหรือไลฟ์สตรีม

OpenAI เปิดตัว 3 โมเดลเสียง Realtime ใหม่

โมเดลเสียงใหม่ของ OpenAI ทั้ง 3 รุ่นถูกออกแบบมาให้มีหน้าที่แตกต่างกันอย่างชัดเจน เพื่อให้นักพัฒนาสามารถเลือกใช้งานได้ตรงตามประเภทของแอปพลิเคชันมากขึ้น ได้แก่ GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper

GPT-Realtime-2 โมเดลเสียงพร้อมความสามารถด้านเหตุผล

GPT-Realtime-2 เป็นโมเดลเสียงรุ่นใหม่ที่ OpenAI ระบุว่าเป็นโมเดลเสียงตัวแรกของบริษัทที่มาพร้อมความสามารถด้าน reasoning ในระดับ GPT-5-class เหมาะสำหรับการใช้งานแบบสนทนาสดที่ต้องการความเข้าใจบริบทและการตอบกลับอย่างเป็นธรรมชาติ

จุดเด่นของ GPT-Realtime-2 คือสามารถรับมือกับคำขอที่ซับซ้อนมากขึ้น จดจำบริบทของบทสนทนาได้ดีขึ้น รองรับการแก้ไขคำสั่งระหว่างทาง และสามารถใช้งานร่วมกับเครื่องมือต่าง ๆ ได้ในขณะที่การสนทนายังคงดำเนินต่อไป

ฟีเจอร์เด่นของ GPT-Realtime-2 ได้แก่

รองรับการสนทนาด้วยเสียงแบบเรียลไทม์
มีความสามารถด้าน reasoning สำหรับคำขอที่ซับซ้อน
เข้าใจบริบทและดำเนินบทสนทนาได้ต่อเนื่อง
รองรับการถูกขัดจังหวะหรือแก้คำสั่งระหว่างสนทนา
เหมาะสำหรับ Voice Agent, ผู้ช่วย AI, ระบบบริการลูกค้า และแอปเสียงแบบโต้ตอบ

GPT-Realtime-Translate แปลเสียงสด รองรับหลายภาษา

อีกหนึ่งโมเดลที่น่าสนใจคือ GPT-Realtime-Translate ซึ่งออกแบบมาสำหรับการแปลภาษาแบบสดโดยเฉพาะ โดย OpenAI ระบุว่าสามารถแปลเสียงจากภาษาต้นทางมากกว่า 70 ภาษา ไปยังภาษาปลายทาง 13 ภาษา พร้อมรักษาความต่อเนื่องให้ทันกับผู้พูด

โมเดลนี้เหมาะกับงานที่ต้องการแปลภาษาระหว่างการพูดจริง เช่น การประชุมออนไลน์ ไลฟ์สตรีม งานสัมมนา คอลเซ็นเตอร์ข้ามภาษา หรือระบบวิดีโอคอลที่ผู้ใช้งานพูดคนละภาษา

จุดเด่นของ GPT-Realtime-Translate

แปลเสียงแบบสดในขณะที่ผู้พูดกำลังพูด
รองรับภาษาต้นทางมากกว่า 70 ภาษา
รองรับภาษาปลายทาง 13 ภาษา
สามารถส่งออกได้ทั้งเสียงแปลและข้อความถอดเสียง
เหมาะกับงานประชุม ไลฟ์สด คอลเซ็นเตอร์ และแอปสนทนาหลายภาษา

OpenAI อธิบายว่าโมเดลนี้ถูกออกแบบมาเพื่อการแปลโดยเฉพาะ ต่างจากโมเดลเสียงทั่วไปที่อาจตอบคำถามหรือทำตามคำสั่งแทนการแปล ดังนั้น GPT-Realtime-Translate จึงเหมาะกับงานที่ต้องการให้ระบบทำหน้าที่เป็นล่ามสดมากกว่าเป็นผู้ช่วย AI ทั่วไป

GPT-Realtime-Whisper ถอดเสียงสดแบบ Low-Latency

สำหรับ GPT-Realtime-Whisper เป็นโมเดลถอดเสียงพูดเป็นข้อความแบบสตรีมมิง ถูกออกแบบมาสำหรับงานที่ต้องการผลลัพธ์แบบรวดเร็ว เช่น คำบรรยายสด บันทึกประชุมแบบเรียลไทม์ หรือระบบจดข้อความจากเสียงพูดขณะผู้ใช้กำลังพูดอยู่

โมเดลนี้เน้นการทำงานแบบ low-latency หรือความหน่วงต่ำ ทำให้แอปพลิเคชันสามารถแสดงข้อความถอดเสียงได้ทันทีมากขึ้น ไม่ต้องรอให้ผู้ใช้พูดจบทั้งประโยคก่อนจึงเริ่มประมวลผล

GPT-Realtime-Whisper เหมาะกับงานแบบไหน

ระบบถอดเสียงประชุมแบบสด
คำบรรยายสดสำหรับวิดีโอหรือไลฟ์สตรีม
แอปจดโน้ตจากเสียงพูด
ระบบช่วยเหลือผู้ใช้งานที่ต้องการอ่านข้อความแทนเสียง
ระบบค้นหาและสรุปข้อมูลจากบทสนทนาแบบเรียลไทม์

OpenAI ยังระบุว่า GPT-Realtime-Whisper เป็นตัวเลือกสำหรับงานถอดเสียงสดโดยเฉพาะ แต่ไม่ได้หมายความว่าจะมาแทนโมเดลถอดเสียงทุกประเภทโดยตรง นักพัฒนาควรทดสอบกับเสียงจริง ภาษา สำเนียง และคำศัพท์เฉพาะก่อนนำไปใช้งานจริงในระบบ Production

ราคาโมเดลเสียง Realtime ใหม่ของ OpenAI

โมเดลทั้ง 3 รุ่นเปิดให้ใช้งานผ่าน Realtime API ของ OpenAI แล้ว โดยมีรายละเอียดราคาดังนี้

GPT-Realtime-2 ราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input tokens
GPT-Realtime-2 ราคา 0.40 ดอลลาร์ต่อ 1 ล้าน cached input tokens
GPT-Realtime-2 ราคา 64 ดอลลาร์ต่อ 1 ล้าน audio output tokens
GPT-Realtime-Translate ราคา 0.034 ดอลลาร์ต่อนาที
GPT-Realtime-Whisper ราคา 0.017 ดอลลาร์ต่อนาที

ข้อมูลราคาล่าสุดจากหน้า Pricing ของ OpenAI ยังระบุเพิ่มเติมว่า GPT-Realtime-Translate คิดเป็นประมาณ 0.00057 ดอลลาร์ต่อวินาที ส่วน GPT-Realtime-Whisper คิดเป็นประมาณ 0.00028 ดอลลาร์ต่อวินาที

นักพัฒนาสามารถทดสอบได้ผ่าน Playground

OpenAI ระบุว่านักพัฒนาสามารถทดลองใช้งานโมเดลเสียง Realtime ใหม่ได้ผ่าน Playground และสามารถนำไปใช้งานร่วมกับแอปที่มีอยู่ หรือเริ่มสร้างแอปใหม่ผ่าน Codex ได้เช่นกัน

การมาของโมเดลชุดนี้สะท้อนให้เห็นว่า AI Voice กำลังขยับจากระบบถามตอบธรรมดา ไปสู่ระบบเสียงที่สามารถฟัง คิด แปล ถอดเสียง ใช้เครื่องมือ และตอบสนองได้ต่อเนื่องมากขึ้นในเวลาเดียวกัน

สรุป OpenAI ดัน AI Voice ไปอีกขั้นด้วยโมเดล Realtime รุ่นใหม่

การเปิดตัว GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper ทำให้ OpenAI มีโมเดลเสียงที่ครอบคลุมการใช้งานหลักมากขึ้น ทั้งการสนทนาอัจฉริยะ การแปลภาษาแบบสด และการถอดเสียงแบบเรียลไทม์

สำหรับนักพัฒนา นี่อาจเป็นจุดเริ่มต้นของแอปเสียงรุ่นใหม่ที่ไม่ได้เป็นแค่ระบบพูดคุยกับ AI แต่สามารถเข้าใจสถานการณ์ ทำงานร่วมกับเครื่องมือ แปลภาษา และสร้างข้อความจากเสียงได้อย่างรวดเร็วมากขึ้น โดยเฉพาะในงานบริการลูกค้า การประชุมออนไลน์ ไลฟ์สตรีม การศึกษา และระบบผู้ช่วยอัจฉริยะในองค์กร

ที่มา 9to5mac

MiloMeowTech