در اکتبر 2024، OpenAI رابط Realtime API را ارائه کرد که به توسعهدهندگان امکان میداد تجربههای چندرسانهای و کمتاخیر را در برنامههای خود ایجاد کنند. از آن زمان، هزاران توسعهدهنده از این API برای ساخت تعاملات طبیعی گفتار به گفتار در اپلیکیشنها و سرویسهای خود استفاده کردهاند. امروز، OpenAI مدل gpt-realtime را معرفی کرد؛ پیشرفتهترین مدل گفتار به گفتار این شرکت که در پیروی از دستورهای پیچیده، فراخوانی ابزارها با نرخ خطای کمتر و تولید گفتاری طبیعیتر و غنیتر از نظر بیان احساسی عملکرد بهتری دارد.
این مدل همچنین در درک پیامهای سیستمی و درخواستهای توسعهدهندگان توانمندتر است. در زمان عرضه اولیه Realtime API، این سرویس دارای 6 صدای مختلف بود و بعداً دو صدای دیگر به آن اضافه شد. امروز اوپناِیآی دو صدای تازه به نامهای Marin و Cedar را معرفی کرده و کیفیت هر ۶ صدای قبلی را نیز ارتقا داده تا خروجی طبیعیتر شود. به گفته شرکت، gpt-realtime در درک دقیقتر صدا بهبود یافته و نتایج چشمگیری در آزمونهای معیار کسب کرده است:
- Big Bench Audio: دقت 72.8 درصد (مدل قبلی: 65.6 درصد، دسامبر 2024)
- MultiChallenge: دقت 30.5 درصد (مدل قبلی: 20.6 درصد)
- ComplexFuncBench: دقت 66.5 درصد (مدل قبلی: 49.7 درصد)
علاوه بر معرفی مدل و صداهای جدید، چند بهروزرسانی مهم نیز در API ارائه شده است:
- پشتیبانی از سرورهای MCP از راه دور
- پشتیبانی از ورودی تصویر
- امکان برقراری تماس تلفنی از طریق SIP
- قابلیت ذخیره و استفاده مجدد از پرومپتها
با وجود این پیشرفتها، اوپناِیآی قیمت Realtime API را کاهش داده است. هزینه نسخه جدید gpt-realtime حدود 20 درصد کمتر از gpt-4o-realtime-preview است و معادل 32 دلار به ازای هر یک میلیون توکن ورودی صوتی (0.40 دلار برای توکنهای ورودی کششده) و 64 دلار برای هر یک میلیون توکن خروجی صوتی محاسبه میشود. با این بهبودهای چشمگیر در عملکرد و کاهش غیرمنتظره قیمت، شرکت gpt-realtime را بهعنوان گزینهای جذاب برای توسعهدهندگانی معرفی کرده که در حال ساخت نسل جدید تجربههای مبتنی بر صدا هستند.