شرکت OpenAI سه مدل صوتی بلادرنگ جدید را برای توسعهدهندگانی که برنامهها و عوامل (agent) مبتنی بر صدا را از طریق API خود میسازند، ارائه کرده است. این مدلهای جدید عبارتند از: GPT-Realtime-2، GPT-Realtime-Translate و GPT-Realtime-Whisper. این مدلهای جدید قادر به پشتیبانی از تعاملات صوتی طبیعیتر، ترجمه زنده و رونویسی گفتار به متن با تأخیر کم هستند.
GPT-Realtime-2 مهمترین مدل در این عرضه به شمار میرود. این مدل که برای تعاملات صوتی زنده ساخته شده، میتواند از طریق درخواستها استدلال کند، ابزارها را فراخوانی نماید، اصلاحات را مدیریت کرده و مکالمه را به طور طبیعی ادامه دهد. GPT-Realtime-2 شامل قابلیتهای جدید زیر برای عوامل صوتی میباشد:
- مقدمهچینی (Preamble): مدل میتواند عبارات کوتاهی مانند «بگذارید آن را بررسی کنم» را قبل از انجام یک وظیفه بیان کند.
- فراخوانی موازی ابزار: مدل میتواند چندین ابزار را همزمان فراخوانی کند و در عین حال کاربر را در جریان نگه دارد.
- بازیابی بهتر: مدل میتواند زمانی که مشکلی پیش میآید به جای شکست خاموش، با ظرافت بیشتری پاسخ دهد.
- زمینه طولانیتر: OpenAI پنجره زمینه را از 32K به 128K افزایش داده است.
- درک دامنه بهبودیافته: مدل در حفظ اصطلاحات تخصصی، اسمهای خاص و واژگان مرتبط با مراقبتهای بهداشتی بهتر عمل میکند.
- کنترل لحن: مدل میتواند سبک صحبت کردن خود را بسته به موقعیت تنظیم کند.
- تلاش استدلال قابل تنظیم: توسعهدهندگان میتوانند بین سطوح استدلال حداقل (minimal)، کم (low)، متوسط (medium)، زیاد (high) و بسیار زیاد (xhigh) یکی را انتخاب کنند.
بهبودهای این مدل جدید از طریق نتایج معیارهای سنجش (benchmark) آشکار است. GPT-Realtime-2 با استدلال زیاد (high) امتیاز 96.6 درصد را در Big Bench Audio کسب کرد، در مقایسه با 81.4 درصد برای GPT-Realtime-1.5. GPT-Realtime-2 با استدلال بسیار زیاد (xhigh) امتیاز 48.5 درصد را در معیار پیروی از دستورالعمل Audio MultiChallenge به دست آورد، در مقایسه با 34.7 درصد برای GPT-Realtime-1.5.
مدل جدید GPT-Realtime-Translate برای تجربیات صوتی زنده چندزبانه طراحی شده است. این مدل میتواند گفتار را از بیش از 70 زبان ورودی به 13 زبان خروجی ترجمه کند. OpenAI ادعا میکند که این مدل میتواند معنا را حفظ کرده و همگام با گوینده پیش برود، حتی زمانی که کاربران زمینه را تغییر میدهند، از تلفظهای منطقهای استفاده میکنند یا با واژگان تخصصی خاص یک حوزه صحبت میکنند.
مدل جدید GPT-Realtime-Whisper یک مدل رونویسی استریمینگ است که برای تبدیل گفتار به متن با تأخیر کم ساخته شده است. این مدل در حالی که شخصی مشغول صحبت کردن است، صدا را رونویسی میکند. این قابلیت میتواند برای زیرنویسهای زنده، یادداشتهای جلسات، رونوشتهای کلاسی و موارد مشابه مفید باشد. هر سه مدل اکنون از طریق Realtime API در دسترس هستند.
هزینه GPT-Realtime-2 معادل 32 دلار به ازای هر یک میلیون توکن ورودی صوتی، 0.40 دلار به ازای هر یک میلیون توکن ورودی ذخیرهشده (cached) و 64 دلار به ازای هر یک میلیون توکن خروجی صوتی است. هزینه GPT-Realtime-Translate معادل 0.034 دلار در دقیقه است، در حالی که هزینه GPT-Realtime-Whisper معادل 0.017 دلار در دقیقه میباشد. توسعهدهندگان میتوانند مدلهای صوتی بیدرنگ جدید را در محیط Playground آزمایش کنند. برای مصرفکنندگان عمومی، OpenAI همچنان در حال کار بر روی ارتقاء تجربه صوتی در ChatGPT است