فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۷ شهریور ۱۴۰۴ توسط ادمین

OpenAI از gpt-realtime معرفی کرد: پیشرفته‌ترین و ارزان‌ترین مدل گفتار به گفتار

OpenAI از gpt-realtime معرفی کرد: پیشرفته‌ترین و ارزان‌ترین مدل گفتار به گفتار

در اکتبر 2024، OpenAI رابط Realtime API را ارائه کرد که به توسعه‌دهندگان امکان می‌داد تجربه‌های چندرسانه‌ای و کم‌تاخیر را در برنامه‌های خود ایجاد کنند. از آن زمان، هزاران توسعه‌دهنده از این API برای ساخت تعاملات طبیعی گفتار به گفتار در اپلیکیشن‌ها و سرویس‌های خود استفاده کرده‌اند. امروز، OpenAI مدل gpt-realtime را معرفی کرد؛ پیشرفته‌ترین مدل گفتار به گفتار این شرکت که در پیروی از دستورهای پیچیده، فراخوانی ابزارها با نرخ خطای کمتر و تولید گفتاری طبیعی‌تر و غنی‌تر از نظر بیان احساسی عملکرد بهتری دارد.

این مدل همچنین در درک پیام‌های سیستمی و درخواست‌های توسعه‌دهندگان توانمندتر است. در زمان عرضه اولیه Realtime API، این سرویس دارای 6 صدای مختلف بود و بعداً دو صدای دیگر به آن اضافه شد. امروز اوپن‌اِی‌آی دو صدای تازه به نام‌های Marin و Cedar را معرفی کرده و کیفیت هر ۶ صدای قبلی را نیز ارتقا داده تا خروجی طبیعی‌تر شود. به گفته شرکت، gpt-realtime در درک دقیق‌تر صدا بهبود یافته و نتایج چشمگیری در آزمون‌های معیار کسب کرده است:

  • Big Bench Audio: دقت 72.8 درصد (مدل قبلی: 65.6 درصد، دسامبر 2024)
  • MultiChallenge: دقت 30.5 درصد (مدل قبلی: 20.6 درصد)
  • ComplexFuncBench: دقت 66.5 درصد (مدل قبلی: 49.7 درصد)

علاوه بر معرفی مدل و صداهای جدید، چند به‌روزرسانی مهم نیز در API ارائه شده است:

  • پشتیبانی از سرورهای MCP از راه دور
  • پشتیبانی از ورودی تصویر
  • امکان برقراری تماس تلفنی از طریق SIP
  • قابلیت ذخیره و استفاده مجدد از پرومپت‌ها

با وجود این پیشرفت‌ها، اوپن‌اِی‌آی قیمت Realtime API را کاهش داده است. هزینه نسخه جدید gpt-realtime حدود 20 درصد کمتر از gpt-4o-realtime-preview است و معادل 32 دلار به ازای هر یک میلیون توکن ورودی صوتی (0.40 دلار برای توکن‌های ورودی کش‌شده) و 64 دلار برای هر یک میلیون توکن خروجی صوتی محاسبه می‌شود. با این بهبودهای چشمگیر در عملکرد و کاهش غیرمنتظره قیمت، شرکت gpt-realtime را به‌عنوان گزینه‌ای جذاب برای توسعه‌دهندگانی معرفی کرده که در حال ساخت نسل جدید تجربه‌های مبتنی بر صدا هستند.

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)