فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۱۸ اردیبهشت ۱۴۰۵ توسط ادمین

معرفی سه مدل صوتی بلادرنگ OpenAI برای توانمندسازی نسل بعدی ایجنت های صوتی

معرفی سه مدل صوتی بلادرنگ OpenAI برای توانمندسازی نسل بعدی ایجنت های صوتی

شرکت OpenAI سه مدل صوتی بلادرنگ جدید را برای توسعه‌دهندگانی که برنامه‌ها و عوامل (agent) مبتنی بر صدا را از طریق API خود می‌سازند، ارائه کرده است. این مدل‌های جدید عبارتند از: GPT-Realtime-2، GPT-Realtime-Translate و GPT-Realtime-Whisper. این مدل‌های جدید قادر به پشتیبانی از تعاملات صوتی طبیعی‌تر، ترجمه زنده و رونویسی گفتار به متن با تأخیر کم هستند.

GPT-Realtime-2 مهم‌ترین مدل در این عرضه به شمار می‌رود. این مدل که برای تعاملات صوتی زنده ساخته شده، می‌تواند از طریق درخواست‌ها استدلال کند، ابزارها را فراخوانی نماید، اصلاحات را مدیریت کرده و مکالمه را به طور طبیعی ادامه دهد. GPT-Realtime-2 شامل قابلیت‌های جدید زیر برای عوامل صوتی می‌باشد:

  • مقدمه‌چینی (Preamble): مدل می‌تواند عبارات کوتاهی مانند «بگذارید آن را بررسی کنم» را قبل از انجام یک وظیفه بیان کند.
  • فراخوانی موازی ابزار: مدل می‌تواند چندین ابزار را همزمان فراخوانی کند و در عین حال کاربر را در جریان نگه دارد.
  • بازیابی بهتر: مدل می‌تواند زمانی که مشکلی پیش می‌آید به جای شکست خاموش، با ظرافت بیشتری پاسخ دهد.
  • زمینه طولانی‌تر: OpenAI پنجره زمینه را از 32K به 128K افزایش داده است.
  • درک دامنه بهبودیافته: مدل در حفظ اصطلاحات تخصصی، اسم‌های خاص و واژگان مرتبط با مراقبت‌های بهداشتی بهتر عمل می‌کند.
  • کنترل لحن: مدل می‌تواند سبک صحبت کردن خود را بسته به موقعیت تنظیم کند.
  • تلاش استدلال قابل تنظیم: توسعه‌دهندگان می‌توانند بین سطوح استدلال حداقل (minimal)، کم (low)، متوسط (medium)، زیاد (high) و بسیار زیاد (xhigh) یکی را انتخاب کنند.

بهبودهای این مدل جدید از طریق نتایج معیارهای سنجش (benchmark) آشکار است. GPT-Realtime-2 با استدلال زیاد (high) امتیاز 96.6 درصد را در Big Bench Audio کسب کرد، در مقایسه با 81.4 درصد برای GPT-Realtime-1.5. GPT-Realtime-2 با استدلال بسیار زیاد (xhigh) امتیاز 48.5 درصد را در معیار پیروی از دستورالعمل Audio MultiChallenge به دست آورد، در مقایسه با 34.7 درصد برای GPT-Realtime-1.5.

مدل جدید GPT-Realtime-Translate برای تجربیات صوتی زنده چندزبانه طراحی شده است. این مدل می‌تواند گفتار را از بیش از 70 زبان ورودی به 13 زبان خروجی ترجمه کند. OpenAI ادعا می‌کند که این مدل می‌تواند معنا را حفظ کرده و همگام با گوینده پیش برود، حتی زمانی که کاربران زمینه را تغییر می‌دهند، از تلفظ‌های منطقه‌ای استفاده می‌کنند یا با واژگان تخصصی خاص یک حوزه صحبت می‌کنند.

مدل جدید GPT-Realtime-Whisper یک مدل رونویسی استریمینگ است که برای تبدیل گفتار به متن با تأخیر کم ساخته شده است. این مدل در حالی که شخصی مشغول صحبت کردن است، صدا را رونویسی می‌کند. این قابلیت می‌تواند برای زیرنویس‌های زنده، یادداشت‌های جلسات، رونوشت‌های کلاسی و موارد مشابه مفید باشد. هر سه مدل اکنون از طریق Realtime API در دسترس هستند.

هزینه GPT-Realtime-2 معادل 32 دلار به ازای هر یک میلیون توکن ورودی صوتی، 0.40 دلار به ازای هر یک میلیون توکن ورودی ذخیره‌شده (cached) و 64 دلار به ازای هر یک میلیون توکن خروجی صوتی است. هزینه GPT-Realtime-Translate معادل 0.034 دلار در دقیقه است، در حالی که هزینه GPT-Realtime-Whisper معادل 0.017 دلار در دقیقه می‌باشد. توسعه‌دهندگان می‌توانند مدل‌های صوتی بی‌درنگ جدید را در محیط Playground آزمایش کنند. برای مصرف‌کنندگان عمومی، OpenAI همچنان در حال کار بر روی ارتقاء تجربه صوتی در ChatGPT است

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)