معرفی سه مدل صوتی بلادرنگ OpenAI برای توانمندسازی نسل بعدی ایجنت های صوتی

۱۸ اردیبهشت ۱۴۰۵

۰ 1 زمان تقریبی مطالعه 2 دقیقه

شرکت OpenAI سه مدل صوتی بلادرنگ جدید را برای توسعه‌دهندگانی که برنامه‌ها و عوامل (agent) مبتنی بر صدا را از طریق API خود می‌سازند، ارائه کرده است. این مدل‌های جدید عبارتند از: GPT-Realtime-2، GPT-Realtime-Translate و GPT-Realtime-Whisper. این مدل‌های جدید قادر به پشتیبانی از تعاملات صوتی طبیعی‌تر، ترجمه زنده و رونویسی گفتار به متن با تأخیر کم هستند.

GPT-Realtime-2 مهم‌ترین مدل در این عرضه به شمار می‌رود. این مدل که برای تعاملات صوتی زنده ساخته شده، می‌تواند از طریق درخواست‌ها استدلال کند، ابزارها را فراخوانی نماید، اصلاحات را مدیریت کرده و مکالمه را به طور طبیعی ادامه دهد. GPT-Realtime-2 شامل قابلیت‌های جدید زیر برای عوامل صوتی می‌باشد:

مقدمه‌چینی (Preamble): مدل می‌تواند عبارات کوتاهی مانند «بگذارید آن را بررسی کنم» را قبل از انجام یک وظیفه بیان کند.
فراخوانی موازی ابزار: مدل می‌تواند چندین ابزار را همزمان فراخوانی کند و در عین حال کاربر را در جریان نگه دارد.
بازیابی بهتر: مدل می‌تواند زمانی که مشکلی پیش می‌آید به جای شکست خاموش، با ظرافت بیشتری پاسخ دهد.
زمینه طولانی‌تر: OpenAI پنجره زمینه را از 32K به 128K افزایش داده است.
درک دامنه بهبودیافته: مدل در حفظ اصطلاحات تخصصی، اسم‌های خاص و واژگان مرتبط با مراقبت‌های بهداشتی بهتر عمل می‌کند.
کنترل لحن: مدل می‌تواند سبک صحبت کردن خود را بسته به موقعیت تنظیم کند.
تلاش استدلال قابل تنظیم: توسعه‌دهندگان می‌توانند بین سطوح استدلال حداقل (minimal)، کم (low)، متوسط (medium)، زیاد (high) و بسیار زیاد (xhigh) یکی را انتخاب کنند.

بهبودهای این مدل جدید از طریق نتایج معیارهای سنجش (benchmark) آشکار است. GPT-Realtime-2 با استدلال زیاد (high) امتیاز 96.6 درصد را در Big Bench Audio کسب کرد، در مقایسه با 81.4 درصد برای GPT-Realtime-1.5. GPT-Realtime-2 با استدلال بسیار زیاد (xhigh) امتیاز 48.5 درصد را در معیار پیروی از دستورالعمل Audio MultiChallenge به دست آورد، در مقایسه با 34.7 درصد برای GPT-Realtime-1.5.

مدل جدید GPT-Realtime-Translate برای تجربیات صوتی زنده چندزبانه طراحی شده است. این مدل می‌تواند گفتار را از بیش از 70 زبان ورودی به 13 زبان خروجی ترجمه کند. OpenAI ادعا می‌کند که این مدل می‌تواند معنا را حفظ کرده و همگام با گوینده پیش برود، حتی زمانی که کاربران زمینه را تغییر می‌دهند، از تلفظ‌های منطقه‌ای استفاده می‌کنند یا با واژگان تخصصی خاص یک حوزه صحبت می‌کنند.

مدل جدید GPT-Realtime-Whisper یک مدل رونویسی استریمینگ است که برای تبدیل گفتار به متن با تأخیر کم ساخته شده است. این مدل در حالی که شخصی مشغول صحبت کردن است، صدا را رونویسی می‌کند. این قابلیت می‌تواند برای زیرنویس‌های زنده، یادداشت‌های جلسات، رونوشت‌های کلاسی و موارد مشابه مفید باشد. هر سه مدل اکنون از طریق Realtime API در دسترس هستند.

هزینه GPT-Realtime-2 معادل 32 دلار به ازای هر یک میلیون توکن ورودی صوتی، 0.40 دلار به ازای هر یک میلیون توکن ورودی ذخیره‌شده (cached) و 64 دلار به ازای هر یک میلیون توکن خروجی صوتی است. هزینه GPT-Realtime-Translate معادل 0.034 دلار در دقیقه است، در حالی که هزینه GPT-Realtime-Whisper معادل 0.017 دلار در دقیقه می‌باشد. توسعه‌دهندگان می‌توانند مدل‌های صوتی بی‌درنگ جدید را در محیط Playground آزمایش کنند. برای مصرف‌کنندگان عمومی، OpenAI همچنان در حال کار بر روی ارتقاء تجربه صوتی در ChatGPT است

۱۸ اردیبهشت ۱۴۰۵

۰ 1 زمان تقریبی مطالعه 2 دقیقه

معرفی سه مدل صوتی بلادرنگ OpenAI برای توانمندسازی نسل بعدی ایجنت های صوتی

دیدگاهتان را بنویسید لغو پاسخ

OpenAI از صفحه‌کلید عددی فیزیکی برای کنترل ایجنت های هوش مصنوعی رونمایی کرد

رونمایی از ریلمی Narzo 100x با نمایشگر 144 هرتز و باتری 8000 میلی‌آمپر ساعتی

Canva Code 2.0 فرآیند Vibe Coding را برای همگان بسیار کم‌دغدغه‌تر کرد

شیائومی از نخستین پاوربانک مطابق با استاندارد ملی ایمنی چین رونمایی کرد

معرفی روتر 5G جدید ZTE G5 Max را با پشتیبانی از وای فای 7 و تراشه اسنپدراگون X75

سامسونگ از فناوری نمایشگر Flex Titanium برای نسل بعدی گلکسی های تاشو رونمایی کرد

عرضه نسخه کندتر SSD سامسونگ 990 پرو با قیمت بالاتز از نسخه اصلی

بخش تصاویر جستجوی گوگل تغییر چهره می‌دهد

نوشته های مشابه

گوگل NotebookLM قابلیت Data Tables را دریافت کرد

Perplexity ابزار Deep Research را به مجموعه امکاناتش افزود

چگونه در گوشی خود با ChatGPT صحبت کنیم

Grok Studio: قابلیت جدید برای تولید اسناد، کد و بازی‌های مرورگر

دیدگاهتان را بنویسید لغو پاسخ