هوش مصنوعی

OpenAI از مدل های صوتی جدید برای قدرت بخشیدن به ایجنت های صوتی معرفی کرد

در ماه‌های اخیر، OpenAI ابزارهای جدیدی مانند Operator، Deep Research، Computer-Using Agents و Responses API را معرفی کرده که بر ایجنت های متنی تمرکز دارند. امروز، این شرکت مدل‌های صوتی جدیدی برای تبدیل گفتار به متن و متن به گفتار در API خود معرفی کرد که به توسعه‌دهندگان امکان می‌دهد ایجنت های صوتی قدرتمندتر، قابل تنظیم‌تر و بیانگرتر از همیشه ایجاد کنند.

مدل‌های جدید تبدیل گفتار به متن OpenAI، با نام‌های gpt-4o-transcribe و gpt-4o-mini-transcribe، بهبودهای چشمگیری در نرخ خطای کلمات، تشخیص زبان و دقت نسبت به مدل‌های قبلی Whisper ارائه می‌دهند. این پیشرفت‌ها از طریق یادگیری تقویتی و آموزش گسترده با استفاده از مجموعه داده‌های صوتی متنوع و با کیفیت بالا به دست آمده‌اند.

OpenAI ادعا می‌کند که مدل‌های صوتی جدید آنها توانایی بهتری در درک ظرافت‌های گفتار، کاهش اشتباهات تشخیص و بهبود قابلیت اطمینان در تبدیل گفتار به متن دارند، حتی در شرایطی که ورودی صوتی شامل لهجه‌ها، محیط‌های پر سر و صدا و سرعت‌های مختلف گفتار باشد.

مدل gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که قابلیت هدایت‌پذیری بهتری ارائه می‌دهد. توسعه‌دهندگان اکنون می‌توانند به مدل دستور دهند که چگونه محتوای متنی را بیان کند. با این حال، در حال حاضر این مدل به صداهای مصنوعی و از پیش تنظیم‌شده محدود است. هزینه‌های مدل‌های مختلف به شرح زیر است:

  • gpt-4o-transcribe: حدود 0.6 سنت در هر دقیقه
  • gpt-4o-mini-transcribe: حدود 0.3 سنت در هر دقیقه
  • gpt-4o-mini-tts: حدود 1.5 سنت در هر دقیقه

تیم OpenAI در مورد مدل‌های صوتی جدید خود اظهار داشت:

با نگاه به آینده، ما قصد داریم به سرمایه‌گذاری در بهبود هوش و دقت مدل‌های صوتی خود ادامه دهیم و راه‌هایی را برای توسعه‌دهندگان فراهم کنیم تا بتوانند صداهای سفارشی خود را ایجاد کنند و تجربه‌های شخصی‌سازی‌شده‌تری را ارائه دهند که با استانداردهای ایمنی ما همخوانی داشته باشد.

این مدل‌های صوتی جدید اکنون از طریق API برای تمامی توسعه‌دهندگان در دسترس هستند. همچنین، OpenAI از یکپارچگی با Agents SDK خبر داده که به توسعه‌دهندگان امکان می‌دهد به‌راحتی ایجنت های صوتی ایجاد کنند. برای تجربه‌های گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه می‌کند.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا