در ماه مه، زمانی که OpenAI جدیدترین مدل پیشرفته خود، GPT-4o (“o” به معنای “omni”) را معرفی کرد که تواناییهای درک صوتی این مدل به ویژه مورد توجه قرار گرفت. مدل GPT-4o قادر است به ورودیهای صوتی با میانگین زمان پاسخ 320 میلیثانیه پاسخ دهد، که این زمان پاسخگویی مشابه با زمان واکنش انسانی در گفتگوهای روزمره است.
OpenAI همچنین اعلام کرد که ویژگی Voice Mode در ChatGPT از تواناییهای صوتی مدل GPT-4o بهره میبرد تا تجربهای یکپارچه از مکالمه صوتی را برای کاربران فراهم آورد. تیم OpenAI درباره تواناییهای صوتی GPT-4o موارد زیر را بیان کرده است:
با GPT-4o، ما مدلی جدید را که شامل متن، بینایی و شنوایی است، آموزش دادهایم، به این معنا که تمامی ورودیها و خروجیها توسط یک شبکه عصبی پردازش میشوند. از آنجا که GPT-4o اولین مدل ماست که این سه حوزه را تلفیق میکند، ما همچنان در حال ارزیابی تواناییها و محدودیتهای آن هستیم.
در ماه ژوئن، OpenAI اعلام کرد که عرضه حالت صوتی پیشرفته، که برای نسخه آلفا و برای گروه کوچکی از کاربران ChatGPT Plus در اواخر ژوئن برنامهریزی شده بود، یک ماه به تعویق افتاده است. OpenAI توضیح داد که نیاز به زمان بیشتری برای ارتقاء توانایی مدل در شناسایی و رد کردن محتوای نامناسب دارد. همچنین، در حال آمادهسازی زیرساختهای خود برای پشتیبانی از میلیونها کاربر بوده و در عین حال، کیفیت پاسخهای فوری را حفظ میکند.
امروز، سام آلتمن، مدیرعامل OpenAI، از طریق X تأیید کرده است که عرضه نسخه آلفای حالت صوتی از هفته آینده برای مشترکان ChatGPT Plus آغاز خواهد شد. حالت صوتی فعلی در ChatGPT به دلیل تأخیر متوسط 2.8 ثانیهای (GPT-3.5) و 5.4 ثانیهای (GPT-4) کاربردی نیست. حالت صوتی پیشرفته جدید که بر پایه GPT-4o است، به مشترکان ChatGPT امکان میدهد بدون هیچ تأخیری در مکالمات یکپارچه شرکت کنند.
در یادداشتی مرتبط، OpenAI از SearchGPT معرفی کرد که به عنوان یک نوآوری در تجربه جستجوی وب مورد انتظار بوده است. SearchGPT که در حال حاضر در مرحله نمونه اولیه است، قابلیتهای جستجوی هوش مصنوعی را ارائه میدهد که پاسخهای سریع و دقیق را از منابع معتبر و مرتبط فراهم میکند.