شرکت OpenAI اعلام کرده که نحوه عملکرد حالت ChatGPT Voice روی وب و داخل اپلیکیشن تغییر کرده است. بهعنوان بخشی از این بهروزرسانی، کاربران میتوانند مستقیماً در همان گفتگوی جاری با ChatGPT Voice تعامل داشته باشند؛ به این ترتیب متن گفتگو (Transcript) نمایش داده میشود و تصاویر یا نقشههایی که مرتبط با پاسخ هستند نیز در همان صفحه ظاهر خواهند شد.
برای شروع گفتگوی صوتی کافی است روی آیکون waveform کنار فیلد متنی ChatGPT کلیک یا ضربه بزنید. برخلاف رابط اولیه که شامل کرههای متحرک بود، اکنون گفتوگوهای صوتی در همان خط گفتوگوی جاری انجام میشوند. در ویدیوی نمایشی که OpenAI منتشر کرده، ChatGPT توانست متن گفتگو را نمایش دهد و سپس نقشهای از نانواییهای محبوب و عکسهایی از شیرینیهای فروشگاه Tartine ارائه کند. OpenAI میگوید اگر کاربران همچنان رابط قدیمی Voice را ترجیح دهند، میتوانند در بخش تنظیمات Voice Mode گزینه Separate mode را فعال کنند.
ترکیب پاسخهای صوتی و تصویری گام طبیعی در توسعه چندحالته (Multimodal) ChatGPT محسوب میشود. همانطور که پیشتر امکان ارسال صدا و تصویر یا ویدیو به مدل وجود داشت، منطقی است که پاسخهای صوتی نیز با همین سطح جزئیات همراه باشند. گوگل نیز در Gemini Live روشهای مشابهی از جمله برجستهسازی بخشهای خاص یک ویدئوی زنده با لایههای تصویری را آزمایش کرده است. هرچند قابلیت جدید OpenAI به آن اندازه واکنشی نیست، اما میتواند گفتگوی صوتی با ChatGPT را بسیار غنیتر و آموزندهتر کند.