گوگل در کنفرانس Google I/O 2025 از قابلیت جدید تبدیل متن به گفتار (TTS) در Gemini رونمایی کرد. این فناوری جدید امکان مکالمهای طبیعیتر و روانتر را فراهم میکند و میتواند در لحظه بین بیش از 24 زبان مختلف جابهجا شود.
در جریان این رویداد، تولسی دوشی، مدیر بخش هوش مصنوعی گوگل، نسخه Gemini 2.5 TTS را به نمایش گذاشت. این مدل جدید با بهرهگیری از خروجی صوتی بومی، صدایی کمتر رباتیک و طبیعیتر تولید میکند که دارای ظرافتهای گفتاری است. در نمایش زنده، این مدل ابتدا به زبان انگلیسی صحبت کرد، سپس به هندی تغییر یافت و مجدداً به انگلیسی بازگشت، بدون اینکه تغییر صدای گوینده محسوس باشد.
علاوه بر این، قابلیت جدید TTS میتواند بهصورت لحظهای به حالت نجوا تغییر کند، هرچند برخی کاربران این ویژگی را کمی غیرعادی و مرموز توصیف کردهاند. این فناوری از امروز در Gemini API در دسترس قرار گرفته است. همچنین، Gemini Live API نسخه 2.5 Flash را برای گفتوگوی صوتی بومی منتشر کرده است.