قابلیت Azure AI Speech Personal Voice در سرویس گفتار آژور اکنون با مدل تبدیل متن به گفتار جدیدی تحت عنوان DragonV2.1Neural ارتقاء یافته است. این مدل از نوع “Zero-shot” بوده و قادر است تنها با چند ثانیه از نمونه صوتی، صدایی طبیعی و پراحساس در بیش از 100 زبان تولید کند. مایکروسافت اعلام کرده است که این نسخه جدید از لحاظ دقت تلفظ، کنترلپذیری و واقعگرایی در ساختار آواها بهبود قابل توجهی یافته و نسبت به نسخه DragonV1، کاهش 12.8 درصدی در نرخ خطای واژگانی (WER) دارد.
از جمله کاربردهای این مدل میتوان به شخصیسازی صدای چتباتها و صداگذاری ویدیوها با صدای اصلی بازیگر در زبانهای مختلف اشاره کرد. همچنین، کاربران میتوانند با استفاده از تگهای SSML و لغتنامههای سفارشی، کنترل دقیقی بر لهجه و تلفظ داشته باشند؛ قابلیتی که برای ترجمه گفتار و ویدیو یا تقلید صدای افراد خاص اهمیت ویژه دارد. به منظور سهولت در شروع کار، مایکروسافت چند پروفایل صوتی نظیر Andrew، Ava و Brian را ارائه کرده است.
با وجود مزایای قابل توجه این فناوری، خطر استفاده نادرست آن توسط افراد سودجو برای تولید دیپفیک نیز افزایش یافته است. از اینرو، مایکروسافت استفاده از این ابزار را منوط به رعایت سیاستهایی نظیر دریافت رضایت صریح از گوینده اصلی، اعلام محتوا بهصورت مصنوعی و ممنوعیت تقلید یا فریبکاری کرده است. خروجی صوتی این مدل بهطور خودکار شامل واترمارکهایی است که در شرایط مختلف ویرایش صوتی تا 99.7 درصد قابلیت تشخیص دارند و میتوانند در کاهش سوءاستفاده از صداهای مصنوعی مؤثر باشند. کاربران علاقهمند میتوانند این قابلیت را بهصورت آزمایشی در Speech Studio امتحان کرده یا برای دسترسی کامل و استفاده تجاری به API مربوطه درخواست دهند.