مدل جدید تبدیل متن به گفتار مایکروسافت می‌تواند معادلات دیپ‌فیک را دگرگون کند

قابلیت Azure AI Speech Personal Voice در سرویس گفتار آژور اکنون با مدل تبدیل متن به گفتار جدیدی تحت عنوان DragonV2.1Neural ارتقاء یافته است. این مدل از نوع “Zero-shot” بوده و قادر است تنها با چند ثانیه از نمونه صوتی، صدایی طبیعی و پر‌احساس در بیش از 100 زبان تولید کند. مایکروسافت اعلام کرده است که این نسخه جدید از لحاظ دقت تلفظ، کنترل‌پذیری و واقع‌گرایی در ساختار آواها بهبود قابل توجهی یافته و نسبت به نسخه DragonV1، کاهش 12.8 درصدی در نرخ خطای واژگانی (WER) دارد.

از جمله کاربردهای این مدل می‌توان به شخصی‌سازی صدای چت‌بات‌ها و صداگذاری ویدیوها با صدای اصلی بازیگر در زبان‌های مختلف اشاره کرد. همچنین، کاربران می‌توانند با استفاده از تگ‌های SSML و لغت‌نامه‌های سفارشی، کنترل دقیقی بر لهجه و تلفظ داشته باشند؛ قابلیتی که برای ترجمه گفتار و ویدیو یا تقلید صدای افراد خاص اهمیت ویژه دارد. به منظور سهولت در شروع کار، مایکروسافت چند پروفایل صوتی نظیر Andrew، Ava و Brian را ارائه کرده است.

با وجود مزایای قابل توجه این فناوری، خطر استفاده نادرست آن توسط افراد سودجو برای تولید دیپ‌فیک نیز افزایش یافته است. از این‌رو، مایکروسافت استفاده از این ابزار را منوط به رعایت سیاست‌هایی نظیر دریافت رضایت صریح از گوینده اصلی، اعلام محتوا به‌صورت مصنوعی و ممنوعیت تقلید یا فریبکاری کرده است. خروجی صوتی این مدل به‌طور خودکار شامل واترمارک‌هایی است که در شرایط مختلف ویرایش صوتی تا 99.7 درصد قابلیت تشخیص دارند و می‌توانند در کاهش سوء‌استفاده از صداهای مصنوعی مؤثر باشند. کاربران علاقه‌مند می‌توانند این قابلیت را به‌صورت آزمایشی در Speech Studio امتحان کرده یا برای دسترسی کامل و استفاده تجاری به API مربوطه درخواست دهند.

لینک کوتاه

فهرست سایت

مدل جدید تبدیل متن به گفتار مایکروسافت می‌تواند معادلات دیپ‌فیک را دگرگون کند

مطالب مرتبط

ارسال دیدگاه

مدل جدید تبدیل متن به گفتار مایکروسافت می‌تواند معادلات دیپ‌فیک را دگرگون کند

مطالب مرتبط

ارسال دیدگاه

برای صرف‌نظر کردن از پاسخ‌گویی اینجا را کلیک نمایید.