در مایکروسافت تیمز، اگر احساس خستگی ویدیویی می‌کنید و نمی‌خواهید هنگام حضور در جلسه در ویدیو ظاهر شوید، می‌توانید از ویژگی آواتار استفاده کنید. این به سادگی یک آواتار سه بعدی از شما ایجاد می کند که بر اساس نشانه های صوتی شما، بدون وب کم متحرک می شود. با این حال، مایکروسافت یک گام فراتر رفته و یک فناوری هوش مصنوعی جدید توسعه داده که می تواند مفهوم کنفرانس ویدیویی بدون وب کم را به سطح بالاتری برساند.

مایکروسافت ریسرچ چارچوب جدیدی به نام VASA معرفی کرده که در صورت داشتن یک تصویر پرتره و صدای گفتار، می‌تواند چهره‌های سخنگو “فوق واقع بینانه” با تمام رفتارهای چهره واقعی ایجاد کند. مایکروسافت همچنین نشان داده که چگونه فناوری مبتنی بر هوش مصنوعی می‌تواند ویدیوهای باکیفیت با حالات چهره واقع‌بینانه تولید کند و می‌تواند در سناریوهایی که نیاز به تعامل بلادرنگ است، مانند کنفرانس ویدیویی در مایکروسافت تیمز، مفید باشد.

مایکروسافت ادعا می کند که اولین مدل VASA، که VASA-1 نام دارد، “کیفیت ویدیویی بالا با پویایی واقعی صورت و سر ارائه می دهد، اما از نسل آنلاین ویدیوهای 512×512 با حداکثر سرعت 40 FPS با تاخیر شروع ناچیز پشتیبانی می کند”. با این حال، زمانی که در “حالت پردازش دسته‌ای آفلاین” هستید، آن اعداد را خواهید دید. در مورد پخش آنلاین، تا 40 فریم در ثانیه با تاخیر 170 میلی ثانیه پشتیبانی می کند.

در حالی که ویدیوی نمایشی نحوه عملکرد آن امیدوارکننده بوده، به نظر می رسد مایکروسافت در اجرای این فناوری در خدمات خود بسیار محتاط است.یکی از مشکلات اصلی که غول نرم افزاری را از انتشار آن باز می دارد، عدم اطمینان در مورد اینکه آیا می توان از آن به طور مسئولانه استفاده کرد یا خیر. این شرکت اعتراف کرده که برای جلوگیری از سوء استفاده، یک فناوری تشخیص جعل توسعه خواهد داد.

یک مشکل مهم دیگر وجود دارد که مایکروسافت قول داده است قبل از راه اندازی آن برای استفاده عمومی آن را برطرف کند. این شرکت بر این باور است که فناوری پشت تولید این چهره‌های سخنگو تا کامل بودن فاصله زیادی دارد، زیرا ویدیوهای تولید شده به اندازه ویدیوهای ضبط شده طبیعی معتبر نیستند.

سهام:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *