Character.AI اخیراً از پروژه تحقیقاتی جدیدی با نام “TalkingMachines” پردهبرداری کرده است. این مدل دیفیوشن خودبازگشتی (autoregressive diffusion) قادر است تنها با استفاده از یک تصویر و سیگنال صوتی، ویدیویی زنده و بر پایه صدا از شخصیتهای هوش مصنوعی تولید کند. با این پیشرفت، این شرکت به تعامل بصری بهسبک تماس تصویری FaceTime با شخصیتهای هوش مصنوعی نزدیکتر شده است.
البته لازم به ذکر است که این پروژه هنوز در مرحله تحقیقاتی قرار دارد و فعلاً در اپلیکیشن Character.AI در دسترس نیست؛ با این حال، مقاله پژوهشی و ویدیوهای آزمایشی آن منتشر شدهاند. این مدل از فناوری جدیدی به نام “Diffusion Transformer” (DiT) بهره میبرد؛ تکنیکی که تصاویر دقیق را از نویز تصادفی تولید میکند و آنها را بهتدریج به حالتی واقعی و کامل میرساند. نوآوری Character.AI در آن است که این فرآیند را با سرعتی بینظیر و نزدیک به زمان واقعی اجرا میکند.
برای دستیابی به این عملکرد، مدل TalkingMachines از چند تکنیک کلیدی بهرهمند شده است، از جمله:
- Diffusion همسان با حرکت (Flow-Matched Diffusion): آموزش دیده با طیف وسیعی از حرکات از جمله حالتهای چهره و ژستهای نمایشی برای طبیعیتر کردن حرکت شخصیتهای هوش مصنوعی.
- توجه متقابل هدایتشده با صدا (Audio-Driven Cross Attention): به مدل امکان میدهد تا علاوه بر شنیدن کلمات، به ریتم، مکثها و فراز و فرود صدای کاربر توجه کرده و آنها را به حرکات دقیق دهان، سر و چشم تبدیل کند.
- توجه سببی پراکنده (Sparse Causal Attention): پردازش فریمهای ویدیو را با هزینه کمتر و کارایی بیشتر انجام میدهد.
- تقطیر نامتقارن (Asymmetric Distillation): برای تولید ویدیوی زنده با تجربهای شبیه تماس تصویری.
Character.AI تأکید کرده است که این فناوری صرفاً محدود به انیمیشن چهره نیست؛ بلکه گامی بهسوی شخصیتهای صوتی-تصویری تعاملی است که میتوان در لحظه با آنها تعامل برقرار کرد. از دیگر ویژگیهای چشمگیر TalkingMachines میتوان به پشتیبانی از سبکهای بصری متنوع از جمله چهرههای واقعی، انیمه و آواتارهای سهبعدی اشاره کرد. این فناوری حتی امکان استریم ویدیو با فازهای طبیعی شنیدن و صحبت کردن را نیز فراهم میسازد. اگر این فناوری به اپلیکیشن وارد شود، Character.AI یکی از نخستین شرکتهایی خواهد بود که چنین دستاوردی را عملیاتی کرده است.
ارسال دیدگاه