فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۱۳ تیر ۱۴۰۴ توسط ادمین

Character.AI از مدل جدید TalkingMachines رونمایی کرد

Character.AI از مدل جدید TalkingMachines رونمایی کرد

Character.AI اخیراً از پروژه تحقیقاتی جدیدی با نام “TalkingMachines” پرده‌برداری کرده است. این مدل دیفیوشن خودبازگشتی (autoregressive diffusion) قادر است تنها با استفاده از یک تصویر و سیگنال صوتی، ویدیویی زنده و بر پایه صدا از شخصیت‌های هوش مصنوعی تولید کند. با این پیشرفت، این شرکت به تعامل بصری به‌سبک تماس تصویری FaceTime با شخصیت‌های هوش مصنوعی نزدیک‌تر شده است.

البته لازم به ذکر است که این پروژه هنوز در مرحله تحقیقاتی قرار دارد و فعلاً در اپلیکیشن Character.AI در دسترس نیست؛ با این حال، مقاله پژوهشی و ویدیوهای آزمایشی آن منتشر شده‌اند. این مدل از فناوری جدیدی به نام “Diffusion Transformer” (DiT) بهره می‌برد؛ تکنیکی که تصاویر دقیق را از نویز تصادفی تولید می‌کند و آنها را به‌تدریج به حالتی واقعی و کامل می‌رساند. نوآوری Character.AI در آن است که این فرآیند را با سرعتی بی‌نظیر و نزدیک به زمان واقعی اجرا می‌کند.

برای دستیابی به این عملکرد، مدل TalkingMachines از چند تکنیک کلیدی بهره‌مند شده است، از جمله:

  • Diffusion همسان با حرکت (Flow-Matched Diffusion): آموزش دیده با طیف وسیعی از حرکات از جمله حالت‌های چهره و ژست‌های نمایشی برای طبیعی‌تر کردن حرکت شخصیت‌های هوش مصنوعی.
  • توجه متقابل هدایت‌شده با صدا (Audio-Driven Cross Attention): به مدل امکان می‌دهد تا علاوه بر شنیدن کلمات، به ریتم، مکث‌ها و فراز و فرود صدای کاربر توجه کرده و آن‌ها را به حرکات دقیق دهان، سر و چشم تبدیل کند.
  • توجه سببی پراکنده (Sparse Causal Attention): پردازش فریم‌های ویدیو را با هزینه کمتر و کارایی بیشتر انجام می‌دهد.
  • تقطیر نامتقارن (Asymmetric Distillation): برای تولید ویدیوی زنده با تجربه‌ای شبیه تماس تصویری.

Character.AI تأکید کرده است که این فناوری صرفاً محدود به انیمیشن چهره نیست؛ بلکه گامی به‌سوی شخصیت‌های صوتی-تصویری تعاملی است که می‌توان در لحظه با آن‌ها تعامل برقرار کرد. از دیگر ویژگی‌های چشم‌گیر TalkingMachines می‌توان به پشتیبانی از سبک‌های بصری متنوع از جمله چهره‌های واقعی، انیمه و آواتارهای سه‌بعدی اشاره کرد. این فناوری حتی امکان استریم ویدیو با فازهای طبیعی شنیدن و صحبت کردن را نیز فراهم می‌سازد. اگر این فناوری به اپلیکیشن وارد شود، Character.AI یکی از نخستین شرکت‌هایی خواهد بود که چنین دستاوردی را عملیاتی کرده است.

لینک کوتاه

ارسال دیدگاه