گوگل نسخه جدیدی از مدل هوش مصنوعی تولید ویدیو خود با نام Veo 3.1 را منتشر کرده که دقت بیشتری در اجرای دستورات متنی دارد و توانایی تبدیل تصاویر به ویدیو را بهصورت همزمان با تولید صدا فراهم میسازد. مدل Veo 3.1 بر پایه قابلیتهایی توسعه یافته که گوگل در جریان رویداد Google I/O 2025 معرفی کرده بود. این نسخه جدید، با بهبود پایبندی به دستور، توانایی بیشتری در تولید ویدیوهایی دارد که با متن ورودی و تصاویر همراه آن هماهنگ باشند.
یکی از قابلیتهای جدید Veo 3.1، امکان تبدیل تصاویر به ویدیو همراه با تولید صدا است؛ قابلیتی که در نسخه قبلی یعنی Veo 3 وجود نداشت. این ویژگی اکنون از طریق API مدل Gemini گوگل در دسترس قرار گرفته و همچنین در ویرایشگر ویدیوی Flow این شرکت نیز بهکار گرفته شده است. در نرمافزار Flow، Veo 3.1 از قابلیتی به نام “Frame to Video” پشتیبانی میکند که به کاربران اجازه میدهد با بارگذاری فریم ابتدایی و انتهایی، ویدیویی با فریمهای میانی تولید کنند.
این ویژگی مشابه قابلیتی است که در Adobe Firefly وجود دارد، اما Flow علاوه بر تولید فریمهای میانی، امکان تولید صدا را نیز بهصورت همزمان فراهم میکند. قابلیتهای صوتی جدید همچنین به ابزارهای دیگر Flow مانند گسترش کلیپها و درج اشیاء در ویدیوهای موجود نیز تعمیم یافتهاند. با وجود پیشرفتهای قابلتوجه، نمونههای منتشرشده توسط گوگل نشان میدهند که ویدیوهای تولیدشده با Veo 3.1 همچنان حالتی غیرطبیعی دارند و کیفیت آنها بسته به موضوع و نوع دستور متنی متفاوت است. با این حال، رویکرد گوگل برای تبدیل Veo به ابزاری کاربردی برای تولیدکنندگان حرفهای و نه صرفاً تولید محتوای شبکههای اجتماعی، گامی مثبت تلقی میشود.