گوگل در کنفرانس I/O 2025 از مدل جدید Veo 3 رونمایی کرد که اولین نسخه از این مدل با قابلیت تولید ویدیو همراه با صدا محسوب میشود. این فناوری میتواند، برای مثال، ویدیویی از پرندگان همراه با صدای آواز آنها یا تصویری از خیابانهای شهری با صدای ترافیک ایجاد کند.
گوگل اعلام کرده است که Veo 3 علاوه بر تولید صدا، در شبیهسازی فیزیک دنیای واقعی و هماهنگی لبها با گفتار نیز عملکرد بهتری دارد. در حال حاضر، این مدل تنها برای مشترکان Gemini Ultra در ایالات متحده از طریق اپلیکیشن Gemini و برای کاربران سازمانی در Vertex AI در دسترس است. همچنین، این مدل در Flow، ابزار جدید فیلمسازی هوش مصنوعی گوگل، قابل استفاده خواهد بود.
Flow با ترکیب Veo، Imagen و Gemini امکان تولید کلیپهای سینمایی را فراهم میکند. کاربران میتوانند نتیجه نهایی مورد نظر خود را با زبان طبیعی توصیف کنند و Flow آن را برایشان تولید کند. این ابزار فعلاً فقط برای مشترکان Google AI Pro و Ultra در ایالات متحده در دسترس است، اما گوگل اعلام کرده که بهزودی در کشورهای بیشتری عرضه خواهد شد.
گوگل همچنین مدل Imagen 4 را معرفی کرده که در جزئیات دقیق مانند بافت پارچه و خز حیوانات عملکرد بهتری دارد. این مدل میتواند تصاویر فوتورئالیستی و انتزاعی را با وضوح تا 2K تولید کند و در اپلیکیشن Gemini، Vertex AI و برنامههای Workspace مانند Docs و Slides در دسترس خواهد بود.
برای کمک به شناسایی محتوای تولیدشده توسط هوش مصنوعی، گوگل ابزار SynthID Detector را معرفی کرده است. کاربران میتوانند یک فایل رسانهای را در این پورتال بارگذاری کنند تا گوگل بررسی کند که آیا حاوی SynthID، ابزار واترمارک و شناسایی محتوای هوش مصنوعی گوگل، هست یا خیر.