سال گذشته، گوگل از مدل Nano Banana (Gemini 2.5 Flash Image) رونمایی کرد؛ یک مدل تولید و ویرایش تصویر که در آن زمان در چندین معیار کلیدی سنجش تولید تصویر مبتنی بر هوش مصنوعی، پیشرو بود. بعدها در ماه دسامبر، گوگل مدل Gemini 3 Pro Image (با نام رمز Nano Banana Pro) را با قابلیتهای حتی بهتر اعلام کرد. در فوریه امسال، گوگل از مدل Nano Banana 2 (Gemini 3.1 Flash Image) رونمایی کرد؛ یک مدل تصویری پیشرو که قادر به ارائه تصاویر در سطح Nano Banana Pro با سرعت Nano Banana است.
امروز، گوگل از مدل Nano Banana 2 Lite رونمایی کرد؛ جدیدترین مدل تولید تصویر خود که برای سرعت، هزینه کم و گردشهای کاری با حجم بالا طراحی شده است. گوگل میگوید که این مدل میتواند خروجیهای تبدیل متن به تصویر را در حدود چهار ثانیه تولید کرده و هزینهی آن تنها 0.034 دلار به ازای هر تصویر با رزولوشن 1K است. توسعهدهندگان میتوانند به این مدل در Google AI Studio، Gemini API و پلتفرم Gemini Enterprise Agent دسترسی داشته باشند. این مدل جدید با عنوان gemini-3.1-flash-lite-image فهرست شده و میتوان از آن بهعنوان جایگزینی مستقیم برای مدل اصلی Nano Banana (gemini-2.5-flash-image) استفاده کرد.
مصرفکنندگان عمومی نیز میتوانند از طریق حالت هوش مصنوعی در جستجوی گوگل، برنامه Gemini، NotebookLM، Google Photos، Stitch، Google Flow و Google Ads به این مدل دسترسی داشته باشند. در ماه مه، تیم هوش مصنوعی مایکروسافت از مدل MAI-Image-2.5، جدیدترین مدل تبدیل متن به تصویر خود رونمایی کرد که هماکنون در جدیدترین جدول رتبهبندی Arena در جایگاه چهارم قرار دارد. مدل gpt-image-2 شرکت OpenAI همچنان با امتیاز 1388 در صدر جدول قرار دارد. مدل جدید Nano Banana 2 Lite در حال حاضر در این جدول رتبه پنجم را به خود اختصاص داده است.

بههمراه مدل جدید Nano Banana 2 Lite، گوگل برای اولین بار مدل Gemini Omni Flash را نیز در اختیار توسعهدهندگان قرار میدهد. این مدل که با عنوان gemini-omni-flash-preview فهرست شده است، از تولید ویدئو و ویرایش مکالمهای ویدئو با استفاده از ورودیهای متن، تصویر و ویدئو پشتیبانی میکند. این مدل هماکنون در دسترس عموم و بهصورت پیشنمایش از طریق Google AI Studio، Gemini API و پلتفرم Gemini Enterprise Agent قرار دارد. همچنین برای مصرفکنندگان عمومی در برنامهی Gemini و Google Flow در دسترس است. قیمت مدل Gemini Omni Flash معادل 0.10 دلار به ازای هر ثانیه خروجی ویدئو است که همان قیمت مدل Veo 3.1 Fast میباشد.
گوگل میگوید که این مدل میتواند ویرایشهای ویدئویی با زبان طبیعی، ارجاعات چندوجهی (multimodal)، دانش دنیای واقعی و متن یا گرافیک همزمان با اقدامات روی صفحه را مدیریت کند. گوگل همچنین به برخی محدودیتهای این مدل جدید Omni اشاره کرد. مدل Gemini Omni Flash در حال حاضر فقط از تولید ویدئوهای 10 ثانیهای پشتیبانی میکند و تولید ویدئوهای طولانیتر در آینده ارائه خواهد شد. ارجاعات صوتی و گسترش صحنه هنوز در Gemini API پشتیبانی نمیشوند. گوگل همچنین اشاره میکند که اگرچه ارجاعات ویدئویی تا سه ثانیه توسط طرح API (schema) پذیرفته میشوند، اما هنوز بهدرستی توسط مدل پردازش نمیشوند.
