فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۱۰ تیر ۱۴۰۵ توسط ادمین

گوگل از مدل تولید تصویر Nano Banana 2 Lite رونمایی کرد

گوگل از مدل تولید تصویر Nano Banana 2 Lite رونمایی کرد

سال گذشته، گوگل از مدل Nano Banana (Gemini 2.5 Flash Image) رونمایی کرد؛ یک مدل تولید و ویرایش تصویر که در آن زمان در چندین معیار کلیدی سنجش تولید تصویر مبتنی بر هوش مصنوعی، پیشرو بود. بعدها در ماه دسامبر، گوگل مدل Gemini 3 Pro Image (با نام رمز Nano Banana Pro) را با قابلیت‌های حتی بهتر اعلام کرد. در فوریه‌ امسال، گوگل از مدل Nano Banana 2 (Gemini 3.1 Flash Image) رونمایی کرد؛ یک مدل تصویری پیشرو که قادر به ارائه‌ تصاویر در سطح Nano Banana Pro با سرعت Nano Banana است.

امروز، گوگل از مدل Nano Banana 2 Lite رونمایی کرد؛ جدیدترین مدل تولید تصویر خود که برای سرعت، هزینه‌ کم و گردش‌های کاری با حجم بالا طراحی شده است. گوگل می‌گوید که این مدل می‌تواند خروجی‌های تبدیل متن به تصویر را در حدود چهار ثانیه تولید کرده و هزینه‌ی آن تنها 0.034 دلار به ازای هر تصویر با رزولوشن 1K است. توسعه‌دهندگان می‌توانند به این مدل در Google AI Studio، Gemini API و پلتفرم Gemini Enterprise Agent دسترسی داشته باشند. این مدل جدید با عنوان gemini-3.1-flash-lite-image فهرست شده و می‌توان از آن به‌عنوان جایگزینی مستقیم برای مدل اصلی Nano Banana (gemini-2.5-flash-image) استفاده کرد.

مصرف‌کنندگان عمومی نیز می‌توانند از طریق حالت هوش مصنوعی در جستجوی گوگل، برنامه‌ Gemini، NotebookLM، Google Photos، Stitch، Google Flow و Google Ads به این مدل دسترسی داشته باشند. در ماه مه، تیم هوش مصنوعی مایکروسافت از مدل MAI-Image-2.5، جدیدترین مدل تبدیل متن به تصویر خود رونمایی کرد که هم‌اکنون در جدیدترین جدول رتبه‌بندی Arena در جایگاه چهارم قرار دارد. مدل gpt-image-2 شرکت OpenAI همچنان با امتیاز 1388 در صدر جدول قرار دارد. مدل جدید Nano Banana 2 Lite در حال حاضر در این جدول رتبه‌ پنجم را به خود اختصاص داده است.

به‌همراه مدل جدید Nano Banana 2 Lite، گوگل برای اولین بار مدل Gemini Omni Flash را نیز در اختیار توسعه‌دهندگان قرار می‌دهد. این مدل که با عنوان gemini-omni-flash-preview فهرست شده است، از تولید ویدئو و ویرایش مکالمه‌ای ویدئو با استفاده از ورودی‌های متن، تصویر و ویدئو پشتیبانی می‌کند. این مدل هم‌اکنون در دسترس عموم و به‌صورت پیش‌نمایش از طریق Google AI Studio، Gemini API و پلتفرم Gemini Enterprise Agent قرار دارد. همچنین برای مصرف‌کنندگان عمومی در برنامه‌ی Gemini و Google Flow در دسترس است. قیمت مدل Gemini Omni Flash معادل 0.10 دلار به ازای هر ثانیه خروجی ویدئو است که همان قیمت مدل Veo 3.1 Fast می‌باشد.

گوگل می‌گوید که این مدل می‌تواند ویرایش‌های ویدئویی با زبان طبیعی، ارجاعات چندوجهی (multimodal)، دانش دنیای واقعی و متن یا گرافیک هم‌زمان با اقدامات روی صفحه را مدیریت کند. گوگل همچنین به برخی محدودیت‌های این مدل جدید Omni اشاره کرد. مدل Gemini Omni Flash در حال حاضر فقط از تولید ویدئوهای 10 ثانیه‌ای پشتیبانی می‌کند و تولید ویدئوهای طولانی‌تر در آینده ارائه خواهد شد. ارجاعات صوتی و گسترش صحنه هنوز در Gemini API پشتیبانی نمی‌شوند. گوگل همچنین اشاره می‌کند که اگرچه ارجاعات ویدئویی تا سه ثانیه توسط طرح API (schema) پذیرفته می‌شوند، اما هنوز به‌درستی توسط مدل پردازش نمی‌شوند.

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)