گوگل از مدل جدید و پیشرفته تولید و ویرایش تصویر خود با نام Gemini 2.5 Flash Image رونمایی کرد. این مدل که در مرحله آزمایش با عنوان “nano-banana” شناخته میشد، اکنون بهعنوان یکی از پیشرفتهترین مدلهای تولید تصویر در جهان معرفی شده است. بر اساس گزارش LMArena، مدل Gemini 2.5 Flash Image در حال حاضر بالاترین رتبه را در میان مدلهای ویرایش تصویر کسب کرده و توانسته مدلهای مطرحی مانند GPT Image 1 از OpenAI و Flux.1 Kontext را پشت سر بگذارد.
مدلهای پیشین تولید تصویر معمولاً از نظر زیباییشناسی عملکرد خوبی داشتند، اما در درک معنایی دقیق از دنیای واقعی دچار ضعف بودند. مدل جدید گوگل با بهرهگیری از دانش گسترده Gemini درباره جهان، قادر است تصاویر دقیقتر و واقعگرایانهتری تولید کند. این مدل برای دو گروه از کاربران قابل دسترسی است: مصرفکنندگان عمومی و توسعهدهندگان. توسعهدهندگان میتوانند از طریق API اختصاصی Gemini، پلتفرم Google AI Studio و سرویس Vertex AI برای سازمانها به این مدل دسترسی داشته باشند.
هزینه استفاده از این مدل برای توسعهدهندگان، 30 دلار به ازای هر یک میلیون توکن خروجی است که معادل تقریبی 0.039 دلار برای هر تصویر خواهد بود. مصرفکنندگان نیز میتوانند از طریق اپلیکیشنهای وب و موبایل Gemini به این قابلیتها دسترسی داشته باشند. گوگل چند کاربرد عمومی این مدل را برای کاربران معرفی کرده است:
- تغییر لباس یا مکان در تصویر: با بارگذاری عکس یک فرد یا حیوان خانگی، ظاهر آنها در تمام تصاویر حفظ میشود و میتوان آنها را در سناریوهای جدید قرار داد.
- ترکیب چند تصویر: کاربران میتوانند چند عکس را بارگذاری کرده و آنها را در یک صحنه جدید ترکیب کنند؛ برای مثال، تصویر خود و سگتان را در زمین بسکتبال ادغام کنید.
- ویرایش چندمرحلهای: امکان ویرایش مداوم تصاویر تولیدشده وجود دارد؛ مانند افزودن رنگ به دیوارهای یک اتاق خالی، سپس اضافهکردن قفسه، مبلمان یا میز قهوه.
- انتقال سبک: میتوان سبک یک تصویر را به شیئی در تصویر دیگر اعمال کرد؛ برای مثال، رنگ و بافت گلبرگها را به یک جفت چکمه بارانی منتقل کرد یا طرح بال پروانه را برای طراحی لباس استفاده نمود.
گوگل تأکید کرده که تصاویر بارگذاریشده توسط کاربران برای آموزش مدلهای یادگیری ماشین استفاده نمیشوند، مگر آنکه بهصورت صریح در بازخوردها گنجانده شده باشند. همچنین، تمام تصاویر تولید یا ویرایششده در اپلیکیشن Gemini دارای واترمارک قابلمشاهده و نشان دیجیتال نامرئی SynthID خواهند بود