فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۵ شهریور ۱۴۰۴ توسط ادمین

گوگل از مدل پیشرفته تولید تصویر Gemini 2.5 Flash Image رونمایی کرد

گوگل از مدل پیشرفته تولید تصویر Gemini 2.5 Flash Image رونمایی کرد

گوگل از مدل جدید و پیشرفته تولید و ویرایش تصویر خود با نام Gemini 2.5 Flash Image رونمایی کرد. این مدل که در مرحله آزمایش با عنوان “nano-banana” شناخته می‌شد، اکنون به‌عنوان یکی از پیشرفته‌ترین مدل‌های تولید تصویر در جهان معرفی شده است. بر اساس گزارش LMArena، مدل Gemini 2.5 Flash Image در حال حاضر بالاترین رتبه را در میان مدل‌های ویرایش تصویر کسب کرده و توانسته مدل‌های مطرحی مانند GPT Image 1 از OpenAI و Flux.1 Kontext را پشت سر بگذارد.

مدل‌های پیشین تولید تصویر معمولاً از نظر زیبایی‌شناسی عملکرد خوبی داشتند، اما در درک معنایی دقیق از دنیای واقعی دچار ضعف بودند. مدل جدید گوگل با بهره‌گیری از دانش گسترده Gemini درباره جهان، قادر است تصاویر دقیق‌تر و واقع‌گرایانه‌تری تولید کند. این مدل برای دو گروه از کاربران قابل دسترسی است: مصرف‌کنندگان عمومی و توسعه‌دهندگان. توسعه‌دهندگان می‌توانند از طریق API اختصاصی Gemini، پلتفرم Google AI Studio و سرویس Vertex AI برای سازمان‌ها به این مدل دسترسی داشته باشند.

هزینه استفاده از این مدل برای توسعه‌دهندگان، 30 دلار به ازای هر یک میلیون توکن خروجی است که معادل تقریبی 0.039 دلار برای هر تصویر خواهد بود. مصرف‌کنندگان نیز می‌توانند از طریق اپلیکیشن‌های وب و موبایل Gemini به این قابلیت‌ها دسترسی داشته باشند. گوگل چند کاربرد عمومی این مدل را برای کاربران معرفی کرده است:

  • تغییر لباس یا مکان در تصویر: با بارگذاری عکس یک فرد یا حیوان خانگی، ظاهر آن‌ها در تمام تصاویر حفظ می‌شود و می‌توان آن‌ها را در سناریوهای جدید قرار داد.
  • ترکیب چند تصویر: کاربران می‌توانند چند عکس را بارگذاری کرده و آن‌ها را در یک صحنه جدید ترکیب کنند؛ برای مثال، تصویر خود و سگتان را در زمین بسکتبال ادغام کنید.
  • ویرایش چندمرحله‌ای: امکان ویرایش مداوم تصاویر تولیدشده وجود دارد؛ مانند افزودن رنگ به دیوارهای یک اتاق خالی، سپس اضافه‌کردن قفسه، مبلمان یا میز قهوه.
  • انتقال سبک: می‌توان سبک یک تصویر را به شیئی در تصویر دیگر اعمال کرد؛ برای مثال، رنگ و بافت گلبرگ‌ها را به یک جفت چکمه بارانی منتقل کرد یا طرح بال پروانه را برای طراحی لباس استفاده نمود.

گوگل تأکید کرده که تصاویر بارگذاری‌شده توسط کاربران برای آموزش مدل‌های یادگیری ماشین استفاده نمی‌شوند، مگر آن‌که به‌صورت صریح در بازخوردها گنجانده شده باشند. همچنین، تمام تصاویر تولید یا ویرایش‌شده در اپلیکیشن Gemini دارای واترمارک قابل‌مشاهده و نشان دیجیتال نامرئی SynthID خواهند بود

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)