فهرست سایت
موبایل و تبلت نوشته شده در تاریخ ۱۷ مهر ۱۴۰۴ توسط ادمین

گوگل از مدل Gemini 2.5 Computer Use معرفی کرد؛ تعامل شبه‌انسانی با رابط‌های وب

گوگل از مدل Gemini 2.5 Computer Use معرفی کرد؛ تعامل شبه‌انسانی با رابط‌های وب

گوگل مدل جدیدی به نام Gemini 2.5 Computer Use را در خانواده Gemini معرفی کرده است. این مدل به هوش مصنوعی امکان می‌دهد تا با رابط‌های وب مانند انسان تعامل کند. اکنون این مدل از طریق Gemini API در Google AI Studio و Vertex AI برای عموم قابل دسترسی است. Gemini 2.5 Computer Use بر اساس قابلیت‌های درک بصری و استدلال مدل Gemini 2.5 Pro ساخته شده و می‌تواند انواع اقدامات مرورگر مانند کلیک، تایپ، اسکرول، حرکت ماوس، باز کردن منوهای کشویی و پیمایش در URLها را انجام دهد.

بر خلاف مدل‌های سنتی که به APIها وابسته‌اند، این مدل با پردازش اسکرین‌شات‌های رابط کاربری وب، اقدامات مختلفی را تولید می‌کند. عامل هوشمند ابتدا یک وظیفه، تصویر محیط دیجیتال و تاریخچه اقدامات اخیر را دریافت کرده و سپس اقدام مناسب (مانند کلیک روی دکمه یا تایپ در فیلد) را تحلیل و اجرا می‌کند. پس از هر اقدام، اسکرین‌شات جدیدی ارسال می‌شود تا فرآیند به‌صورت چرخه‌ای ادامه پیدا کند. گوگل عملکرد این مدل را با مثال‌هایی مانند مرتب‌سازی یادداشت‌های چسبان روی تخته دیجیتال و انتقال اطلاعات حیوانات خانگی از یک وب‌سایت به سیستم CRM نمایش داده است.

این ویدیوها برای نمایش روان‌تر، با سرعت بالا پخش شده‌اند. در حال حاضر، مدل از 13 نوع اقدام پشتیبانی می‌کند و بهترین عملکرد را در مرورگرهای وب دارد. گوگل اعلام کرده که این مدل هنوز برای وظایف سطح سیستم‌عامل دسکتاپ بهینه نشده، اما در بنچمارک‌های موبایلی عملکرد امیدوارکننده‌ای داشته است. برای جلوگیری از سوءاستفاده، گوگل تدابیر امنیتی ویژه‌ای در نظر گرفته است. هر اقدام پیشنهادی توسط سرویس ایمنی بررسی می‌شود و توسعه‌دهندگان می‌توانند اقدامات خاصی را محدود کرده یا برای وظایف پرریسک (مانند تراکنش‌های مالی) تأیید صریح کاربر را الزامی کنند.

چندین تیم داخلی گوگل از این مدل در محیط‌های عملیاتی استفاده می‌کنند، از جمله در پلتفرم‌های Search و Firebase برای تست رابط کاربری و اتوماسیون. توسعه‌دهندگان خارجی نیز در برنامه دسترسی اولیه از این مدل برای ساخت ابزارهای اتوماسیون و دستیارهای هوشمند بهره گرفته‌اند. علاقه‌مندان می‌توانند از طریق Google AI Studio یا Vertex AI کار با این مدل را آغاز کنند. همچنین، گوگل محیط آزمایشی Browserbase را برای تست و تجربه فراهم کرده است.

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)