گوگل مدل جدیدی به نام Gemini 2.5 Computer Use را در خانواده Gemini معرفی کرده است. این مدل به هوش مصنوعی امکان میدهد تا با رابطهای وب مانند انسان تعامل کند. اکنون این مدل از طریق Gemini API در Google AI Studio و Vertex AI برای عموم قابل دسترسی است. Gemini 2.5 Computer Use بر اساس قابلیتهای درک بصری و استدلال مدل Gemini 2.5 Pro ساخته شده و میتواند انواع اقدامات مرورگر مانند کلیک، تایپ، اسکرول، حرکت ماوس، باز کردن منوهای کشویی و پیمایش در URLها را انجام دهد.
بر خلاف مدلهای سنتی که به APIها وابستهاند، این مدل با پردازش اسکرینشاتهای رابط کاربری وب، اقدامات مختلفی را تولید میکند. عامل هوشمند ابتدا یک وظیفه، تصویر محیط دیجیتال و تاریخچه اقدامات اخیر را دریافت کرده و سپس اقدام مناسب (مانند کلیک روی دکمه یا تایپ در فیلد) را تحلیل و اجرا میکند. پس از هر اقدام، اسکرینشات جدیدی ارسال میشود تا فرآیند بهصورت چرخهای ادامه پیدا کند. گوگل عملکرد این مدل را با مثالهایی مانند مرتبسازی یادداشتهای چسبان روی تخته دیجیتال و انتقال اطلاعات حیوانات خانگی از یک وبسایت به سیستم CRM نمایش داده است.

این ویدیوها برای نمایش روانتر، با سرعت بالا پخش شدهاند. در حال حاضر، مدل از 13 نوع اقدام پشتیبانی میکند و بهترین عملکرد را در مرورگرهای وب دارد. گوگل اعلام کرده که این مدل هنوز برای وظایف سطح سیستمعامل دسکتاپ بهینه نشده، اما در بنچمارکهای موبایلی عملکرد امیدوارکنندهای داشته است. برای جلوگیری از سوءاستفاده، گوگل تدابیر امنیتی ویژهای در نظر گرفته است. هر اقدام پیشنهادی توسط سرویس ایمنی بررسی میشود و توسعهدهندگان میتوانند اقدامات خاصی را محدود کرده یا برای وظایف پرریسک (مانند تراکنشهای مالی) تأیید صریح کاربر را الزامی کنند.
چندین تیم داخلی گوگل از این مدل در محیطهای عملیاتی استفاده میکنند، از جمله در پلتفرمهای Search و Firebase برای تست رابط کاربری و اتوماسیون. توسعهدهندگان خارجی نیز در برنامه دسترسی اولیه از این مدل برای ساخت ابزارهای اتوماسیون و دستیارهای هوشمند بهره گرفتهاند. علاقهمندان میتوانند از طریق Google AI Studio یا Vertex AI کار با این مدل را آغاز کنند. همچنین، گوگل محیط آزمایشی Browserbase را برای تست و تجربه فراهم کرده است.