گوگل دیپمایند از مدلهای جدیدی با نام Gemini Robotics 1.5 و Gemini Robotics-ER 1.5 رونمایی کرده که توانایی رباتها را در انجام وظایف پیچیده و چندمرحلهای بهطور چشمگیری افزایش میدهد. این مدلها نهتنها به رباتها امکان تفکر چندمرحلهای پیش از اقدام فیزیکی را میدهند، بلکه آنها را قادر میسازند تا از طریق جستجو در وب، اطلاعات لازم برای انجام وظایف را بهدست آورند.
با استفاده از این مدلها، رباتها میتوانند وظایفی فراتر از اقدامات ساده مانند تا کردن کاغذ یا باز کردن زیپ کیف را انجام دهند. اکنون آنها قادرند لباسها را بر اساس رنگ روشن و تیره تفکیک کنند، چمدانی را با توجه به وضعیت آبوهوای لندن بستهبندی کنند، یا زبالهها، مواد قابل بازیافت و کمپوست را بر اساس مقررات محلی و اطلاعات بهدستآمده از وب مرتبسازی کنند.
مدل Gemini Robotics-ER 1.5 محیط اطراف ربات را تحلیل کرده و اطلاعات بهدستآمده از جستجوی وب را به دستورالعملهای زبان طبیعی تبدیل میکند. این دستورالعملها سپس توسط مدل Gemini Robotics 1.5 اجرا میشوند که با درک بصری و زبانی، مراحل مختلف وظیفه را انجام میدهد. یکی دیگر از قابلیتهای چشمگیر این مدلها، امکان انتقال مهارتها بین رباتهای مختلف است.
بهعنوان مثال، وظایفی که برای ربات ALOHA2 با دو بازوی مکانیکی طراحی شدهاند، بهراحتی روی ربات Franka با دو بازو و حتی ربات انساننمای Apollo نیز قابل اجرا هستند. این ویژگی به توسعهدهندگان اجازه میدهد تا با یک مدل واحد، رباتهایی با پیکربندیهای متفاوت را کنترل کنند و مهارتهای آموختهشده را بین آنها منتقل نمایند. مدل Gemini Robotics-ER 1.5 از طریق API در Google AI Studio برای توسعهدهندگان در دسترس قرار گرفته، در حالی که مدل Gemini Robotics 1.5 فعلاً فقط برای شرکای منتخب قابل استفاده است.