xAI، رقیب OpenAI که توسط ایلان ماسک تأسیس شده، اولین نسخه Grok را معرفی کرده که می تواند اطلاعات بصری را پردازش کند. Grok-1.5V نسل اول مدل هوش مصنوعی چندوجهی این شرکت است که نه تنها متن را پردازش می کند، بلکه “اسناد، نمودارها، چارت ها، اسکرین شات ها و عکس ها” را نیز پردازش می کند.

در اطلاعیه xAI، چند نمونه از نحوه استفاده از قابلیت‌های آن در دنیای واقعی ارائه کرد. به عنوان مثال، می‌توانید عکسی از یک فلوچارت را به آن نشان دهید و از Grok بخواهید آن را به کد پایتون ترجمه کند، از آن بخواهید داستانی بر اساس یک نقاشی بنویسد و حتی از آن بخواهید یک میم را توضیح دهد که نمی‌توانید آن را بفهمید.

نسخه جدید تنها چند هفته پس از رونمایی شرکت Grok-1.5 ارائه می شود. این مدل به گونه‌ای طراحی شده بود که در کدنویسی و ریاضی بهتر از مدل قبلی خود باشد، و همچنین بتواند زمینه‌های طولانی‌تری را پردازش کند تا بتواند داده‌ها را از منابع بیشتری برای درک بهتر سؤالات خاص بررسی کند. xAI گفت که آزمایش‌کنندگان اولیه و کاربران فعلی آن به زودی می‌توانند از قابلیت‌های Grok-1.5V لذت ببرند، اگرچه جدول زمانی دقیقی برای عرضه آن ارائه نکرد.

علاوه بر معرفی Grok-1.5V، این شرکت همچنین مجموعه داده های بنچمارک را منتشر کرده که RealWorldQA نامیده می شود. می توانید از هر یک از 700 تصویر RealWorldQA برای ارزیابی مدل های هوش مصنوعی استفاده کنید: هر مورد با پرسش‌ها و پاسخ‌هایی همراه است که می‌توانید به راحتی آن‌ها را تأیید کنید، اما ممکن است مدل‌های چندوجهی مانند Grok را دچار مشکل کند. xAI ادعا کرد که فناوری آن زمانی که شرکت آن را با RealWorldQA در برابر رقبای مانند OpenAI GPT-4V و گوگل Gemini Pro 1.5 آزمایش کرد، بالاترین امتیاز را دریافت کرد.

سهام:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *