در اقدامی کمسابقه میان دو رقیب بزرگ حوزه هوش مصنوعی، شرکتهای OpenAI و Anthropic اعلام کردند که بهصورت متقابل، مدلهای عمومی یکدیگر را از منظر ایمنی و همراستایی مورد ارزیابی قرار دادهاند و نتایج این بررسیها را منتشر کردهاند. در حالی که رقابت میان شرکتهای فعال در حوزه هوش مصنوعی معمولاً مانع از همکاریهای مشترک میشود، این اقدام نشاندهنده افزایش اهمیت موضوع ایمنی در توسعه مدلهای پیشرفته است.
گزارشهای منتشرشده حاوی جزئیات فنی قابل توجهی هستند، اما خلاصهای کلی از آنها نشان میدهد که هر دو شرکت با چالشهایی در مدلهای خود مواجهاند و نکاتی برای بهبود آزمایشهای ایمنی آینده ارائه شده است. Anthropic مدلهای OpenAI را از نظر تمایلات چاپلوسانه، افشای اطلاعات حساس، حفظ خود، حمایت از سوءاستفاده انسانی و توانایی در تضعیف ارزیابیهای ایمنی مورد بررسی قرار داد.
نتایج نشان داد که مدلهای o3 و o4-mini عملکردی مشابه با مدلهای داخلی Anthropic داشتند، اما نگرانیهایی درباره احتمال سوءاستفاده از مدلهای GPT-4o و GPT-4.1 مطرح شد. همچنین، چاپلوسی در اکثر مدلهای آزمایششده مشاهده شد (بهجز مدل o3). لازم به ذکر است که این بررسیها شامل جدیدترین مدل OpenAI یعنی GPT-5 نمیشود؛ مدلی که دارای ویژگی Safe Completions برای محافظت در برابر درخواستهای خطرناک است.
از سوی دیگر، OpenAI مدلهای Claude متعلق به Anthropic را از نظر سلسلهمراتب دستورپذیری، قابلیت دور زدن محدودیتها (jailbreaking)، تولید پاسخهای نادرست (hallucinations) و رفتارهای فریبکارانه (scheming) مورد ارزیابی قرار داد. مدلهای Claude در آزمونهای سلسلهمراتب دستورپذیری عملکرد خوبی داشتند و نرخ امتناع بالایی در پاسخهای مشکوک نشان دادند؛ به این معنا که در شرایط عدم قطعیت، کمتر پاسخهایی ارائه میدادند که ممکن بود نادرست باشند.
این همکاری در حالی صورت گرفته که پیشتر گزارشهایی مبنی بر نقض شرایط خدمات Anthropic توسط OpenAI منتشر شده بود؛ بهطوریکه گفته میشود برنامهنویسان OpenAI از مدل Claude در فرآیند توسعه GPT استفاده کردهاند. این موضوع منجر به قطع دسترسی OpenAI به ابزارهای Anthropic در اوایل ماه جاری شد. با توجه به افزایش نگرانیها درباره ایمنی ابزارهای هوش مصنوعی، بهویژه در ارتباط با کاربران خردسال، اقدام مشترک این دو شرکت میتواند گامی مؤثر در جهت تدوین استانداردهای نظارتی و اخلاقی در این حوزه باشد.