فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۶ شهریور ۱۴۰۴ توسط ادمین

همکاری کم‌سابقه میان OpenAI و Anthropic برای ارزیابی ایمنی مدل‌های هوش مصنوعی

همکاری کم‌سابقه میان OpenAI و Anthropic برای ارزیابی ایمنی مدل‌های هوش مصنوعی

در اقدامی کم‌سابقه میان دو رقیب بزرگ حوزه هوش مصنوعی، شرکت‌های OpenAI و Anthropic اعلام کردند که به‌صورت متقابل، مدل‌های عمومی یکدیگر را از منظر ایمنی و هم‌راستایی مورد ارزیابی قرار داده‌اند و نتایج این بررسی‌ها را منتشر کرده‌اند. در حالی که رقابت میان شرکت‌های فعال در حوزه هوش مصنوعی معمولاً مانع از همکاری‌های مشترک می‌شود، این اقدام نشان‌دهنده افزایش اهمیت موضوع ایمنی در توسعه مدل‌های پیشرفته است.

گزارش‌های منتشرشده حاوی جزئیات فنی قابل توجهی هستند، اما خلاصه‌ای کلی از آن‌ها نشان می‌دهد که هر دو شرکت با چالش‌هایی در مدل‌های خود مواجه‌اند و نکاتی برای بهبود آزمایش‌های ایمنی آینده ارائه شده است. Anthropic مدل‌های OpenAI را از نظر تمایلات چاپلوسانه، افشای اطلاعات حساس، حفظ خود، حمایت از سوءاستفاده انسانی و توانایی در تضعیف ارزیابی‌های ایمنی مورد بررسی قرار داد.

نتایج نشان داد که مدل‌های o3 و o4-mini عملکردی مشابه با مدل‌های داخلی Anthropic داشتند، اما نگرانی‌هایی درباره احتمال سوءاستفاده از مدل‌های GPT-4o و GPT-4.1 مطرح شد. همچنین، چاپلوسی در اکثر مدل‌های آزمایش‌شده مشاهده شد (به‌جز مدل o3). لازم به ذکر است که این بررسی‌ها شامل جدیدترین مدل OpenAI یعنی GPT-5 نمی‌شود؛ مدلی که دارای ویژگی Safe Completions برای محافظت در برابر درخواست‌های خطرناک است.

از سوی دیگر، OpenAI مدل‌های Claude متعلق به Anthropic را از نظر سلسله‌مراتب دستورپذیری، قابلیت دور زدن محدودیت‌ها (jailbreaking)، تولید پاسخ‌های نادرست (hallucinations) و رفتارهای فریبکارانه (scheming) مورد ارزیابی قرار داد. مدل‌های Claude در آزمون‌های سلسله‌مراتب دستورپذیری عملکرد خوبی داشتند و نرخ امتناع بالایی در پاسخ‌های مشکوک نشان دادند؛ به این معنا که در شرایط عدم قطعیت، کمتر پاسخ‌هایی ارائه می‌دادند که ممکن بود نادرست باشند.

این همکاری در حالی صورت گرفته که پیش‌تر گزارش‌هایی مبنی بر نقض شرایط خدمات Anthropic توسط OpenAI منتشر شده بود؛ به‌طوریکه گفته می‌شود برنامه‌نویسان OpenAI از مدل Claude در فرآیند توسعه GPT استفاده کرده‌اند. این موضوع منجر به قطع دسترسی OpenAI به ابزارهای Anthropic در اوایل ماه جاری شد. با توجه به افزایش نگرانی‌ها درباره ایمنی ابزارهای هوش مصنوعی، به‌ویژه در ارتباط با کاربران خردسال، اقدام مشترک این دو شرکت می‌تواند گامی مؤثر در جهت تدوین استانداردهای نظارتی و اخلاقی در این حوزه باشد.

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)