شرکت Anthropic اخیراً قابلیتی را برای دو مدل Claude Opus 4 و 4.1 معرفی کرده که به آنها اجازه میدهد در شرایط خاص، گفتگو با کاربران را خاتمه دهند. این ویژگی تنها در “موارد نادر و شدید” از تعاملات مضر یا سوءاستفادهگرانه کاربران فعال خواهد شد.
به گفته Anthropic، این مدلها میتوانند گفتگوهایی را که شامل درخواستهایی برای محتوای جنسی مرتبط با کودکان یا تلاش برای دریافت اطلاعاتی در زمینه خشونت گسترده یا اقدامات تروریستی باشد، متوقف کنند. این تصمیم تنها زمانی اتخاذ میشود که تلاشهای متعدد برای تغییر مسیر گفتگو بینتیجه مانده و امیدی به تعامل سازنده باقی نمانده باشد.
با این حال، Anthropic تأکید کرده که اکثر کاربران حتی در بحثهای جنجالی نیز با قطع گفتگو مواجه نخواهند شد، زیرا این قابلیت صرفاً برای “موارد بسیار خاص” در نظر گرفته شده است. در صورت پایان یافتن گفتگو توسط Claude، کاربران دیگر نمیتوانند در همان گفتگو پیام جدیدی ارسال کنند، اما میتوانند بلافاصله یک گفتگوی جدید آغاز کنند. همچنین امکان ویرایش یا ارسال مجدد پیامهای قبلی برای تغییر مسیر گفتگو وجود دارد.
این اقدام بخشی از برنامه تحقیقاتی Anthropic در زمینه “رفاه مدلهای هوش مصنوعی” است. این شرکت معتقد است که توانایی خروج از تعاملات بالقوه آزاردهنده، راهکاری کمهزینه برای مدیریت ریسکهای مربوط به رفاه AI محسوب میشود. Anthropic همچنان در حال آزمایش این قابلیت است و از کاربران خواسته در صورت مواجهه با چنین شرایطی، بازخورد خود را ارائه دهند