شرکتهای فعال در حوزه هوش مصنوعی با سرعتی سرسامآور در حال توسعه ابزارهای قدرتمند هستند، اما این پیشرفت سریع همواره با درک کامل از محدودیتها و آسیبپذیریهای این فناوری همراه نبوده است. در همین راستا، Anthropic اخیراً گزارشی منتشر کرده که نشان میدهد مهاجمان چگونه میتوانند در فرآیند آموزش اولیه مدلهای زبانی بزرگ (LLM) تأثیرگذار باشند.
این مطالعه بر نوعی حمله با عنوان Data Poisoning تمرکز دارد؛ روشی که در آن مدل زبانی در مرحله پیشآموزش (pretraining) با محتوای مخرب تغذیه میشود تا رفتارهای ناخواسته یا خطرناک را فرا گیرد. یافته کلیدی این تحقیق آن است که برای آلودهسازی یک مدل زبانی، نیازی به کنترل درصد قابلتوجهی از دادههای آموزشی نیست. پژوهشگران دریافتند که تنها با استفاده از 250 سند مخرب میتوان در مدل زبانی درب پشتی (backdoor) ایجاد کرد (صرفنظر از اندازه مدل یا حجم کل دادههای آموزشی).
این مقدار بهطور معناداری کمتر از سطح مورد انتظار برای مدلهایی با اندازهای بین 600 میلیون تا 13 میلیارد پارامتر است. شرکت Anthropic در بیانیهای رسمی اعلام کرده است:
ما این یافتهها را منتشر میکنیم تا نشان دهیم که حملات آلودهسازی دادهها (Data Poisoning Attacks) بهمراتب عملیتر و واقعگرایانهتر از آن هستند که پیشتر تصور میشد. همچنین هدف از انتشار این نتایج، ترغیب و تسهیل پژوهشهای بیشتر در جهت توسعهی راهکارهای مؤثر برای مقابله با چنین تهدیداتی است.
این پژوهش با همکاری مؤسسه امنیت هوش مصنوعی بریتانیا (UK AI Security Institute) و مؤسسه آلن تورینگ (Alan Turing Institute) انجام شده است