فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۱۸ مهر ۱۴۰۴ توسط ادمین

یافته جدید محققان: آلوده‌سازی مدل‌های زبانی با تنها 250 سند مخرب

یافته جدید محققان: آلوده‌سازی مدل‌های زبانی با تنها 250 سند مخرب

شرکت‌های فعال در حوزه هوش مصنوعی با سرعتی سرسام‌آور در حال توسعه ابزارهای قدرتمند هستند، اما این پیشرفت سریع همواره با درک کامل از محدودیت‌ها و آسیب‌پذیری‌های این فناوری همراه نبوده است. در همین راستا، Anthropic اخیراً گزارشی منتشر کرده که نشان می‌دهد مهاجمان چگونه می‌توانند در فرآیند آموزش اولیه مدل‌های زبانی بزرگ (LLM) تأثیرگذار باشند.

این مطالعه بر نوعی حمله با عنوان Data Poisoning تمرکز دارد؛ روشی که در آن مدل زبانی در مرحله پیش‌آموزش (pretraining) با محتوای مخرب تغذیه می‌شود تا رفتارهای ناخواسته یا خطرناک را فرا گیرد. یافته کلیدی این تحقیق آن است که برای آلوده‌سازی یک مدل زبانی، نیازی به کنترل درصد قابل‌توجهی از داده‌های آموزشی نیست. پژوهشگران دریافتند که تنها با استفاده از 250 سند مخرب می‌توان در مدل زبانی درب پشتی (backdoor) ایجاد کرد (صرف‌نظر از اندازه مدل یا حجم کل داده‌های آموزشی).

این مقدار به‌طور معناداری کمتر از سطح مورد انتظار برای مدل‌هایی با اندازه‌ای بین 600 میلیون تا 13 میلیارد پارامتر است. شرکت Anthropic در بیانیه‌ای رسمی اعلام کرده است:

ما این یافته‌ها را منتشر می‌کنیم تا نشان دهیم که حملات آلوده‌سازی داده‌ها (Data Poisoning Attacks) به‌مراتب عملی‌تر و واقع‌گرایانه‌تر از آن هستند که پیش‌تر تصور می‌شد. همچنین هدف از انتشار این نتایج، ترغیب و تسهیل پژوهش‌های بیشتر در جهت توسعه‌ی راهکارهای مؤثر برای مقابله با چنین تهدیداتی است.

این پژوهش با همکاری مؤسسه امنیت هوش مصنوعی بریتانیا (UK AI Security Institute) و مؤسسه آلن تورینگ (Alan Turing Institute) انجام شده است

لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)