اوایل امسال، شرکت OpenAI دو مدل زبان با حجم باز به نامهای gpt-oss-120b و gpt-oss-20b منتشر کرد که در وظایف استدلالی عملکرد بهتری نسبت به بسیاری از مدلهای مشابه داشتند. امروز، این شرکت دو مدل جدید با تمرکز بر ایمنی به نامهای gpt-oss-safeguard-120b و gpt-oss-safeguard-20b معرفی کرده که مدلهایی با حجم باز برای طبقهبندی ایمنی طراحی شدهاند.
این مدلهای جدید نسخههای بهینهشدهای از مدلهای gpt-oss هستند که پیشتر منتشر شده بودند و با همان مجوز آزاد Apache 2.0 عرضه میشوند که به هر فردی اجازه میدهد آزادانه از آنها استفاده، ویرایش و در پروژههای خود بهکار گیرد. بهجای آنکه توسعهدهندگان مجبور باشند از یک سیستم ایمنی واحد و از پیشتعریفشده برای برنامههای هوش مصنوعی خود استفاده کنند، مدل gpt-oss-safeguard به آنها امکان میدهد تا مرزهای ایمنی را خودشان تعریف کنند.
این مدل با بهرهگیری از توانایی استدلال، سیاست ایمنی ارائهشده توسط توسعهدهنده را در زمان استنتاج (inference) تفسیر میکند. این مدل قادر است پیامهای کاربران، پاسخهای چت و حتی کل مکالمات را تحت سیاست ایمنی مشخصشده طبقهبندی کند. از آنجا که سیاست ایمنی در زمان استنتاج مورد ارجاع قرار میگیرد و نه در مرحله آموزش، توسعهدهندگان میتوانند با بازنگری در سیاستها، عملکرد مدل را بهبود بخشند.
این مدل بهطور همزمان دو ورودی دریافت میکند: یکی سیاست ایمنی و دیگری محتوایی که باید تحت آن سیاست طبقهبندی شود، و در نهایت نتیجهگیری خود را همراه با استدلال ارائه میدهد. OpenAI تأکید کرده است که این رویکرد در شرایط زیر عملکرد بهتری دارد:
- زمانی که خطرات بالقوه در حال ظهور یا تحول هستند و سیاستها باید بهسرعت تطبیق یابند.
- در حوزههایی که بسیار پیچیده و دارای ظرافتهای زیاد هستند و طبقهبندهای کوچکتر قادر به مدیریت آنها نیستند.
- هنگامی که توسعهدهندگان دادههای کافی برای آموزش یک طبقهبند با کیفیت بالا برای هر نوع خطر در پلتفرم خود ندارند.
- در مواردی که سرعت پاسخگویی اهمیت کمتری نسبت به تولید برچسبهای با کیفیت و قابل توضیح دارد.
مانند هر مدل دیگری، gpt-oss-safeguard نیز کامل و بینقص نیست. به گفته OpenAI، دو نکته مهم در استفاده از این مدل وجود دارد؛ اول اینکه اگر زمان و داده کافی برای آموزش یک طبقهبند سنتی با دهها هزار نمونه برچسبخورده در اختیار داشته باشید، آن مدل میتواند در مواجهه با خطرات پیچیده یا حساس بهتر از gpt-oss-safeguard عمل کند. به عبارت دیگر، برای دستیابی به حداکثر دقت، یک سیستم سفارشیشده ممکن است گزینه بهتری باشد. دوم، مدل gpt-oss-safeguard ممکن است کند و منابعبر باشد، که اجرای آن را برای تمام محتواهای یک پلتفرم بزرگ دشوار میسازد.