تحقیقات جدید نشان میدهد که آموزش مدلهای هوش مصنوعی بدون استفاده از دادههای کپی رایت شده، ممکن است، اما این مسیر با چالشهای جدی همراه می باشد. تیمی از محققان برجسته از دانشگاههای MIT و Carnegie Mellon، همراه با موسسات غیرانتفاعی، مدلی زبانی را تنها با دادههای عمومی و دارای مجوز آزاد آموزش دادهاند. این مدل که از یک مجموعه داده اخلاقی 8 ترابایتی بهره برده و شامل 130.000 کتاب از کتابخانه کنگره است، عملکردی مشابه مدل Llama 2-7B شرکت متا دارد.
هرچند این مدل از نظر قدرت با نمونههای پیشرفته امروزی قابل رقابت نیست، اما ادعای شرکتهایی مانند OpenAI را که معتقدند بدون مطالب کپی رایت نمیتوان مدلهای مدرن را آموزش داد، به چالش میکشد. در واقع، این تحقیق نشان میدهد که استفاده از دادههای آزاد میتواند گزینهای جایگزین برای توسعه مدلهای هوش مصنوعی باشد، هرچند که این روش پیچیدگیهای خاص خود را دارد.
یکی از چالشهای اصلی، محدودیت منابع دادهای است. بسیاری از اطلاعات عمومی در دسترس از نظر تنوع و کیفیت با دادههای اختصاصی قابل رقابت نیستند و این موضوع ممکن است بر عملکرد مدلهای زبانی تأثیر بگذارد. علاوه بر این، روند جمعآوری و پردازش دادههای آزاد زمانبر و هزینهبر است. با این حال، این روش میتواند مسیری برای توسعه مدلهای اخلاقیتر باشد و احتمالاً در بحثهای حقوقی و تنظیمگری آینده نقش مهمی ایفا کند.
در شرایطی که قوانین مربوط به حق نشر در حال تغییر هستند، استفاده از دادههای آزاد میتواند راهکاری برای کاهش نگرانیهای مرتبط با حقوق مالکیت باشد. این تحقیقات میتواند بحثهای گستردهای در مورد توسعه مدلهای هوش مصنوعی بر پایه دادههای باز و تأثیر آن بر نوآوری و رقابت در این حوزه ایجاد کند.
ارسال دیدگاه