محققان با استفاده از زمان بیکار پردازنده‌های گرافیکی، سرعت آموزش هوش مصنوعی را دو برابر کردند

آموزش مدل‌های زبانی بزرگ به شدت پرهزینه است. مسئله صرفاً در اختیار داشتن پردازنده‌های گرافیکی بیشتر نیست؛ بلکه نحوه استفاده کارآمد از آنها اهمیت دارد و با بزرگ‌تر شدن مدل‌ها، حتی ناکارآمدی‌های کوچک می‌توانند به هزینه‌های هنگفت زمانی و انرژی تبدیل شوند. اکنون، تیمی از محققان موسسه فناوری ماساچوست (MIT) به همراه همکارانی از شرکت‌هایی از جمله انویدیا، اعلام کرده‌اند که روشی به‌طرز شگفت‌آوری کاربردی برای بازیابی توان محاسباتی هدررفته در طول فرآیند آموزش یافته‌اند که در برخی موارد، کل زمان آموزش را تقریباً به نصف کاهش می‌دهد.

مشکلی که آنها هدف قرار داده‌اند، در یادگیری تقویتی (RL) و به طور ویژه در فاز به اصطلاح Rollout قرار دارد. این مرحله‌ای است که در آن مدل چندین پاسخ کاندید تولید می‌کند تا یاد بگیرد کدام رفتارها به نتایج بهتری منجر می‌شوند. این فرآیند برای مدل‌های زبانی بزرگ متمرکز بر استدلال ضروری است، اما در عین حال کند نیز هست. در واقع، مرحله گسترش می‌تواند تا 85 درصد از کل زمان اجرا را به خود اختصاص دهد. عامل این مسئله چیزی است که محققان آن را “توزیع دنباله بلند” طول پاسخ‌ها می‌نامند. اکثر پاسخ‌های تولید شده به سرعت به پایان می‌رسند، اما تعداد کمی از آنها مدت‌زمان بسیار بیشتری از حد متوسط اجرا می‌شوند.

از آنجا که پردازنده‌های گرافیکی نیاز به همگام‌سازی دارند، واحدهای سریع‌تر اغلب بیکار می‌مانند و منتظر می‌مانند تا پردازش‌های کندتر به اتمام برسند. راه‌حل تیم MIT که «اهلی کردن دنباله بلند» (TLT) نام دارد، مستقیماً به مقابله با این هدررفت می‌رود. TLT به جای بیکار گذاشتن پردازنده‌های گرافیکی در طول آن تولیدات طولانی، از این زمان توقف برای آموزش هم‌زمان یک مدل «پیش‌نویس» سبک‌وزن استفاده می‌کند. این مدل کوچک‌تر به‌طور مستمر از مدل اصلی در طول فرآیند آموزش، یاد می‌گیرد. این ایده بر پایه Speculative Decoding بنا شده که در آن یک مدل کوچک‌تر، توکن‌های بعدی را پیش از مدل اصلی پیش‌بینی می‌کند تا بتوان چندین توکن را به‌طور موازی تأیید کرد.

رمزگشایی حدسی سنتی به یک مدل پیش‌نویس ثابت متکی است که با تکامل مدل اصلی در طول یادگیری تقویتی، به سرعت قدیمی و ناهماهنگ می‌شود. TLT این پویایی را تغییر می‌دهد. با بازآموزی فرصت‌طلبانه مدل پیش‌نویس با استفاده از منابع بیکار، سیستم مدل پیش‌نویس را با مدل اصلی هماهنگ نگه می‌دارد، بدون آنکه نیاز به توان محاسباتی اختصاصی اضافی باشد. در آزمایش‌های انجام‌شده روی چندین مدل زبانی بزرگ متمرکز بر استدلال و مجموعه داده‌های واقعی، نتایج قابل توجه بود. محققان افزایش سرعت آموزش سرتاسری بین 70 تا 210 درصد را در مقایسه با روش‌های پایه قوی گزارش می‌دهند که در بسیاری از سناریوها عملاً سرعت آموزش را دو برابر می‌کند.

نکته مهم این است که دقت مدل بدون تغییر باقی ماند. یک مزیت جانبی جالب نیز وجود دارد: خود مدل پیش‌نویس که به‌طور مستمر آموزش می‌بیند، به یک محصول جانبی مفید تبدیل می‌شود. از آنجا که این مدل در کنار مدل اصلی آموزش دیده است، می‌تواند در زمینه‌های خاص به عنوان یک مدل استنتاج کارآمد مورد استفاده قرار گیرد. این کار به یک روند کلی‌تر در تحقیقات هوش مصنوعی اشاره دارد: بهینه‌سازی در برابر قدرت محض. به جای مقیاس‌سازی نامحدود خوشه‌ها، محققان به طور فزاینده‌ای به دنبال راه‌هایی برای استخراج کارایی بیشتر از سخت‌افزار موجود هستند. اگر روش‌هایی مانند TLT در مقیاس‌های بزرگ صنعتی مقاوم و مؤثر ثابت شوند، می‌توانند به طور معناداری هزینه‌های مالی و زیست‌محیطی آموزش مدل‌های استدلال نسل بعدی را کاهش دهند.

فهرست سایت

محققان با استفاده از زمان بیکار پردازنده‌های گرافیکی، سرعت آموزش هوش مصنوعی را دو برابر کردند

مطالب مرتبط

ارسال دیدگاه

محققان با استفاده از زمان بیکار پردازنده‌های گرافیکی، سرعت آموزش هوش مصنوعی را دو برابر کردند

مطالب مرتبط

ارسال دیدگاه

برای صرف‌نظر کردن از پاسخ‌گویی اینجا را کلیک نمایید.