آموزش مدلهای زبانی بزرگ به شدت پرهزینه است. مسئله صرفاً در اختیار داشتن پردازندههای گرافیکی بیشتر نیست؛ بلکه نحوه استفاده کارآمد از آنها اهمیت دارد و با بزرگتر شدن مدلها، حتی ناکارآمدیهای کوچک میتوانند به هزینههای هنگفت زمانی و انرژی تبدیل شوند. اکنون، تیمی از محققان موسسه فناوری ماساچوست (MIT) به همراه همکارانی از شرکتهایی از جمله انویدیا، اعلام کردهاند که روشی بهطرز شگفتآوری کاربردی برای بازیابی توان محاسباتی هدررفته در طول فرآیند آموزش یافتهاند که در برخی موارد، کل زمان آموزش را تقریباً به نصف کاهش میدهد.
مشکلی که آنها هدف قرار دادهاند، در یادگیری تقویتی (RL) و به طور ویژه در فاز به اصطلاح Rollout قرار دارد. این مرحلهای است که در آن مدل چندین پاسخ کاندید تولید میکند تا یاد بگیرد کدام رفتارها به نتایج بهتری منجر میشوند. این فرآیند برای مدلهای زبانی بزرگ متمرکز بر استدلال ضروری است، اما در عین حال کند نیز هست. در واقع، مرحله گسترش میتواند تا 85 درصد از کل زمان اجرا را به خود اختصاص دهد. عامل این مسئله چیزی است که محققان آن را “توزیع دنباله بلند” طول پاسخها مینامند. اکثر پاسخهای تولید شده به سرعت به پایان میرسند، اما تعداد کمی از آنها مدتزمان بسیار بیشتری از حد متوسط اجرا میشوند.
از آنجا که پردازندههای گرافیکی نیاز به همگامسازی دارند، واحدهای سریعتر اغلب بیکار میمانند و منتظر میمانند تا پردازشهای کندتر به اتمام برسند. راهحل تیم MIT که «اهلی کردن دنباله بلند» (TLT) نام دارد، مستقیماً به مقابله با این هدررفت میرود. TLT به جای بیکار گذاشتن پردازندههای گرافیکی در طول آن تولیدات طولانی، از این زمان توقف برای آموزش همزمان یک مدل «پیشنویس» سبکوزن استفاده میکند. این مدل کوچکتر بهطور مستمر از مدل اصلی در طول فرآیند آموزش، یاد میگیرد. این ایده بر پایه Speculative Decoding بنا شده که در آن یک مدل کوچکتر، توکنهای بعدی را پیش از مدل اصلی پیشبینی میکند تا بتوان چندین توکن را بهطور موازی تأیید کرد.
رمزگشایی حدسی سنتی به یک مدل پیشنویس ثابت متکی است که با تکامل مدل اصلی در طول یادگیری تقویتی، به سرعت قدیمی و ناهماهنگ میشود. TLT این پویایی را تغییر میدهد. با بازآموزی فرصتطلبانه مدل پیشنویس با استفاده از منابع بیکار، سیستم مدل پیشنویس را با مدل اصلی هماهنگ نگه میدارد، بدون آنکه نیاز به توان محاسباتی اختصاصی اضافی باشد. در آزمایشهای انجامشده روی چندین مدل زبانی بزرگ متمرکز بر استدلال و مجموعه دادههای واقعی، نتایج قابل توجه بود. محققان افزایش سرعت آموزش سرتاسری بین 70 تا 210 درصد را در مقایسه با روشهای پایه قوی گزارش میدهند که در بسیاری از سناریوها عملاً سرعت آموزش را دو برابر میکند.
نکته مهم این است که دقت مدل بدون تغییر باقی ماند. یک مزیت جانبی جالب نیز وجود دارد: خود مدل پیشنویس که بهطور مستمر آموزش میبیند، به یک محصول جانبی مفید تبدیل میشود. از آنجا که این مدل در کنار مدل اصلی آموزش دیده است، میتواند در زمینههای خاص به عنوان یک مدل استنتاج کارآمد مورد استفاده قرار گیرد. این کار به یک روند کلیتر در تحقیقات هوش مصنوعی اشاره دارد: بهینهسازی در برابر قدرت محض. به جای مقیاسسازی نامحدود خوشهها، محققان به طور فزایندهای به دنبال راههایی برای استخراج کارایی بیشتر از سختافزار موجود هستند. اگر روشهایی مانند TLT در مقیاسهای بزرگ صنعتی مقاوم و مؤثر ثابت شوند، میتوانند به طور معناداری هزینههای مالی و زیستمحیطی آموزش مدلهای استدلال نسل بعدی را کاهش دهند.