محققان هوش مصنوعی از شرکتهای OpenAI، Google DeepMind، Anthropic و مجموعهای گسترده از شرکتها و نهادهای غیرانتفاعی، در مقالهای موضعگیریشده که روز سهشنبه منتشر شد، خواستار بررسی بیشتر تکنیکهای نظارت بر “افکار” مدلهای استدلالی هوش مصنوعی شدند. یکی از ویژگیهای اصلی مدلهای استدلالی هوش مصنوعی – مانند o3 محصول OpenAI و R1 از شرکت DeepSeek – زنجیرههای تفکر یا CoT است.
این فرآیندی بیرونی است که در آن مدلهای هوش مصنوعی مسائل را مرحلهبهمرحله بررسی میکنند؛ مشابه کاری که انسان هنگام حل مسائل پیچیده ریاضی با استفاده از یادداشتهای جانبی انجام میدهد. این مدلهای استدلالی، فناوری اصلی در پشتیبانی از عاملهای هوشمند هستند، و نویسندگان مقاله بر این باورند که نظارت بر CoT میتواند یکی از روشهای کلیدی برای کنترل عاملهای هوش مصنوعی در آینده باشد؛ بهویژه در شرایطی که این عاملها فراگیرتر و توانمندتر میشوند. محققان در این مقاله اظهار داشتند:
نظارت بر زنجیرههای تفکر میتواند افزودهای ارزشمند به تدابیر ایمنی در برابر هوش مصنوعی پیشرفته باشد و نگاهی کمنظیر به شیوه تصمیمگیری این عاملها فراهم آورد. با اینحال، هیچ تضمینی وجود ندارد که سطح کنونی شفافیت حفظ شود. از جامعه پژوهشی و توسعهدهندگان مدلهای پیشرفته هوش مصنوعی میخواهیم بهترین بهره را از قابلیت پایش CoT ببرند و بررسی کنند چگونه میتوان آن را حفظ کرد.
این مقاله از توسعهدهندگان مطرح مدلهای هوش مصنوعی خواسته است تا عوامل مؤثر بر پایشپذیری CoT را مطالعه کنند – به عبارتی دیگر، عواملی که شفافیت در شیوهٔ پاسخگویی مدلهای هوش مصنوعی را افزایش یا کاهش میدهند. نویسندگان مقاله هشدار دادهاند که اگرچه نظارت بر CoT ممکن است راهی مؤثر در درک مدلهای استدلالی باشد، این روش میتواند شکننده باشد و هرگونه مداخلهای که شفافیت یا قابلیت اعتماد آن را کاهش دهد، باید با احتیاط همراه باشد.
این مقاله همچنین خواستار پیگیری مداوم پایشپذیری CoT توسط توسعهدهندگان و بررسی امکان استفاده آن بهعنوان یک تدبیر ایمنی در آینده شده است. از امضاکنندگان برجسته این مقاله میتوان به مارک چن (مدیر ارشد پژوهشی OpenAI)، ایلیا سوتسکِوِر (مدیرعامل Safe Superintelligence)، جفری هینتون (برنده جایزه نوبل)، شِین لِگ (هم بنیانگذار Google DeepMind)، دن هندریکس (مشاور ایمنی در xAI) و جان شولمن (همبنیانگذار Thinking Machines) اشاره کرد.
نویسندگان اصلی مقاله شامل رهبرانی از مؤسسه امنیت هوش مصنوعی بریتانیا و پژوهشگاه Apollo هستند و دیگر امضاکنندگان از شرکتهایی همچون METR، Amazon، Meta و دانشگاه UC Berkeley هستند. این مقاله لحظهای از همگرایی میان رهبران صنعت هوش مصنوعی را رقم میزند و تلاشی برای تقویت پژوهش در زمینه ایمنی هوش مصنوعی محسوب میشود. انتشار آن در زمانی صورت گرفته که رقابت شدید میان شرکتهای فناوری موجب شده تا برخی، از جمله Meta، پژوهشگران برجسته را با پیشنهادهای میلیوندلاری از شرکتهایی مانند OpenAI، Google DeepMind و Anthropic جذب کنند. پژوهشگر OpenAI، بوون بیکر، در مصاحبهای با TechCrunch گفت:
اکنون در برهه حساسی قرار داریم که این مفهوم زنجیره تفکر پدید آمده و به نظر میرسد بسیار مفید باشد. اما اگر توجه کافی به آن نشود، ممکن است در چند سال آینده از بین برود. بهنظر من انتشار این مقالهٔ موضعگیری شده راهی برای جلب توجه بیشتر و تحقیق در این زمینه پیش از آن است.
اولین مدل استدلالی هوش مصنوعی، یعنی o1 از OpenAI، در سپتامبر 2024 بهصورت پیشنمایش عمومی منتشر شد. در ماههای پس از آن، صنعت فناوری بهسرعت مدلهایی با قابلیتهای مشابه (و در برخی موارد، عملکرد پیشرفتهتر) از شرکتهایی چون Google DeepMind، xAI و Anthropic ارائه کرد. بااینحال، درک دقیق سازوکار این مدلها هنوز در مراحل اولیه است. اگرچه آزمایشگاههای هوش مصنوعی در سال گذشته عملکرد این مدلها را ارتقاء دادهاند، اما این ارتقاء لزوماً به درک بهتر روش رسیدن به پاسخها منجر نشده است.
شرکت Anthropic یکی از پیشروان در حوزه “Interpretability” مدلهای هوش مصنوعی بوده است، حوزهای که به درک واقعی نحوه عملکرد این مدلها میپردازد. مدیرعامل آن، داریو آمودی، اوایل امسال اعلام کرد که تا سال 2027 برای شفافسازی عملکرد مدلها و سرمایهگذاری در قابلیت تفسیر تلاش خواهد کرد و از شرکتهای OpenAI و Google DeepMind خواست تا در این زمینه فعالتر باشند. پژوهشهای اولیه Anthropic نشان دادهاند که CoT ممکن است بهتنهایی معیار قابل اعتمادی برای نحوه پاسخدهی مدلها نباشد. بااینحال، محققان OpenAI گفتهاند نظارت بر CoT شاید بتواند روزی راهی مطمئن برای ردیابی میزان تطابق و ایمنی در مدلهای هوش مصنوعی باشد.