هفته گذشته، شرکت OpenAI مجموعه مدلهای GPT-5.1 را برای کاربران ChatGPT و توسعهدهندگان عرضه کرد. مدل GPT‑5.1 Instant با عملکردی هوشمندتر، پاسخگویی سریعتر و تبعیت بهتر از دستورات همراه است، در حالکه مدل GPT‑5.1 Thinking برای استدلالهای پیچیده و وظایف تحلیلی پیشرفته طراحی شده است. همچنین، نسخهای ویژه با عنوان GPT‑5.1-Codex نیز معرفی شد که برای انجام وظایف عاملمحور در محیطهای توسعه مانند Codex بهینهسازی شده است.
اکنون OpenAI از دلی پیشرفته در حوزه کدنویسی عاملمحور با نام GPT‑5.1-Codex-Max رونمایی کرده که بهطور خاص برای انجام وظایف طولانیمدت طراحی شده است. این مدل با بهرهگیری از تکنیکی موسوم به Compaction قادر است در چندین پنجره متنی (Context Window) بهصورت پایدار عمل کند. به گفته OpenAI، این مدل میتواند در یک وظیفه واحد، میلیونها توکن را بهصورت قابل اعتماد پردازش کند. با وجود عملکرد ارتقاءیافته، این مدل نسبت به نسخه استاندارد GPT‑5.1 سریعتر و از نظر مصرف توکن بهینهتر است. تیم OpenAI در توضیح این مدل نوشت:
GPT‑5.1-Codex-Max بر اساس وظایف واقعی مهندسی نرمافزار مانند ایجاد Pull Request، بازبینی کد، توسعه رابط کاربری و پرسشوپاسخ آموزش دیده و در بسیاری از ارزیابیهای پیشرفته کدنویسی عملکرد بهتری نسبت به مدلهای پیشین ما دارد.
در آزمونهای معیار، مدل GPT‑5.1-Codex به امتیازهای زیر دست یافت:
- SWE-Bench Verified: 73.7%
- SWE-Lancer IC SWE: 66.3%
- TerminalBench 2.0: 52.8%
در مقابل، مدل جدید GPT‑5.1-Codex-Max عملکرد بهتری ارائه داده است:
- SWE-Bench Verified: 77.9%
- SWE-Lancer IC SWE: 79.9%
- TerminalBench 2.0: 58.1%
در حالی که مدلهای قبلی Codex عمدتاً برای محیطهای مبتنی بر یونیکس بهینهسازی شده بودند، GPT‑5.1-Codex-Max برای اجرا در محیطهای ویندوز نیز آموزش دیده است. در فرآیندهای بازسازی پیچیده کد و حلقههای عاملمحور طولانیمدت، بسیاری از مدلهای فعلی به دلیل محدودیت پنجره متنی دچار اختلال میشوند. اما GPT‑5.1-Codex-Max با بهرهگیری از فشردهسازی خودکار جلسات، هنگام نزدیک شدن به محدودیت پنجره متنی، اطلاعات را بهصورت هوشمند فشردهسازی میکند و امکان ادامهی فعالیت مستقل برای ساعتها را فراهم میسازد. به گفته OpenAI، در آزمایشهای داخلی، این مدل توانسته است بیش از 24 ساعت بهصورت مداوم روی یک وظیفه کار کند.
در نهایت، این مدل با بهبود بهرهوری توکن نیز همراه است؛ بهطوریکه در آزمون SWE-Bench Verified، با استفاده از 30 درصد توکن کمتر نسبت به GPT‑5.1-Codex، به همان سطح عملکرد دست یافته است. همچنین، قابلیت جدیدی با عنوان سطح استدلال فوقالعاده (xhigh) معرفی شده که به مدل اجازه میدهد برای وظایف پیچیده، زمان بیشتری صرف تفکر کند. مدل GPT‑5.1-Codex-Max هماکنون در ابزارهای Codex CLI، افزونه IDE، فضای ابری و سامانه بازبینی کد برای کاربران دارای اشتراکهای ChatGPT Plus، Pro، Business، Edu و Enterprise در دسترس است. همچنین، این مدل بهزودی از طریق API نیز ارائه خواهد شد. OpenAI اعلام کرده است که GPT‑5.1-Codex-Max جایگزین مدل قبلی GPT‑5.1-Codex بهعنوان مدل پیشفرض در Codex خواهد شد.