فهرست سایت
هوش مصنوعی نوشته شده در تاریخ ۷ اسفند ۱۴۰۴ توسط ادمین

مدل GPT-5.3-Codex و مدل‌های صوتی OpenAI روی Microsoft Foundry قرار گرفتند

مدل GPT-5.3-Codex و مدل‌های صوتی OpenAI روی Microsoft Foundry قرار گرفتند

شرکت OpenAI دسترسی به مدل GPT-5.3-Codex، قدرتمندترین مدل کدنویسی عامل‌محور (agentic coding) خود را برای توسعه‌دهندگان شخص ثالث از طریق API و پلتفرم Microsoft Foundry گسترش داد. این مدل که اوایل ماه جاری معرفی شد، ابتدا تنها در پلتفرم کدنویسی Codex خود OpenAI در دسترس بود و اکنون مایکروسافت نیز در دسترس بودن آن را در Microsoft Foundry اعلام کرده است.

GPT-5.3-Codex با ثبت رکوردهای جدید در معیارهای SWE-bench Pro و Terminal-Bench AI، پیشرفت قابل توجهی در توانایی‌های کدنویسی خودکار نشان داده است. به لطف بهینه‌سازی‌های تیم OpenAI، این مدل زمان اجرای 25 درصد سریع‌تری نسبت به مدل‌های قدیمی‌تر دارد و می‌تواند برای دوره‌های طولانی‌تری اجرا شود که آن را برای تحقیقات، استفاده از ابزارها و اجرای گام‌به‌گام پیچیده مناسب‌تر می‌کند.

برای اولین بار، GPT-5.3-Codex از قابلیت هدایت‌پذیری میان‌وظیفه (mid-task steerability) پشتیبانی می‌کند که به توسعه‌دهندگان اجازه می‌دهد مدل را در حین کار بدون از دست دادن زمینه، تغییر مسیر دهند. این مدل جدید همچنین در قابلیت‌های استفاده از کامپیوتر عملکرد بهتری نسبت به مدل‌های قدیمی GPT-Codex دارد. از نظر قیمت‌گذاری، تغییری نسبت به GPT-5.2-Codex ایجاد نشده است و هزینه آن 1.75 دلار به ازای هر میلیون توکن ورودی و 14 دلار به ازای هر میلیون توکن خروجی خواهد بود.

OpenAI همچنین دو مدل صوتی جدید به نام‌های GPT-Realtime-1.5 و GPT-Audio-1.5 معرفی کرده که اکنون در Microsoft Foundry نیز در دسترس هستند. به گفته OpenAI، GPT-Realtime-1.5 بهبود 5 درصد در معیار Big Bench Audio دارد که توانایی استدلال مدل صوتی را اندازه‌گیری می‌کند. این مدل همچنین در ارزیابی‌های داخلی، بهبود 10 درصد در رونویسی الفبایی و بهبود 7 درصد در پیروی از دستورالعمل‌ها نشان داده است.

تیم OpenAI ادعا می‌کند که این مدل جدید و بهبودیافته، خروجی صوتی روان‌تر و مکالمه‌ای‌تر با آهنگ و آوا بهبودیافته ارائه می‌دهد. علاوه بر این، API اکنون از تعاملات ساختاریافته و مبتنی بر ابزار (tool‑driven) در جریان‌های صوتی بلادرنگ پشتیبانی می‌کند. مدل‌های صوتی جدید اکنون از طریق Microsoft Foundry در دسترس هستند و قیمت‌گذاری آن‌ها به شرح زیر است:

GPT-Realtime-1.5:

  • ورودی متنی: 4 دلار به ازای هر میلیون توکن (0.04 دلار برای کش شده)
  • خروجی متنی: 16 دلار به ازای هر میلیون توکن
  • ورودی صوتی: 32 دلار به ازای هر میلیون توکن (0.40 دلار برای کش شده)
  • خروجی صوتی: 64 دلار به ازای هر میلیون توکن
  • ورودی تصویری: 4 دلار به ازای هر میلیون توکن (0.04 دلار برای کش شده)
  • خروجی تصویری: 16 دلار به ازای هر میلیون توکن

GPT-Audio-1.5:

  • ورودی متنی: 2.50 دلار به ازای هر میلیون توکن
  • خروجی متنی: 10 دلار به ازای هر میلیون توکن
  • ورودی صوتی: 32 دلار به ازای هر میلیون توکن
  • خروجی صوتی: 64 دلار به ازای هر میلیون توکن
  • ورودی تصویری: 2.50 دلار به ازای هر میلیون توکن
  • خروجی تصویری: 10 دلار به ازای هر میلیون توکن
لینک کوتاه

ارسال دیدگاه

پاسخ به (لغو پاسخ)