OpenAI представила GPT‑5.3‑Codex — модель Codex, орієнтовану на агентні робочі процеси розробки, де модель може використовувати інструменти, керувати комп’ютером і виконувати довші завдання від початку до кінця. OpenAI повідомляє, що GPT‑5.3‑Codex працює на 25% швидше для користувачів Codex і вже доступний у платних планах ChatGPT у Codex app, CLI, IDE extension та на web; доступ через API з’явиться після безпечного увімкнення.
- Агентна модель кодування для триваліших робочих процесів з використанням інструментів
- На 25% швидші взаємодії для користувачів Codex (за даними OpenAI)
- Використовувалася всередині компанії для налагодження тренувань та підтримки розгортання (за даними OpenAI)
- Кращі результати в бенчмарках з кодування та роботи з комп’ютером (деталі нижче)
- Більш інтерактивний супровід у Codex app (часті оновлення та «steering»)
- Перша модель OpenAI, класифікована як «High capability» для завдань кібербезпеки за Preparedness Framework
# Що нового
# Передові бенчмарки кодування (SWE‑Bench Pro, Terminal‑Bench 2.0)
OpenAI повідомляє про найкращі результати на SWE‑Bench Pro (бенчмарк для розробки програмного забезпечення) та суттєвий прогрес на Terminal‑Bench 2.0, який вимірює навички роботи в терміналі, потрібні агенту для кодування.
# Покращені навички користування комп’ютером (OSWorld‑Verified)
OpenAI також відзначає зростання показників з «computer use» на OSWorld‑Verified — бенчмарку, де моделі з використанням зору виконують завдання в десктопному середовищі. За даними OpenAI, люди набирають близько 72% на OSWorld‑Verified.
# Більш інтерактивний супровід у Codex app
OpenAI описує GPT‑5.3‑Codex як більш інтерактивний у Codex app: модель частіше оновлює стан роботи, тож замість очікування остаточної відповіді можна ставити питання, обговорювати підхід і коригувати напрямок під час виконання завдання.
OpenAI також зазначає, що можна увімкнути steering у додатку за шляхом Settings → General → Follow-up behavior.
# Використовували для власного навчання та розгортання
Однією з незвичних деталей анонсу є те, що ранні версії GPT‑5.3‑Codex допомагали налагоджувати власні тренувальні прогони, підтримувати розгортання, діагностувати результати оцінювання та виконувати операційні завдання — наприклад адаптацію harnesses і масштабування GPU-кластерів у відповідь на зміну трафіку.
# Позиція з кібербезпеки та поетапний доступ
OpenAI повідомляє, що GPT‑5.3‑Codex — перша модель, яку вона класифікувала як «High capability» для завдань, пов’язаних із кібербезпекою, у межах Preparedness Framework, і що внаслідок цього впроваджують додаткові заходи пом’якшення ризиків та контролю доступу. Паралельно з релізом OpenAI оголосила пілотну програму «Trusted Access for Cyber».
# Доступність і інфраструктура
OpenAI каже, що GPT‑5.3‑Codex уже доступний у платних планах ChatGPT у тих інтерфейсах, де працює Codex (app, CLI, IDE extension та web), а доступ через API з’явиться після безпечного включення.
OpenAI також зазначає, що GPT‑5.3‑Codex співрозробляли, тренували й обслуговували на системах NVIDIA GB200 NVL72.
# Бенчмарки (додаток OpenAI)
У релізі OpenAI наводить такі результати бенчмарків. Нижче таблиця відтворює значення з додатка OpenAI.
| Бенчмарк | GPT‑5.3‑Codex | GPT‑5.2‑Codex | GPT‑5.2 |
|---|---|---|---|
| SWE‑Bench Pro (Public) | 56.8% | 56.4% | 55.6% |
| Terminal‑Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld‑Verified | 64.7% | 38.2% | 37.9% |
| GDPval (перемоги або нічиї) | 70.9% | – | 70.9% (high) |
| Cybersecurity Capture The Flag | 77.6% | 67.4% | 67.7% |
OpenAI зазначає, що оцінювання в пості проводилися з xhigh reasoning effort.
Примітки до оновлення
OpenAI каже, що GPT‑5.3‑Codex уже доступний у Codex-інтерфейсах ChatGPT і що компанія «працює над безпечним увімкненням доступу через API найближчим часом». Якщо ваш робочий процес залежить від API, слідкуйте за оновленнями платформи OpenAI.
Джерела