Claude Opus 4.6 отримав adaptive thinking, 128K output, Compaction API та інші нововведення

Anthropic випустила Claude Opus 4.6 з режимом adaptive thinking, подвоєним лімітом вихідних токенів (128K), новим Compaction API для довготривалих розмов і контролем розташування даних. Реліз також робить параметр effort та fine-grained tool streaming загальнодоступними.

Режим adaptive thinking
128K максимальних вихідних токенів (раніше 64K)
Параметр effort став загальнодоступним із новим рівнем max
Compaction API (beta) для серверного стискання контексту
Fine-grained tool streaming — загальна доступність
Контроль розташування даних через inference_geo

Що нового

Режим Adaptive Thinking

Новий режим thinking: {type: "adaptive"} дозволяє Claude самостійно визначати, коли й наскільки інтенсивно "думати" залежно від задачі. На стандартному рівні зусиль high модель майже завжди залучає процес мислення; на нижчих рівнях вона може пропускати його для простіших задач. Це замінює старий підхід з budget_tokens, який тепер застарілий.

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "Solve this complex problem..."}]
)

Adaptive thinking автоматично вмикає також interleaved thinking, тож більше не потрібно додавати beta-заголовок interleaved-thinking-2025-05-14.

128K вихідних токенів

Opus 4.6 підтримує до 128K вихідних токенів — удвічі більше, ніж раніше (64K). Це дає більше бюджету на "мислення" й дозволяє отримувати детальніші відповіді. SDK вимагають використання стрімінгу для запитів із великими max_tokens, щоб уникнути HTTP-тайм-аутів.

Параметр Effort — загальна доступність

Параметр effort більше не потребує beta-заголовка. Додано новий рівень max, який дає найвищу продуктивність на Opus 4.6. Поєднуйте його з adaptive thinking, щоб балансувати вартість і якість результатів.

Compaction API (beta)

Новий серверний механізм стискання контексту, що дозволяє вести довгі розмови. Коли контекст наближається до межі вікна, API автоматично підсумовує попередні частини бесіди замість їхнього обрізання.

Fine-grained Tool Streaming — загальна доступність

Fine-grained tool streaming тепер загальнодоступний на всіх моделях і платформах — без потреби в beta-заголовку.

Контроль розташування даних

Новий параметр inference_geo дозволяє вказати, де виконуватиметься інференс — "global" (за замовчуванням) або "us". Інференс, обмежений US, коштує в 1.1 разу дорожче на Opus 4.6 та новіших моделях.

Несумісні зміни

Видалення prefill: Попереднє заповнення повідомлень асистента не підтримується в Opus 4.6. Запити з prefilled assistant messages повертають помилку 400. Натомість використовуйте structured outputs або інструкції в system prompt.

Перейменування output_format: Параметр output_format переміщено в output_config.format. Старий параметр ще працює, але позначений як застарілий.

# Before
response = client.messages.create(
    output_format={"type": "json_schema", "schema": {...}},
    ...
)
 
# After
response = client.messages.create(
    output_config={"format": {"type": "json_schema", "schema": {...}}},
    ...
)

Застарілі можливості

thinking: {type: "enabled", budget_tokens: N} — використовуйте adaptive thinking
interleaved-thinking-2025-05-14 beta header — більше не потрібен завдяки adaptive thinking
output_format — використовуйте output_config.format

Посилання