Claude Code Ultrathink 실전 가이드 — extended thinking, /effort, Adaptive Thinking 동작 원리와 사용 기준
ultrathink를 프롬프트에 붙였는데 응답이 너무 느려졌다거나, /effort가 새로 생겼다는 말을 들었는데 ultrathink와 무엇이 다른지 헷갈린다면 — 이 글이 그 혼란을 해소하는 데 도움이 될 수 있습니다. Claude Code에서 AI의 추론 깊이를 제어하는 방법은 꾸준히 바뀌어왔고, 동작 원리를 정확히 정리한 자료가 드물었던 것도 사실입니다.
이 글에서는 ultrathink가 내부적으로 어떻게 동작하는지, think·megathink·ultrathink 키워드들이 실제로 어떤 차이를 만드는지, 그리고 2026년 현재 권장되는 /effort 명령어 및 Adaptive Thinking과 어떻게 구분해 사용해야 하는지를 차례로 살펴봅니다. 이 글을 읽고 나면 어떤 작업에 어느 수준의 추론을 요청할지 스스로 판단할 수 있는 기준을 갖출 수 있습니다.
Claude Code CLI를 처음 접하는 분이라면 Anthropic 공식 문서의 Claude Code 섹션을 먼저 확인하시는 것을 권장합니다. 아래 예시는 모두 Claude Code CLI 터미널 환경을 기준으로 작성되어 있습니다.
핵심 개념
Extended Thinking — Claude가 "속으로 생각하는" 방법
Claude Code는 내부적으로 Extended Thinking(확장 사고) 메커니즘을 사용합니다. 모델이 최종 응답을 생성하기 전, 마치 종이에 풀이 과정을 적듯 단계별 내부 추론을 거치도록 하는 방식입니다. 이 추론 과정에는 별도의 thinking 토큰이 소비되며, 할당량이 많을수록 더 깊고 정교한 분석이 가능해집니다.
Extended Thinking이란? 모델이 최종 답변을 출력하기 전 내부적으로 수행하는 단계별 추론 과정입니다. 사용자에게 기본적으로 노출되지 않지만,
--verbose플래그를 사용하면 내용을 직접 확인할 수 있습니다.
여기서 중요한 구분이 있습니다. ultrathink 키워드는 Claude Code CLI 전용이지만, Extended Thinking 기능 자체는 Anthropic API에서도 사용할 수 있습니다. API에서는 betas: ["interleaved-thinking-2025-05-14"] 헤더를 활성화하거나 effort 파라미터를 사용하는 방식으로 동일한 효과를 얻을 수 있습니다. 키워드가 CLI 전용인 것이지, 추론 메커니즘 자체가 CLI 전용은 아닙니다.
또한 AI/ML 배경의 독자라면 이 점을 구분해두시면 좋습니다. Extended Thinking은 모델의 가중치(weights)를 바꾸는 것이 아닙니다. 동일한 모델이 동일한 파라미터로 동작하되, inference 시점에 더 많은 연산(inference-time compute)을 수행하도록 토큰 예산을 늘리는 방식입니다.
사고 수준 계층 — 키워드별 토큰 예산 비교
| 키워드 | 사고 예산(토큰) | 적합한 작업 |
|---|---|---|
think |
~4,000 토큰 | 간단한 리팩터링, 일반 디버깅 |
think hard / megathink |
~10,000 토큰 | API 설계, 성능 최적화 |
think harder / ultrathink |
~31,999 토큰 | 시스템 아키텍처 재설계, 복잡한 버그 추적 |
주의:
think harder와ultrathink를 동일 예산으로 묶은 것은 공식 문서보다 커뮤니티 관찰(community-observed) 기준에 가깝습니다. 실제 동작이 버전마다 달라질 수 있으므로, 정확한 예산 수치보다 "더 깊은 추론을 유도하는 키워드"로 이해하시는 것이 안전합니다.
사고 예산이 클수록 모델은 더 많은 경우의 수를 검토하고 넓은 컨텍스트를 종합해 답변을 구성합니다. 반면 응답 생성 시간도 늘어나므로, 작업 복잡도에 맞는 수준을 선택하는 것이 중요합니다.
thinking 토큰의 비용은? thinking 토큰은 최종 응답에 노출되지 않지만 API 비용에는 포함됩니다. 단, thinking 토큰의 단가는 output 토큰보다 낮게 책정되어 있어 실제 비용 증가 폭은 단순 토큰 수 대비 작습니다. 정확한 단가는 Anthropic 공식 요금 페이지에서 확인하시는 것을 권장합니다.
2025~2026년 변천사 — ultrathink가 사라졌다가 돌아온 이유
ultrathink를 둘러싼 역사는 짧지만 흥미롭습니다.
- 2025년 초: 커뮤니티가
think,megathink,ultrathink키워드의 실질적 효과를 발견. GeekNews·X를 통해 빠르게 확산되며 "31,999 토큰의 사고 예산"이라는 수치가 주목받음 - 2026년 1월: Anthropic이 thinking mode를 기본 활성화하며
ultrathink를 공식 deprecated 처리 - 2026년 2~3월: 단순 작업에서도 무거운 추론이 발생해 응답 속도 저하 및 지시 이행 품질 하락 보고. GitHub Issue #19098 등 수백 건의 버그 리포트 제출
- 2026년 3월 4일(v2.1.68): Anthropic이 ultrathink 키워드를 복구
- 2026년 4월 현재: Opus 4.6·Sonnet 4.6에서 Adaptive Thinking(적응형 사고) 방식 채택,
/effort명령어 사용 권장
Adaptive Thinking이란? 모델이 쿼리의 복잡도를 스스로 판단해 추론 깊이를 자동 조절하는 방식입니다. 별도 설정 없이도 간단한 질문에는 가볍게, 복잡한 요청에는 깊게 생각합니다. Opus 4.6·Sonnet 4.6에서 기본 동작 방식으로 채택되었습니다.
실전 적용
예시 1: 복잡한 아키텍처 결정
모노리스에서 마이크로서비스로의 전환처럼 되돌리기 어렵고 파급 효과가 큰 결정에서 ultrathink가 가장 큰 효과를 발휘합니다. 먼저 관련 파일들을 Claude에게 읽힌 후 분석만 먼저 요청하는 방식이 효과적입니다.
# @파일명 문법으로 관련 파일을 컨텍스트에 추가합니다
@src/services/UserService.ts @src/services/OrderService.ts
ultrathink. 이 코드베이스를 분석하고 마이크로서비스 마이그레이션 계획을 제안해줘. 코드는 아직 작성하지 마.| 포인트 | 설명 |
|---|---|
@파일명 문법 |
관련 파일을 컨텍스트에 추가하는 방법. 충분한 컨텍스트가 있어야 깊은 추론이 의미 있음 |
ultrathink 위치 |
프롬프트 앞에 배치해 즉시 인식되도록 유도 |
| "코드는 작성하지 마" | 계획 수립에만 집중하게 해 분석과 실행 비용을 분리 |
예시 2: 재현 불가능한 버그 추적
단순 로그 분석으로 잡기 어려운 버그, 여러 시스템이 연관된 복잡한 오류 상황에 적합합니다.
# 관련 로그, 스택 트레이스, 환경 정보를 함께 제공할수록 효과적입니다
@logs/error.log @src/memory/MemoryManager.ts
ultrathink. 이 재현 불가능한 메모리 누수의 근본 원인을 찾아줘.| 포인트 | 설명 |
|---|---|
| 컨텍스트 제공 | 로그, 에러 스택, 관련 코드를 함께 첨부할수록 분석 품질이 높아짐 |
| 목표 명시 | "근본 원인(root cause) 찾기"처럼 원하는 결과를 구체적으로 지정 |
예시 3: 레거시 코드 기술 부채 분석
# 분석 대상 파일만 명시적으로 첨부해 범위를 제어합니다
@src/legacy/AuthModule.ts @src/legacy/SessionManager.ts
ultrathink. 이 레거시 코드의 기술 부채를 분석하고 우선순위별 개선 로드맵을 제시해줘.| 포인트 | 설명 |
|---|---|
| 우선순위 요청 | 단순 나열이 아닌 "우선순위별 로드맵"을 요청하면 실행 가능한 결과를 얻을 수 있음 |
| 범위 제한 | 레거시 모듈만 명시적으로 첨부해 분석 범위를 제어 |
예시 4: /effort 명령어로 세션 전체 설정 (현재 권장 방식)
2026년 4월 현재, Anthropic은 ultrathink 키워드보다 /effort 명령어 사용을 권장합니다. 한 번 설정하면 해당 세션의 모든 요청에 적용됩니다.
# 세션 전체를 max effort로 설정
/effort max
# 이후 요청들은 별도 키워드 없이도 최대 추론이 적용됩니다
이 시스템의 병목 지점을 분석하고 최적화 방안을 제안해줘.동일한 질문을 low와 max로 각각 실행하면 응답 구조에서 눈에 띄는 차이가 생깁니다.
| 설정 | 응답 특성 |
|---|---|
/effort low |
핵심만 간결하게, 빠른 응답 |
/effort max |
트레이드오프 분석, 엣지 케이스 검토, 단계별 근거 제시 포함 |
# 수준별 선택 가이드
/effort low # 단순 작업, 빠른 응답 우선
/effort medium # 일반적인 개발 작업
/effort high # 복잡한 설계, 최적화
/effort max # 최고 수준 추론 (구 ultrathink에 해당)| 방식 | 적용 범위 | 권장 상황 |
|---|---|---|
ultrathink 키워드 |
해당 요청 1건 | 세션 중 특정 요청 한 건에만 최대 사고가 필요할 때 |
/effort max |
세션 전체 | 복잡한 작업이 연속될 때 |
| Adaptive Thinking (기본) | 모델 자동 판단 | 대부분의 일반 작업 |
예시 5: Plan Mode와 결합
Claude Code에서 Plan Mode는 Shift+Tab으로 진입할 수 있습니다. Plan Mode와 ultrathink를 결합하면 최대 추론 능력으로 계획을 세우고, 실행 비용은 일반 모드에서 낮게 유지할 수 있습니다.
# Shift+Tab으로 Plan Mode 진입 후
ultrathink. 이 기능을 구현하기 위한 단계별 계획을 세워줘.
# 계획을 검토한 뒤 Shift+Tab으로 Plan Mode 해제
# 이후 실행은 일반 모드에서 진행하면 됩니다장단점 분석
장점
| 항목 | 내용 |
|---|---|
| 추론 품질 향상 | 단계별 심층 분석으로 단순 응답보다 정확하고 포괄적인 결과 도출 |
| 복잡한 문제 해결력 | 아키텍처 설계, 분산 시스템 버그처럼 다각도 검토가 필요한 작업에서 두드러진 효과 |
| 명시적 제어 가능 | 어떤 요청에 깊은 사고를 쓸지 개발자가 직접 선택 가능 |
| 계획과 실행 분리 | Plan Mode와 결합 시 높은 품질의 계획, 낮은 실행 비용 실현 |
단점 및 주의사항
| 항목 | 내용 | 대응 방안 |
|---|---|---|
| 응답 속도 저하 | low vs max 간 최대 10배 응답 시간 차이 발생 | 단순 작업은 think 또는 기본 Adaptive Thinking 활용 |
| 비용 증가 | thinking 토큰 소비로 API 비용 상승 (단, thinking 토큰 단가는 output 토큰보다 낮음) | 복잡도가 높은 작업에만 선택적으로 적용 |
| 과잉 사용 시 장황한 결과 | 단순 작업에 ultrathink 사용 시 느리고 verbose한 결과 | "실수 비용 $5 이상 또는 절약 시간 1시간 이상" 기준 참고 |
| CLI 키워드 전용 제약 | ultrathink 키워드는 CLI 전용 (Extended Thinking 기능 자체는 API에서도 사용 가능) |
API 사용 시 effort 파라미터 또는 betas 헤더로 대체 |
실무에서 가장 흔한 실수
- 컨텍스트 없이 ultrathink만 붙이는 것 — 깊은 사고는 충분한 컨텍스트가 있어야 의미 있습니다.
@파일명으로 관련 파일을 첨부하고 배경 정보를 함께 제공하면 효과가 크게 높아집니다. - 모든 요청에 ultrathink를 붙이는 것 — 변수명 변경, 간단한 오타 수정처럼 판단이 거의 필요 없는 작업에는 오히려 느리고 장황한 결과가 나올 수 있습니다. 복잡도와 파급 효과가 큰 작업에만 사용하는 것을 권장합니다.
- 2026년 이후에도 ultrathink 키워드에만 의존하는 것 — 현재 Opus 4.6·Sonnet 4.6은 Adaptive Thinking이 기본이며, 세션 단위로 복잡한 작업이 이어질 때는
/effort max가 더 체계적인 방식입니다. ultrathink는 세션 중 특정 단건 요청에만 최대 사고가 필요할 때 가장 잘 맞습니다.
마치며
ultrathink는 "AI에게 더 깊이 생각할 시간을 주는" 명시적 도구이며, 복잡도가 높은 작업에 선택적으로 활용할 때 가장 큰 효과를 발휘합니다.
2026년 현재는 Adaptive Thinking과 /effort 명령어가 중심이 되어가고 있지만, ultrathink 키워드는 특정 요청 한 건에만 최대 추론을 적용할 수 있는 유용한 도구로 여전히 살아 있습니다. 중요한 것은 도구의 이름이 아니라, 어떤 작업에 얼마나 깊은 사고가 필요한지를 판단하는 감각입니다.
사용 시점을 한눈에 정리하면 다음과 같습니다.
| 상황 | 권장 방식 |
|---|---|
| 대부분의 일반 개발 작업 | Adaptive Thinking (기본, 별도 설정 불필요) |
| 세션 전체에 걸쳐 복잡한 작업이 연속될 때 | /effort max |
| 세션 중 특정 요청 한 건에만 최대 추론이 필요할 때 | ultrathink 키워드 |
| API에서 Extended Thinking을 사용하고 싶을 때 | effort 파라미터 또는 betas 헤더 |
지금 바로 시작해볼 수 있는 3단계:
- Claude Code CLI에서
/effort high를 입력해보세요. 세션 전체의 추론 깊이가 높아지며, 이후 요청들의 응답 품질 변화를 직접 체감할 수 있습니다. - 현재 가장 해결하기 어렵다고 느끼는 문제를 하나 골라
ultrathink와 함께 시도해보세요.@파일명으로 관련 파일을 먼저 첨부하고, 원하는 결과를 구체적으로 지정하면 더 좋은 결과를 얻을 수 있습니다. claude --verbose모드에서 ultrathink 요청을 실행해보세요. 모델의 내부 thinking 과정을 직접 볼 수 있어, AI가 실제로 어떻게 추론하는지 이해하는 데 도움이 됩니다.
다음 글: Claude Code의 Plan Mode와
/effort조합으로 대규모 리팩터링을 안전하게 진행하는 방법
참고 자료
- What is UltraThink in Claude Code | ClaudeLog
- UltraThink is Dead. Long Live Extended Thinking. | Decode Claude
- Claude Code Ultrathink Is Back In New Update | Medium
- Claude Ultrathink: 5 Hidden Thinking Levels Explained | FindSkill.ai
- Building with Extended Thinking | Anthropic API Docs
- Effort | Anthropic API Docs
- Claude Code Thinking Triggers: ultrathink, /effort, and when to use each
- Claude Code Effort Settings Mastery | Claude Lab
- The ultrathink mystery: does Claude really think harder? | ITECS Blog
- claude-code-handbook/ultrathink-thinking-modes.md | GitHub
- 클로드 코드 100% 활용 팁 | 리브레토
- Claude Code Changelog | Anthropic