반응형
2026년 3월 13일, Anthropic이 조용히 바꿔놓은 것들
어제, Anthropic은 하나의 블로그 포스트를 올렸다. "1M context is now generally available for Opus 4.6 and Sonnet 4.6." 한 줄짜리 제목이었다. 그런데 이 한 줄이 의미하는 바는 꽤 크다
100만 토큰. 약 75만 단어. 코드로 치면 75,000줄 이상. 중간 규모 소프트웨어 프로젝트의 전체 코드베이스를 통째로 읽어들일 수 있는 양이다. 그리고 이제 이것이 추가 비용 없이, 표준 가격으로, 모든 사용자에게 열렸다.

5주 만의 전환
돌이켜보면 흐름은 빨랐다. 2월 5일, Anthropic은 Claude Opus 4.6을 출시하면서 1M 토큰 컨텍스트 윈도우를 베타로 공개했다. 당시에는 200K 토큰을 초과하면 프리미엄 요금이 붙었다. 입력 기준 100만 토큰당 $10, 출력은 $37.50. 쓸 수는 있지만, 부담스러운 가격이었다.
5주 후인 3월 13일, 그 프리미엄이 사라졌다. 900K 토큰을 넣든 9K 토큰을 넣든 동일한 단가. Opus 4.6 기준 입력 $5, 출력 $25. Claude Code의 Max, Team, Enterprise 플랜 사용자는 별도 설정 없이 자동으로 1M 컨텍스트가 활성화된다.
이 가격 결정은 단순한 할인이 아니다. "긴 컨텍스트는 프리미엄 기능이 아니라 기본이다"라는 선언에 가깝다. Cursor 포럼에서는 발표 당일 운영팀이 "이미 새로운 표준 요금을 반영했다"고 확인할 정도로 서드파티 생태계도 빠르게 반응했다.
숫자가 말해주는 것
100만 토큰이라는 숫자 자체보다 중요한 건, 그 100만 토큰을 실제로 "사용할 수 있는가"이다.
LLM의 컨텍스트 윈도우에는 오래된 문제가 하나 있다. 이른바 "컨텍스트 부패(Context Rot)." 창이 넓어져도 정작 긴 문맥 속에서 핵심 정보를 놓치는 현상이다. Chroma Research가 체계적으로 문서화한 이 문제는, 컨텍스트가 길어질수록 모델의 성능이 떨어진다는 불편한 사실을 보여준다. NeurIPS 2024에서 발표된 BABILong 벤치마크에 따르면, 128K 토큰 지원을 자랑하는 GPT-4조차 입력 용량의 10%를 넘어서면 성능이 흔들렸다.

Opus 4.6은 이 문제에 대한 Anthropic의 대답이다. MRCR v2 벤치마크에서 1M 토큰, 8개 바늘(needle) 찾기에서 78.3%의 정확도를 기록했다. 이전 세대 Sonnet 4.5가 같은 조건에서 18.5%였던 것을 감안하면, 4배 이상의 도약이다. 프론티어 모델 중 최고 성능. VentureBeat는 이를 "컨텍스트 부패 문제의 해결"이라고 표현했고, 테크수다는 "GPT-5.2를 압도하는 실무 성능"이라는 헤드라인을 달았다.
물론 학계의 시선은 여전히 신중하다. 2025년 5월에 발표된 LongCodeBench 논문은 코딩 LLM의 1M 컨텍스트 성능을 평가했는데, 결과는 냉혹했다. 모든 모델에서 컨텍스트 길이가 늘어날수록 성능이 하락했다. Claude 3.5 Sonnet은 29%에서 3%로, Qwen2.5는 70.2%에서 40%로 떨어졌다. "긴 컨텍스트는 모든 모델의 약점"이라는 것이 논문의 결론이었다.
그래서 Opus 4.6의 78.3%가 더 의미심장하다. 모두가 실패하는 과제에서 혼자 의미있는 점수를 받았다는 뜻이니까.
컨텍스트 컴팩션이라는 해법
100만 토큰짜리 창을 열어놨다고 모든 게 해결되는 건 아니다. 개발자가 Claude Code와 3시간 동안 대화하며 작업하면, 사용자 메시지와 어시스턴트 응답이 계속 쌓인다. 아무리 창이 넓어도 결국은 한계에 부딪힌다.
Anthropic의 답은 "컨텍스트 컴팩션(Context Compaction)"이다. 컨텍스트가 윈도우 한계에 접근하면, 이전 대화 내용을 자동으로 요약하여 압축한다. 사실상 무한 대화가 가능해지는 구조다. InfoQ의 Steef-Jan Wiggers 기자는 이를 "가장 중요한 아키텍처 혁신"이라고 평가했는데, 납득이 간다. 긴 컨텍스트 자체보다, 긴 컨텍스트를 지속적으로 유지하는 메커니즘이 더 본질적인 문제이기 때문이다.
여기에 "적응형 사고(Adaptive Thinking)"도 함께 왔다. 기존에는 확장 사고(Extended Thinking)를 켜거나 끄거나, 이진 토글이었다. Opus 4.6에서는 low, medium, high, max 4단계로 세분화됐다. 간단한 질문에는 가볍게, 복잡한 아키텍처 결정에는 깊이 있게. 모델이 스스로 사고의 깊이를 조절한다.
경쟁의 지형도
Claude Code만 이 게임을 하고 있는 건 아니다. 2026년 3월 현재, AI 코딩 도구 시장은 그야말로 전쟁터다.
Google은 Gemini 3 Pro로 2M 토큰을 예고했다. 크기 경쟁에서 두 배의 우위. GitHub Copilot은 2,000만 명이 넘는 사용자와 $10이라는 최저가로 저변을 장악하고 있다. Cursor는 "Dynamic Context Discovery"라는 다른 방향을 선택했다. 1M 토큰을 통째로 넣는 대신, 에이전트가 필요한 정보만 동적으로 검색하는 방식이다. OpenAI Codex는 GPT-5.4로 1M을 실험적으로 지원하면서, Reddit 설문에서 65% 선호도를 기록했다.
흥미로운 건 이 숫자의 이면이다. 같은 설문에서 Claude Code는 35%에 그쳤지만, 토론량은 4배나 많았다. 사람들이 Codex를 "선택"하지만 Claude Code를 "이야기"한다. 블라인드 테스트에서는 Claude Code가 67% 승률을 기록했다. 품질은 인정하지만 일상적으로 쓰기엔 부담스럽다는 뜻이다.
상위 개발자들 사이에서 나오는 결론은 "하이브리드"다. 아키텍처 설계와 복잡한 추론에는 Claude Code, 반복적인 자율 구현에는 Codex. 한 가지 도구에 올인하기보다 각 도구의 장점을 조합하는 전략. 실용적이고 현실적인 답이다.
커뮤니티가 진짜로 말하는 것
미디어 보도는 대체로 긍정적이었다. "100만 토큰 장착한 AI 에이전트 끝판왕"(AI타임스), "실무 성능 GPT-5.2 압도"(테크수다), "7만 5,000줄 코드 한 번에 처리 가능"(CIO Korea). 한국 미디어만 8건 이상이 일제히 보도했다.
하지만 커뮤니티의 온도는 좀 다르다.
Hacker News에서는 방법론 논쟁이 벌어졌다. 누군가가 해리포터 4권(약 73만 토큰)을 넣고 50개 주문(spell) 중 49개를 찾아냈다고 보고하자, 즉각 반론이 달렸다. "LLM은 이미 대부분의 책을 외우고 있다." "학습 데이터에서 직접 학습한 걸 찾는 거지, 컨텍스트 윈도우에서 검색하는 게 아닐 수도 있다." 실험적으로 주문 이름을 바꿔서 테스트해보자는 제안까지 나왔다. 300건 이상의 댓글이 달린 이 스레드는, 1M 토큰의 "실제 검색 능력 vs 학습 데이터 기억"이라는 근본적인 질문을 던졌다.
Reddit에서는 비용이 가장 뜨거운 이슈였다. "하나의 복잡한 프롬프트로 5시간 한도의 50~70%를 소진한다"는 글이 388 업보트를 받았다. Extended Thinking이 활성화되면 실제 토큰 소비량이 눈에 보이는 것의 10~20배라는 보고도 있었다. 클리앙에서는 $100 플랜을 4일 만에 소진했다는 사용자의 경험담이 올라왔다.
2월 27일에는 프롬프트 캐싱 버그가 확인됐다. 토큰이 정상보다 2~3배 빠르게 소진되는 문제로, $200/월 Max 20x 플랜 사용자조차 며칠 만에 한도에 도달했다. Anthropic이 공식 인정했지만, 커뮤니티 신뢰에는 타격이 있었다.
"더 큰 컨텍스트"에서 "더 스마트한 컨텍스트"로
LLM 컨텍스트 윈도우의 역사를 보면, 성장 속도가 놀랍다. 2018년 GPT-1의 512 토큰에서 시작해, 2026년 Gemini 3 Pro의 2M 토큰까지. 8년 만에 약 4,000배. 특히 2024년 이후의 폭발적 확장은 (Gemini 1.5 Pro가 1M의 문을 열고, Magic.dev가 100M까지 실험한) 단순한 기술 발전이라기보다 경쟁적 군비 경쟁에 가깝다.
그런데 업계의 방향성에 미묘한 분기가 생기고 있다.
한쪽에는 "더 큰 컨텍스트" 파가 있다. 전체 코드베이스를 통째로 넣고, 전체 맥락에서 추론하게 하자. Claude Code의 1M, Google의 2M이 이 접근이다.
다른 한쪽에는 "더 스마트한 컨텍스트" 파가 있다. 전체를 다 넣을 필요 없이, 관련 있는 정보만 정확하게 찾아오면 된다. Cursor의 Dynamic Context Discovery, Windsurf의 Cascade + M-Query, Sourcegraph Cody의 조직 전체 코드 검색이 이 접근이다.
흥미로운 건, Claude Code가 양쪽 모두를 시도하고 있다는 점이다. 1M 토큰으로 전체를 담으면서도, 컨텍스트 컴팩션으로 핵심만 남기는 메커니즘을 갖추었다. GeekNews에서 한 개발자가 쓴 댓글이 이 긴장을 잘 요약한다. "과도한 컨텍스트 삽입이 모델의 집중력을 떨어뜨린다 — 개발자 스스로도 전체 코드베이스를 머릿속에 담지 않듯이."
결국 답은 "전략적 컨텍스트 관리"일 것이다. 1M 토큰이 있다고 1M을 채우는 게 아니라, 상황에 따라 필요한 만큼만 활용하는 것. Claude Code를 아키텍트로 활용하되, 작업 단위를 분할하고, 단계 간에 컨텍스트를 초기화하는 패턴. 커뮤니티에서 이미 자생적으로 형성되고 있는 이 모범 사례들이 성숙해지면, 100만 토큰의 진짜 가치가 드러날 것이다.
에이전트 팀이라는 더 큰 그림
사실 100만 토큰은 퍼즐의 한 조각이다. Opus 4.6과 함께 출시된 "에이전트 팀"을 함께 보면 그림이 더 선명해진다.
에이전트 팀은 여러 Claude 인스턴스가 병렬로 독립 작업을 수행하는 기능이다. 각 에이전트가 자체 1M 컨텍스트 윈도우를 가진다. 한 에이전트는 프론트엔드 코드를 분석하고, 다른 에이전트는 백엔드 로직을 검토하며, 또 다른 에이전트는 테스트를 작성한다. 동시에.
가장 극적인 사례는 에이전트 팀으로 C 컴파일러를 빌드한 프로젝트다. 부팅 가능한 Linux 커널을 빌드할 수 있는 수준의 컴파일러를 만들어냈다. 다만 비용이 $20,000이었다. Hacker News에서는 감탄과 경악이 동시에 터져나왔다.
Anthropic이 발표한 "2026 에이전틱 코딩 8대 트렌드" 보고서는 이 방향성을 더 분명히 한다. 핵심 메시지는 명확하다: 개발자의 역할이 코드 작성자에서 에이전트 오케스트레이터로 전환된다. 코드를 직접 치는 대신, 에이전트들에게 작업을 분배하고 결과를 검수하는 역할. 주 단위 작업이 일 단위로 완료되고, 비엔지니어도 직접 솔루션을 만들 수 있는 세계.
100만 토큰은 이 비전을 가능케 하는 인프라다. 에이전트가 전체 코드베이스를 이해하지 못하면 의미있는 자율 작업이 불가능하다. 1M 컨텍스트 + 에이전트 팀 + MCP(1,000개 이상의 외부 도구 서버) — 이 세 가지의 조합이 Anthropic이 그리는 "에이전틱 코딩"의 기반이다.
시장이 향하는 곳
숫자를 보면 방향은 뚜렷하다. AI 코딩 도구 시장은 2026년 약 $85억, 2030년 $240억 전망. 연 성장률 26.6%. 개발자의 73%가 매일 AI 코딩 도구를 사용하고, 91%의 조직이 채택했다.
하지만 신뢰의 문제는 아직 해결되지 않았다. AI가 작성한 코드를 완전히 신뢰한다는 개발자는 33%에 불과하다. AI가 공동 작성한 Pull Request의 이슈 발생률은 기존 대비 1.7배 높다. 개발자들은 AI를 작업의 약 60%에 활용하지만, 완전히 위임하는 비율은 0~20%에 그친다.
이 간극이 100만 토큰의 진짜 과제다. 더 넓은 컨텍스트가 더 높은 신뢰로 이어지려면, 벤치마크 점수뿐 아니라 실무에서의 일관된 경험이 축적되어야 한다. 프롬프트 캐싱 버그 같은 인시던트는 그 신뢰를 한순간에 깎아낸다.
그래서, 무엇이 달라지는가
Claude Code의 100만 토큰 GA는 시작점이지 종착점이 아니다.
기술적으로는 컨텍스트 부패 문제에 대한 의미있는 진전이다. MRCR v2 78.3%는 "긴 컨텍스트를 실제로 사용할 수 있다"는 첫 번째 설득력 있는 증거다. 컨텍스트 컴팩션은 장기 세션의 구조적 한계를 우회하는 영리한 해법이다.
전략적으로는 "긴 컨텍스트는 기본"이라는 가격 메시지가 시장 전체에 영향을 미칠 것이다. 경쟁사들은 프리미엄 모델을 유지하기 어려워진다.
실무적으로는, 아직 학습 곡선이 남아 있다. 100만 토큰을 효과적으로 활용하는 패턴은 단순히 "전부 넣기"가 아니라 "전략적으로 넣기"다. 커뮤니티가 이 패턴을 정립해가는 과정이 앞으로 몇 달의 핵심이 될 것이다.
한 가지 확실한 건, 2018년 512 토큰으로 시작한 여정이 8년 만에 100만 토큰에 도달했다는 사실이다. 그리고 그 100만 토큰이 이제 추가 비용 없이 모든 개발자에게 열렸다. 창은 열렸다. 이제 그 창으로 무엇을 볼 것인가는, 우리의 몫이다.
반응형
'AI > AI 동향' 카테고리의 다른 글
| K-문샷(Moonshot) 프로젝트 (1) | 2026.03.15 |
|---|---|
| Harness Engineering 사례 (0) | 2026.03.02 |
| 하네스 엔지니어링 (0) | 2026.03.02 |