Harness Engineering 사례

1. 대기업 프로덕션 사례

1.1 OpenAI - Codex 에이전트 기반 Harness Engineering (원조 사례)

배경: 2025년 8월, OpenAI는 빈 리포지토리에서 시작하여 Codex 에이전트만으로 프로덕션 시스템을 구축하는 실험을 시작했다.

핵심 수치:

5개월 만에 약 100만 줄의 코드 생성
3명의 엔지니어가 약 1,500개의 PR을 오픈 및 머지
엔지니어 1인당 하루 평균 3.5개의 PR 처리
팀이 7명으로 확대되면서 처리량이 오히려 증가

Harness 구조:

AGENTS.md를 목차로 활용: 약 100줄의 간결한 AGENTS.md가 컨텍스트에 주입되며, 상세 내용은 docs/ 디렉토리의 구조화된 문서에서 관리
엄격한 레이어드 의존성 모델: 코드 도메인 간 순환 의존성 방지
커스텀 린터와 구조 테스트: 에이전트가 반드시 따라야 하는 아키텍처 제약을 기계적으로 강제
"Garbage Collection" 에이전트: 주기적으로 실행되어 문서 불일치나 아키텍처 위반을 찾아내는 별도 에이전트

핵심 인사이트: "소프트웨어 엔지니어링 팀의 주된 역할은 더 이상 코드를 작성하는 것이 아니라, 환경을 설계하고 의도를 명시하며 Codex 에이전트가 신뢰할 수 있는 작업을 할 수 있도록 피드백 루프를 구축하는 것이다."

출처: OpenAI - Harness Engineering | InfoQ 보도

1.2 Stripe - Minions (주 1,000+ PR 머지)

배경: Stripe의 내부 코딩 에이전트 "Minions"는 매주 1,000개 이상의 PR을 머지하는 프로덕션 시스템이다.

6계층 엔지니어링 Harness:

계층	설명	특징
격리 VM	각 Minion은 자체 가상 머신에서 실행	인간 엔지니어와 동일한 dev box, 10초 내 스핀업
인터넷 차단	프로덕션/외부 접근 불가	샌드박스 격리로 인간 권한 확인 불필요
Tier 1 로컬 린터	5초 이내 실행	타이포 등 즉시 수정
Tier 2 선택적 CI	변경 파일 관련 테스트만 실행	300만개 테스트 중 선별적 실행
Tier 3 실용적 상한	실패 시 에이전트에 오류 반환	최대 2회 재시도 후 중단
하이브리드 워크플로우	창의적 LLM 단계 + 결정론적 게이트 교차 실행	에이전트가 린터를 건너뛸 수 없음

도구 생태계: MCP 서버를 통해 400개 이상의 내부 도구에 접근. 핵심 인사이트는 "에이전트도 인간 엔지니어와 동일한 컨텍스트와 도구가 필요하다"는 것이다.

출처: Stripe Dev Blog - Minions Part 1 | Stripe Dev Blog - Minions Part 2

1.3 Meta - Manus 인수 ($2B)

배경: 2025년 12월, Meta는 자율 에이전트 플랫폼 Manus를 약 20억 달러에 인수했다. 이는 harness 아키텍처의 프로덕션 가치를 검증한 사건이었다.

Manus의 Harness 아키텍처:

다중 에이전트 오케스트레이션: 중앙 "Planner Agent"가 복잡한 프롬프트를 수십 개의 서브 태스크로 분해
파일시스템 기반 장기 메모리: 컨텍스트 윈도우를 넘어서는 상태를 샌드박스 VM의 파일 시스템에 저장
KV-캐시 최적화: 안정적 프리픽스, 추가 전용 컨텍스트, 결정론적 직렬화로 10배 비용 절감 ($3/MTok -> $0.30/MTok)
성능 진화: 평균 태스크 완료 시간이 연초 약 15분에서 4분 미만으로 4배 단축

프로덕션 규모: 147조 토큰 이상 처리, 8,000만 개 이상의 가상 컴퓨터 생성

인수 의미: Meta가 구매한 것은 모델이 아니라 "모델을 시간에 걸쳐 워커처럼 행동하게 만드는 프로덕션 노하우"였다.

출처: Manus Blog | VentureBeat | Financial Content

1.4 Anthropic - 장기 실행 에이전트용 Harness

배경: Anthropic은 Claude Agent SDK를 활용한 장기 실행 에이전트 harness에 대한 엔지니어링 사례를 공유했다.

핵심 패턴: 이중 에이전트 구조:

Initializer Agent: 첫 번째 실행 시 환경을 설정
Coding Agent: 매 세션에서 점진적 진전을 이루며 다음 세션을 위한 아티팩트를 남김

상태 관리: claude-progress.txt 파일과 git 히스토리를 통해 새 컨텍스트 윈도우에서 작업 상태를 빠르게 파악

미해결 과제: 단일 범용 코딩 에이전트가 컨텍스트 간 최선인지, 테스팅/QA/코드 정리 등 전문화된 멀티 에이전트 아키텍처가 더 나은지는 아직 불명확

출처: Anthropic - Effective Harnesses for Long-Running Agents

1.5 GitHub - Copilot Coding Agent

배경: Microsoft Build 2025에서 발표된 GitHub Copilot Coding Agent는 비동기적 자율 백그라운드 에이전트로, 독립적인 클라우드 개발 환경에서 작업을 수행한다.

Harness 기능:

Mission Control 대시보드 (2025년 말 출시): 다수의 동시 에이전트 작업을 할당, 조종, 추적하는 관리자 인터페이스
서브에이전트: 독립 에이전트가 부모 에이전트 작업의 개별 부분을 전담하며, 각자의 컨텍스트와 커스텀 프롬프트, 도구 접근, 모델을 보유
Team Rules: 조직 차원의 글로벌 정책 정의 가능

적용 범위: 잘 테스트된 코드베이스의 저-중 복잡도 작업에서 우수한 성과 (기능 추가, 버그 수정, 테스트 확장, 리팩토링)

출처: GitHub Blog - Copilot Coding Agent | GitHub Newsroom

1.6 Shopify - 전사적 AI 코딩 의무화

배경: 2025년 4월, CEO Tobi Lutke가 "AI 사용은 이제 Shopify의 기본 기대치"라는 내부 메모를 공유.

접근법:

GitHub Copilot, Cursor, Claude Code 등 다양한 AI 코딩 도구를 직원에게 제공
신규 인력 요청 시 "왜 AI로 할 수 없는지" 설명 의무화
제품 디자이너에게 AI 도구를 이용한 프로토타입 제작 의무화
Universal Commerce Protocol (UCP)을 Google과 공동 개발하여 AI 에이전트와 커머스 통합

출처: Fast Company

1.7 Cursor - 에이전트 Harness 고도화

배경: 2025년 11월 $29.3B 밸류에이션으로 $2.3B 시리즈 D 달성. Harness 관점에서 주목할 만한 발전을 거듭.

Harness 개선 사항:

모든 모델에 걸친 Agent harness 품질 개선 (특히 GPT-5 Codex)
서브에이전트 시스템: 독립 에이전트가 부모 작업의 개별 부분을 병렬로 처리, 각자의 컨텍스트/프롬프트/도구/모델 보유
Background Agents (0.50 릴리스): 개발자가 다른 작업에 집중하는 동안 에이전트가 독립적으로 실행
Multi-Agent Orchestration (2.0): 여러 에이전트의 협업 워크플로우

출처: Cursor Changelog

2. 스타트업 및 중견기업 사례

2.1 개인 개발자 / 소규모 팀 사례

Peter Steinberger (OpenClaw): 5-10개의 에이전트를 동시에 실행하며 월 6,600+ 커밋 달성. 소규모 팀에서의 harness engineering의 극대화 사례.

85% 커스텀 구현 경향: 심층 사례 연구에서 85%가 대규모에서 프레임워크를 포기하고 커스텀 인하우스 구현을 사용. 이는 기존 프레임워크의 한계가 프로덕션 수준에서 드러나기 때문.

2.2 규모별 접근법 차이

규모	접근법	특징
개인/스타트업	Ralph Wiggum Loop + Claude Code	최소 harness, 빠른 반복, bash 루프 기반
중견기업	LangChain DeepAgents / 커스텀 harness	프레임워크 기반 시작 후 점진적 커스텀화
대기업	완전 커스텀 (Stripe Minions, OpenAI Codex)	수백 개 도구, 전용 인프라, 다계층 검증

2.3 Deloitte 조사 결과

2025년 Tech Trends 보고서에 따르면, 실제 프로덕션에서 에이전트를 활발히 사용하는 조직은 11%에 불과. 실패 모드의 대부분은 harness 영역에서 발생.

출처: Aakash Gupta - Medium

3. 오픈소스 도구 및 프레임워크

3.1 Ralph Wiggum Loop - 자율 에이전트 루프의 표준

개요: 심슨즈 캐릭터에서 이름을 딴 개발 방법론. AI 에이전트에게 동일한 프롬프트를 작업이 완료될 때까지 반복 제공하는 bash 루프.

원리:

while :; do cat PROMPT.md | npx --yes @sourcegraph/amp ; done

핵심 설계 원칙:

상태는 리포지토리에 존재: 파일, diff, 로그, git 히스토리
완료 판단은 모델 외부: 테스트, 린터, 타입 체커가 결정 (에이전트는 스스로 완료를 판단하지 않음)
에이전트는 교체 가능: 게이트를 통과할 때까지 반복 호출되는 워커

주요 구현체

프로젝트	URL	특징
open-ralph-wiggum (Th0rgal)	GitHub	Claude Code, Codex, OpenCode, Copilot CLI 지원
ralph-loop-agent (Vercel Labs)	GitHub	AI SDK 6 기반, verifyCompletion 콜백
ralph (snarktank)	GitHub	PRD 기반 자율 에이전트 루프
ralph-wiggum (fstandhartinger)	GitHub	스펙 기반 자율 코딩
ralph-orchestrator (mikeyobrien)	GitHub	개선된 오케스트레이션

Anthropic 공식 플러그인 (2025년 12월): bash 루프를 공식화하여 Stop Hook 메커니즘으로 구현. Claude 세션 종료 시 Hook이 인터셉트하여 완료 조건을 확인하고, 미완료 시 동일 프롬프트를 다시 주입.

출처: Ralph Wiggum 공식 사이트 | DEV Community - Ralph Loop Agent

3.2 LangChain DeepAgents

개요: LangGraph 기반의 에이전트 harness로, 즉시 사용 가능한 프로덕션 에이전트를 제공.

핵심 기능:

Claude, OpenAI, Google 등 LangChain 호환 모든 모델 지원
플래닝 도구, 파일시스템 백엔드, 서브에이전트 스포닝 내장
스트리밍, 퍼시스턴스, 체크포인팅이 포함된 프로덕션 레디 런타임

Harness Engineering 성과:

모델 변경 없이 harness 최적화만으로 Terminal Bench 2.0에서 52.8 -> 66.5 (+13.7점) 향상
핵심 원칙: 에이전트를 대신한 컨텍스트 엔지니어링 + 자기 검증 유도

Harness 구성 요소: 시스템 프롬프트, 도구, 훅/미들웨어, 스킬, 서브에이전트 위임, 메모리 시스템 등

출처: LangChain DeepAgents GitHub | LangChain Blog - Improving Deep Agents | LangChain Blog - Frameworks, Runtimes, Harnesses

3.3 The Harness Problem - Hashline 포맷

개요: Can Boluk이 발표한 연구로, 15개 LLM의 코딩 성능을 harness 변경만으로 개선.

세 가지 편집 도구 접근법

접근법	사용처	장점	단점
apply_patch	OpenAI Codex	GPT 모델에 최적화	타 모델에서 50%+ 실패율
str_replace	Claude, Gemini	보편적	공백/들여쓰기 불일치로 실패
Hashline (신규)	저자 제안	정확한 텍스트 재현 불필요	새로운 포맷 학습 필요

성과:

Grok Code Fast 1: 6.7% -> 68.3% (10배 향상)
Grok 4 Fast: 출력 토큰 61% 감소
MiniMax: 성공률 2배 이상 증가
Gemini: 성공률 +8% 향상

패치 포맷 실패율: Grok 4 50.7%, GLM-4.7 46.2% -- 모델 능력이 아닌 harness 호환성 문제

출처: Can Boluk - The Harness Problem

4. 주요 기술 블로그 및 미디어 보도

4.1 Martin Fowler / ThoughtWorks

기사: Harness Engineering (2026년 2월 17일)

저자: Birgitta Bockeler (ThoughtWorks Distinguished Engineer)

핵심 논점:

OpenAI의 harness engineering은 AI 기반 소프트웨어 개발의 핵심 활동에 대한 가치 있는 프레이밍
Harness는 컨텍스트 엔지니어링, 아키텍처 제약, 코드베이스 가비지 컬렉션을 포함
미래에는 일반적인 애플리케이션 토폴로지를 위한 harness 세트가 "새로운 서비스 템플릿"이 될 수 있음

비판적 관점: 기능성 및 동작 검증이 부족하다고 지적. Anthropic의 장기 실행 에이전트 연구도 같은 간극을 발견 -- 에이전트가 적절한 E2E 테스트 없이 기능을 완료 표시.

4.2 Aakash Gupta (Medium)

기사: 2025 Was Agents. 2026 Is Agent Harnesses. (2026년 1월)

핵심 주장: 2026년의 승자는 가장 많은 에이전트 데모를 가진 팀이 아니라, 에이전트를 엔지니어링된 시스템으로 다루는 팀이 될 것이다.

4.3 Evangelos Pappas (DEV Community / Medium)

기사: The Agent Harness Is the Architecture (2026년 2월)

핵심 주장: 모델이 아니라 harness가 병목. 스마트폰 비유 -- CPU 성능이 범용화되면서 가치는 OS와 소프트웨어 스택으로 이동했듯, 모델 능력도 범용화되면서 경쟁 우위는 harness 아키텍처로 이동할 것.

실패 모드 분류 체계:

컨텍스트 고갈 -> 컴팩션 계층 구조 필요
Lost-in-middle -> 컨텍스트 끝에 투두리스트 낭독 필요
도구 오라우팅 -> 더 적은 도구 또는 logit 마스킹 필요
상태 손상 -> 영구 진행 추적 필요
타임아웃 캐스케이드 -> 단계 예산 및 서킷 브레이커 필요

4.4 Ignorance.ai

기사: The Emerging Harness Engineering Playbook

4대 Harness 실천:

Architecture as Guardrails: 엄격한 아키텍처 제약의 기계적 강제
Tools as Foundation and Feedback: CLI/MCP를 통한 내부 도구 노출
Documentation as Living System: AGENTS.md 컨벤션 (에이전트 실패 시마다 업데이트)
Structured Progress Tracking: JSON 기반 기능 추적 (마크다운보다 에이전트가 잘못 편집할 확률 낮음)

4.5 InfoQ

기사: OpenAI Introduces Harness Engineering (2026년 2월)

OpenAI의 harness engineering을 상세히 보도하며, Codex 에이전트가 대규모 소프트웨어 개발을 구동하는 방식을 분석.

4.6 Philipp Schmid

기사: The Importance of Agent Harness in 2026

에이전트 harness의 중요성을 2026년 기술 트렌드의 핵심으로 다룸.

4.7 SmartScope

기사: What Is Harness Engineering: Defining the 'Outside' of Context Engineering

Harness engineering과 context engineering의 경계를 명확히 정의. "Context engineering은 에이전트가 무엇을 봐야 하는지, harness engineering은 시스템이 무엇을 방지하고 측정하고 교정해야 하는지에 관한 것."

4.8 Tech with Darin

기사: Harness Engineering: The Moat Isn't Code Anymore. It's Control.

Harness engineering이 새로운 경쟁 우위(moat)라는 관점. 코드 생성 자체는 범용화되지만, 코드의 일관성을 유지하는 통제 체계가 차별화 요소.

5. 커뮤니티 반응 및 비판적 시각

5.1 Hacker News 주요 토론

주요 토론 스레드:

주요 의견 흐름:

"AI"를 LLM 자체가 아닌 LLM과 harness를 결합한 전체 사이버네틱 시스템으로 봐야 한다는 관점이 우세
Harness 개선이 모델 업그레이드보다 실질적으로 더 큰 효과를 낼 수 있다는 의견

5.2 비판적 시각

Andrew Maynard - "What We Miss When We Talk About AI Harnesses"

3가지 문제적 전제에 대한 비판:

통제의 깨끗한 분리 가정: Harness 은유는 인간이 지시하고 AI가 실행한다고 가정하지만, 프론티어 AI 시스템이 진정한 판단력을 발휘할 수 있음을 간과
변환 없는 능력 가정: 사용자가 AI 배포 후 변하지 않는다고 가정하지만, "변환은 능력에 내재적이지 부작용이 아니다"
도구적 프레이밍: AI를 "도구"로만 취급하면 첨단 기술이 인간의 인지와 목적 형성을 능동적으로 재구성하는 방식을 가림

출처: Future of Being Human

Mass Programming Resistance

"Harness engineering"이라는 용어 자체가 개발자의 역할을 "코드 작성자"에서 "에이전트 감독자"로 격하시키는 프레이밍이라는 비판.

출처: MPR - Harness Engineering

Harness Engineering vs Context Engineering 논쟁

"Harness Engineering은 Context Engineering이 아니다"라는 명시적 반론. 두 개념의 혼동이 실무에서 혼란을 야기한다는 주장.

출처: mtrajan Substack

검증 부재 문제

Birgitta Bockeler(ThoughtWorks)가 지적한 핵심 비판: OpenAI의 harness engineering 글에는 기능성과 동작의 검증이 부족하다. 에이전트가 적절한 E2E 테스트 없이 기능을 완료 표시하는 문제는 Anthropic의 연구에서도 확인.

벤더 잠금(Vendor Lock-in) 우려

Can Boluk의 연구에서 드러난 문제: Anthropic이 OpenCode를 차단하고, Google이 연구자의 Gemini 계정을 비활성화하는 등 오픈소스 harness 최적화를 방해하는 벤더 행동이 전체 생태계 발전을 저해.

6. 실패 사례 및 교훈

6.1 일반적 실패 패턴

실패 유형	상세	교훈
과도한 도구 제공	Vercel이 15개 전문 도구를 제공했더니 정확도 80%로 하락	2개 범용 도구로 축소 후 100% 정확도, 37% 토큰 절감, 3.5배 속도 향상
한 번에 너무 많은 작업 시도	Opus 4.5도 고수준 프롬프트만으로는 프로덕션 품질 앱 구축 실패	한 번에 모든 것을 시도하는 대신 점진적 접근 필요
엔트로피 누적	에이전트 생성 코드가 인간 코드와 다른 방식으로 크러프트 축적	주기적 "가비지 컬렉션" 에이전트 필요
브라운필드 적용 실패	성공 사례 대부분이 그린필드 프로젝트; 레거시 코드베이스 적용은 미해결	일관된 구조가 없는 기존 코드에서는 harness 효과 제한적

6.2 반복적 재작성의 현실

Manus: 6개월간 5회 재작성 후 프로덕션 수준 달성
LangChain: 1년간 4가지 아키텍처 변경
교훈: 프로덕션 수준의 harness 구축에는 수개월~수년이 소요되며, 조기 투자가 장기적 우위를 형성

6.3 비용 경제학의 함정

Manus의 약 100:1 입력-출력 비율은 컨텍스트 관리가 주요 비용 동인임을 의미
순진한 접근: 작업당 $0.60 vs 최적화된 harness: 작업당 $0.06 (10배 절감)
비용 최적화 없이는 대규모 에이전트 운영이 경제적으로 불가능

7. 2026년 트렌드 전망

7.1 핵심 트렌드

"2025는 에이전트, 2026은 에이전트 Harness": 에이전트 작동 가능성 증명 -> 안정적 작동 보장으로 초점 이동
Harness가 새로운 서비스 템플릿: 일반적인 애플리케이션 토폴로지를 위한 harness 세트가 마치 현재의 서비스 템플릿처럼 표준화될 가능성
모델 범용화, Harness 차별화: 모델 능력은 범용화되지만 harness 아키텍처가 경쟁 우위를 결정
점진적 삭제 가능한 Harness: 모델이 발전할수록 harness 복잡성이 줄어야 함. 모델 업그레이드마다 인프라 복잡성이 증가하면 과잉 엔지니어링

7.2 미해결 과제

Attended vs Unattended 에이전트: 현재 표준은 3-10개 동시 세션 관리 (Attended). CI 통합 무감독 실행 (Unattended)은 성숙한 harness 인프라 필요
멀티 에이전트 vs 단일 에이전트: 최적의 아키텍처에 대한 합의 미형성
브라운필드 적용: 레거시 코드베이스에 harness 적용하는 방법론 부재
거버넌스와 신뢰: Google Cloud의 2025년 교훈 -- "에이전트 배포는 소프트웨어 문제라기보다 거버넌스 도전"
칩 부족: Google DeepMind CEO에 따르면 메모리 칩 부족이 AI 에이전트 배포 및 연구를 물리적으로 제약

8. 출처 종합

원문 / 공식 발표

기술 블로그 / 분석

비판적 시각

오픈소스 프로젝트

기업 사례

커뮤니티 토론

산업 보고서

'AI > AI 동향' 카테고리의 다른 글

Claude Code, 100만 토큰의 시대를 열다 (1)	2026.03.14
하네스 엔지니어링 (0)	2026.03.02
하네스 엔지니어링(Harness Engineering) 자료 (0)	2026.03.02