하네스 엔지니어링

1. 하네스 엔지니어링이란

핵심 개념

하네스 엔지니어링(Harness Engineering)은 AI 에이전트와 워크플로우에 대한 **행동 제약(behavioral constraints)**과 **개선 순환(improvement cycles)**을 포함하는 시스템 설계를 의미한다. 에이전트의 "바깥쪽 시스템(outside system)"을 설계하는 것으로, 에이전트 내부(컨텍스트, 프롬프트)가 아닌 외부 환경을 다룬다.

핵심 비유: "The model is the CPU, the harness is the OS." — Evangelos Pappas

용어 등장 배경

시점	이벤트
2026년 2월	OpenAI Codex 팀이 "Harness Engineering: Leveraging Codex in an Agent-First World" 발표로 공식화
2026년 2월	Mitchell Hashimoto가 "My AI Adoption Journey"에서 독립 단계("Engineer the Harness")로 분리
2026년 2월 17일	Martin Fowler 사이트에서 Birgitta Böckeler가 분석 게재
2026년 1월	Aakash Gupta가 "2025 Was Agents. 2026 Is Agent Harnesses." 발표

하네스의 5대 구성요소

안전장치(Guardrails): 도구 접근 제어, 샌드박스 실행, 위험 작업 승인 게이트
명세와 작업 분해(Plan & Spec): 명세 템플릿, 작은 단위 PR/체인지 작업
검증 루프(Testing/CI/Review): 자동 테스트, 린터, 코드리뷰, 회귀 세트 유지
품질 평가 하네스(LLM Eval Harness): 평가 프레임워크, 커스텀 메트릭
관측 가능성(Observability): 구조화된 로그, 실패 원인 분류, 추적 대시보드

2. 최신 동향 (2025-2026)

2.1 대기업 프로덕션 사례

OpenAI — Zero Manual Code

5개월, 100만 줄 이상 프로덕션 코드, 0줄 수동 코드
3명 → 7명으로 확대 시 처리량 증가
엔지니어 1인당 하루 3.5개 PR 처리
AGENTS.md(목차 역할, ~100줄), 레이어드 의존성 아키텍처, GC 에이전트

Stripe — Minions

매주 1,000개 이상 PR 머지
MCP 서버 통해 400개 이상 내부 도구 접근
6계층 하네스: 격리 VM → 로컬 린터 → 선택적 CI → 실용적 상한 → 하이브리드 워크플로우 → 인간 리뷰

Meta — Manus 인수 ($2B, 2025년 12월)

147조 토큰 처리, 8,000만 가상 컴퓨터 생성
태스크 완료 시간 15분 → 4분 미만 (4배 단축)
KV 캐시 최적화로 10배 비용 절감

2.2 시장 수용 현황

출처	수치	의미
Gartner	2026년 말 기업 앱 40%에 AI 에이전트	현재 <5%에서 급성장
Gartner	멀티에이전트 문의 1,445% 급증	Q1 2024→Q2 2025
Deloitte	프로덕션 에이전트 사용 조직 11%에 불과	관심과 실배포의 간극
LangChain	Terminal Bench 52.8→66.5 (+13.7점)	하네스 최적화만으로 달성

2.3 핵심 화두

"2025 was agents. 2026 is agent harnesses." — Aakash Gupta, 2026년 1월

3. 개념적 관계

3.1 포함 관계

Harness Engineering >= Context Engineering >= Prompt Engineering

차원	Prompt Engineering	Context Engineening	Harness Engineering
관심 범위	단일 프롬프트	단일 추론의 모든 입력	시스템 전체
시간 축	정적	동적(런타임)	지속적(세션 간)
핵심 질문	어떻게 말할 것인가?	무엇을 보여줄 것인가?	무엇을 방지/측정/수정?
등장 시기	2022-2023	2024-2025	2025-2026

3.2 Relocating Rigor (엄격함의 재배치)

Chad Fowler 개념을 Birgitta Böckeler(ThoughtWorks)가 하네스에 연결:

"엄격함(rigor)이 코드 레벨에서 하네스 환경을 설계하는 레벨로 이동했을 뿐이다."

AI가 코드를 짠다고 규율이 사라지는 것이 아니다. 규율이 적용되는 위치가 코드 작성에서 하네스 설계로 이동했을 뿐이다.

"더 좋은 모델이 유지보수성 문제를 해결해줄 것이라 기대하기보다, 엄격함이 구체적으로 어디에 적용되어야 하는지에 대한 구체적 아이디어를 듣는 것이 가치 있다." — Birgitta Böckeler

3.3 프레임워크 vs 런타임 vs 하네스

유형	예시	역할
Agent Framework	LangChain, CrewAI	에이전트를 "구축(build)"
Agent Runtime	LangGraph, Temporal	에이전트를 "실행(run)"
Agent Harness	DeepAgents, Claude Code	에이전트를 "신뢰성 있게 운영(operate)"

4. 에이전트 코딩 도구 하네스 기능 비교

하네스 구성요소	Claude Code	OpenAI Codex	Cursor	GitHub Copilot	Windsurf
가이드라인 파일	CLAUDE.md	AGENTS.md	.cursor/rules/*.md	copilot-instructions.md, AGENTS.md	.windsurf/rules/
계층적 설정	전역→프로젝트→하위	전역→Git루트→현재	Team→Project→User	Organization→Repository→Path	Global→Workspace
권한 제어	5단계 모드 + Allow/Deny	샌드박스	에이전트 승인	콘텐츠 제외	모드별
Hooks	PreToolUse, PostToolUse, Stop	CI/린터 통합	Hook 지원	CLI Hooks	제한적
메모리	Auto Memory + MEMORY.md	docs/ 지식 기반	제한적	Copilot Spaces	Cascade Memories
에이전트 모드	서브에이전트 + Agent Teams	Ralph Wiggum Loop	Background Agent	Coding Agent(비동기)	Cascade Turbo
MCP 지원	네이티브, 동적 로딩	간접적	네이티브	VS Code 연동	지원
하네스 성숙도	매우 높음	매우 높음	높음	높음	중간

도구별 핵심 철학

Claude Code: CLAUDE.md는 "제안", Hooks는 "규칙". 계층적 지식 + Agent Teams 실험적 지원.

OpenAI Codex: AGENTS.md는 목차(~100줄). Ralph Wiggum Loop: 완료 조건 충족까지 자동 반복. Golden Principles GC: 코드 품질 자동 모니터링.

Cursor: 4가지 규칙 적용 모드(Always/Intelligent/Glob/Manual). Background Agent로 비동기 실행.

GitHub Copilot: AGENTS.md 2025년 8월 지원. Organization 수준 정책. PR 기반 비동기 작업.

5. 업계 핵심 인사이트

5.1 Mitchell Hashimoto의 6단계 AI 도입 여정

단계	이름	핵심 행동
1	Move Beyond Chat AI	웹 UI 마찰 제거, 에디터/터미널 통합
2	Use Agents	파일 읽기/실행/HTTP 가능한 에이전트
3	Reproduce Your Own Work	수동 먼저 → 에이전트로 동일 결과 재현
4	Engineer the Harness	AGENTS.md + 커스텀 도구로 실패 방지
5	Outsource Slam Dunks	높은 확신의 루틴 작업 위임
6	Leverage Dead Time	매일 마지막 30분을 에이전트 작업에

핵심 인용문 (원문):

"Stop fighting the chatbot. Start engineering the harness."

"I literally did the work twice. I'd do the work manually, and then I'd fight an agent to produce identical results."

"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again."

"Delegating tasks means losing skill development in those areas."

AGENTS.md의 진화: 각 줄이 과거 에이전트 실패를 대표하는 실패 기반 점진적 지식 베이스(failure-driven incremental knowledge base).

5.2 개발자 역할 변화

이전 역할	현재(전환 중) 역할
코드를 직접 작성	에이전트 작업 환경 설계
프롬프트 최적화	시스템적 피드백 루프 구축
버그 수동 수정	GC 에이전트로 자동 엔트로피 관리

"AI 시대의 개발자는 '코드를 많이 치는 사람'에서 '에이전트가 잘 일하도록 레일·규칙·검증·운영체계를 설계하는 사람(하네스 엔지니어)'으로 무게중심이 이동 중이다." — OpenAI

5.3 하네스의 정량적 성과 증거

사례	변화	방법
LangChain Terminal Bench	52.8 → 66.5 (+13.7점)	모델 변경 없이 하네스 최적화만
Grok Code Fast 1 (Can Boluk)	6.7% → 68.3% (10배)	편집 도구 포맷 변경
Vercel 도구 최적화	80% → 100% 정확도, 37% 토큰 절감	15개 → 2개 도구로 축소
Manus 비용 최적화	$3 → $0.30/MTok (10배 절감)	KV 캐시 최적화

5.4 비판적 시각

Birgitta Böckeler (ThoughtWorks): OpenAI 하네스에 기능성/행동 검증(verification) 부재 지적
Andrew Maynard: 하네스 은유가 AI를 단순 "도구"로 취급하여 능동적 인지 재구성 측면을 가린다는 비판
검증 부재 문제: 에이전트가 적절한 E2E 테스트 없이 기능을 완료 표시하는 문제

6. 커리큘럼 설계 시사점

6.1 교육 현황과 기회

전문 하네스 엔지니어링 교육 과정 거의 없음 (2026년 초 개념화됨)
기존 교육의 한계: LangChain 프레임워크 수준 또는 Claude Code 기능 안내 수준에 그침
기회: 선도적 포지셔닝 가능 — 글로벌 선도 교육 프로그램이 될 수 있음

6.2 대상별 접근 방법

학습자 유형	필요한 것
개발자	CLAUDE.md/AGENTS.md 작성, Hooks 구현, 검증 루프 설계 실습
테크 리더	비즈니스 임팩트 데이터, 팀 도입 로드맵
비개발자	개념 이해, 역할 변화 인식

6.3 효과적인 교육 설계 원칙

실패 → 이해 → 성공 사이클:

실패 체험: AI 없이 복잡한 작업 시도
개념 학습: 하네스 원리 이해
성공 체험: AI + 하네스로 생산성 향상 체험

스캐폴딩 (I Do → We Do → You Do):

시연(20%) → 가이드 실습(30%) → 자율 적용(50%)

6.4 권장 모듈 구성

M1: 하네스 엔지니어링 개념과 필요성
M2: 하네스의 5대 구성요소
M3: 실전 패턴과 안티패턴 (OpenAI/Stripe/Manus 사례)
M4: Claude Code로 하네스 구축하기

6.5 핵심 실습 요소

CLAUDE.md/AGENTS.md 작성: 실패 기반 점진적 규칙 구축
Hooks 구현: PreToolUse/PostToolUse로 행동 제어
검증 루프 설계: 자동화된 품질 게이트
Ralph Wiggum Loop 실습: bash 루프 기반 자율 에이전트

'AI > AI 동향' 카테고리의 다른 글

Harness Engineering 사례 (0)	2026.03.02
하네스 엔지니어링(Harness Engineering) 자료 (0)	2026.03.02
Claude Code to Figma (1)	2026.02.18

RevFactory 프로젝트 - 세상을 더 이롭게 바꾸는 작업

하네스 엔지니어링

핵심 개념

용어 등장 배경

하네스의 5대 구성요소

2. 최신 동향 (2025-2026)

2.1 대기업 프로덕션 사례

OpenAI — Zero Manual Code

Stripe — Minions

Meta — Manus 인수 ($2B, 2025년 12월)

2.2 시장 수용 현황

2.3 핵심 화두

3. 개념적 관계

3.1 포함 관계

3.2 Relocating Rigor (엄격함의 재배치)

3.3 프레임워크 vs 런타임 vs 하네스

4. 에이전트 코딩 도구 하네스 기능 비교

도구별 핵심 철학

5. 업계 핵심 인사이트

5.1 Mitchell Hashimoto의 6단계 AI 도입 여정

5.2 개발자 역할 변화

5.3 하네스의 정량적 성과 증거

5.4 비판적 시각

6. 커리큘럼 설계 시사점

6.1 교육 현황과 기회

6.2 대상별 접근 방법

6.3 효과적인 교육 설계 원칙

6.4 권장 모듈 구성

6.5 핵심 실습 요소

'AI > AI 동향' 카테고리의 다른 글

티스토리툴바

하네스 엔지니어링

핵심 개념

용어 등장 배경

하네스의 5대 구성요소

2. 최신 동향 (2025-2026)

2.1 대기업 프로덕션 사례

OpenAI — Zero Manual Code

Stripe — Minions

Meta — Manus 인수 ($2B, 2025년 12월)

2.2 시장 수용 현황

2.3 핵심 화두

3. 개념적 관계

3.1 포함 관계

3.2 Relocating Rigor (엄격함의 재배치)

3.3 프레임워크 vs 런타임 vs 하네스

4. 에이전트 코딩 도구 하네스 기능 비교

도구별 핵심 철학

5. 업계 핵심 인사이트

5.1 Mitchell Hashimoto의 6단계 AI 도입 여정

5.2 개발자 역할 변화

5.3 하네스의 정량적 성과 증거

5.4 비판적 시각

6. 커리큘럼 설계 시사점

6.1 교육 현황과 기회

6.2 대상별 접근 방법

6.3 효과적인 교육 설계 원칙

6.4 권장 모듈 구성

6.5 핵심 실습 요소

'AI > AI 동향' 카테고리의 다른 글

관련글

티스토리툴바