본문 바로가기
AI/AI 동향

하네스 엔지니어링

by RevFactory 2026. 3. 2.
반응형

1. 하네스 엔지니어링이란

 

핵심 개념

하네스 엔지니어링(Harness Engineering)은 AI 에이전트와 워크플로우에 대한 **행동 제약(behavioral constraints)**과 **개선 순환(improvement cycles)**을 포함하는 시스템 설계를 의미한다. 에이전트의 "바깥쪽 시스템(outside system)"을 설계하는 것으로, 에이전트 내부(컨텍스트, 프롬프트)가 아닌 외부 환경을 다룬다.

핵심 비유: "The model is the CPU, the harness is the OS." — Evangelos Pappas

용어 등장 배경

시점 이벤트
2026년 2월 OpenAI Codex 팀이 "Harness Engineering: Leveraging Codex in an Agent-First World" 발표로 공식화
2026년 2월 Mitchell Hashimoto가 "My AI Adoption Journey"에서 독립 단계("Engineer the Harness")로 분리
2026년 2월 17일 Martin Fowler 사이트에서 Birgitta Böckeler가 분석 게재
2026년 1월 Aakash Gupta가 "2025 Was Agents. 2026 Is Agent Harnesses." 발표

하네스의 5대 구성요소

  1. 안전장치(Guardrails): 도구 접근 제어, 샌드박스 실행, 위험 작업 승인 게이트
  2. 명세와 작업 분해(Plan & Spec): 명세 템플릿, 작은 단위 PR/체인지 작업
  3. 검증 루프(Testing/CI/Review): 자동 테스트, 린터, 코드리뷰, 회귀 세트 유지
  4. 품질 평가 하네스(LLM Eval Harness): 평가 프레임워크, 커스텀 메트릭
  5. 관측 가능성(Observability): 구조화된 로그, 실패 원인 분류, 추적 대시보드

2. 최신 동향 (2025-2026)

2.1 대기업 프로덕션 사례

OpenAI — Zero Manual Code

  • 5개월, 100만 줄 이상 프로덕션 코드, 0줄 수동 코드
  • 3명 → 7명으로 확대 시 처리량 증가
  • 엔지니어 1인당 하루 3.5개 PR 처리
  • AGENTS.md(목차 역할, ~100줄), 레이어드 의존성 아키텍처, GC 에이전트

Stripe — Minions

  • 매주 1,000개 이상 PR 머지
  • MCP 서버 통해 400개 이상 내부 도구 접근
  • 6계층 하네스: 격리 VM → 로컬 린터 → 선택적 CI → 실용적 상한 → 하이브리드 워크플로우 → 인간 리뷰

Meta — Manus 인수 ($2B, 2025년 12월)

  • 147조 토큰 처리, 8,000만 가상 컴퓨터 생성
  • 태스크 완료 시간 15분 → 4분 미만 (4배 단축)
  • KV 캐시 최적화로 10배 비용 절감

2.2 시장 수용 현황

출처 수치 의미
Gartner 2026년 말 기업 앱 40%에 AI 에이전트 현재 <5%에서 급성장
Gartner 멀티에이전트 문의 1,445% 급증 Q1 2024→Q2 2025
Deloitte 프로덕션 에이전트 사용 조직 11%에 불과 관심과 실배포의 간극
LangChain Terminal Bench 52.8→66.5 (+13.7점) 하네스 최적화만으로 달성

2.3 핵심 화두

"2025 was agents. 2026 is agent harnesses." — Aakash Gupta, 2026년 1월


3. 개념적 관계

3.1 포함 관계

Harness Engineering >= Context Engineering >= Prompt Engineering
 

 

차원 Prompt Engineering Context Engineening Harness Engineering
관심 범위 단일 프롬프트 단일 추론의 모든 입력 시스템 전체
시간 축 정적 동적(런타임) 지속적(세션 간)
핵심 질문 어떻게 말할 것인가? 무엇을 보여줄 것인가? 무엇을 방지/측정/수정?
등장 시기 2022-2023 2024-2025 2025-2026

3.2 Relocating Rigor (엄격함의 재배치)

Chad Fowler 개념을 Birgitta Böckeler(ThoughtWorks)가 하네스에 연결:

"엄격함(rigor)이 코드 레벨에서 하네스 환경을 설계하는 레벨로 이동했을 뿐이다."

AI가 코드를 짠다고 규율이 사라지는 것이 아니다. 규율이 적용되는 위치가 코드 작성에서 하네스 설계로 이동했을 뿐이다.

"더 좋은 모델이 유지보수성 문제를 해결해줄 것이라 기대하기보다, 엄격함이 구체적으로 어디에 적용되어야 하는지에 대한 구체적 아이디어를 듣는 것이 가치 있다." — Birgitta Böckeler

3.3 프레임워크 vs 런타임 vs 하네스

유형 예시 역할
Agent Framework LangChain, CrewAI 에이전트를 "구축(build)"
Agent Runtime LangGraph, Temporal 에이전트를 "실행(run)"
Agent Harness DeepAgents, Claude Code 에이전트를 "신뢰성 있게 운영(operate)"

4. 에이전트 코딩 도구 하네스 기능 비교

하네스 구성요소 Claude Code OpenAI Codex Cursor GitHub Copilot Windsurf
가이드라인 파일 CLAUDE.md AGENTS.md .cursor/rules/*.md copilot-instructions.md, AGENTS.md .windsurf/rules/
계층적 설정 전역→프로젝트→하위 전역→Git루트→현재 Team→Project→User Organization→Repository→Path Global→Workspace
권한 제어 5단계 모드 + Allow/Deny 샌드박스 에이전트 승인 콘텐츠 제외 모드별
Hooks PreToolUse, PostToolUse, Stop CI/린터 통합 Hook 지원 CLI Hooks 제한적
메모리 Auto Memory + MEMORY.md docs/ 지식 기반 제한적 Copilot Spaces Cascade Memories
에이전트 모드 서브에이전트 + Agent Teams Ralph Wiggum Loop Background Agent Coding Agent(비동기) Cascade Turbo
MCP 지원 네이티브, 동적 로딩 간접적 네이티브 VS Code 연동 지원
하네스 성숙도 매우 높음 매우 높음 높음 높음 중간

도구별 핵심 철학

Claude Code: CLAUDE.md는 "제안", Hooks는 "규칙". 계층적 지식 + Agent Teams 실험적 지원.

OpenAI Codex: AGENTS.md는 목차(~100줄). Ralph Wiggum Loop: 완료 조건 충족까지 자동 반복. Golden Principles GC: 코드 품질 자동 모니터링.

Cursor: 4가지 규칙 적용 모드(Always/Intelligent/Glob/Manual). Background Agent로 비동기 실행.

GitHub Copilot: AGENTS.md 2025년 8월 지원. Organization 수준 정책. PR 기반 비동기 작업.


5. 업계 핵심 인사이트

5.1 Mitchell Hashimoto의 6단계 AI 도입 여정

단계 이름 핵심 행동
1 Move Beyond Chat AI 웹 UI 마찰 제거, 에디터/터미널 통합
2 Use Agents 파일 읽기/실행/HTTP 가능한 에이전트
3 Reproduce Your Own Work 수동 먼저 → 에이전트로 동일 결과 재현
4 Engineer the Harness AGENTS.md + 커스텀 도구로 실패 방지
5 Outsource Slam Dunks 높은 확신의 루틴 작업 위임
6 Leverage Dead Time 매일 마지막 30분을 에이전트 작업에

핵심 인용문 (원문):

"Stop fighting the chatbot. Start engineering the harness."

"I literally did the work twice. I'd do the work manually, and then I'd fight an agent to produce identical results."

"Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again."

"Delegating tasks means losing skill development in those areas."

AGENTS.md의 진화: 각 줄이 과거 에이전트 실패를 대표하는 실패 기반 점진적 지식 베이스(failure-driven incremental knowledge base).

5.2 개발자 역할 변화

이전 역할 현재(전환 중) 역할
코드를 직접 작성 에이전트 작업 환경 설계
프롬프트 최적화 시스템적 피드백 루프 구축
버그 수동 수정 GC 에이전트로 자동 엔트로피 관리

"AI 시대의 개발자는 '코드를 많이 치는 사람'에서 '에이전트가 잘 일하도록 레일·규칙·검증·운영체계를 설계하는 사람(하네스 엔지니어)'으로 무게중심이 이동 중이다." — OpenAI

5.3 하네스의 정량적 성과 증거

사례 변화 방법
LangChain Terminal Bench 52.8 → 66.5 (+13.7점) 모델 변경 없이 하네스 최적화만
Grok Code Fast 1 (Can Boluk) 6.7% → 68.3% (10배) 편집 도구 포맷 변경
Vercel 도구 최적화 80% → 100% 정확도, 37% 토큰 절감 15개 → 2개 도구로 축소
Manus 비용 최적화 $3 → $0.30/MTok (10배 절감) KV 캐시 최적화

5.4 비판적 시각

  • Birgitta Böckeler (ThoughtWorks): OpenAI 하네스에 기능성/행동 검증(verification) 부재 지적
  • Andrew Maynard: 하네스 은유가 AI를 단순 "도구"로 취급하여 능동적 인지 재구성 측면을 가린다는 비판
  • 검증 부재 문제: 에이전트가 적절한 E2E 테스트 없이 기능을 완료 표시하는 문제

6. 커리큘럼 설계 시사점

6.1 교육 현황과 기회

  • 전문 하네스 엔지니어링 교육 과정 거의 없음 (2026년 초 개념화됨)
  • 기존 교육의 한계: LangChain 프레임워크 수준 또는 Claude Code 기능 안내 수준에 그침
  • 기회: 선도적 포지셔닝 가능 — 글로벌 선도 교육 프로그램이 될 수 있음

6.2 대상별 접근 방법

학습자 유형 필요한 것
개발자 CLAUDE.md/AGENTS.md 작성, Hooks 구현, 검증 루프 설계 실습
테크 리더 비즈니스 임팩트 데이터, 팀 도입 로드맵
비개발자 개념 이해, 역할 변화 인식

6.3 효과적인 교육 설계 원칙

실패 → 이해 → 성공 사이클:

  1. 실패 체험: AI 없이 복잡한 작업 시도
  2. 개념 학습: 하네스 원리 이해
  3. 성공 체험: AI + 하네스로 생산성 향상 체험

스캐폴딩 (I Do → We Do → You Do):

  • 시연(20%) → 가이드 실습(30%) → 자율 적용(50%)

6.4 권장 모듈 구성

  • M1: 하네스 엔지니어링 개념과 필요성
  • M2: 하네스의 5대 구성요소
  • M3: 실전 패턴과 안티패턴 (OpenAI/Stripe/Manus 사례)
  • M4: Claude Code로 하네스 구축하기

6.5 핵심 실습 요소

  • CLAUDE.md/AGENTS.md 작성: 실패 기반 점진적 규칙 구축
  • Hooks 구현: PreToolUse/PostToolUse로 행동 제어
  • 검증 루프 설계: 자동화된 품질 게이트
  • Ralph Wiggum Loop 실습: bash 루프 기반 자율 에이전트



반응형

'AI > AI 동향' 카테고리의 다른 글

Harness Engineering 사례  (0) 2026.03.02
하네스 엔지니어링(Harness Engineering) 자료  (0) 2026.03.02
Claude Code to Figma  (0) 2026.02.18